Trong phần này các kết quả thu được từ thử nghiệm với biểu diễn hàm thuộc
dang đơn thể hạt. Mỗi mục (thuộc tính) được chia làm 5 miền mờ có các nhãn tương
ứng trong ĐSGT là {0, 𝑐−, 𝑊, 𝑐+, 1}. Phương pháp sử dụng ĐSGT được so sánh với
3 phương pháp khác: Phương pháp do Herrera và cộng sự [53], phương pháp của
Hong và cộng sự [42] và phương pháp phân chia đều miền giá trị của thuộc tính bằng
các MF đồng dạng (là tam giác cân, giống nhau về mặt hình học và chia đều miền
xác định của mục)
109 trang |
Chia sẻ: tueminh09 | Lượt xem: 579 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ình CHC: Mô hình giải thuật di truyền sẽ được sử dụng trong luận án để
tìm các tham số mờ của ĐSGT.
- Mã hóa tập MF: luận án đề xuất cách mã hóa các tham số mờ của ĐSGT được
sử dụng trong GA để tìm kiếm các tham số mờ của ĐSGT. Từ các tham số mờ này
có thể dễ dàng xây dựng được các MF như trình bày trong mục 3.2.
- Hàm mục tiêu (fitness function).
3.3.1. Mô hình giải thuật di truyền CHC
Luận án sử dụng giải thuật di truyền theo mô hình CHC [10] để tìm kiếm các
tham số tối ưu cho các ĐSGT. Mô hình giải thuật di truyền CHC tiếp cận theo hướng
sử dụng phép toán chọn lọc tự nhiên. Trong mô hình CHC, từ N bố mẹ và các nhiễm
sắc thể con tương ứng sẽ tạo ra N nhiễm sắc thể tốt nhất cho quần thể mới. Mô hình
CHC sử dụng phương pháp tránh lai tạo giữa các nhiễm sắc thể gần nhau và cơ chế
khởi tạo lại quần thể. Trong lược đồ mã hoá, mỗi gene sẽ được mã hoá thành Gray
Code với số bít cố định cho mỗi gene, số bít này có được dựa vào kinh nghiệm.
Ngưỡng giới hạn để khởi tạo lại quần thể được xác định như sau: L = (#Genes
BITSGENE)/4.0.
Với biến #Genes là số gene trong một nhiễm sắc thể, BITSGENE là số bít
dùng cho mỗi gene. Trong mô hình CHC, trong mỗi lần lặp nếu không tạo ra được cá
thể mới nào trong quần thể thì L sẽ giảm một lần, giá trị của L phụ thuộc vào #Genes
và BITSGENE, mỗi lần L giảm 𝜑% (được xác định bởi người dùng, thường là 10%).
Thuật toán được khởi tạo lại khi L <= 0.
Lược đồ thuật toán theo mô hình giải thuật di truyền CHC như Hình 3.6.
72
Hình 3.6: Mô hình giải thuật di truyền CHC
3.3.2. Mã hóa tập các MF
Để xây dựng các hàm thuộc cho các thuộc tính, trong luận án sử dụng ĐSGT
có cấu trúc 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤) trong đó:
- 𝐺 = {𝐶− = {𝐿𝑜𝑤} ∪ 𝐶+ = {𝐻𝑖𝑔ℎ}}
- 𝐻 = {𝐻− = {𝐿𝑖𝑡𝑡𝑙𝑒} ∪ 𝐻+ = {𝑉𝑒𝑟𝑦}}
Với:
- 𝛼 = 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = 1 − 𝜇(𝑉𝑒𝑟𝑦), 𝛽 = 𝜇(𝑉𝑒𝑟𝑦)
- 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 − 𝑓𝑚(𝐻𝑖𝑔ℎ).
Với cấu trúc ĐSGT trên gồm bộ bốn tham số: 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), 𝜇(𝑉𝑒𝑟𝑦), 𝑓𝑚(𝐶−),
𝑓𝑚(𝐶+). Tham số 𝛼 = 𝜇(𝑉𝑒𝑟𝑦) = 1 − 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), và 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 −
𝑓𝑚(𝐻𝑖𝑔ℎ), vì vậy với mỗi ĐSGT chúng ta chỉ cần tìm hai tham số 𝛼 và 𝑤 thay vì
tìm cả bốn tham số.
Dựa vào các tham số của ĐSGT của các thuộc tính, chúng ta xây dựng các
hàm thuộc theo dạng đơn thể hạt như trình bày mục 3.2.1 hoặc biểu diễn đa thể hạt
như trình bày trong mục 3.2.2.
Chúng ta cần phải cần phải tìm kiếm các tham số mờ của các ĐSGT 𝐴𝑋𝑖 cho
n thuộc tính định lượng, mỗi ĐSGT gồm có hai tham số 𝛼𝑖 , 𝑤𝑖 (i=1,,n). Như vậy
để biểu diễn một nhiệm sắc thể cần một mảng số thực có kích thước 2*n. Cấu trúc
một gene như sau:
Khởi tạo quần
thể và Threshold
Khởi tại lại quần
thể và Threshold
Lại tạo N cá
thể cha mẹ
Threshold <= 0
Đánh giá các cá thể
mới
Lựa chọn N cá thể
tốt nhất
Nếu không có cá
thể mới, giảm giá
trị Threshold
Sai
Đúng
73
(𝛼1, , 𝛼𝑛, 𝑤1, , 𝑤𝑛) (3.1)
Dựa vào kinh nghiệm các tham số mờ của các ĐSGT 𝛼𝑖 và 𝑤𝑖 sẽ nhận giá trị
nằm trong đoạn [0.2, 0.8].
3.3.3. Đánh giá nhiễm sắc thể
Để đánh giá các nhiễm sắc thể, chúng ta sử dụng hàm mục tiêu được định
nghĩa trong [42]. Hàm mục tiêu của một nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:
𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) =
∑ 𝑓𝑢𝑧𝑧y_support(x)𝑥∈𝐿1
𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞)
(3.2)
Với:
- 𝐿1 là tập phổ biến 1-ItemSet sử dụng tập các hàm MF trong 𝐶𝑞.
Chúng ta chỉ tính độ hỗ trợ của các 1-ItemSet để đảm bảo cân bằng giữa thời
gian thực hiện thuật toán và độ thú vị của các luật được tạo ra. Thông thường các mục
xuất hiện trong 1-ItemSet khả năng cao sẽ xuất hiện trong các tập mục k-itemset
(k>1). Vì vậy trong đánh giá chúng ta chỉ tính độ hỗ trợ của các tập mục trong 1-
ItemSet, sẽ nhanh hơn là tính độ hỗ trợ của tất cả các tập mục hoặc đánh giá toàn bộ
các luật kết hợp [83].
- 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥) độ hỗ trợ mờ của 1-ItemSet x được tính toán từ CSDL
giao dịch.
- 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) mức độ phù hợp phù hợp của MF trong 𝐶𝑞.
Mức độ phù hợp của tập các MF trong nhiệm sắc thể 𝐶𝑞 được định nghĩa như
sau:
𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) = ∑[𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) + 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘)]
𝑛
𝑘=1
(3.3)
Với n là số lượng item, 𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ chồng lên nhau của
các MF của item 𝐼𝑘 trong nhiệm sắc thể 𝐶𝑞, và 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ
bao phủ của các MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞.
𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ các MF chồng lên nhau của item 𝐼𝑘 trong
nhiễm sắc thể 𝐶𝑞. Tỷ lệ chồng lên nhau của hai MF: 𝑅𝑖 và 𝑅𝑗 (i<j) được định nghĩa là
lấy chiều dài chồng lên nhau chia cho giá trị nhỏ nhất của right span của 𝑅𝑖 và left
74
span của 𝑅𝑗. Nếu chiều dài chồng lên nhau lớn hơn giá trị nhỏ nhất của hai giá trị
span trên thì hai MF không được tốt, cần phải xem xét lại. Overlap factor của MF đối
với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:
Overlap_factor(𝐶𝑞𝑘)
= ∑ ∑ [𝑚𝑎𝑥 (
𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗)
𝑚𝑖𝑛 (𝑠𝑝𝑎𝑛𝑅𝑅𝑖 , 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 , )
, 1) − 1]
𝑚
𝑗=𝑖+1
𝑚
𝑘=1
(3.4)
Với 𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗) là chiều dài chồng lên nhau của 𝑅𝑖 và 𝑅𝑗, 𝑠𝑝𝑎𝑛𝑅𝑅𝑖 là
right span của 𝑅𝑖, 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 là left span của 𝑅𝑗 và m là số hàm thuộc MF đối với item
𝐼𝑘.
𝐶𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ bao phủ của các MF đối với item 𝐼𝑘 trong
nhiễm sắc thể 𝐶𝑞. Tỷ lệ bao phủ của MF đối với item item 𝐼𝑘 được định nghĩa là độ
bao phủ của hàm chia cho giá trị lớn nhất của item trong giao dịch. Coverage_factor
của MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:
Coverage_factor(𝐶𝑞𝑘) =
1
𝑅𝑎𝑛𝑔(𝑅1, , 𝑅𝑚)
𝑚𝑎𝑥(𝐼𝑘)
(3.5)
Với 𝑅𝑎𝑛𝑔(𝑅1, , 𝑅𝑚) là phạm vi bao phủ của MF và 𝑚𝑎𝑥(𝐼𝑘) giá trị lớn nhất
của 𝐼𝑘 trong giao dịch.
Hình 3.7: Tập các MF cho mục Ij
Với 𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, ta có thể loại hoặc hạn chế trường hợp (a) của Hình
3.8, khi các hàm thuộc chồng nhau quá nhiều, ít mang tính phân biệt. Với
𝑐𝑜𝑣𝑒𝑟𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, có thể hạn chế trường hợp như (b) trên Hình 3.8, khi tồn tại
nhiều khoảng trống trên miền xác định, không rơi vào tập mờ nào (độ thuộc lớn hơn
75
0). Ngoài ra, với hi vọng thu được tập các tập mờ được phân chia tốt, 𝑢𝑠𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟
là số đo tổng độ hỗ trợ của các tập phổ biến 1 thuộc tính (large 1-ItemSet) được sử
dụng. Với tổng độ hỗ trợ cao, hi vọng là ta sẽ nhận được nhiều luật kết hợp, tuy không
chắc như xem xét tất cả các tập phổ biến nhưng bù lại, thời gian xử lý sẽ ít hơn vì chỉ
xét các tập phổ biến 1-ItemSet.
Hình 3.8: Hai tập hàm thuộc phân bố không tốt
Gần đây, người ta còn sử dụng khái niệm phân hoạch mờ mạnh (strong fuzzy
partition) để xây dựng tập MF [15]. Khái niệm này được định nghĩa như sau: tập các
MF tạo nên một phân hoạch mờ mạnh nếu chúng phủ kín miền giá trị thuộc tính và
tại mỗi điểm bất kỳ trên miền xác định, tổng độ thuộc của điểm này đến tất cả các
MF trong phân hoạch đạt giá trị 1. Phân hoạch mờ mạnh cũng tạo ra các MF phân bố
tương đối tốt.
Với các độ đo như vậy, có thể sử dụng giải thuật di truyền để nhận được các
tập MF tối ưu (thường là xấp xỉ), có tính đến sự cân bằng giữa mức độ tốt của hệ
thống và thời gian tính toán.
3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp
Trong phần này luận án đề xuất thuật toán để tìm kiếm phân hoạch mờ tối ưu
theo hướng sử dụng ĐSGT thay cho cách tiếp cận sử dụng lý thuyết tập mờ của các
tác giả khác [28, 69] và khai phá luật kết hợp mờ.
Thuật toán gồm hai pha:
Pha 1: Tìm kiếm phân hoạch mờ tối ưu dựa vào CSDL giao dịch đầu vào.
Pha 2: Sử dụng thuật toán khai phá luật kết hợp mờ với các hàm thuộc có được
trong Pha 1.
76
Nội dung thuật toán:
Đầu vào: T giao dịch số, tập gồm n mục (thuộc tính), mỗi mục gồm m hạng
từ ngôn ngữ, độ hỗ trợ min_𝑠𝑢𝑝𝑝, và độ tin cậy min_𝑐𝑜𝑛𝑓 và kích thước quần thể N.
Đầu ra: Tập các luật kết hợp mờ và tập hàm thuộc MF.
Nội dung thuật toán:
Pha 1: Tìm kiếm phân hoạch mờ tối ưu từ CSDL giao dịch T
Bước 1: Khởi tạo quần thể gồm N nhiễm sắc thể ngẫu nhiên.
Nhiễm sắc thể biểu diễn có dạng (𝛼1, , 𝛼𝑛, 𝑤1, , 𝑤𝑛). Với mỗi cặp (𝛼𝑖 , 𝑤𝑖)
là một ĐSGT, với i=1,..,n.
Bước 2: Mã hóa các hàm thuộc thành chuỗi mã hóa như trình bày ở mục 3.3.2.
Dựa vào các ĐSGT có được trong Bước 1, xây dựng các hàm thuộc cho các
thuộc tính trong CSDL gốc như trình bày trong phần 3.2. Chúng ta có thể sử dụng
biểu diễn hàm thuộc dạng Đơn thể hạt hoặc Đa thể hạt.
Bước 3: Tính toán hàm mục tiêu cho mỗi nhiễm sắc thể trong quần thể như
sau:
Bước 3.1: Mỗi giao dịch và 𝐷𝑖, với i=1n, mỗi thuộc tính 𝐼𝑗, j=1m biến đổi
thành giá trị số 𝑣𝑗
(𝑖)
như sau: (
𝑓𝑗1
(𝑖)
𝑅𝑗1
+
𝑓𝑗2
(𝑖)
𝑅𝑗2
+⋯+
𝑓𝑗𝑙
(𝑖)
𝑅𝑗𝑙
) để biểu diễn tập hàm thuộc
của một nhiễm sắc thể.
Với 𝑅𝑗𝑘 là vùng mờ thứ k của item 𝐼𝑗, 𝑓𝑗𝑙
(𝑖)
: 𝑣𝑗
(𝑖)
là giá trị của hàm thuộc thứ j
của item 𝐼𝑗, l là số miền mờ.
Bước 3.2: Tính toán giá trị mỗi miền mờ:
𝑐𝑜𝑢𝑛𝑡𝑗𝑘 =∑𝑓𝑗
(𝑖)
𝑛
𝑖=1
(3.6)
Bước 3.3: Mỗi miền mờ 𝑅𝑗𝑘, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|, kiểm tra giá trị 𝑐𝑜𝑢𝑛𝑡𝑗𝑘
so với ngưỡng độ hỗ trợ tối thiểu min_supp. Nếu 𝑅𝑗𝑘 thỏa mãn điều kiện thì đưa vào
tập phổ biến 1-ItemSet (𝐿1).
𝐿1 = {𝑅𝑗𝑘| 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 ≥ 𝛼, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|}
Bước 3.4: Giá trị mục tiêu của nhiễm sắc thể được tính theo công thức sau:
77
𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) =
∑ 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥)𝑥∈𝐿1
𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞)
(3.7)
Bước 4: Thực hiện phép lai tạo trong quần thể.
Bước 5: Sử dụng phép chọn lọc theo điều kiện để chọn các cá thể trong quần
thể để tạo thế hệ tiếp theo.
Bước 6: Nếu điều kiện dừng chưa thỏa mãn thì quay lại Bước 3, ngược lại
thực hiện bước tiếp theo.
Bước 7: Hàm thuộc được lựa chọn từ cá thể có giá trị hàm mục tiêu lớn nhất
trong quần thể.
Pha 2: Khai phá luật kết hợp mờ
Sử dụng thuật toán khai phá luật kết hợp mờ như trong [53].
3.5. Kết quả thử nghiệm
Trong phần này sẽ mô tả CSDL dùng trong thử nghiệm và các kết quả thử
nghiệm với hai phương pháp luận án đề xuất: sử dụng biểu diễn dữ liệu dạng đơn thể
hạt và sử dụng biểu diễn dữ liệu dạng đa thể hạt.
Các tham số của giải thuật GA như sau: kích thước quần thể 50; số thế hệ
10000, số bít cho mỗi gen là 30, xác suất lai tạo 0.6.
3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm
Bảng 3.4: CSDL thử nghiệm
CSDL Số thuộc tính Số bản ghi
Fam95 10 63756
Pollution 16 60
Stulong 5 1417
Basketball 5 96
Quake 4 2178
Stock 10 950
CSDL được sử dụng trong thử nghiệm gồm: FAM95, pollution, stulong,
basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI
(https://archive.ics.uci.edu).
78
CSDL FAM95: thường được các nhà nghiên cứu coi là tập mẫu chuẩn để tiến
hành thử nghiệm, tiện so sánh kết quả. FAM95 chứa số liệu của 63756 gia đình Mỹ
(số liệu khảo sát năm 1995), bao gồm 63756 bản ghi, 23 mục. Ở đây luận án chọn 10
mục định lượng để tiến hành thử nghiệm. CSDL Pollution: bao gồm 60 bản ghi với
16 thuộc tính số. CSDL Stulong: bao gồm 1417 bản ghi với 5 thuộc tính số. CSDL
Basketball: bao gồm 96 bản ghi với 5 thuộc tính số. CSDL Quake: bao gồm 2178 bản
ghi, với 4 thuộc tính số. CSDL Stock: bao gồm 950 bản ghi, với 10 thuộc tính số.
3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn
thể hạt
Trong phần này các kết quả thu được từ thử nghiệm với biểu diễn hàm thuộc
dang đơn thể hạt. Mỗi mục (thuộc tính) được chia làm 5 miền mờ có các nhãn tương
ứng trong ĐSGT là {0, 𝑐−,𝑊, 𝑐+, 1}. Phương pháp sử dụng ĐSGT được so sánh với
3 phương pháp khác: Phương pháp do Herrera và cộng sự [53], phương pháp của
Hong và cộng sự [42] và phương pháp phân chia đều miền giá trị của thuộc tính bằng
các MF đồng dạng (là tam giác cân, giống nhau về mặt hình học và chia đều miền
xác định của mục).
3.5.2.1. Kết quả thử nghiệm với CSDL FAM95
Trong Bảng 3.5 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu
được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng
các hàm thuộc theo dạng biểu diễn đơn thể hạt như đã trình bày trong mục 3.2.1.
Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương
pháp sử dụng biểu diễn đơn thể hạt
T
h
u
ộ
c tín
h
1
T
h
u
ộ
c tín
h
2
T
h
u
ộ
c tín
h
3
T
h
u
ộ
c tín
h
4
T
h
u
ộ
c tín
h
5
T
h
u
ộ
c tín
h
6
T
h
u
ộ
c tín
h
7
T
h
u
ộ
c tín
h
8
T
h
u
ộ
c tín
h
9
T
h
u
ộ
c tín
h
1
0
𝜇(𝐿) 0.679 0.350 0.610 0.649 0.214 0.379 0.202 0.704 0.231 0.213
𝜇(𝑉) 0.321 0.650 0.390 0.351 0.786 0.621 0.798 0.296 0.769 0.787
𝑓𝑚(𝐶−) 0.504 0.764 0.799 0.756 0.732 0.479 0.800 0.499 0.765 0.776
𝑓𝑚(𝐶+) 0.496 0.236 0.201 0.244 0.268 0.521 0.200 0.501 0.235 0.224
79
Kết quả thu được như trong Bảng 3.6, với 𝐹𝑠𝑢𝑝: Tổng độ hỗ trợ của các tập phổ
biến 1-ItemSet, Fit: Giá trị hàm mục tiêu, Suit: Độ phù hợp, #1I: Số lượng 1-ItemSet,
Interest: độ thú vị trung bình của các luật.
Từ kết quả trên có thể thấy:
Ở giá trị min_supp = 20%, số tập phố biến 1-ItemSet theo cách tiếp cận ĐSGT:
- So với phương pháp phương pháp do Herrera và cộng sự [53], phương pháp
của Hong và cộng sự [42] là như nhau.
- Phương pháp phân chia đều kém hơn phương pháp sử dụng ĐSGT.
Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt
Phương pháp đề xuất sử dụng ĐSGT
Min Sup (%) Fit Fsup Suit #1I
20 0.98 9.83 10 22
50 0.79 7.87 10 10
70 0.66 6.62 10 8
90 0.09 0.94 10 1
Phương pháp của Herrera và cộng sự
Min Sup (%) Fit Fsup Suit #1I
20 0.95 10.46 10.99 22
50 0.77 9.92 12.92 15
70 0.61 7.69 12.57 10
90 0.10 0.92 10.0 1
Phương pháp của Hong và cộng sự
Min Sup (%) Fit Fsup Suit #1I
20 0.53 10.22 19.27 22
50 0.38 7.95 20.63 12
70 0.20 3.96 19.54 5
90 0.06 0.90 15.01 1
Phương pháp phân chia đều
Min Sup (%) Fit Fsup Suit #1I
20 0.94 9.43 10 21
50 0.46 4.57 10 7
70 0.24 2.36 10 3
90 0.00 0.00 10 0
80
Với độ hỗ trợ min_supp = 50%, phương pháp ĐSGT có kém chút ít phương
pháp của nhóm Herrera và nhóm Hong về số tập phố biến 1-ItemSet. Với độ hỗ trợ
min_supp = 70% phương pháp sử dụng ĐSGT kém hơn phương pháp do Herrera đề
xuất, nhưng hơn hai phương pháp còn lại.
Với mục tiêu, xây dựng các hàm thuộc sao cho không chồng lên nhau quá
nhiều, và không rời rạc nhau. Giá trị Suit (độ phù hợp của các MF) trong hàm mục
giúp chúng ta tìm kiếm các hàm thuộc đảm bảo điều này. Trong Bảng 3.6 cho thấy,
phương pháp sử dụng ĐSGT có giá trị Suit thấp hơn phương pháp Herrera và Hong.
Giá trị Suit nhỏ giúp cho giá trị hàm mục tiêu càng lớn. Điều đó cho thấy, các hàm
thuộc được xây dựng bằng phương pháp sử dụng ĐSGT gia tử cho kết quả tốt hơn
(Hình 3.9). Kết quả của nhóm Herrera tuy có tốt hơn về mặt số tập phố biến 1-ItemSet
(trong Bảng 3.6 giá trị 1-ItemSet lần lượt là 22, 15, 10, 1) nhưng các tập MF thu được
sau khi chạy GA thì rất không tốt (xem Hình 3.14: hình vẽ MF với độ hỗ trợ tối thiểu
20% dưới đây để thấy rõ).
Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp
Trong Hình 3.9 quan hệ độ phù hợp của ba phương pháp: sử dụng ĐSGT,
Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy độ phù hợp của các
MF của phương pháp sử dụng ĐSGT nhỏ hơn các phương pháp còn lại.
0
5
10
15
20
25
20% 50% 70% 90%
Đ
ộ
p
h
ù
h
ợ
p
c
ủ
a
cá
c
h
àm
t
h
u
ộ
c
Min support
PP đề xuất PP Herrera PP Hong
81
Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp
Trong Hình 3.10 quan hệ giá trị hàm mục tiêu của ba phương pháp sử dụng
ĐSGT, Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy hàm mục tiêu
của phương pháp sử dụng ĐSGT tốt hơn các phương pháp còn lại.
Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp
0
0.2
0.4
0.6
0.8
1
1.2
20% 50% 70% 90%
G
iá
t
rị
h
àm
m
ụ
c
ti
êu
Min support
PP đề xuất PP Herrera PP Hong PP Phân chia đều
0
2
4
6
8
10
12
20% 50% 70% 90%
Đ
ộ
h
ỗ
t
rợ
1
-I
te
m
S
et
Min support
PP đề xuất PP Herrera PP Hong PP phân chia đều
82
Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp
Trong Hình 3.12 cho thấy số lượng 1-ItemSet của phương pháp ĐSGT kém
hơn so với kết quả Herrera và hơn so với các phương pháp còn lại. Tuy nhiên dựa
vào giá trị Suit trong Bảng 3.6 và bằng trực quan trong Hình 3.14 cho thấy hàm thuộc
của nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng
khít lên nhau.
Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật
Min Supp 20% 30% 40% 50% 60% 70%
PP ĐSGT 0.383 0.516 0.585 0.713 0.771 0.820
PP Herrera 0.368 0.483 0.591 0.669 0.767 0.822
PP Phân chia đều 0.385 0.489 0.606 0.672 0.774 0.821
Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục
1.4.1. Từ kết quả trong Bảng 3.7 cho thấy độ thú vị trung bình của các luật của phương
pháp sử dụng ĐSGT cao hơn hoặc bằng hai phương pháp còn lại.
0
5
10
15
20
25
20% 50% 70% 90%
S
ố
l
ư
ợ
n
g
t
ập
l
ớ
n
1
-I
te
m
se
t
Min support
PP đề xuất PP Herrera PP Hong Phân chia đều
83
Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp
Trong Hình 3.14 có thể thấy, kết quả thu được tập các MF đều có 1 cặp MF
gần như chồng khít, không thỏa mãn tiêu chí về độ chồng lấn. Điều này chứng tỏ kết
quả phân chia miền mờ của phương pháp này không tốt (ở đây kết quả chỉ ra một
điều là có lẽ chia thành 4 miền mờ thì hợp lý hơn, khi đó các nhãn ngôn ngữ cũng sẽ
khác, chỉ có 4 thay vì 5). Vấn đề lựa chọn không chỉ các hàm MF phân chia miền xác
định của mục khi cố định số lượng (thí dụ như 5) mà hơn nữa, lựa chọn chính số
lượng đó cho từng mục là vấn đề đáng được quan tâm vì có thể thấy các chỉ số nêu
trên bảng trên phụ thuộc nhiều vào số lượng của các MF cho từng mục.
Trong chương này, luận án trình bày thuật toán tối ưu hóa cả số lượng lẫn
thông số các MF cho các thuộc tính định tính nhằm tới kết quả tốt nhất khi khai phá
dữ liệu thông qua việc sử dụng khái niệm đa thể hạt khi phân chia miền mờ. Các hình
ảnh cho tập MF theo phương pháp ĐSGT được đưa ra trong Hình 3.15. Tất nhiên,
các tam giác biểu diễn các MF ở đây vẫn tạo nên một phân hoạch mạnh theo cách ta
xây dựng.
-
0.200
0.400
0.600
0.800
1.000
20% 30% 40% 50% 60% 70%
Đ
ộ
t
h
ú
v
ị
tr
u
n
g
b
ìn
h
c
ủ
a
ác
l
u
ật
Min support
PP ĐSGT PP Herrera PP Phân chia đều
84
85
Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của
Herrera sử dụng lý thuyết tập mờ
Hình 3.15 là tập các hàm thuộc của 10 thuộc tính thu được sau khi thực hiện
tối ưu bằng giải thuật di truyền. Bằng trực quan chúng ta có thể thấy, các tập mờ có
sự phân bố đều đảm bảo độ chồng lấn giữa các tập mờ vừa phải và các tập mờ phủ
toàn bộ trên miền giá trị của thuộc tính.
86
Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đơn thể hạt và ĐSGT
3.5.2.2. Kết quả thử nghiệm với một số CSDL khác
Trong mục này, luận án sử dụng cấu trúc ĐSGT như trọng mục 3.5.2.1, và
trình bày kết quả thử nghiệm với 5 CSDL gồm: pollution, stulong, basketball, quake,
stock. Luận án trình bày so sánh kết quả đề xuất với hai phương pháp khác là: Phương
pháp do Herrera và cộng sự [53], phương pháp của Hong và cộng sự [42]. Trong
Bảng 3.8 là số lượng tập phổ biến 1-ItemSet, Bảng 3.9 là độ thú vị trung bình.
Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet
87
CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong
pollution
20 37 45 56
50 15 14 43
70 5 2 18
90 1 0 1
stulong
20 10 13 17
50 5 10 13
70 5 5 13
90 0 0 2
basketball
5 22 20 22
10 18 19 20
15 15 17 21
20 13 15 21
25 11 13 20
30 10 9 20
35 10 9 18
40 9 5 17
45 5 4 18
50 4 2 14
quake
5 14 16 16
10 15 14 13
15 11 11 14
20 9 9 13
25 8 9 11
30 8 8 11
35 7 8 11
40 6 8 11
45 4 6 11
50 4 3 10
stock
5 50 50 50
10 50 50 48
15 50 50 49
20 45 49 50
88
25 47 50 49
30 43 48 49
35 41 48 50
40 41 47 46
45 37 47 47
50 33 41 48
Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution
Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong
0
10
20
30
40
50
60
20% 50% 70% 90%S
ố
l
ư
ợ
n
g
t
ập
l
ớ
n
1
-I
te
m
S
et
Min support
PP đề xuất PP Herrera PP Hong
0
5
10
15
20
20% 50% 70% 90%
S
ố
l
ư
ợ
n
g
t
ập
l
ớ
n
1
-I
te
m
S
et
Min support
PP đề xuất PP Herrera PP Hong
89
Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball
Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake
0
5
10
15
20
25
5% 10% 15% 20% 25% 30% 35% 40% 45% 50%S
ố
l
ư
ợ
n
g
t
ập
l
ớ
n
1
-I
te
m
S
et
Min support
PP đề xuất PP Herrera PP Hong
0
5
10
15
20
5% 10% 15% 20% 25% 30% 35% 40% 45% 50%S
ố
l
ư
ợ
n
g
t
ập
l
ớ
n
1
-I
te
m
S
et
Min support
PP đề xuất PP Herrera PP Hong
0
10
20
30
40
50
60
5% 10% 15% 20% 25% 30% 35% 40% 45% 50%S
ố
l
ư
ợ
n
g
t
ập
l
ớ
n
1
-I
te
m
S
et
Min support
PP đề xuất PP Herrera PP Hong
90
Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock
Trong Hình 3.16, Hình 3.17, Hình 3.18, Hình 3.19, Hình 3.20 cho thấy số
lượng 1-ItemSet của phương pháp ĐSGT kém hơn so với kết quả của Hong, so với
phương pháp của Herrera có thử nghiệm số lượng 1-ItemSet lớn hơn, có thử nghiệm
số lượng ít hơn. Tuy nhiên bằng trực quan trong Hình 3.14 cho thấy hàm thuộc của
nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng
khít lên nhau.
Bảng 3.9: Bảng Độ thú vị trung bình
CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong
pollution
20 0.351 0.349 0.342
50 0.643 0.665 0.654
70 0.823 0.918 0.798
stulong
20 0.487 0.457 0.414
50 0.754 0.651 0.685
70 0.824 0.783 0.789
basketball
1 0.065 0.065 0.067
2 0.087 0.086 0.081
3 0.108 0.099 0.104
4 0.128 0.122 0.119
5 0.123 0.148 0.132
6 0.134 0.154 0.154
7 0.153 0.170 0.174
8 0.187 0.184 0.186
9 0.211 0.197 0.199
10 0.225 0.203 0.211
15 0.306 0.282 0.273
quake
1 0.071 0.099 0.075
2 0.108 0.117 0.077
3 0.096 0.136 0.105
4 0.137 0.153 0.131
5 0.155 0.174 0.161
6 0.204 0.190 0.188
7 0.218 0.207 0.198
8 0.214 0.218 0.205
91
9 0.196 0.226 0.211
10 0.212 0.234 0.218
15 0.310 0.289 0.287
20 0.388 0.330 0.332
25 0.424 0.399 0.394
30 0.486 0.415 0.431
stock
3 0.137 0.159 0.146
4 0.183 0.191 0.159
5 0.179 0.210 0.190
6 0.218 0.229 0.211
7 0.221 0.255 0.230
8 0.252 0.283 0.268
9 0.248 0.303 0.294
10 0.280 0.385 0.353
15 0.380 0.454 0.430
20 0.416 0.594 0.509
25 0.453 0.596 0.568
30 0.592 0.625 0.614
Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution
-
0.200
0.400
0.600
0.800
1.000
20% 50% 70%
Đ
ộ
t
h
ú
v
ị
tr
u
n
g
b
ìn
h
Min support
PP đề xuất PP Herrera PP Hong
92
Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong
Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball
Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake
-
0.200
0.400
0.600
0.800
1.000
20% 50% 70%
Đ
ộ
t
h
ú
v
ị
tr
u
n
g
b
ìn
h
Min support
PP đề xuất PP Herrera PP Hong
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
1 2 3 4 5 6 7 8 9 10 15
Đ
ộ
t
h
ú
v
ị
tr
u
n
g
b
ìn
h
Min support (%)
PP đề xuất PP Herrera PP Hong
0
0.1
0.2
0.3
0.4
0.5
0.6
1 2 3 4 5 6 7 8 9 10 15 20 25 30
Đ
ộ
t
h
ú
v
ị
tr
u
n
g
b
ìn
h
Min support (%)
PP đề xuất PP Herrera PP Hong
93
Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock
Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục
1.4.1. Từ kết quả trong Bảng 3.9 cho thấy độ thú vị trung bình của các luật kết hợp
thu được của phương pháp sử dụng ĐSGT cao hơn hoặc sấp sỉ bằng hai phương pháp
còn lại.
3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa
thể hạt
Với mỗi thuộc tính trong CSDL được phân chia miền mờ sử dụng biểu diễn
đa thể hạt và mỗi thuộc tính sử dụng một cấu trúc ĐSGT như trình bày trong mục
3.5.2.2.
Các kết quả thử nghiệm được so sánh với các kết quả đã công bố trước đây
trong Bảng 3.10, thống kê số lượng tập phố biến với mỗ độ hỗ trợ khác nhau từ 20%
đến 80%. Bảng 3.11 là kết quả thử nghiệm với ba phương pháp: phương pháp đề xuất
sử dụng biểu diễn đa thể hạt, phương pháp biểu diễn đơn thể hạt đề xuất trong chương
3 và phương pháp Herrera (2009). Kết quả cho thấy phương pháp sử dụng biểu diễn
Đa thể hạt cho số lượng 1-ItemSet tốt hơn số với hai phương pháp còn lại (như Hình
4.3). Ở đây, (liệt kê các thuộc tính dùng so sánh: độ phủ, chồng lấn đã trình bày ở
trong mục 3.3.3) và các phương pháp dùng để so sánh đều thực hiện với biểu diễn
đơn thể hạt. Các kết quả thử nghiệm cho thấy ưu việt của việc sử dụng biểu diễn đa
thể hạt và ĐSGT, củng cố thêm cho các kết quả nghiên cứu liên quan đến sử dụng
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
3 4 5 6 7 8 9 10 15 20 25 30
Đ
ộ
t
h
ú
v
ị
tr
u
n
g
b
ìn
h
Min support (%)
PP đề xuất PP Herrera PP Hong
94
biểu diễn đa thể hạt (một số công trình công bố trong một số năm gần đây sử dụng
biểu diễn đa thể hạt [37, 66-68, 82, 84])
Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với
phương pháp sử dụng biểu diễn đa thể hạt
T
h
u
ộ
c tín
h
1
T
h
u
ộ
c tín
h
2
T
h
u
ộ
c tín
h
3
T
h
u
ộ
c tín
h
4
T
h
u
ộ
c tín
h
5
T
h
u
ộ
c tín
h
6
T
h
u
ộ
c tín
h
7
T
h
u
ộ
c tín
h
8
T
h
u
ộ
c tín
h
9
T
h
u
ộ
c tín
h
1
0
𝜇(𝐿) 0.531 0.203 0.445 0.548 0.208 0.233 0.202 0.200 0.212 0.204
𝜇(𝑉) 0.469 0.797 0.555 0.452 0.792 0.767 0.798 0.800 0.788 0.796
𝑓𝑚(𝐶−) 0.202 0.501 0.562 0.457 0.617 0.316 0.800 0.798 0.586 0.651
𝑓𝑚(𝐶+) 0.798 0.499 0.438 0.543 0.383 0.684 0.200 0.202 0.414 0.349
Có thể thấy là dùng biểu diễn đa thể hạt sẽ cho kết quả tốt hơn hẳn. Ngoài ra,
như đã nói ở trên, về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các
luật mang tính khái quát cao và các luật chi tiết. Luận án tiến hành thử nghiệm phương
pháp của Herrera với việc phân chia như vậy, kết quả tuy có tăng về chỉ số nhưng vẫn
kém phương pháp đề xuất (xem đồ thị so sánh Hình 3.27:). Cần nhấn mạnh rằng, với
phương pháp luận án đề xuất, việc tính toán liên quan đến biểu diễn đa thể hạt là tăng
thêm không đáng kể về mặt phức tạp cũng như mặt thời gian mà kết quả nhận được
lại tốt hơn rất nhiều.
Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp
Min Supp 20% 30% 40% 50% 60% 70%
80%
1-ItemSet 59 50 38 29 26 22
17
2-itemset 974 675 456 371 285 187
78
3-itemset 8890 4806 3111 2660 2518 772
150
4-itemset 50242 20719 13095 11890 4708 1774
167
5-itemset 187379 57461 36432 34995 9506 2528
167
Trong Bảng 3.11 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu
được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng
các hàm thuộc theo dạng biểu diễn đa thể hạt như đã trình bày trong mục 3.2.2.
95
Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp
Min Supp 20% 30% 40% 50% 60% 70% 80% 90%
PP biểu diễn Đa thể hạt 54 46 35 27 23 14 12 5
PP biểu diễn Đơn thể hạt 21 17 13 8 7 6 3 1
PP Herrera và cộng sự 25 21 15 10 5 3 2 0
Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp
Hình 3.27: So sánh số lượng tập phổ biến và Min Supp
0
500
1000
1500
20% 30% 40% 50% 60% 70% 80%
T
ập
l
ớ
n
1
-I
te
m
se
t
Min support
1-itemset 2-itemset
0
20
40
60
20% 30% 40% 50% 60% 70% 80% 90%T
ập
l
ớ
n
1
-I
te
m
se
t
Min support
Phương pháp biểu diễn Đa thể hạt
Phương pháp biểu diễn Đơn thể hạt
PP Herrera và cộng sự
96
97
Hình 3.28: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đa thể hạt và ĐSGT
Hình 3.28 tập các hàm thuộc biểu diễn dạng đa thể hạt của 10 thuộc tính thu
được sau khi thực hiện tối ưu bằng giải thuật GA. Có thể thấy các hàm thuộc được
xây dựng dựa trên ĐSGT của các thuộc tính có phân bố khá tốt, đảm bảo độ bao phủ
toàn miền giá trị và độ chồng lấn hợp lý.
3.6. Kết luận chương 3
Chương này luận án đề xuất phương pháp khai khá luật kết hợp mờ sử dụng
ĐSGT dựa trên cơ sở phân chia mờ miền giá trị thuộc tính với biểu diễn đơn thể hạt
và đa thể hạt. Với mỗi thuộc tính số sẽ sử dụng một cấu trúc ĐSDT để xây dựng các
hàm thuộc dạng đơn thể hạt hoặc đa thể hạt. Luận án sử dụng giải thuật di truyền để
tìm kiếm các thuộc tối ưu (hay xác định các tham số của các cấu trúc ĐSGT) dựa trên
CSDL cho trước. Kết quả nghiên cứu này cho thấy phương pháp xây dựng các tập
hàm thuộc để phân chia tập mục mờ trong bài toán khai phá luật kết hợp mờ, một
công đoạn quan trọng mà còn ít được đầu tư nghiên cứu. Việc mở rộng ĐSGT (không
chỉ có 5 hạng từ) để đáp ứng yêu cầu bài toán tối ưu hóa cả số lượng lẫn các thông số
các MF đã nêu trên sẽ vừa giải quyết tốt bài toán khai phá dữ liệu, vừa phát huy thế
mạnh của ĐSGT. Sử dụng ĐSGT có thể tăng dễ dàng số hạng từ mà vẫn đảm bảo có
được các phân hoạch mạnh dùng phân chia miền xác định của mục. Nội dung của
chương này được công bố trong các công trình [iii, iv].
Kết quả của luận án được thử nghiệm với 6 CSDL gồm: FAM95, pollution,
stulong, basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI
(https://archive.ics.uci.edu).
98
Phương pháp này khá đơn giản nhưng hiệu quả trong việc xây dựng các tập
mờ phân chia miền giá trị thuộc tính. Cách phân chia miền mờ vừa đảm bảo đáp ứng
tốt các tiêu chí về hệ tập mờ, vừa mang lại sự đáp ứng tốt về mặt ngữ nghĩa cho các
luật khai phá được. Luận án đã thử nghiệm với hai phương pháp biểu diễn dữ liệu:
biểu diễn đơn thể hạt và biểu diễn đa thể hạt. Các luật khai phá được bao gồm cả các
luật mang tính khái quát cao và các luật chi tiết, phụ thuộc vào tầng biểu diễn dữ liệu
trong cấu trúc đa thể hạt ta xây dựng thông qua ĐSGT.
99
KẾT LUẬN VÀ KIẾN NGHỊ
Với mục tiêu tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng
luật mờ, như luật kết hợp mờ, luật mờ dạng ngôn ngữ, từ các kho dữ liệu số. Luận
án sử dụng ĐSGT thay cho lý thuyết tập mờ để nghiên cứu một số vấn đề về khai phá
luật kết hợp mờ. Luận án đề xuất phương pháp nhằm giảm thời gian, cũng như đề
xuất giải pháp tìm kiếm phân hoạch mờ tối ưu cho mỗi thuộc tính định lượng dựa vào
CSDL đầu vào theo một số ràng buộc cho trước. Luận án đề xuất sử dụng lý thuyết
ĐSGT và giải thuật GA áp dụng trong bài toán khai phá luật kết hợp mờ thay vì sử
dụng lý thuyết tập mờ như các phương pháp đã đề xuất trước đây.
Kết quả nghiên cứu chính của luận án là:
- Nhằm mục đích giảm thời gian khai phá luật kết hợp, luận án đề xuất phương
pháp sử dụng ĐSGT và giải pháp nén CSDL mờ. Các giao dịch mờ gần nhau sẽ được
gộp với nhau để tạo thành giao dịch mới. Ưu điểm của phương pháp này là giúp
CSDL có kích thước nhỏ hơn CSDL ban đầu giúp thời gian khai phá luật kết hợp
giảm.
- Luận án đề xuất sử dụng lý thuyết ĐSGT và giải thuật di truyền tìm kiếm hàm
thuộc dựa vào CSDL giao dịch đầu vào và một số mục tiêu của bài toán khai phá luật
kết hợp mờ. Phương pháp lập luận mờ sử dụng ĐSGT chỉ cần tập trung đến độ đo
tính mờ hay tối ưu được bộ số gia tử, số lượng tham số ít hơn so với một số phương
pháp đã đề xuất trước đây mà các tác giả sử dụng lý tuyết tập mờ giúp thời gian tối
ưu nhanh hơn. Luận án sử dụng biểu diễn tập mờ dạng đơn thể hạt để tính toán độ
thuộc của dữ liệu vào các miền mờ. Kết quả là chúng ta thu được tập các hàm thuộc
cho các thuộc tính định lượng và tập các luật kết hợp mờ.
- Luận án sử dụng biểu diễn đa thể hạt và ĐSGT cho bài toán khai phá luật kết
hợp mờ. Về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các luật kết hợp
vừa có tính khái quát và có tính chi tiết. Với phương pháp luận án đề xuất, việc tính
toán liên quan đến biểu diễn đa thể hạt là tăng thêm không đáng kể về mặt phức tạp
cũng như mặt thời gian mà kết quả nhận được lại tốt hơn rất nhiều.
Mặc dù luận án đã đạt được những kết quả khá tốt, tuy nhiên các kết quả nghiên
cứu này chủ yếu tập trung vào giải pháp nén dữ liệu giao dịch và phân hoạch miền
xác định của thuộc tính thành các miền mờ dưới dạng biểu diễn đơn thể hạt và đa thể
100
hạt theo hướng tiếp cận sử dụng ĐSGT cho bài toán khai phá luật kết hợp mờ. Song,
một số nội dung liên quan đến bài toán khai phá luật kết hợp cần được tiếp tục nghiên
cứu hoàn chỉnh hơn: giải các bài toán tìm luật kết hợp phủ định, luật kết hợp có trọng
số, luật kết hợp song song, Đó là những vấn đề đặt ra cho chúng tôi cần phải có
những nghiên cứu trong thời gian tới.
101
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN ÁN
i) Trần Thái Sơn, Nguyễn Tuấn Anh, Nâng cao hiệu quả khai phá luật kết hợp mờ theo
hướng tiếp cận đại số gia tử, Kỷ yếu hội nghị quốc gia lần VI về nghiên cứu cơ bản
và ứng dụng công nghệ thông tin (Fair) - Huế, 6/2013.
ii) Tran Thai Son, Nguyen Tuan Anh, Improve efficiency fuzzy association rule using
hedge algebra approach, Journal of Computer Science and Cybernetics, Vol 30, No
4, 2014.
iii) Tran Thai Son, Nguyen Tuan Anh, Hedges Algebras and fuzzy partition problem for
qualitative attributes, Journal of Computer Science and Cybernetics, V.32, N.4, 2016.
iv) Tran Thai Son, and Nguyen Tuan Anh, Partition fuzzy domain with multi-granularity
representation of data based on Hedge Algebra approach, Journal of Computer
Science and Cybernetics, vol 34, pp. 63-76, 2018.
102
TÀI LIỆU THAM KHẢO
TIẾNG VIỆT
[1] B. C. Cường, and N. D. Phước, Hệ mờ, mạng nơron và ứng dụng, Nhà xuất
bản Khoa học kỹ thuật, 2006.
[2] N. C. Hào, and N. C. Đoàn, Luật kết hợp mờ dựa trên ngữ nghĩa đại số gia tử,
Tạp chí khoa học - Đại học Huế, vol. 74A, no. 5, 2012.
[3] T. T. Sơn, Đ. N. Tiến, and P. Đ. Phong, Luật kết hợp theo cách tiếp cận Đại
số gia tử, Journal of Computer Science and Cybernetics, vol. 27, no. 4, 2012.
[4] H. V. Thông, N. C. Hồ, and N. Đ. Dư, Một phương pháp sinh hệ luật mờ
Mamdani cho bài toán hồi quy với ngữ nghĩa Đại số gia tử, Tin học và điều
khiển học, vol. 30, no. 3, pp. 227-238, 2014.
TIẾNG ANH
[5] C.-M. Lin, Y.-L. Hsieh, K.-C. Yin, M.-C. Hung, and D.-L. Yang, ADMiner:
An Incremental Data Mining Approach Using a Compressed FP-tree, Journal
of Software, vol. 8, no. 8, 2013.
[6] R. J. Kuo, C. M. Chao, and Y. Chiu, Application of particle swarm
optimization to association rule mining, Applied Soft Computing, vol. 11, no.
1, pp. 326-336, 2011.
[7] A. Agarwal, and N. Nanavati, Association rule mining using hybrid GA-PSO
for multi-objective optimisation, Computational Intelligence and Computing
Research (ICCIC), 2016 IEEE International Conference on, IEEE, 2016.
[8] R. J. Miller, and Y. Yang, Association rules over interval data, ACM
SIGMOD Record, vol. 26, no. 2, pp. 452-461, 1997.
[9] U. Can, and B. Alatas, Automatic Mining of Quantitative Association Rules
with Gravitational Search Algorithm, International Journal of Software
Engineering and Knowledge Engineering, vol. 27, no. 03, pp. 343-372, 2017.
[10] L. J. Eshelman, The CHC adaptive search algorithm: How to have safe search
when engaging in nontraditional genetic recombination, Foundations of
genetic algorithms, pp. 265-283: Elsevier, 1991.
[11] C.-H. Chen, V. S. Tseng, and T.-P. Hong, Cluster-based evaluation in fuzzy-
genetic data mining, IEEE transactions on fuzzy systems, vol. 16, no. 1, pp.
249-262, 2008.
[12] M. Kaya, and R. Alhajj, A clustering algorithm with genetically optimized
membership functions for fuzzy association rules mining, Fuzzy Systems,
2003. FUZZ'03. The 12th IEEE International Conference on, IEEE, 2003.
[13] L. A. Zadeh, The concept of a linguistic variable and its application to
approximate reasoning—I, Information sciences, vol. 8, no. 3, pp. 199-249,
1975.
[14] H. B. Yadav, and D. K. Yadav, Construction of membership function for
software metrics, Procedia Computer Science, vol. 46, pp. 933-940, 2015.
[15] C. Mencar, M. Lucarelli, C. Castiello, and A. M. Fanelli, Design of Strong
Fuzzy Partitions from Cuts, EUSFLAT Conf., 2013.
103
[16] P. Pulkkinen, and H. Koivisto, A dynamically constrained multiobjective
genetic fuzzy system for regression problems, IEEE Transactions on Fuzzy
Systems, vol. 18, no. 1, pp. 161-177, 2010.
[17] R. T. Ng, and J. Han, Efficient and Effective Clustering Methods for Spatial
Data Mining, Proceedings of VLDB, Citeseer, 1994.
[18] J.-Y. Dai, D.-L. Yang, J. Wu, and M.-C. Hung, An efficient data mining
approach on compressed transactions, World Academy of Science,
Engineering and Technology, vol. 3, pp. 76-83, 2008.
[19] N. C. Ho, and W. Wechler, Extended hedge algebras and their application to
fuzzy logic, Fuzzy sets and systems, vol. 52, no. 3, pp. 259-281, 1992.
[20] D. Meng, and Z. Pei, Extracting linguistic rules from data sets using fuzzy
logic and genetic algorithms, Neurocomputing, vol. 78, no. 1, pp. 48-54, 2012.
[21] R. Agrawal, and R. Srikant, Fast algorithms for mining association rules,
Proc. 20th int. conf. very large data bases, VLDB, 1994.
[22] C.-H. Chen, T.-P. Hong, Y.-C. Lee, and V. S. Tseng, Finding Active
Membership Functions for Genetic-Fuzzy Data Mining, International Journal
of Information Technology & Decision Making, vol. 14, no. 06, pp. 1215-
1242, 2015.
[23] A. Fu, M. H. Wong, S. C. Sze, W. C. Wong, W. L. Wong, and W. K. Yu,
Finding fuzzy sets for the mining of fuzzy association rules for numerical
attributes, Proceedings of the first international symposium on intelligent data
engineering and learning, 1998.
[24] A. Mangalampalli, and V. Pudi, FPrep: Fuzzy clustering driven efficient
automated pre-processing for fuzzy association rule mining, Fuzzy Systems
(FUZZ), 2010 IEEE International Conference on, IEEE, 2010.
[25] N. C. Ho, and N. V. Long, Fuzziness measure on complete hedge algebras and
quantifying semantics of terms in linear hedge algebras, Fuzzy Sets and
Systems, vol. 158, no. 4, pp. 452-471, 2007.
[26] N. C. Ho, T. T. Son, T. D. Khang, and L. X. Viet, Fuzziness Measure,
Quantified Sematic Mapping and Interpolative Method of Approximate
Reasoning in Medical Expert Systems, Journal of Computer Science and
Cybernetics, vol. 18, no. 3, pp. 237-252, 2002.
[27] A. Gyenesei, A fuzzy approach for mining quantitative association rules, Acta
Cybern., vol. 15, no. 2, pp. 305-320, 2001.
[28] J. Alcala-Fdez, R. Alcala, and F. Herrera, A fuzzy association rule-based
classification model for high-dimensional problems with genetic rule selection
and lateral tuning, IEEE Transactions on Fuzzy Systems, vol. 19, no. 5, pp.
857-872, 2011.
[29] A. Mangalampalli, and V. Pudi, Fuzzy association rule mining algorithm for
fast and efficient performance on very large datasets, Fuzzy Systems, 2009.
FUZZ-IEEE 2009. IEEE International Conference on, IEEE, 2009.
[30] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with
quantitative attributes, ACM SIGMOD Records, 1998.
[31] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with
quntitative attributes, ACM SIGMOD Records, 1998.
[32] C. A. Kumar, Fuzzy Clustering-Based Formal Concept Analysis for
Association Rules Mining, Applied Artificial Intelligence, vol. 26, no. 3, pp.
274-301, 2012.
104
[33] C.-H. Chen, A.-F. Li, and Y.-C. Lee, A fuzzy coherent rule mining algorithm,
Applied Soft Computing, vol. 13, no. 7, pp. 3422-3428, 2013.
[34] C.-W. Lin, T.-P. Hong, and W.-H. Lu, Fuzzy data mining based on the
compressed fuzzy fp-trees, Fuzzy Systems, 2009. FUZZ-IEEE 2009. IEEE
International Conference on, IEEE, 2009.
[35] W. Siler, and J. J. Buckley,Fuzzy expert systems and fuzzy reasoning: John
Wiley & Sons, 2005.
[36] K. Loquin, and O. Strauss, Fuzzy histograms and density estimation, Soft
methods for integrated uncertainty modelling, pp. 45-52: Springer, 2006.
[37] G. Castellano, A. M. Fanelli, and C. Mencar, Fuzzy Information Granulation
with Multiple Levels of Granularity, Granular Computing and Intelligent
Systems, pp. 185-202: Springer, 2011.
[38] G. Pradeep, and V. Ravi, Fuzzy Multi-Objective Association Rule Mining
Using Evolutionary Computation, Handbook of Research on Intelligent
Techniques and Modeling Applications in Marketing Analytics, pp. 119, 2016.
[39] H. Ishibuchi, and T. Yamamoto, Fuzzy rule selection by multi-objective
genetic local search algorithms and rule evaluation measures in data mining,
Fuzzy Sets and Systems, vol. 141, no. 1, pp. 59-88, 2004.
[40] L. A. Zadeh, Fuzzy sets, Information and control, vol. 8, no. 3, pp. 338-353,
1965.
[41] J. C. Bezdek, D. Dubois, and H. Prade,Fuzzy sets in approximate reasoning
and information systems: Springer Science & Business Media, 2012.
[42] T.-P. Hong, C.-H. Chen, Y.-C. Lee, and Y.-L. Wu, Genetic-fuzzy data mining
with divide-and-conquer strategy, IEEE Transactions on Evolutionary
Computation, vol. 12, no. 2, pp. 252-265, 2008.
[43] C.-H. Chen, T.-P. Hong, V. S. Tseng, and C.-S. Lee, A genetic-fuzzy mining
approach for items with multiple minimum supports, Soft Computing, vol. 13,
no. 5, pp. 521-533, 2009.
[44] K. Deb, Genetic Algorithm in Search and Optimization, Indian Institute of
Technology, Kanpur, India, 1998.
[45] W. Wang, and S. Bridges, Genetic algorithm optimization of membership
functions for mining fuzzy association rules, Department of Computer Science
Mississippi State University, vol. 2, 2000.
[46] C.-K. Ting, T.-C. Wang, R.-T. Liaw, and T.-P. Hong, Genetic algorithm with
a structure-based representation for genetic-fuzzy data mining, Soft
Computing, vol. 21, no. 11, pp. 2871-2882, 2016.
[47] N. C. Ho, W. Pedrycz, D. T. Long, and T. T. Son, A genetic design of linguistic
terms for fuzzy rule based classifiers, International Journal of Approximate
Reasoning, vol. 54, no. 1, pp. 1-21, 2012.
[48] R. Alcalá, J. Alcalá-Fdez, M. J. Gacto, and F. Herrera, Genetic learning of
membership functions for mining fuzzy association rules, Fuzzy Systems
Conference, 2007. FUZZ-IEEE 2007. IEEE International, IEEE, 2007.
[49] N. C. Ho, and W. Wechler, Hedge algebras: an algebraic approach to
structure of sets of linguistic truth values, Fuzzy sets and systems, vol. 35, no.
3, pp. 281-293, 1990.
[50] M. Martínez-Ballesteros, A. Troncoso, F. Martínez-Álvarez, and J. C.
Riquelme, Improving a multi-objective evolutionary algorithm to discover
105
quantitative association rules, Knowledge and Information Systems, vol. 49,
no. 2, pp. 481-509, 2015.
[51] M. J. Gacto, R. Alcalá, and F. Herrera, Interpretability of linguistic fuzzy rule-
based systems: An overview of interpretability measures, Information
Sciences, vol. 181, no. 20, pp. 4340-4360, 2011.
[52] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Learning
concurrently data and rule bases of Mamdani fuzzy rule-based systems by
exploiting a novel interpretability index, Soft Computing, vol. 15, no. 10, pp.
1981-1998, 2011.
[53] J. Alcalá-Fdez, R. Alcalá, M. J. Gacto, and F. Herrera, Learning the
membership function contexts for mining fuzzy association rules by using
genetic algorithms, Fuzzy Sets and Systems, vol. 160, no. 7, pp. 905-921,
2009.
[54] R. Agrawal, T. Imieliński, and A. Swami, Mining association rules between
sets of items in large databases, Acm sigmod record, ACM, 1993.
[55] T.-P. Hong, C.-S. Kuo, and S.-C. Chi, Mining association rules from
quantitative data, Intelligent data analysis, vol. 3, no. 5, pp. 363-376, 1999.
[56] C. H. Cai, A. W.-C. Fu, C. Cheng, and W. Kwong, Mining association rules
with weighted items, Database Engineering and Applications Symposium,
1998. Proceedings. IDEAS'98. International, IEEE, 1998.
[57] K. C. Chan, and W.-H. Au, Mining fuzzy association rules, Proceedings of the
sixth international conference on Information and knowledge management,
ACM, 1997.
[58] S.-z. Li, and S.-l. Chen, Mining fuzzy association rules by using nonlinear
particle swarm optimization, Quantitative Logic and Soft Computing 2010, pp.
621-630: Springer, 2010.
[59] C. M. Kuok, A. Fu, and M. H. Wong, Mining fuzzy association rules in
databases, ACM Sigmod Record, vol. 27, no. 1, pp. 41-46, 1998.
[60] C.-K. Ting, R.-T. Liaw, T.-C. Wang, and T.-P. J. M. C. Hong, Mining fuzzy
association rules using a memetic algorithm based on structure
representation, Memetic Computing, vol. 10, no. 1, pp. 15-28, 2018.
[61] W. Zhang, Mining fuzzy quantitative association rules, Tools with Artificial
Intelligence, 1999. Proceedings. 11th IEEE International Conference on,
IEEE, 1999.
[62] D. L. Olson, and Y. Li, Mining fuzzy weighted association rules, System
Sciences, 2007. HICSS 2007. 40th Annual Hawaii International Conference
on, IEEE, 2007.
[63] B. Minaei-Bidgoli, R. Barmaki, and M. Nasiri, Mining numerical association
rules via multi-objective genetic algorithms, Information Sciences, vol. 233,
pp. 15-24, 2013.
[64] M. Kaya, and R. Alhajj, Mining optimized fuzzy association rules using multi-
objective genetic algorithm, 8th IEEE International Conference on Intelligent
Engineering Systems, Cluj-Napoca, Romania, 2004.
[65] R. Srikant, and R. Agrawal, Mining quantitative association rules in large
relational tables, Acm Sigmod Record, ACM, 1996.
[66] G. Wang, J. Xu, Q. Zhang, and Y. Liu, Multi-granularity intelligent
information processing, Rough Sets, Fuzzy Sets, Data Mining, and Granular
Computing, pp. 36-48: Springer, 2015.
106
[67] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective
evolutionary design of granular rule-based classifiers, Granular Computing,
vol. 1, no. 1, pp. 37-58, 2015.
[68] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective
evolutionary learning of granularity, membership function parameters and
rules of Mamdani fuzzy systems, Evolutionary Intelligence, vol. 2, no. 1-2, pp.
21, 2009.
[69] C.-H. Chen, T.-P. Hong, V. S. Tseng, and L.-C. Chen, Multi-objective genetic-
fuzzy data mining, International Journal of Innovative Computing Information
and Control, vol. 8, no. 10A, pp. 6551-6568, 2012.
[70] M. Kaya, Multi-objective genetic algorithm based approaches for mining
optimized fuzzy association rules, Soft computing, vol. 10, no. 7, pp. 578-586,
2006.
[71] A. Ghosh, and B. Nath, Multi-objective rule mining using genetic algorithms,
Information Sciences, vol. 163, no. 1-3, pp. 123-133, 2004.
[72] H. R. Qodmanan, M. Nasiri, and B. Minaei-Bidgoli, Multi objective
association rule mining with genetic algorithm without specifying minimum
support and minimum confidence, Expert Systems with applications, vol. 38,
no. 1, pp. 288-298, 2011.
[73] M. J. Zaki, S. Parthasarathy, M. Ogihara, and W. Li, New Algorithms for Fast
Discovery of Association Rules, KDD, 1997.
[74] H. Kalia, S. Dehuri, A. Ghosh, and S.-B. Cho, On the mining of fuzzy
association rule using multi-objective genetic algorithms, International
Journal of Data Mining, Modelling and Management, vol. 8, no. 1, pp. 1-31,
2016.
[75] A. Gupta, S. Jain, and A. J. A. a. S. Tiwari, Optimization and Improvement of
association rule mining using genetic algorithm and fuzzy logic, 2019.
[76] U. K. Patel, Optimization of Association Rule Mining Using Genetic
Algorithm, Conference Proceeding of International Conference on Recent
Innovation in Science, Technology and Management, 2016.
[77] M. Saggar, A. K. Agrawal, and A. Lad, Optimization of association rule
mining using improved genetic algorithms, Systems, Man and Cybernetics,
2004 IEEE International Conference on, IEEE, 2004.
[78] H. Zheng, J. He, G. Huang, and Y. Zhang, Optimized fuzzy association rule
mining for quantitative data, Fuzzy Systems (FUZZ-IEEE), 2014 IEEE
International Conference on, IEEE, 2014.
[79] Z. Makani, S. Arora, and P. Kanikar, A Parallel Approach to Combined
Association Rule Mining, International Journal of Computer Applications, vol.
62, no. 15, 2013.
[80] S. Mishra, D. Mishra, and S. K. Satapathy, Particle swarm optimization based
fuzzy frequent pattern mining from gene expression data, Computer and
Communication Technology (ICCCT), 2011 2nd International Conference on,
IEEE, 2011.
[81] M. Fazzolari, R. Alcala, Y. Nojima, H. Ishibuchi, and F. Herrera, A review of
the application of multiobjective evolutionary fuzzy systems: Current status
and further directions, IEEE Transactions on Fuzzy systems, vol. 21, no. 1,
pp. 45-65, 2013.
107
[82] Y. Yao, A triarchic theory of granular computing, Granular Computing, vol.
1, no. 2, pp. 145-157, 2016.
[83] T.-P. Hong, C.-H. Chen, Y.-L. Wu, and Y.-C. Lee, Using divide-and-conquer
GA strategy in fuzzy data mining, Computers and Communications, 2004.
Proceedings. ISCC 2004. Ninth International Symposium on, IEEE, 2004.
[84] L. Yan, Z. Pei, and F. Ren, Constructing and Managing Multi-Granular
Linguistic Values Based on Linguistic Terms and Their Fuzzy Sets, IEEE
Access, vol. 7, pp. 152928-152943, 2019.
[85] N. C. Ho, T. T. Son, H. V. Thong, and N. V. Long, LFoC-Interpretability of
Linguistic Rule Based Systems and its Applications To Solve Regression
Problems, International Journal of Computer Technology & Applications, vol.
8, no. 2, pp. 94-117, 2017.