Trang nhan đề
Mục lục
Danh mục
Chương 1: Gioi thiệu
Chương 2: Kiến trúc cơ bản
Chương 3: Các phương pháp đánh giá luật dựa trên lý thuyết tập thô
Chương 4: Xây dựng ứng dụng so sánh kỹ thuật đánh giá luật giữa các độ đo
Kết luận và hướng phát triển
Tài liệu tham khảo
Công trình nghiên cứu
79 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2400 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Một số kỹ thuật đánh giá luật dựa trên lí thuyết tập thô, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Bảng 3.7. Tập luật quan trọng theo độ đo RAM từ nguồn Lenses
3.3.4. Nhận xét giữa hai độ đo RIM và độ đo RAM
- Cả hai độ đo đều được ứng dụng để đánh giá luật dựa vào lý thuyết tập
thô (cụ thể là dựa trên các rút gọn và lõi). Cả hai thuộc loại độ đo khách
quan.
- Đầu ra của độ đo RIM là tập các luật được sắp xếp theo thứ tự tầm quan
trọng của chúng, mỗi luật có một giá trị RIM cụ thể. Còn đầu ra của độ đo
RAM là tập các luật quan trọng, trong đó có thể có một vài luật là quan
trọng nhất (luật lõi), các luật không có giá trị RAM cụ thể.
45
- Hạn chế của độ đo RAM là khi rút gọn của bảng quyết định mới tìm được
gồm tất cả các thuộc tính điều kiện, có nghĩa tập luật rút gọn chính là tập
luật từ dữ liệu gốc, nên tất cả các luật từ dữ liệu gốc theo độ đo RAM đều
quan trọng như nhau.
3.4. ĐỘ ĐO TẦM QUAN TRỌNG CẢI TIẾN
(Enhanced Rule Importance Measure - ERIM)
Nhận xét rằng với độ đo RIM, nếu số lượng các rút gọn càng ít thì số lượng
các luật có tầm quan trọng như nhau càng nhiều nên việc sử dụng độ đo RIM
để đánh giá luật khó mang lại kết quả khả quan. Để giải quyết hạn chế này độ
đo ERIM được đề xuất, đây là độ đo chủ quan được định nghĩa dựa trên trọng
số của các thuộc tính điều kiện trong bảng quyết định, các trọng số này được
đánh giá bởi các chuyên gia thuộc cùng lĩnh vực. Theo nhận định của các
chuyên gia, các thuộc tính có trọng số càng cao thì càng cần thiết nên các luật
có trọng số càng lớn càng được xem là quan trọng.
3.4.1. Định nghĩa
Định nghĩa 1.
Độ đo ERIM của một luật được định nghĩa như sau:
∑
=
=
in
k
kii wERIM
1
,
Trong đó, ERIMi là độ đo ERIM của luật thứ i (rulei), in là số lượng các
thuộc tính điều kiện trong luật rulei và kiw , là trọng số của thuộc tính thứ k của
luật rulei.
Định nghĩa 2.
Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo ERIM lớn hơn thì
luật đó được xem là quan trọng hơn.
3.4.2. Quá trình thực hiện
Cách tiếp cận theo độ đo ERIM gồm 3 bước như sau:
46
Bước 1: Phát sinh tập luật quan trọng theo độ đo RIM
Bước 2: Tính toán giá trị độ đo ERIM cho từng luật trong tập luật thu
được ở bước 1.
Bước 3: Kết hợp cả hai độ đo RIM và ERIM để đánh giá luật: luật 1r
quan trọng hơn luật 2r nếu 21 rr RIMRIM > , nếu độ đo RIM của
hai luật này bằng nhau thì luật nào có độ đo ERIM lớn hơn luật
đó được xem là quan trọng hơn.
3.4.3. Một ví dụ về độ đo ERIM
Với nguồn dữ liệu Car từ UCI gồm 1728 dòng và 7 thuộc tính, áp dụng
thuật toán phát sinh tất cả các rút gọn ta chỉ thu được duy nhất 1 rút gọn. Với
trọng số của từng thuộc tính được cho trong Bảng 3.8, tính toán giá trị độ đo
ERIM cho từng luật từ tập luật quan trọng theo độ đo RIM, kết quả trình bày
trong Bảng 3.9.
Buying-Price Maint -Price Doors Persons Lug_boot Satefy
10 8 7 7 5 10
Bảng 3.8. Trọng số cho từng thuộc tính điều kiện của nguồn Car
Stt Tập luật (minSup=8%, minConf=80%) RIM ERIM
1r Lug_boot = small, Satefy = med →Class = unacc 100% 15=100%
2r Buying-Price = vhigh →Class = unacc 100% 10=66.6%
3r Satefy=low →Class = unacc 100% 10=66.6%
4r Maint-Price = vhigh →Class = unacc 100% 8=53.3%
5r Persons = 2 →Class = unacc 100% 7=46.6%
Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car
Độ đo ERIM của luật chính là tổng giá trị các trọng số của các thuộc tính
điều kiện có trong luật, những luật có độ đo ERIM càng cao càng được xem là
quan trọng. Để tiện cho việc so sánh giữa các luật theo độ đo ERIM, thay vì sử
dụng giá trị ERIM ta sử dụng phần trăm giá trị ERIM so với giá trị ERIM lớn
nhất trong tập luật. Với luật 1r , độ đo ERIM được tính như sau:
47
1rERIM == ∑
=
2
1k
kw ( w Lug_boot + w Satefy) = 10+5 = 15
Nhận thấy rằng tuy 5 luật trong Bảng 3.9 không phân biệt được tầm quan
trọng dựa vào độ đo RIM nhưng hoàn toàn có thể phân biệt dựa vào độ đo
ERIM.
3.4.4. Nhận xét về độ đo ERIM
- Độ đo ERIM là một độ đo chủ quan được xây dựng trên độ đo RIM và
trọng số của các thuộc tính. Thuận lợi của độ đo này là kết hợp độ đo chủ
quan và độ đo khách quan trong quá trình đánh giá luật nên kết quả mà nó
đem lại có thể khả quan hơn so với độ đo RIM.
- Tuy nhiên, độ đo này phụ thuộc vào yếu tố chính là nhận định đánh giá
của các chuyên gia về giá trị tượng trưng cho sự cần thiết của các thuộc
tính điều kiện (trọng số). Quá trình này tốn thời gian trong việc thống kê
và đôi khi khó thực hiện được.
3.5. ĐỘ ĐO WAERIM
(Weight Average Based Enhanced Rule Importance Measure)
Xét ví dụ sử dụng độ đo ERIM để đánh giá luật. Giả sử ta có 2 luật:
DGFEr
DAr
→
→
,,:
:
2
1
Với trọng số của từng thuộc tính điều kiện được cho như sau:
10=Aw , 5=== GFE www
Giả sử rằng 2 luật trên có độ đo RIM như nhau, khi đó theo độ đo ERIM
luật nào có giá trị ERIM lớn hơn luật đó sẽ quan trọng hơn. Ta có độ đo ERIM
của từng luật:
10
1
=rERIM
15
2
=rERIM
Với kết quả trên, ta kết luận: r2 quan trọng hơn r1, nhận thấy rằng kết luận
này khá phi lý vì từng thuộc tính điều kiện bên vế trái của luật r2 đều có trọng
48
số nhỏ hơn thuộc tính điều kiện trong luật r1, có nghĩa là không có thuộc tính
điều kiện nào trong r2 cần thiết hơn thuộc tính điều kiện trong r1 nhưng r2 vẫn
được xem là quan trọng hơn. Như thế, với độ đo ERIM các luật mà vế trái có
càng nhiều thuộc tính điều kiện thì khả năng luật đó quan trọng càng lớn.
Để giải quyết vấn đề này, luận văn đề xuất độ đo WAERIM như là giải
pháp thay thế độ đo ERIM, độ đo này đánh giá tầm quan trọng của luật dựa vào
trọng số trung bình của tất cả các thuộc tính điều kiện. Độ đo này được định
nghĩa như sau:
3.5.1. Định nghĩa
Định nghĩa 1.
i
n
k
ki
i
n
w
WAERIM
i
∑
=
=
1
,
Trong đó, WAERIMi là độ đo WAERIM của luật thứ i (rulei), in là số
lượng các thuộc tính điều kiện trong luật rulei và kiw , là trọng số của thuộc tính
thứ k của luật rulei.
Định nghĩa 2.
Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo WAERIM lớn hơn
thì luật đó được xem là quan trọng hơn.
3.5.2. Quá trình thực hiện
Tương tự độ đo ERIM, cách tiếp cận theo độ đo WAERIM gồm 3 bước:
Bước 1: Phát sinh tập luật sử dụng độ đo RIM
Bước 2: Tính toán giá trị độ đo WAERIM cho từng luật trong tập luật
thu được ở bước 1.
Bước 3: Kết hợp cả hai độ đo RIM và WAERIM để đánh giá luật: luật
1r quan trọng hơn luật 2r nếu 21 rr RIMRIM > , nếu độ đo RIM
của hai luật này bằng nhau thì luật nào có độ đo WAERIM lớn
hơn luật đó được xem là quan trọng hơn.
49
3.6. ĐỘ ĐO AIERIM
(Attributes Importance Degree Based Enhanced Rule Importance
Measure)
Việc sử dụng trọng số của các thuộc tính điều kiện trong quá trình đánh giá
luật giúp người dùng có thể chọn ra những luật thực sự đáng tin cậy vì các
trọng số này chính là ý kiến nhận định của các chuyên gia trong cùng lĩnh vực.
Đối với các luật không thể phân biệt được tầm quan trọng bằng độ đo RIM có
thể dễ dàng phân biệt được dựa vào độ đo ERIM hoặc WAERIM, tuy nhiên đối
với những ứng dụng không được các chuyên gia đánh giá thì việc so sánh tầm
quan trọng của các luật dựa vào độ đo RIM trong trường hợp này vẫn không
thực hiện được.
Vì lý do đó, song song với độ đo WAERIM luận văn đề xuất độ đo
AIERIM, độ đo này cũng cải tiến độ đo RIM dựa vào mức độ quan trọng của
các thuộc tính điều kiện. Khác với ERIM và WAERIM, mức độ quan trọng của
các thuộc tính điều kiện ở độ đo AIERIM có được từ chính nguồn dữ liệu dùng
để khai phá. Định nghĩa về mức độ quan trọng của các thuộc tính điều kiện và
độ đo AIERIM được trình bày trong phần kế tiếp.
3.6.1. Định nghĩa
Định nghĩa 1.
Cho bảng quyết định ),( DCUT ∪= , CB ⊆ . Mức độ quan trọng
(Importance Degree) của tập thuộc tính điều kiện B đối với thuộc tính quyết
định D được định nghĩa như sau:
)()()( \ DDBI BCCDC γγ −=
Trong đó,
U
DPOS
D XX
)()( =γ
là mức độ phụ thuộc của D vào tập X
Với }{aB = , )(aI DC là mức độ quan trọng của thuộc tính a đối với thuộc tính
quyết định D.
Định nghĩa 2. Độ đo AIERIM của một luật được định nghĩa như sau:
)()( XIYXAIERIM DC=→
50
Định nghĩa 3.
Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo AIERIM lớn hơn
thì luật đó được xem là quan trọng hơn.
3.6.2. Một ví dụ về độ đo AIERIM
Lấy ví dụ với nguồn Car từ UCI[5] gồm 1728 dòng và 6 thuộc tính điều
kiện. Với mức độ quan trọng của tập thuộc tính được tính toán trong Bảng
3.10, tập luật quan trọng với độ đo AIERIM được tính toán và trình bày trong
Bảng 3.11.
Stt Tập thuộc tính Mức độ quan trọng
1 { Buying-Price } 0.4
2 { Maint-Price } 0.38
3 { Doors } 0.11
4 { Persons } 0.47
5 { Lug_boot } 0.24
6 { Satefy } 0.52
7 { Lug_boot , Satefy } 0.54
Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car
Độ đo AIERIM của luật chính là mức độ quan trọng của tập thuộc tính điều
kiện bên vế trái của luật, những luật có độ đo AIERIM càng cao càng được
xem là quan trọng.
Stt Tập luật (minSup=8%, minConf=80%) RIM AIERIM
1r Lug_boot = small, Satefy = med →Class = unacc 100% 0.54
2r Satefy=low →Class = unacc 100% 0.52
3r Persons = 2 →Class = unacc 100% 0.47
4r Buying-Price = vhigh →Class = unacc 100% 0.4
5r Maint-Price = vhigh →Class = unacc 100% 0.38
Bảng 3.11. Tập luật với độ đo AIERIM từ nguồn Car
51
Chương 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ
THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO
4.1. GIỚI THIỆU
Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo
được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so
sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn
đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM).
Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với
2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan.
4.1.1. Nguồn dữ liệu “Nursery”
Nguồn dữ liệu Nursery được sử dụng trong ứng dụng tuyển chọn các trẻ
em cho trường mầm non ở Ljubljana, Slovenia vì có quá nhiều đơn xin vào
trường này. Nguồn dữ liệu Nursery gồm 9 thuộc tính và 12.960 dòng, thông tin
về các thuộc tính của nguồn Nursery được trình bày trong Bảng 4.1.
Loại
thuộc tính
Tên
thuộc tính Diễn giải Miền giá trị
Parents Nghề nghiệp của cha mẹ {usual, pretentious, great_pret}
Has_nurs Phòng cho trẻ {proper, less_proper, improper,
critical, very_crit}
Form Loại gia đình {complete, completed, incomplete, foster}
Children Số con trong gia đình {1, 2, 3, more}
Housing Vấn đề nhà cửa {convenient, less_conv, critical}
Finance Vấn đề tài chính {convenient, inconv}
Social Điều kiện xã hội {non-prob, slightly_prob, problematic}
Thuộc tính
điều kiện
Health Điều kiện sức khỏe {recommended, priority,
not_recom}
Thuộc tính
quyết định Decision Quyết định của nhà trường
{not_recom, recommend,
very_recom, priority, spec_prior}
Bảng 4.1. Các thuộc tính của nguồn Nursery
52
Ứng dụng nguồn dữ liệu Nursery vào việc so sánh các độ đo dựa vào trọng
số của các thuộc tính điều kiện, luận văn giả sử rằng các thuộc tính điều kiện
đều có giá trị bằng nhau và bằng 1.
4.1.2. Nguồn dữ liệu “BankLoan”
Loại
thuộc tính
Tên
thuộc tính Diễn giải Miền giá trị
Tien Số tiền khách hàng muốn vay {0…N}
Tuoi Tuổi của khách hàng {0…N} Trị số liên tục
Lai Lãi xuất vay (đơn vị %) {0…N}
ThoiHan Thời hạn vay (đơn vị Tháng) {12, 24, 36, 48, 60, 72, 84,
96}
TraGoc Lịch trả nợ gốc {Hang thang, Cuoi ky}
TraLai Lịch trả lãi {Hang nam, Hang thang}
UyTin Uy tín vay của khách hàng trong
những lần vay trước
{Chua, Co, Khong}
SL_VayTruoc Số lần khách hàng vay trước đây {0, 1, 2, 3, 4, 5}
HonNhan Tình trạng hôn nhân của khách
hàng
{Doc than, Ket hon, Ly hon}
SoNguoiPT Số người sống phụ thuộc vào
khách hàng
{0, 1, 2, 3, 4, 5}
DamBaoNo Tỉ lệ đảm bảo nợ vay (giá trị vay
so với tài sản đảm bảo)
{>=1, <1}
ThuNhap Mức độ ổn định thu nhập của
khách hàng
{On dinh, Tuong doi, Khong
on dinh}
Thuộc
tính
điều
kiện
Hạng
mục
KhaNangTra Khả năng trả nợ của khách hàng,
được tính = Thời hạn vay*Thu
nhập ròng hằng tháng + tài sản
khác)/(Tiền vay + lãi 1 tháng*thời
hạn vay).
{>=1, <1}
Thuộc
tính
quyết
định
ChoVay Thông tin khách hàng được cho
vay hay không
{Co, Khong}
Bảng 4.2. Các thuộc tính của dữ liệu BankLoan
53
Với nguồn dữ liệu cho vay thế chấp trong ngân hàng (BankLoan), tri thức
mà ứng dụng muốn khai phá chính là dự đoán khả năng khách hàng có thể
được ngân hàng chấp nhận cho vay tiền hay không dựa trên một số thông tin từ
khách hàng. Nguồn dữ liệu BankLoan gồm 14 thuộc tính và 1323 dòng dữ liệu,
trong đó có 13 thuộc tính điều kiện (3 thuộc tính có giá trị số liên tục, 10 thuộc
tính có giá trị hạng mục) và 1 thuộc tính quyết định. Danh sách các thuộc tính
được trình bày trong Bảng 5.1.
Trọng số của các thuộc tính điều kiện của BankLoan được trình bày trong
Bảng 5.2.
Stt Thuộc tính điều kiện Trọng số
1 Tien 7
2 Lai 3
3 ThoiHan 3
4 TraGoc 1
5 TraLai 1
6 UyTin 7
7 SL_VayTruoc 4
8 Tuoi 7
9 HonNhan 4
10 SoNguoiPT 4
11 DamBaoNo 8
12 ThuNhap 8
13 KhaNangTra 8
Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan
Trong [9], độ đo ERIM được định nghĩa dựa trên các trọng số của các thuộc
tính, và các trọng số này được xác định phụ thuộc vào khái niệm cấp bậc
(Concept Hierarchy), những thuộc tính thuộc cùng cấp bậc có trọng số bằng
nhau và bằng trọng số của cấp bậc đó. Tuy nhiên ở ứng dụng này luận văn
không xây dựng khái niệm cấp bậc vì nguồn dữ liệu BankLoan có khá ít thuộc
tính và nếu chia theo cấp bậc thì số cấp bậc cũng gần bằng số thuộc tính.
54
4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG
Ứng dụng luận văn xây dựng theo mô hình trong Hình.5.1. Trước tiên là
giai đoạn Tiền xử lý sẽ xử lý dữ liệu trống và không nhất quán, sau đó chia
ngẫu nhiên dữ liệu làm 10 phần và sử dụng phương pháp kiểm tra chéo trên 10
phần dữ liệu này (mỗi lần dùng 9 phần dùng để training và 1 phần dùng để
testing). Vì nguồn dữ liệu BankLoan có 3 thuộc tính là trị số liên tục nên phải
tiến hành rời rạc hóa dữ liệu training trước khi phát sinh luật. Kết quả của giai
đoạn Phát sinh luật là tập luật kết hợp (với ngưỡng minSup và minConf) sau
khi đã loại bỏ đi các luật dư thừa. Từ tập luật thu được, tính toán giá trị các độ
đo cho từng luật và lần lượt xây dựng các phân lớp ứng với từng độ đo. Giai
đoạn cuối cùng là dùng dữ liệu test để kiểm tra hiệu quả của các phân lớp đã
được xây dựng dựa vào kết quả test chính xác, độ đo nào có kết quả test chính
xác cao hơn chứng tỏ khả năng đánh giá luật của độ đo đó tốt hơn.
Tiền xử lý
Tập luật
Hình 4.1. Mô hình xây dựng ứng dụng
Chia dữ liệu
Dữ liệu
test
Rời rạc hóa
Phát sinh luật
Xây dựng phân lớp
Kết quả test
chính xác
Tính toán giá trị các độ đo
cho từng luật
Test
Dữ liệu
training
Dữ liệu gốc
55
4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO
4.3.1. Sử dụng nguồn “Nursery”
Sử dụng nguồn dữ liệu Nursery để so sánh khả năng đánh giá luật giữa các
độ đo: WAERIM, AIERIM với RIM, ERIM và với các độ đo hữu ích (ở đây
luận văn chọn 3 độ đo hữu ích là Jaccard, Support và Confidence). Với ngưỡng
hỗ trợ minSup=1.5% và ngưỡng tin cậy minConf=60% ta thu được tập luật từ
nguồn training với số lượng trung bình trong 10 lần test là 145 luật, số lượng
rút gọn trung bình phát sinh từ nguồn traning là 1 rút gọn, và số lượng luật
được chọn để xây dựng phân lớp trong mỗi lần test dựa vào giá trị của độ đo
AIERIM (cụ thể là độ đo AIERIM≥95%).
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm
độ chính xác và số lượng luật được chọn để xây dựng phân lớp), Hình 4.2 biểu
diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo.
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
c
hí
n
h
x
ác
AIERIM
RIM
ERIM
AWERIM
Jaccard
Support
Confidence
Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery
Nhận xét:
- Dựa vào biểu đồ nhận thấy rằng với số rút gọn phát sinh từ nguồn training
là 1, thì việc sử dụng độ đo RIM để đánh giá luật cho kết quả test chính
xác không cao.
WA I
56
- Với nguồn Nursery các thuộc tính điều kiện đều có trọng số bằng nhau,
nên sử dụng độ đo ERIM và WAERIM đều không cho kết quả tốt hơn
RIM.
- Độ đo AIERIM lại cho kết quả test chính xác khá cao, tuy thấp hơn độ đo
Confidence nhưng cao hơn hẳn Support và Jaccard.
4.3.2. Sử dụng nguồn “BankLoan”
Nguồn dữ liệu BankLoan được sử dụng để so sánh khả năng đánh giá luật
giữa các độ đo trong 2 trường hợp: trường hợp thứ nhất số lượng luật được
chọn để xây dựng phân lớp là 20 luật, trường hợp thứ hai là 40 luật.
Với ngưỡng hỗ trợ minSup=0.5% và ngưỡng tin cậy minConf=70% ta thu
được tập luật từ nguồn training với số lượng trung bình trong 10 lần test là 240
luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 4 rút gọn.
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình
4.3 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng
độ đo trong trường hợp 1. Bảng 4.6 trình bày kết quả của 10 lần thử nghiệm
trong trường hợp 2, Hình 4.4 biểu diễn bằng hình vẽ độ chính xác trung bình
trong 10 lần test theo từng độ đo trong trường hợp 2.
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
c
hí
n
h
x
ác
RIM
ERIM
AWERIM
AIERIM
Lift
Support
Confidence
Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1)
WAE I
57
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
90.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
ch
ín
h
xá
c
RIM
ERIM
AWERIM
AIERIM
Lift
Support
Confidence
Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2)
Nhận xét:
- Từ 2 biểu đồ trong 2 trường hợp, ta nhận thấy độ đo WAERIM đều cho
kết quả test tốt hơn các độ đo RIM, ERIM, AIERIM.
- Độ đo ERIM được đề xuất để cải tiến độ đo RIM nhưng chưa hẳn cho kết
quả tốt hơn RIM
- Hầu như trong 10 lần test, AIERIM cho kết quả tốt hơn RIM và ERIM.
- So với độ đo Lift, độ đo WAERIM và AIERIM cho kết quả tốt hơn hẳn.
- So với độ đo Confidence, trong một số trường hợp độ đo WAERIM và
AIERIM cho kết quả tốt hơn và ngược lại.
- Tuy so với độ đo Support, độ đo WAERIM và AIERIM không cho kết
quả tốt hơn nhưng sự chênh lệch giữa các kết quả test là không đáng kể.
4.3.3. Kết luận
Như vậy, bằng ứng dụng thực tế luận văn đã chứng minh khả năng đánh giá
luật của các độ đo mà luận văn đề xuất(WAERIM, AIERIM) so với các độ đo
Jiye Li đề xuất và so với các độ đo hữu ích trong các trường hợp cụ thể.
WAERIM
58
Mặc dù không có độ đo nào cho kết quả tốt nhất trong các trường hợp, 2 độ
đo WAERIM và AIERIM không phải là sự chọn lựa tối ưu nhưng dù sao các
kết quả cũng đã chứng tỏ rằng khả năng đánh giá luật của 2 độ đo WAERIM và
AIERIM có thể chấp nhận được.
59
Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình
AIERIM≥95% 78.4%(50) 82%(66) 83.6%(51) 82.6%(61) 84.8%(55) 84%(60) 82.2%(53) 84.1%(58) 84.5%(54) 81.6%(57) 82.8%(56.5)
RIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5)
ERIM 28.7%(50) 39.2%(66) 28.4%(51) 32.3%(61) 24.9%(55) 34.4%(60) 28.5%(53) 29.9%(58) 30.2%(54) 32.3%(57) 30.1%(56.5)
WAERIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5)
Jaccard 73.8%(50) 79.2%(66) 76.9%(51) 76.2%(61) 77.9%(55) 78.5%(60) 75.5%(53) 76.8%(58) 77.6%(54) 77.3%(57) 76.9%(56.5)
Support 73.1%(50) 78.6%(66) 76.5%(51) 76.3%(61) 78%(55) 78.2%(60) 75.3%(53) 76.6%(58) 76.4%(54) 75.9%(57) 76.5%(56.5)
1
Confidence 87.3%(50) 90.4%(66) 91.4%(51) 90.2%(61) 87.2%(55) 90.4%(60) 89.2%(53) 89%(58) 90%(54) 90.9%(57) 89.6%(56.5)
AIERIM≥95% 77.3%(60) 83.7%(59) 81.1%(63) 79.1%(59) 79.2%(56) 80.3%(55) 84.3%(62) 81.6%(64) 84.2%(54) 84.2%(53) 81.5%(59.2)
RIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2)
ERIM 38.7%(60) 31.6%(59) 31.7%(63) 32.5%(59) 30.3%(56) 32.9%(55) 34.6%(62) 35.2%(64) 28.9%(54) 32.9%(53) 32.9%(59.2)
WAERIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2)
Jaccard 76.2%(60) 76.3%(59) 77.6%(63) 76.2%(59) 76.4%(56) 75.7%(55) 80.9%(62) 79%(64) 75.5%(54) 75.2%(53) 76.9%(59.2)
Support 75.8%(60) 76.6%(59) 77.2%(63) 76.3%(59) 76.2%(56) 75.5%(55) 90.4%(62) 78.3%(64) 75.5%(54) 75%(53) 77.7%(59.2)
2
Confidence 88.3%(60) 89.8%(59) 90%(63) 89%(59) 89.1%(56) 90.3%(55) 81.7%(62) 89%(64) 88.9%(54) 89.5%(53) 88.6%(59.2)
AIERIM≥95% 82.9%(56) 82.9%(55) 83.2%(57) 83.8%(61) 81.3%(58) 82.4%(58) 82.9%(60) 83.1%(57) 83%(58) 83%(54) 82.9%(57.4)
RIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4)
ERIM 28.9%(56) 29.1%(55) 31.8%(57) 32.5%(61) 31.2%(58) 32%(58) 34.4%(60) 31.4%(57) 32.7%(58) 29.6%(54) 31.4%(57.4)
WAERIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4)
Jaccard 76.9%(56) 76.9%(55) 76.2%(57) 77%(61) 76.2%(58) 75.2%(58) 77.4%(60) 78.1%(57) 78.3%(58) 78.4%(54) 77.1%(57.4)
Support 76.8%(56) 77.1%(55) 75.9%(57) 76.6%(61) 76.2%(58) 75.8%(58) 76.6%(60) 78%(57) 77.9%(58) 77.8%(54) 76.9%(57.4)
3
Confidence 88.7%(56) 89.1%(55) 90%(57) 90.2%(61) 89%(58) 89.8%(58) 90.4%(60) 90.6%(57) 91%(58) 90.5%(54) 89.9%(57.4)
AIERIM≥95% 83.3%(61) 84%(63) 82.8%(60) 49.6%(68) 84%(60) 83.2%(60) 83.3%(55) 82.5%(57) 82.6%(58) 83.3%(54) 79.9%(59.6)
RIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6)
ERIM 34.7%(61) 35.6%(63) 31.5%(60) 34.8%(68) 32.4%(60) 34.6%(60) 30.9%(55) 30.8%(57) 30.3%(58) 31%(54) 35.7%(59.6)
WAERIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6)
Jaccard 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6)
Support 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6)
4
Confidence 90%(61) 90.6%(63) 89.7%(60) 89.9%(68) 90.4%(60) 90.2%(60) 91.3%(55) 90.1%(57) 90.9%(58) 90.6%(54) 77%(59.6)
AIERIM≥95% 83.2%(54) 83.3%(56) 80.9%(57) 84.6%(66) 81.9%(53) 83%(58) 80.3%(60) 80.9%(57) 84%(61) 82.3%(52) 82.4%(57.4)
RIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4)
ERIM 29.6%(54) 31%(56) 30%(57) 37.7%(66) 29.5%(53) 30.6%(58) 32.6%(60) 29.9%(57) 32.6%(61) 28.5%(52) 32.8%(57.4)
WAERIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4)
Jaccard 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4)
Support 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4)
5
Confidence 87.2%(54) 87%(56) 90.5%(57) 89.8%(66) 90.7%(53) 90.9%(58) 89.2%(60) 89.3%(57) 90.3%(61) 88.4%(52) 76.4%(57.4)
60
AIERIM≥95% 82.8%(57) 82.6%(60) 82.6%(56) 82.3%(57) 84%(58) 82%(56) 82.9%(66) 83.8%(53) 84.3%(52) 83.4%(59) 83.1%(57.4)
RIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4)
ERIM 28.6%(57) 32.8%(60) 27.4%(56) 30.1%(57) 32.5%(58) 32.3%(56) 38.3%(66) 32.2%(53) 28%(52) 29.7%(59) 31.2%(57.4)
WAERIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4)
Jaccard 78.9%(57) 78.7%(60) 76.9%(56) 76.8%(57) 76.5%(58) 76.9%(56) 79.2%(66) 76.2%(53) 76.8%(52) 77.6%(59) 77.5%(57.4)
Support 77.9%(57) 78.7%(60) 76.9%(56) 76%(57) 76%(58) 76.4%(56) 78%(66) 76.3%(53) 76.3%(52) 77.5%(59) 77%(57.4)
6
Confidence 90.7%(57) 90.4%(60) 88.7%(56) 91%(57) 89.5%(58) 90.5%(56) 90.4%(66) 89.7%(53) 88.3%(52) 88.2%(59) 89.7%(57.4)
AIERIM≥95% 83.4%(52) 82.6%(57) 81.8%(54) 83.3%(62) 83%(61) 83.5%(58) 83.8%(63) 84.7%(58) 83.5%(60) 82.5%(60) 83.2%(58.5)
RIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5)
ERIM 29.4%(52) 32.2%(57) 30.3%(54) 35.4%(62) 33.5%(61) 30.7%(58) 36.1%(63) 30.6%(58) 34.9%(60) 31.6%(60) 32.5%(58.5)
WAERIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5)
Jaccard 76.2%(52) 76.8%(57) 75.9%(54) 77%(62) 77.9%(61) 77%(58) 78.7%(63) 77.9%(58) 77%(60) 77.4%(60) 77.2%(58.5)
Support 76%(52) 76.5%(57) 75.8%(54) 76.4%(62) 77.8%(61) 76.9%(58) 77.6%(63) 77.5%(58) 76.9%(60) 76.9%(60) 76.8%(58.5)
7
Confidence 89.4%(52) 89.5%(57) 89.4%(54) 90.2%(62) 90.1%(61) 89.4%(58) 89.5%(63) 90.2%(58) 89.7%(60) 89.9%(60) 89.7%(58.5)
AIERIM≥95% 82.5%(56) 81.8%(63) 84.4%(52) 84.8%(61) 79.5%(56) 81.8%(61) 83.2%(53) 82.5%(54) 82.9%(51) 82.9%(53) 82.6%(56)
RIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56)
ERIM 27.3%(56) 36%(63) 28.1%(52) 32.7%(61) 30.3%(56) 32.5%(61) 32.9%(53) 30.2%(54) 29.1%(51) 38.5%(53) 31.8%(56)
WAERIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56)
Jaccard 75.9%(56) 78.1%(63) 76.8%(52) 77.1%(61) 76.4%(56) 77.1%(61) 75.2%(53) 77.7%(54) 76.9%(51) 76.2%(53) 76.7%(56)
Support 75.9%(56) 77.2%(63) 76.3%(52) 76.6%(61) 76.2%(56) 76.6%(61) 75.2%(53) 76.4%(54) 77.1%(51) 75.8%(53) 76.3%(56)
8
Confidence 87.7%(56) 89.4%(63) 88.2%(52) 90.3%(61) 89.1%(56) 90.2%(61) 89.5%(53) 90.4%(54) 89.1%(51) 90.5%(53) 89.4%(56)
AIERIM≥95% 81.5%(58) 80.4%(57) 82.8%(61) 82.5%(53) 84.8%(66) 81.8%(55) 84.3%(58) 78.1%(50) 81.9%(57) 82.1%(59) 82%(57.4)
RIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4)
ERIM 31.2%(58) 30.2%(57) 31.5%(61) 28.5%(53) 39.7%(66) 34.9%(55) 29.9%(58) 28.7%(50) 30.5%(57) 28.5%(59) 31.4%(57.4)
WAERIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4)
Jaccard 76.5%(58) 78.6%(57) 77.2%(61) 76.3%(53) 78.5%(66) 77.9%(55) 76.8%(58) 73.1%(50) 78.5%(57) 75.7%(59) 76.9%(57.4)
Support 76.5%(58) 79%(57) 75.6%(61) 76%(53) 78.5%(66) 78%(55) 76.6%(58) 73.1%(50) 78.1%(57) 75.3%(59) 76.7%(57.4)
9
Confidence 89.5%(58) 90.5%(57) 88.7%(61) 88.4%(53) 89.8%(66) 87.8%(55) 89.8%(58) 87.3%(50) 90%(57) 89.6%(59) 89.1%(57.4)
AIERIM≥95% 83%(60) 82.5%(63) 83.1%(58) 77.3%(51) 81.5%(54) 83.1%(62) 82.6%(57) 81.5%(56) 83.6%(60) 82.2%(55) 82.2%(57.6)
RIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6)
ERIM 34.4%(60) 39.2%(63) 30.6%(58) 31.2%(51) 30.3%(54) 35.4%(62) 32.3%(57) 37.3%(56) 32.8%(60) 29.9%(55) 33.3%(57.6)
WAERIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6)
Jaccard 78.8%(60) 79.2%(63) 76.2%(58) 74.2%(51) 74.9%(54) 77%(62) 78.3%(57) 75.3%(56) 78.7%(60) 76.9%(55) 77%(57.6)
Support 78.2%(60) 78.5%(63) 75.7%(58) 74.2%(51) 74.8%(54) 76.4%(62) 78.9%(57) 75.3%(56) 78.7%(60) 77.1%(55) 76.8%(57.6)
10
Confidence 90.1%(60) 91.4%(63) 90.5%(58) 85%(51) 89.6%(54) 89.2%(62) 92.9%(57) 87.9%(56) 90.7%(60) 89.3%(55) 89.7%(57.6)
Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery
61
Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình
RIM 67.2%(20) 63.6%(20) 74.6%(20) 69.5%(20) 69.5%(20) 71.8%(20) 71.2%(20) 66.9%(20) 66.9%(20) 68.8%(20) 69%(20)
ERIM 48.9%(20) 36.4%(20) 44.4%(20) 46.1%(20) 39.7%(20) 53.4%(20) 50.8%(20) 50%(20) 46.9%(20) 52%(20) 46.9%(20)
WAERIM 83.2%(20) 86%(20) 83.3%(20) 81.2%(20) 80.2%(20) 83.2%(20) 84.1%(20) 85.4%(20) 84.6%(20) 82.4%(20) 83.4%(20)
AIERIM 74%(20) 65.9%(20) 72.2%(20) 76.6%(20) 64.9%(20) 64.9%(20) 76.5%(20) 73.1%(20) 72.3%(20) 75.2%(20) 71.6%(20)
Lift 49.3%(20) 55.1%(20) 67.2%(20) 75.8%(20) 66.3%(20) 55.3%(20) 50.4%(20) 58.1%(20) 65%(20) 62.3%(20) 60.5%(20)
Support 81.7%(20) 85.3%(20) 87.3%(20) 85.2%(20) 82.4%(20) 86.3%(20) 83.3%(20) 83.1%(20) 84.6%(20) 83.2%(20) 84.2%(20)
1
Confidence 60.3%(20) 57.4%(20) 55.6%(20) 68%(20) 63.4%(20) 59.5%(20) 62.1%(20) 57.7%(20) 58.5%(20) 58.4%(20) 60.1%(20)
RIM 68.2%(20) 73.8%(20) 69%(20) 68.5%(20) 70.5%(20) 64.8%(20) 77.1%(20) 65.6%(20) 64.3%(20) 69.4%(20) 69.1%(20)
ERIM 44.7%(20) 51.5%(20) 42.6%(20) 49.2%(20) 55.3%(20) 50.8%(20) 49.6%(20) 48.4%(20) 48.1%(20) 48.4%(20) 48.9%(20)
WAERIM 86.4%(20) 77.7%(20) 82.2%(20) 87.7%(20) 84.8%(20) 82.8%(20) 82.4%(20) 87.5%(20) 83.7%(20) 80.6%(20) 83.6%(20)
AIERIM 68.9%(20) 67.7%(20) 69.8%(20) 73.1%(20) 71.2%(20) 68.8%(20) 72.5%(20) 75%(20) 72.9%(20) 75%(20) 71.5%(20)
Lift 68.4%(20) 43.7%(20) 45.2%(20) 70.3%(20) 53.9%(20) 51.5%(20) 69.7%(20) 58.9%(20) 54.6%(20) 59.2%(20) 57.5%(20)
Support 84.8%(20) 79.2%(20) 83.7%(20) 87.7%(20) 86.4%(20) 82.8%(20) 84%(20) 86.7%(20) 83.7%(20) 83.1%(20) 84.2%(20)
2
Confidence 53.8%(20) 59.2%(20) 63.6%(20) 58.5%(20) 62.9%(20) 56.2%(20) 58%(20) 64.8%(20) 60.5%(20) 62.1%(20) 60%(20)
RIM 65.6%(20) 67.9%(20) 71%(20) 70.5%(20) 68.7%(20) 70.3%(20) 68.9%(20) 62.3%(20) 75.4%(20) 67.8%(20) 68.8%(20)
ERIM 48.1%(20) 43.5%(20) 48.1%(20) 44.7%(20) 51.9%(20) 40.6%(20) 49.2%(20) 49.2%(20) 44.4%(20) 43%(20) 46.3%(20)
WAERIM 84.7%(20) 84%(20) 81.7%(20) 84.8%(20) 84.7%(20) 80.5%(20) 84.1%(20) 87.7%(20) 77.8%(20) 83.5%(20) 83.4%(20)
AIERIM 74.8%(20) 74%(20) 73.3%(20) 68.2%(20) 76.3%(20) 70.3%(20) 73.5%(20) 76.2%(20) 67.5%(20) 64.5%(20) 71.9%(20)
Lift 61.5%(20) 64.5%(20) 68%(20) 67%(20) 55.2%(20) 54.6%(20) 65.4%(20) 63.6%(20) 52.7%(20) 49.8%(20) 60.2%(20)
Support 84%(20) 86.3%(20) 81.7%(20) 83.3%(20) 88.5%(20) 79.7%(20) 88.6%(20) 87.7%(20) 80.2%(20) 81.8%(20) 84.2%(20)
3
Confidence 60.3%(20) 58%(20) 58%(20) 59.8%(20) 61.1%(20) 64.1%(20) 62.1%(20) 57.7%(20) 63.5%(20) 56.2%(20) 60.1%(20)
RIM 57.7%(20) 74.6%(20) 68.8%(20) 69.7%(20) 71.3%(20) 64.4%(20) 58.6%(20) 74.2%(20) 56.5%(20) 68.6%(20) 66.4%(20)
ERIM 46.2%(20) 25.4%(20) 70.3%(20) 81.1%(20) 35.7%(20) 81.8%(20) 28.1%(20) 57.6%(20) 19.8%(20) 46.3%(20) 49.2%(20)
WAERIM 57.7%(20) 79.2%(20) 73.4%(20) 81.1%(20) 69.8%(20) 80.3%(20) 77.3%(20) 78%(20) 80.2%(20) 76.9%(20) 75.4%(20)
AIERIM 83.1%(20) 56.2%(20) 73.4%(20) 78%(20) 48.8%(20) 83.3%(20) 55.5%(20) 76.5%(20) 62.6%(20) 64.5%(20) 68.2%(20)
Lift 83.8%(20) 54.6%(20) 53.1%(20) 75%(20) 35.7%(20) 73.5%(20) 40.6%(20) 40.9%(20) 77.9%(20) 64.5%(20) 60%(20)
Support 87.7%(20) 83.1%(20) 84.4%(20) 78%(20) 79.8%(20) 68.9%(20) 73.4%(20) 79.5%(20) 86.3%(20) 81.8%(20) 80.3%(20)
4
Confidence 61.5%(20) 65.4%(20) 40.6%(20) 67.4%(20) 41.1%(20) 72%(20) 60.2%(20) 46.2%(20) 68.7%(20) 47.1%(20) 57%(20)
RIM 72.5%(20) 69.2%(20) 72.9%(20) 57.3%(20) 62%(20) 63.4%(20) 65.6%(20) 66.4%(20) 64.7%(20) 82.3%(20) 67.6%(20)
ERIM 81.7%(20) 63.1%(20) 31%(20) 70.2%(20) 26.4%(20) 65.6%(20) 35.9%(20) 27.3%(20) 31.6%(20) 83.9%(20) 51.7%(20)
WAERIM 85.5%(20) 79.2%(20) 82.9%(20) 74.8%(20) 77.5%(20) 63.4%(20) 65.6%(20) 73.4%(20) 70.7%(20) 84.7%(20) 75.8%(20)
AIERIM 83.2%(20) 73.1%(20) 53.5%(20) 73.3%(20) 50.4%(20) 79.4%(20) 60.3%(20) 59.4%(20) 58.6%(20) 86.3%(20) 67.8%(20)
Lift 51.1%(20) 50.8%(20) 49.6%(20) 67.2%(20) 62%(20) 69.5%(20) 76.3%(20) 61.7%(20) 50.4%(20) 52.4%(20) 59.1%(20)
Support 89.3%(20) 80.8%(20) 85.3%(20) 84%(20) 81.4%(20) 88.5%(20) 89.3%(20) 86.7%(20) 85.7%(20) 79.8%(20) 85.1%(20)
5
Confidence 58%(20) 57.7%(20) 56.6%(20) 53.4%(20) 61.2%(20) 56.5%(20) 55%(20) 62.5%(20) 50.4%(20) 58.1%(20) 56.9%(20)
62
RIM 60.5%(20) 54%(20) 34.4%(20) 69.5%(20) 62%(20) 66.9%(20) 65.6%(20) 81.4%(20) 65.9%(20) 62.4%(20) 62.3%(20)
ERIM 40.3%(20) 20.6%(20) 16.8%(20) 75.6%(20) 33.3%(20) 34.6%(20) 80.2%(20) 77.5%(20) 32.6%(20) 24.8%(20) 43.6%(20)
WAERIM 80.6%(20) 70.6%(20) 63.4%(20) 76.3%(20) 81.4%(20) 76.9%(20) 77.9%(20) 76.7%(20) 75%(20) 76.8%(20) 75.6%(20)
AIERIM 62%(20) 57.9%(20) 29.8%(20) 83.2%(20) 64.3%(20) 64.1%(20) 80.2%(20) 85.3%(20) 56.8%(20) 58.4%(20) 64.2%(20)
Lift 48.1%(20) 44.4%(20) 54.2%(20) 65.6%(20) 69%(20) 67.7%(20) 75.6%(20) 43.4%(20) 51.5%(20) 53.6%(20) 57.3%(20)
Support 82.9%(20) 81.7%(20) 80.9%(20) 78.6%(20) 86%(20) 80%(20) 87%(20) 85.3%(20) 86.4%(20) 84%(20) 83.3%(20)
6
Confidence 51.2%(20) 56.3%(20) 58.8%(20) 53.4%(20) 58.1%(20) 53.8%(20) 63.4%(20) 51.9%(20) 52.3%(20) 54.4%(20) 55.4%(20)
RIM 68.2%(20) 63.4%(20) 82.7%(20) 63.2%(20) 59.1%(20) 63.1%(20) 64.3%(20) 35.7%(20) 68.5%(20) 65.9%(20) 63.4%(20)
ERIM 48.8%(20) 21.4%(20) 80.3%(20) 24.1%(20) 23.5%(20) 26.9%(20) 22.5%(20) 17.5%(20) 30.8%(20) 43.7%(20) 34%(20)
WAERIM 68.2%(20) 77.9%(20) 81.9%(20) 71.4%(20) 78%(20) 77.7%(20) 74.4%(20) 65.1%(20) 73.1%(20) 78.6%(20) 74.6%(20)
AIERIM 74.4%(20) 48.9%(20) 79.5%(20) 54.1%(20) 55.3%(20) 30%(20) 55%(20) 23%(20) 56.2%(20) 61.1%(20) 53.8%(20)
Lift 55%(20) 45.8%(20) 53.5%(20) 60.9%(20) 63.6%(20) 68.5%(20) 55%(20) 61.1%(20) 48.5%(20) 67.5%(20) 57.9%(20)
Support 89.1%(20) 85.5%(20) 84.3%(20) 78.9%(20) 82.6%(20) 81.5%(20) 82.2%(20) 81.7%(20) 82.3%(20) 84.1%(20) 83.2%(20)
7
Confidence 55%(20) 51.9%(20) 56.7%(20) 61.7%(20) 51.5%(20) 53.8%(20) 65.1%(20) 54.8%(20) 55.4%(20) 52.4%(20) 55.8%(20)
RIM 68.7%(20) 69.5%(20) 57.9%(20) 64.9%(20) 67.4%(20) 57.7%(20) 62.3%(20) 60.6%(20) 63.6%(20) 61.3%(20) 63.4%(20)
ERIM 35.9%(20) 37.4%(20) 26.2%(20) 61.8%(20) 51.2%(20) 24.6%(20) 58.5%(20) 22%(20) 29.5%(20) 29%(20) 37.6%(20)
WAERIM 68.7%(20) 79.4%(20) 75.4%(20) 74%(20) 78.3%(20) 73.1%(20) 73.8%(20) 75.8%(20) 79.1%(20) 77.4%(20) 75.5%(20)
AIERIM 68.7%(20) 61.8%(20) 57.9%(20) 75.6%(20) 66.7%(20) 58.5%(20) 70%(20) 25%(20) 56.6%(20) 62.1%(20) 60.3%(20)
Lift 49.6%(20) 67.2%(20) 43.7%(20) 70.2%(20) 51.9%(20) 50.8%(20) 45.4%(20) 50%(20) 62%(20) 66.9%(20) 55.8%(20)
Support 81.7%(20) 86.3%(20) 81%(20) 87%(20) 75.2%(20) 85.4%(20) 84.6%(20) 81.1%(20) 83.7%(20) 83.9%(20) 83%(20)
8
Confidence 59.5%(20) 58.8%(20) 51.6%(20) 59.5%(20) 54.3%(20) 53.8%(20) 55.4%(20) 50%(20) 79.8%(20) 65.3%(20) 58.8%(20)
RIM 34.3%(20) 64.4%(20) 64.1%(20) 74.5%(20) 75.2%(20) 75.7%(20) 69.6%(20) 67.8%(20) 69.2%(20) 62.6%(20) 65.7%(20)
ERIM 16.8%(20) 81.8%(20) 48.1%(20) 44.4%(20) 57.6%(20) 44.4%(20) 46.2%(20) 43.4%(20) 39.7%(20) 36.4%(20) 45.9%(20)
WAERIM 63.4%(20) 80.3%(20) 83.7%(20) 84.3%(20) 78.5%(20) 77.8%(20) 81.2%(20) 84%(20) 80.4%(20) 86%(20) 80%(20)
AIERIM 29.5%(20) 83.3%(20) 72.8%(20) 72.2%(20) 76.5%(20) 67.5%(20) 76.6%(20) 74%(20) 64.9%(20) 65.9%(20) 68.3%(20)
Lift 54.2%(20) 73.5%(20) 54.6%(20) 67.2%(20) 40.9%(20) 52.8%(20) 75.8%(20) 64.6%(20) 66.3%(20) 55.1%(20) 60.5%(20)
Support 80.7%(20) 72.2%(20) 83.7%(20) 86.3%(20) 79.5%(20) 80.2%(20) 86.2%(20) 86.3%(20) 82.5%(20) 85.4%(20) 82.3%(20)
9
Confidence 58.5%(20) 68.9%(20) 60.7%(20) 57.6%(20) 46.2%(20) 63.1%(20) 68%(20) 58%(20) 63.4%(20) 57.4%(20) 60.2%(20)
RIM 68.9%(20) 69.6%(20) 69.1%(20) 77.2%(20) 74.5%(20) 59.6%(20) 62.2%(20) 68.4%(20) 59.7%(20) 72.4%(20) 68.2%(20)
ERIM 52%(20) 46.1%(20) 42.6%(20) 49.6%(20) 25.4%(20) 28.7%(20) 63.1%(20) 49.8%(20) 23.5%(20) 81.3%(20) 46.2%(20)
WAERIM 82.5%(20) 81.2%(20) 82.2%(20) 82.4%(20) 79.2%(20) 77.3%(20) 79.2%(20) 68.2%(20) 78.7%(20) 85.5%(20) 79.6%(20)
AIERIM 75.2%(20) 76.6%(20) 69.8%(20) 72.5%(20) 56.3%(20) 55.6%(20) 73.1%(20) 74.6%(20) 55.5%(20) 83.2%(20) 69.2%(20)
Lift 62.3%(20) 75.8%(20) 45.2%(20) 69.7%(20) 54.6%(20) 40.6%(20) 50.8%(20) 55%(20) 63.6%(20) 51.1%(20) 56.9%(20)
Support 83.2%(20) 85.3%(20) 83.7%(20) 84.1%(20) 83.1%(20) 73.4%(20) 80.8%(20) 89.1%(20) 82.6%(20) 89.3%(20) 83.5%(20)
10
Confidence 58.6%(20) 68%(20) 63.7%(20) 59.3%(20) 65.6%(20) 60.9%(20) 57.9%(20) 55.3%(20) 51.8%(20) 58.6%(20) 60%(20)
Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1)
63
Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình
RIM 79.4%(40) 84.5%(40) 86.5%(40) 86.7%(40) 80.9%(40) 83.2%(40) 85.6%(40) 81.5%(40) 76.9%(40) 84.8%(40) 83%(40)
ERIM 81.7%(40) 82.9%(40) 81.7%(40) 82.8%(40) 78.6%(40) 79.4%(40) 86.4%(40) 80.8%(40) 82.3%(40) 84.8%(40) 82.1%(40)
WAERIM 83.2%(40) 86%(40) 83.3%(40) 81.2%(40) 80.2%(40) 84%(40) 84.1%(40) 85.4%(40) 84.6%(40) 82.4%(40) 83.4%(40)
AIERIM 80.9%(40) 82.2%(40) 84.1%(40) 84.4%(40) 80.2%(40) 81.7%(40) 86.4%(40) 83.1%(40) 83.1%(40) 84.8%(40) 83.1%(40)
Lift 72.1%(40) 77.3%(40) 65.4%(40) 75.2%(40) 67.8%(40) 78.9%(40) 77.5%(40) 68.9%(40) 79.2%(40) 71%(40) 73.33%(40)
Support 81.7%(40) 85.3%(40) 87.3%(40) 85.2%(40) 82.4%(40) 86.3%(40) 83.3%(40) 83.1%(40) 84.6%(40) 83.2%(40) 84.2%(40)
1
Confidence 85.5%(40) 85.3%(40) 90.5%(40) 89.8%(40) 85.5%(40) 87%(40) 89.4%(40) 86.9%(40) 84.6%(40) 85.6%(40) 87%(40)
RIM 80.3%(40) 83.8%(40) 79.8%(40) 80.8%(40) 84.1%(40) 82.8%(40) 89.3%(40) 84.4%(40) 80.6%(40) 83.9%(40) 83%(40)
ERIM 83.3%(40) 79.2%(40) 81.4%(40) 86.9%(40) 87.1%(40) 82%(40) 81.7%(40) 85.9%(40) 81.4%(40) 80.6%(40) 83%(40)
WAERIM 86.4%(40) 81.5%(40) 82.2%(40) 87.7%(40) 86.4%(40) 84.4%(40) 82.4%(40) 87.5%(40) 83.7%(40) 80.6%(40) 84.3%(40)
AIERIM 83.3%(40) 80%(40) 82.2%(40) 86.2%(40) 87.9%(40) 83.6%(40) 83.2%(40) 86.7%(40) 83.7%(40) 82.3%(40) 83.9%(40)
Lift 72.8%(40) 67.9%(40) 77.5%(40) 76.2%(40) 70%(40) 70.5%(40) 73.8%(40) 78.2%(40) 77.7%(40) 76.6%(40) 74.12%(40)
Support 84.8%(40) 79.2%(40) 83.7%(40) 87.7%(40) 86.4%(40) 82.8%(40) 84%(40) 86.7%(40) 83.7%(40) 83.1%(40) 84.2%(40)
2
Confidence 85.6%(40) 83.8%(40) 88.4%(40) 83.8%(40) 90.2%(40) 85.2%(40) 84.7%(40) 92.2%(40) 88.4%(40) 87.9%(40) 87%(40)
RIM 77.9%(40) 84.7%(40) 84.7%(40) 81.8%(40) 84%(40) 85.2%(40) 81.8%(40) 80%(40) 85.7%(40) 84.3%(40) 83%(40)
ERIM 82.4%(40) 84.7%(40) 80.9%(40) 81.1%(40) 84.7%(40) 78.1%(40) 85.6%(40) 87.7%(40) 78.6%(40) 78.5%(40) 82.2%(40)
WAERIM 84.7%(40) 84%(40) 81.7%(40) 84.8%(40) 84.7%(40) 80.5%(40) 84.1%(40) 87.7%(40) 77.8%(40) 83.5%(40) 83.4%(40)
AIERIM 84.7%(40) 84.7%(40) 80.9%(40) 84.1%(40) 86.3%(40) 77.3%(40) 87.1%(40) 88.5%(40) 79.4%(40) 78.5%(40) 83.2%(40)
Lift 76.5%(40) 69.9%(40) 71.1%(40) 76.3%(40) 75%(40) 68%(40) 74.5%(40) 72.7%(40) 76.8%(40) 80%(40) 74.08%(40)
Support 84%(40) 86.3%(40) 81.7%(40) 83.3%(40) 88.5%(40) 79.7%(40) 88.6%(40) 87.7%(40) 80.2%(40) 81.8%(40) 84.2%(40)
3
Confidence 87.8%(40) 90.1%(40) 81.7%(40) 87.9%(40) 87%(40) 88.3%(40) 88.6%(40) 86.2%(40) 90.5%(40) 83.5%(40) 87.2%(40)
RIM 81.5%(40) 83.1%(40) 75.8%(40) 75%(40) 82.9%(40) 69.7%(40) 64.1%(40) 87.9%(40) 75.6%(40) 76%(40) 77.2%(40)
ERIM 86.2%(40) 76.9%(40) 77.3%(40) 87.9%(40) 77.5%(40) 85.6%(40) 71.9%(40) 82.6%(40) 81.7%(40) 79.3%(40) 80.7%(40)
WAERIM 81.5%(40) 86.2%(40) 80.5%(40) 88.6%(40) 78.3%(40) 82.6%(40) 81.2%(40) 87.1%(40) 84.7%(40) 82.6%(40) 83.3%(40)
AIERIM 90%(40) 76.2%(40) 80.5%(40) 87.9%(40) 83.7%(40) 84.8%(40) 71.9%(40) 84.1%(40) 87%(40) 79.3%(40) 82.5%(40)
Lift 71.6%(40) 66.9%(40) 75.8%(40) 79.5%(40) 67.4%(40) 78.8%(40) 66.4%(40) 69.7%(40) 78.6%(40) 70.2%(40) 72.6%(40)
Support 80.3%(40) 86.2%(40) 85.2%(40) 78%(40) 79.8%(40) 69.7%(40) 73.4%(40) 79.5%(40) 86.3%(40) 83.5%(40) 80.2%(40)
4
Confidence 72.5%(40) 83.1%(40) 62.5%(40) 79.5%(40) 55.8%(40) 79.5%(40) 67.2%(40) 66.7%(40) 84.7%(40) 76%(40) 72.8%(40)
RIM 81.7%(40) 84.6%(40) 83.7%(40) 71%(40) 70.5%(40) 74.8%(40) 77.1%(40) 80.5%(40) 79.7%(40) 85.5%(40) 78.9%(40)
ERIM 81.7%(40) 79.2%(40) 83.7%(40) 75.6%(40) 78.3%(40) 80.2%(40) 77.9%(40) 77.3%(40) 83.5%(40) 88.7%(40) 80.6%(40)
WAERIM 85.5%(40) 87.7%(40) 87.6%(40) 80.9%(40) 86%(40) 74.8%(40) 77.1%(40) 79.7%(40) 82%(40) 89.5%(40) 83.1%(40)
AIERIM 83.2%(40) 81.5%(40) 83.7%(40) 77.9%(40) 77.5%(40) 86.3%(40) 81.7%(40) 82%(40) 86.5%(40) 91.1%(40) 83.1%(40)
Lift 81.7%(40) 76.2%(40) 83.7%(40) 76.3%(40) 70.5%(40) 82.4%(40) 78.6%(40) 78.1%(40) 78.9%(40) 80.6%(40) 78.7%(40)
Support 87%(40) 80.8%(40) 85.3%(40) 84.7%(40) 82.9%(40) 88.5%(40) 89.3%(40) 89.8%(40) 85.7%(40) 81.5%(40) 85.6%(40)
5
Confidence 82.4%(40) 70%(40) 70.5%(40) 79.4%(40) 86.8%(40) 84.7%(40) 85.5%(40) 83.6%(40) 65.4%(40) 71.8%(40) 78%(40)
64
RIM 68.2%(40) 70.6%(40) 61.1%(40) 76.3%(40) 72.1%(40) 81.5%(40) 80.2%(40) 86%(40) 78%(40) 80.8%(40) 75.5%(40)
ERIM 76%(40) 75.4%(40) 42%(40) 80.2%(40) 76.7%(40) 80.8%(40) 90.8%(40) 82.2%(40) 78.8%(40) 81.6%(40) 76.4%(40)
WAERIM 80.6%(40) 81.7%(40) 77.1%(40) 80.9%(40) 83.7%(40) 86.2%(40) 88.5%(40) 87.6%(40) 84.8%(40) 84%(40) 83.5%(40)
AIERIM 76.7%(40) 76.2%(40) 64.9%(40) 86.3%(40) 76.7%(40) 82.3%(40) 90.8%(40) 89.1%(40) 82.6%(40) 84%(40) 81%(40)
Lift 68.2%(40) 69.8%(40) 74%(40) 80.2%(40) 80.6%(40) 76.2%(40) 80.2%(40) 72.9%(40) 76.5%(40) 80%(40) 75.9%(40)
Support 82.9%(40) 82.5%(40) 80.9%(40) 78.6%(40) 86%(40) 82.3%(40) 87%(40) 85.3%(40) 87.9%(40) 84%(40) 83.7%(40)
6
Confidence 71.3%(40) 73%(40) 69.5%(40) 77.9%(40) 83.7%(40) 83.8%(40) 87%(40) 58.9%(40) 67.4%(40) 84.8%(40) 75.7%(40)
RIM 83.7%(40) 77.9%(40) 87.4%(40) 75.9%(40) 72.7%(40) 68.5%(40) 82.2%(40) 60.3%(40) 83.1%(40) 81%(40) 77.3%(40)
ERIM 86.8%(40) 80.9%(40) 83.5%(40) 78.9%(40) 75.8%(40) 73.1%(40) 86%(40) 38.9%(40) 80.8%(40) 81%(40) 76.6%(40)
WAERIM 83.7%(40) 83.2%(40) 89.8%(40) 82%(40) 82.6%(40) 83.1%(40) 85.3%(40) 73%(40) 83.8%(40) 86.5%(40) 83.3%(40)
AIERIM 92.2%(40) 80.9%(40) 85.8%(40) 82%(40) 80.3%(40) 76.9%(40) 89.1%(40) 67.5%(40) 83.8%(40) 81.7%(40) 82%(40)
Lift 79.1%(40) 73.3%(40) 71.7%(40) 73.7%(40) 72.7%(40) 76.9%(40) 81.4%(40) 78.6%(40) 76.9%(40) 77.8%(40) 76.2%(40)
Support 90.7%(40) 86.3%(40) 85%(40) 79.7%(40) 82.6%(40) 81.5%(40) 82.2%(40) 82.5%(40) 83.1%(40) 84.1%(40) 83.8%(40)
7
Confidence 64.3%(40) 63.4%(40) 73.2%(40) 85%(40) 78%(40) 86.2%(40) 90.7%(40) 86.5%(40) 86.2%(40) 81%(40) 79.4%(40)
RIM 77.9%(40) 83.2%(40) 60.3%(40) 84.7%(40) 82.9%(40) 73.1%(40) 77.7%(40) 74.2%(40) 76%(40) 70.2%(40) 76%(40)
ERIM 65.6%(40) 77.1%(40) 75.4%(40) 83.2%(40) 79.8%(40) 82.3%(40) 77.7%(40) 79.5%(40) 76.7%(40) 81.5%(40) 77.9%(40)
WAERIM 77.9%(40) 82.4%(40) 80.2%(40) 85.5%(40) 85.3%(40) 83.8%(40) 79.2%(40) 82.6%(40) 83.7%(40) 84.7%(40) 82.5%(40)
AIERIM 77.9%(40) 80.2%(40) 77%(40) 87.8%(40) 80.6%(40) 85.4%(40) 79.2%(40) 80.3%(40) 78.3%(40) 82.3%(40) 80.9%(40)
Lift 76.3%(40) 74%(40) 72.2%(40) 75.6%(40) 77.5%(40) 76.2%(40) 73.8%(40) 66.7%(40) 76%(40) 75.8%(40) 74.4%(40)
Support 81.7%(40) 87%(40) 81%(40) 89.3%(40) 76%(40) 85.4%(40) 85.4%(40) 81.1%(40) 84.5%(40) 84.7%(40) 83.6%(40)
8
Confidence 79.4%(40) 81.7%(40) 60.3%(40) 84.7%(40) 67.4%(40) 66.2%(40) 80%(40) 68.2%(40) 88.4%(40) 80.6%(40) 75.7%(40)
RIM 84.7%(40) 85.6%(40) 76.7%(40) 83.4%(40) 80.8%(40) 81.3%(40) 83.8%(40) 81.9%(40) 84.1%(40) 81.6%(40) 82.4%(40)
ERIM 82.9%(40) 86.9%(40) 82.3%(40) 85.9%(40) 86.9%(40) 83.3%(40) 80.9%(40) 85.6%(40) 78.5%(40) 81.7%(40) 83.5%(40)
WAERIM 86%(40) 84.1%(40) 84.6%(40) 87.5%(40) 87.7%(40) 86.4%(40) 81.7%(40) 84.1%(40) 83.5%(40) 85.5%(40) 85.1%(40)
AIERIM 82.2%(40) 86.4%(40) 83.1%(40) 86.6%(40) 86.2%(40) 83.3%(40) 80.9%(40) 87.1%(40) 78.5%(40) 83.2%(40) 83.8%(40)
Lift 77.3%(40) 77.7%(40) 79.2%(40) 78.2%(40) 76.2%(40) 72.8%(40) 71.1%(40) 74.5%(40) 80%(40) 81.6%(40) 76.9%(40)
Support 85.3%(40) 83.3%(40) 84.6%(40) 86.7%(40) 87.7%(40) 84.8%(40) 81.7%(40) 88.6%(40) 81.8%(40) 87%(40) 85.2%(40)
9
Confidence 85.6%(40) 89.4%(40) 84.5%(40) 92.1%(40) 83.8%(40) 85.6%(40) 81.7%(40) 88.6%(40) 83.5%(40) 82.4%(40) 85.7%(40)
RIM 83.5%(40) 80.4%(40) 61.2%(40) 71.7%(40) 77.8%(40) 85.6%(40) 80.7%(40) 60.5%(40) 76.9%(40) 83.7%(40) 76.2%(40)
ERIM 83.5%(40) 77.3%(40) 42%(40) 75.8%(40) 65.6%(40) 88.7%(40) 81.6%(40) 38.8%(40) 78.9%(40) 86.8%(40) 71.9%(40)
WAERIM 87.6%(40) 79.7%(40) 77.1%(40) 82.6%(40) 77.8%(40) 89.5%(40) 84%(40) 73%(40) 82%(40) 83.7%(40) 81.7%(40)
AIERIM 83.5%(40) 82.1%(40) 64.9%(40) 80.3%(40) 77.8%(40) 91.1%(40) 84%(40) 67.5%(40) 82.5%(40) 92.2%(40) 80.6%(40)
Lift 83.5%(40) 78.1%(40) 74%(40) 71.7%(40) 76.3%(40) 80.6%(40) 80%(40) 78.6%(40) 73.7%(40) 79.1%(40) 77.6%(40)
Support 85.3%(40) 89.8%(40) 80.9%(40) 82.6%(40) 81.7%(40) 81.5%(40) 84%(40) 82.5%(40) 79.7%(40) 90.7%(40) 83.9%(40)
10
Confidence 70.5%(40) 83.7%(40) 69.7%(40) 78.5%(40) 79.6%(40) 71.8%(40) 84.7%(40) 86.4%(40) 85%(40) 64.3%(40) 77.4%(40)
Bảng 4.6. Kết quả 10 lần thử nghiệm với BankLoan (trường hợp 2)
65
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận
Luận văn đã giới thiệu một số kỹ thuật đánh giá luật dựa trên lý thuyết tập
thô thông qua 3 độ đo: RIM, RAM, ERIM và đề xuất 2 độ đo mới WAERIM
và AIERIM để giải quyết hạn chế của độ đo ERIM.
Vì các rút gọn chứa các thuộc tính tiêu biểu nên những luật phát sinh từ các
rút gọn là những tri thức tiêu biểu cho toàn bộ CSDL. Ứng với mỗi rút gọn ta
có một tập luật, một luật được xem là quan trọng nếu nó xuất hiện thường
xuyên trong các tập luật, độ đo RIM của một luật chính là tỉ lệ giữa số lượng
các tập luật chứa luật này so với tổng số lượng các tập luật. Độ đo RIM dùng
để đánh giá mức độ quan trọng của một luật và so sánh tầm quan trọng của nó
với các luật khác. Đây là một độ đo khách quan, đơn giản và tính toán khá dễ
dàng.
Độ đo RAM được đề xuất để rút trích những luật quan trọng nhất từ tập luật
dù độ đo này không có một giá trị tượng trưng cụ thể. Bằng cách xem luật như
thuộc tính, độ đo này xây dựng lại bảng quyết định mới và tìm rút gọn của bảng
quyết định mới này, vì rút gọn chứa những thuộc tính tiêu biểu nên các rút gọn
của bảng quyết định mới chính là những luật tiêu biểu nhất cho toàn bộ dữ liệu.
Độ đo ERIM là độ đo chủ quan vì giá trị của độ đo này được tính toán dựa
trên trọng số của các thuộc tính được đánh giá bởi các chuyên gia. Từ tập luật
RIM – tập luật thu được từ độ đo RIM – ta tính toán giá trị ERIM cho từng
luật, những luật có giá trị độ đo RIM và ERIM cao được xem là quan trọng.
Tuy nhiên hạn chế của độ đo ERIM là phụ thuộc vào số lượng các thuộc tính
điều kiện trong luật, do đó luận văn đề xuất độ đo WAERIM như là giải pháp
thay thế ERIM.
Việc sử dụng trọng số của các thuộc tính điều kiện trong quá trình đánh giá
luật giúp người dùng có thể chọn ra những luật thực sự đáng tin cậy vì các
trọng số này chính là ý kiến nhận định của các chuyên gia trong cùng lĩnh vực
(ERIM, WAERIM). Tuy nhiên đối với những ứng dụng không được các
66
chuyên gia đánh giá thì việc đánh giá tầm quan trọng của luật theo độ đo này
mang lại hiệu quả thấp, vì vậy song song với độ đo WAERIM luận văn đề xuất
độ đo AIERIM, độ đo này cũng cải tiến độ đo RIM dựa vào mức độ quan trọng
của các thuộc tính điều kiện. Khác với ERIM và WAERIM, mức độ quan trọng
các thuộc tính điều kiện ở độ đo AIERIM có được từ chính nguồn dữ liệu dùng
để khai phá.
Khả năng đánh giá luật của các độ đo này được chứng minh bằng thử
nghiệm thực tế trên 2 nguồn dữ liệu Nursery và BankLoan. Cũng như các độ đo
hữu ích, các độ đo dựa trên lý thuyết tập thô không phải là sự chọn lựa tốt nhất
cho tất cả các ứng dụng, mỗi độ đo đều có những mặc hạn chế nhất định và
trong một số trường hợp nó không mang lại kết quả như mong đợi.
Hướng phát triển
- Mở rộng kỹ thuật đánh giá luật bằng cách kết hợp các độ đo đã được đề
xuất, chẳng hạn kết hợp WAERIM với Confidence, AIERIM với
Support, hay sử dụng tập luật RIM để xây dựng lại bảng quyết định mới
và tìm các luật quan trọng theo độ đo RAM…
- Tiếp tục tìm hiểu các độ đo khác kết hợp giữa độ đo chủ quan và khách
quan để đưa ra nhiều kỹ thuật đánh giá luật hỗ trợ việc chọn lựa những
tri thức thực sự có ích trong quá trình khai thác dữ liệu.
67
CÔNG TRÌNH NGHIÊN CỨU
1. Tham gia bài báo cùng với tác giả TS. Vũ Thanh Nguyên: “Evaluating
Technologies Based Rough Set Theory”, bài báo vừa nhận được sự chấp
nhận của ICMLC 2010 tại InterContinental Qingdao, Trung Quốc
(International Conference on Machine Learning and Cybernetics 2010).
Hội nghị sẽ diễn ra vào ngày 11-14/7/2010.
68
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Võ Đình Bảy(2005). Một số thuật toán khai thác luật kết hợp trên tập
đóng và dàn. Luận văn Thạc sĩ Công Nghệ Thông Tin – Đại học Khoa
học Tự nhiên TpHCM.
Tiếng Anh
[2] A.Skowron, C.Rauszer(1991). The Discernibility Matrics and Functions
in Information Systems. Handbook of Applications and Advances of the
Rough Sets Thoery, Kluwer, Dordrecht.
[3] A.Ohrn(1999). Discernibility and Rough Sets in Medicine: Tools and
Applications. PhD Thesis, Department of Computer and Information and
Science, Norwegian University of Science and Technology, Trondheim
Norway.
The ROSETTA Homepage,
[4] B.Liu, W.Hsu, Y.Ma(1998). “Integrating Classification and Association
Rule Mining”. In Proceedings of the 4th International Conference on
Knowledge Discovery and Data Mining, NewYork, USA.
[5] C.L.Blake, C.J.Merz. UCI Repository of machine learning databases,
Irvine, CA: University of California (1998):
[6] Jiye Li, Nick Cercone(2005). “Discovering and Ranking Important
Rules”.Granular Computing, IEEE International Conference on Volume 2.
[7] Jiye Li(2007). Rough Set Based Rule Evaluations and Their Applications.
PhD Thesis in Computer Science, presented to the University of
Waterloo.
[8] J.Wroblewski(1995). “Finding Minimal Reducts Using Genetic
Algorithm”. Institute of Mathematics, University of Warsor.
69
[9] Jiye Li, Nick Cercone, W. H . Wong, Lisa Jing Yan(2009). “Enhancing
Rule Importance Measure Using Concept Hierarchy”. Faculty of
Computer Science and Engineering, York University.
[10] N.H. Son(1997), Discretization of Real Value attributes. A Boolean
Reasoning approach. Thesis for Doctor of Philosophy.
[11] P.Tan, V.Kumar, J.Sivastava(2002). “Selecting the Right Interestingness
Measure for Association Patterns”, in SIGKDD’02 ACM.
[12] Z. Pawlak(1991). “Rough Sets – Theoretical Aspects of Reasoning about
Data”. Kluwer Academic Publishers, Dordrecht.
[13] Z.Yingjun, Z.Feixiang, X.Shengwei(2008). “A Rough Set – based
Heuristic Algorithm for Attribute Reduction”. Institute of Traffic
Information Engineering, Dalian Maritime University, Dalian, China.
Các file đính kèm theo tài liệu này:
- Một số kỹ thuật đánh giá luật dựa trên lí thuyết tập thô.pdf