Một số kỹ thuật đánh giá luật dựa trên lí thuyết tập thô

Trang nhan đề Mục lục Danh mục Chương 1: Gioi thiệu Chương 2: Kiến trúc cơ bản Chương 3: Các phương pháp đánh giá luật dựa trên lý thuyết tập thô Chương 4: Xây dựng ứng dụng so sánh kỹ thuật đánh giá luật giữa các độ đo Kết luận và hướng phát triển Tài liệu tham khảo Công trình nghiên cứu

79 trang | Chia sẻ: lvcdongnoi | Lượt xem: 2540 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Một số kỹ thuật đánh giá luật dựa trên lí thuyết tập thô, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Bảng 3.7. Tập luật quan trọng theo độ đo RAM từ nguồn Lenses 3.3.4. Nhận xét giữa hai độ đo RIM và độ đo RAM - Cả hai độ đo đều được ứng dụng để đánh giá luật dựa vào lý thuyết tập thô (cụ thể là dựa trên các rút gọn và lõi). Cả hai thuộc loại độ đo khách quan. - Đầu ra của độ đo RIM là tập các luật được sắp xếp theo thứ tự tầm quan trọng của chúng, mỗi luật có một giá trị RIM cụ thể. Còn đầu ra của độ đo RAM là tập các luật quan trọng, trong đó có thể có một vài luật là quan trọng nhất (luật lõi), các luật không có giá trị RAM cụ thể. 45 - Hạn chế của độ đo RAM là khi rút gọn của bảng quyết định mới tìm được gồm tất cả các thuộc tính điều kiện, có nghĩa tập luật rút gọn chính là tập luật từ dữ liệu gốc, nên tất cả các luật từ dữ liệu gốc theo độ đo RAM đều quan trọng như nhau. 3.4. ĐỘ ĐO TẦM QUAN TRỌNG CẢI TIẾN (Enhanced Rule Importance Measure - ERIM) Nhận xét rằng với độ đo RIM, nếu số lượng các rút gọn càng ít thì số lượng các luật có tầm quan trọng như nhau càng nhiều nên việc sử dụng độ đo RIM để đánh giá luật khó mang lại kết quả khả quan. Để giải quyết hạn chế này độ đo ERIM được đề xuất, đây là độ đo chủ quan được định nghĩa dựa trên trọng số của các thuộc tính điều kiện trong bảng quyết định, các trọng số này được đánh giá bởi các chuyên gia thuộc cùng lĩnh vực. Theo nhận định của các chuyên gia, các thuộc tính có trọng số càng cao thì càng cần thiết nên các luật có trọng số càng lớn càng được xem là quan trọng. 3.4.1. Định nghĩa Định nghĩa 1. Độ đo ERIM của một luật được định nghĩa như sau: ∑ = = in k kii wERIM 1 , Trong đó, ERIMi là độ đo ERIM của luật thứ i (rulei), in là số lượng các thuộc tính điều kiện trong luật rulei và kiw , là trọng số của thuộc tính thứ k của luật rulei. Định nghĩa 2. Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo ERIM lớn hơn thì luật đó được xem là quan trọng hơn. 3.4.2. Quá trình thực hiện Cách tiếp cận theo độ đo ERIM gồm 3 bước như sau: 46 Bước 1: Phát sinh tập luật quan trọng theo độ đo RIM Bước 2: Tính toán giá trị độ đo ERIM cho từng luật trong tập luật thu được ở bước 1. Bước 3: Kết hợp cả hai độ đo RIM và ERIM để đánh giá luật: luật 1r quan trọng hơn luật 2r nếu 21 rr RIMRIM > , nếu độ đo RIM của hai luật này bằng nhau thì luật nào có độ đo ERIM lớn hơn luật đó được xem là quan trọng hơn. 3.4.3. Một ví dụ về độ đo ERIM Với nguồn dữ liệu Car từ UCI gồm 1728 dòng và 7 thuộc tính, áp dụng thuật toán phát sinh tất cả các rút gọn ta chỉ thu được duy nhất 1 rút gọn. Với trọng số của từng thuộc tính được cho trong Bảng 3.8, tính toán giá trị độ đo ERIM cho từng luật từ tập luật quan trọng theo độ đo RIM, kết quả trình bày trong Bảng 3.9. Buying-Price Maint -Price Doors Persons Lug_boot Satefy 10 8 7 7 5 10 Bảng 3.8. Trọng số cho từng thuộc tính điều kiện của nguồn Car Stt Tập luật (minSup=8%, minConf=80%) RIM ERIM 1r Lug_boot = small, Satefy = med →Class = unacc 100% 15=100% 2r Buying-Price = vhigh →Class = unacc 100% 10=66.6% 3r Satefy=low →Class = unacc 100% 10=66.6% 4r Maint-Price = vhigh →Class = unacc 100% 8=53.3% 5r Persons = 2 →Class = unacc 100% 7=46.6% Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car Độ đo ERIM của luật chính là tổng giá trị các trọng số của các thuộc tính điều kiện có trong luật, những luật có độ đo ERIM càng cao càng được xem là quan trọng. Để tiện cho việc so sánh giữa các luật theo độ đo ERIM, thay vì sử dụng giá trị ERIM ta sử dụng phần trăm giá trị ERIM so với giá trị ERIM lớn nhất trong tập luật. Với luật 1r , độ đo ERIM được tính như sau: 47 1rERIM == ∑ = 2 1k kw ( w Lug_boot + w Satefy) = 10+5 = 15 Nhận thấy rằng tuy 5 luật trong Bảng 3.9 không phân biệt được tầm quan trọng dựa vào độ đo RIM nhưng hoàn toàn có thể phân biệt dựa vào độ đo ERIM. 3.4.4. Nhận xét về độ đo ERIM - Độ đo ERIM là một độ đo chủ quan được xây dựng trên độ đo RIM và trọng số của các thuộc tính. Thuận lợi của độ đo này là kết hợp độ đo chủ quan và độ đo khách quan trong quá trình đánh giá luật nên kết quả mà nó đem lại có thể khả quan hơn so với độ đo RIM. - Tuy nhiên, độ đo này phụ thuộc vào yếu tố chính là nhận định đánh giá của các chuyên gia về giá trị tượng trưng cho sự cần thiết của các thuộc tính điều kiện (trọng số). Quá trình này tốn thời gian trong việc thống kê và đôi khi khó thực hiện được. 3.5. ĐỘ ĐO WAERIM (Weight Average Based Enhanced Rule Importance Measure) Xét ví dụ sử dụng độ đo ERIM để đánh giá luật. Giả sử ta có 2 luật: DGFEr DAr → → ,,: : 2 1 Với trọng số của từng thuộc tính điều kiện được cho như sau: 10=Aw , 5=== GFE www Giả sử rằng 2 luật trên có độ đo RIM như nhau, khi đó theo độ đo ERIM luật nào có giá trị ERIM lớn hơn luật đó sẽ quan trọng hơn. Ta có độ đo ERIM của từng luật: 10 1 =rERIM 15 2 =rERIM Với kết quả trên, ta kết luận: r2 quan trọng hơn r1, nhận thấy rằng kết luận này khá phi lý vì từng thuộc tính điều kiện bên vế trái của luật r2 đều có trọng 48 số nhỏ hơn thuộc tính điều kiện trong luật r1, có nghĩa là không có thuộc tính điều kiện nào trong r2 cần thiết hơn thuộc tính điều kiện trong r1 nhưng r2 vẫn được xem là quan trọng hơn. Như thế, với độ đo ERIM các luật mà vế trái có càng nhiều thuộc tính điều kiện thì khả năng luật đó quan trọng càng lớn. Để giải quyết vấn đề này, luận văn đề xuất độ đo WAERIM như là giải pháp thay thế độ đo ERIM, độ đo này đánh giá tầm quan trọng của luật dựa vào trọng số trung bình của tất cả các thuộc tính điều kiện. Độ đo này được định nghĩa như sau: 3.5.1. Định nghĩa Định nghĩa 1. i n k ki i n w WAERIM i ∑ = = 1 , Trong đó, WAERIMi là độ đo WAERIM của luật thứ i (rulei), in là số lượng các thuộc tính điều kiện trong luật rulei và kiw , là trọng số của thuộc tính thứ k của luật rulei. Định nghĩa 2. Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo WAERIM lớn hơn thì luật đó được xem là quan trọng hơn. 3.5.2. Quá trình thực hiện Tương tự độ đo ERIM, cách tiếp cận theo độ đo WAERIM gồm 3 bước: Bước 1: Phát sinh tập luật sử dụng độ đo RIM Bước 2: Tính toán giá trị độ đo WAERIM cho từng luật trong tập luật thu được ở bước 1. Bước 3: Kết hợp cả hai độ đo RIM và WAERIM để đánh giá luật: luật 1r quan trọng hơn luật 2r nếu 21 rr RIMRIM > , nếu độ đo RIM của hai luật này bằng nhau thì luật nào có độ đo WAERIM lớn hơn luật đó được xem là quan trọng hơn. 49 3.6. ĐỘ ĐO AIERIM (Attributes Importance Degree Based Enhanced Rule Importance Measure) Việc sử dụng trọng số của các thuộc tính điều kiện trong quá trình đánh giá luật giúp người dùng có thể chọn ra những luật thực sự đáng tin cậy vì các trọng số này chính là ý kiến nhận định của các chuyên gia trong cùng lĩnh vực. Đối với các luật không thể phân biệt được tầm quan trọng bằng độ đo RIM có thể dễ dàng phân biệt được dựa vào độ đo ERIM hoặc WAERIM, tuy nhiên đối với những ứng dụng không được các chuyên gia đánh giá thì việc so sánh tầm quan trọng của các luật dựa vào độ đo RIM trong trường hợp này vẫn không thực hiện được. Vì lý do đó, song song với độ đo WAERIM luận văn đề xuất độ đo AIERIM, độ đo này cũng cải tiến độ đo RIM dựa vào mức độ quan trọng của các thuộc tính điều kiện. Khác với ERIM và WAERIM, mức độ quan trọng của các thuộc tính điều kiện ở độ đo AIERIM có được từ chính nguồn dữ liệu dùng để khai phá. Định nghĩa về mức độ quan trọng của các thuộc tính điều kiện và độ đo AIERIM được trình bày trong phần kế tiếp. 3.6.1. Định nghĩa Định nghĩa 1. Cho bảng quyết định ),( DCUT ∪= , CB ⊆ . Mức độ quan trọng (Importance Degree) của tập thuộc tính điều kiện B đối với thuộc tính quyết định D được định nghĩa như sau: )()()( \ DDBI BCCDC γγ −= Trong đó, U DPOS D XX )()( =γ là mức độ phụ thuộc của D vào tập X Với }{aB = , )(aI DC là mức độ quan trọng của thuộc tính a đối với thuộc tính quyết định D. Định nghĩa 2. Độ đo AIERIM của một luật được định nghĩa như sau: )()( XIYXAIERIM DC=→ 50 Định nghĩa 3. Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo AIERIM lớn hơn thì luật đó được xem là quan trọng hơn. 3.6.2. Một ví dụ về độ đo AIERIM Lấy ví dụ với nguồn Car từ UCI[5] gồm 1728 dòng và 6 thuộc tính điều kiện. Với mức độ quan trọng của tập thuộc tính được tính toán trong Bảng 3.10, tập luật quan trọng với độ đo AIERIM được tính toán và trình bày trong Bảng 3.11. Stt Tập thuộc tính Mức độ quan trọng 1 { Buying-Price } 0.4 2 { Maint-Price } 0.38 3 { Doors } 0.11 4 { Persons } 0.47 5 { Lug_boot } 0.24 6 { Satefy } 0.52 7 { Lug_boot , Satefy } 0.54 Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car Độ đo AIERIM của luật chính là mức độ quan trọng của tập thuộc tính điều kiện bên vế trái của luật, những luật có độ đo AIERIM càng cao càng được xem là quan trọng. Stt Tập luật (minSup=8%, minConf=80%) RIM AIERIM 1r Lug_boot = small, Satefy = med →Class = unacc 100% 0.54 2r Satefy=low →Class = unacc 100% 0.52 3r Persons = 2 →Class = unacc 100% 0.47 4r Buying-Price = vhigh →Class = unacc 100% 0.4 5r Maint-Price = vhigh →Class = unacc 100% 0.38 Bảng 3.11. Tập luật với độ đo AIERIM từ nguồn Car 51 Chương 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO 4.1. GIỚI THIỆU Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM). Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với 2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan. 4.1.1. Nguồn dữ liệu “Nursery” Nguồn dữ liệu Nursery được sử dụng trong ứng dụng tuyển chọn các trẻ em cho trường mầm non ở Ljubljana, Slovenia vì có quá nhiều đơn xin vào trường này. Nguồn dữ liệu Nursery gồm 9 thuộc tính và 12.960 dòng, thông tin về các thuộc tính của nguồn Nursery được trình bày trong Bảng 4.1. Loại thuộc tính Tên thuộc tính Diễn giải Miền giá trị Parents Nghề nghiệp của cha mẹ {usual, pretentious, great_pret} Has_nurs Phòng cho trẻ {proper, less_proper, improper, critical, very_crit} Form Loại gia đình {complete, completed, incomplete, foster} Children Số con trong gia đình {1, 2, 3, more} Housing Vấn đề nhà cửa {convenient, less_conv, critical} Finance Vấn đề tài chính {convenient, inconv} Social Điều kiện xã hội {non-prob, slightly_prob, problematic} Thuộc tính điều kiện Health Điều kiện sức khỏe {recommended, priority, not_recom} Thuộc tính quyết định Decision Quyết định của nhà trường {not_recom, recommend, very_recom, priority, spec_prior} Bảng 4.1. Các thuộc tính của nguồn Nursery 52 Ứng dụng nguồn dữ liệu Nursery vào việc so sánh các độ đo dựa vào trọng số của các thuộc tính điều kiện, luận văn giả sử rằng các thuộc tính điều kiện đều có giá trị bằng nhau và bằng 1. 4.1.2. Nguồn dữ liệu “BankLoan” Loại thuộc tính Tên thuộc tính Diễn giải Miền giá trị Tien Số tiền khách hàng muốn vay {0…N} Tuoi Tuổi của khách hàng {0…N} Trị số liên tục Lai Lãi xuất vay (đơn vị %) {0…N} ThoiHan Thời hạn vay (đơn vị Tháng) {12, 24, 36, 48, 60, 72, 84, 96} TraGoc Lịch trả nợ gốc {Hang thang, Cuoi ky} TraLai Lịch trả lãi {Hang nam, Hang thang} UyTin Uy tín vay của khách hàng trong những lần vay trước {Chua, Co, Khong} SL_VayTruoc Số lần khách hàng vay trước đây {0, 1, 2, 3, 4, 5} HonNhan Tình trạng hôn nhân của khách hàng {Doc than, Ket hon, Ly hon} SoNguoiPT Số người sống phụ thuộc vào khách hàng {0, 1, 2, 3, 4, 5} DamBaoNo Tỉ lệ đảm bảo nợ vay (giá trị vay so với tài sản đảm bảo) {>=1, <1} ThuNhap Mức độ ổn định thu nhập của khách hàng {On dinh, Tuong doi, Khong on dinh} Thuộc tính điều kiện Hạng mục KhaNangTra Khả năng trả nợ của khách hàng, được tính = Thời hạn vay*Thu nhập ròng hằng tháng + tài sản khác)/(Tiền vay + lãi 1 tháng*thời hạn vay). {>=1, <1} Thuộc tính quyết định ChoVay Thông tin khách hàng được cho vay hay không {Co, Khong} Bảng 4.2. Các thuộc tính của dữ liệu BankLoan 53 Với nguồn dữ liệu cho vay thế chấp trong ngân hàng (BankLoan), tri thức mà ứng dụng muốn khai phá chính là dự đoán khả năng khách hàng có thể được ngân hàng chấp nhận cho vay tiền hay không dựa trên một số thông tin từ khách hàng. Nguồn dữ liệu BankLoan gồm 14 thuộc tính và 1323 dòng dữ liệu, trong đó có 13 thuộc tính điều kiện (3 thuộc tính có giá trị số liên tục, 10 thuộc tính có giá trị hạng mục) và 1 thuộc tính quyết định. Danh sách các thuộc tính được trình bày trong Bảng 5.1. Trọng số của các thuộc tính điều kiện của BankLoan được trình bày trong Bảng 5.2. Stt Thuộc tính điều kiện Trọng số 1 Tien 7 2 Lai 3 3 ThoiHan 3 4 TraGoc 1 5 TraLai 1 6 UyTin 7 7 SL_VayTruoc 4 8 Tuoi 7 9 HonNhan 4 10 SoNguoiPT 4 11 DamBaoNo 8 12 ThuNhap 8 13 KhaNangTra 8 Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan Trong [9], độ đo ERIM được định nghĩa dựa trên các trọng số của các thuộc tính, và các trọng số này được xác định phụ thuộc vào khái niệm cấp bậc (Concept Hierarchy), những thuộc tính thuộc cùng cấp bậc có trọng số bằng nhau và bằng trọng số của cấp bậc đó. Tuy nhiên ở ứng dụng này luận văn không xây dựng khái niệm cấp bậc vì nguồn dữ liệu BankLoan có khá ít thuộc tính và nếu chia theo cấp bậc thì số cấp bậc cũng gần bằng số thuộc tính. 54 4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG Ứng dụng luận văn xây dựng theo mô hình trong Hình.5.1. Trước tiên là giai đoạn Tiền xử lý sẽ xử lý dữ liệu trống và không nhất quán, sau đó chia ngẫu nhiên dữ liệu làm 10 phần và sử dụng phương pháp kiểm tra chéo trên 10 phần dữ liệu này (mỗi lần dùng 9 phần dùng để training và 1 phần dùng để testing). Vì nguồn dữ liệu BankLoan có 3 thuộc tính là trị số liên tục nên phải tiến hành rời rạc hóa dữ liệu training trước khi phát sinh luật. Kết quả của giai đoạn Phát sinh luật là tập luật kết hợp (với ngưỡng minSup và minConf) sau khi đã loại bỏ đi các luật dư thừa. Từ tập luật thu được, tính toán giá trị các độ đo cho từng luật và lần lượt xây dựng các phân lớp ứng với từng độ đo. Giai đoạn cuối cùng là dùng dữ liệu test để kiểm tra hiệu quả của các phân lớp đã được xây dựng dựa vào kết quả test chính xác, độ đo nào có kết quả test chính xác cao hơn chứng tỏ khả năng đánh giá luật của độ đo đó tốt hơn. Tiền xử lý Tập luật Hình 4.1. Mô hình xây dựng ứng dụng Chia dữ liệu Dữ liệu test Rời rạc hóa Phát sinh luật Xây dựng phân lớp Kết quả test chính xác Tính toán giá trị các độ đo cho từng luật Test Dữ liệu training Dữ liệu gốc 55 4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO 4.3.1. Sử dụng nguồn “Nursery” Sử dụng nguồn dữ liệu Nursery để so sánh khả năng đánh giá luật giữa các độ đo: WAERIM, AIERIM với RIM, ERIM và với các độ đo hữu ích (ở đây luận văn chọn 3 độ đo hữu ích là Jaccard, Support và Confidence). Với ngưỡng hỗ trợ minSup=1.5% và ngưỡng tin cậy minConf=60% ta thu được tập luật từ nguồn training với số lượng trung bình trong 10 lần test là 145 luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 1 rút gọn, và số lượng luật được chọn để xây dựng phân lớp trong mỗi lần test dựa vào giá trị của độ đo AIERIM (cụ thể là độ đo AIERIM≥95%). Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm độ chính xác và số lượng luật được chọn để xây dựng phân lớp), Hình 4.2 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo. 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% 1 2 3 4 5 6 7 8 9 10 Đ ộ c hí n h x ác AIERIM RIM ERIM AWERIM Jaccard Support Confidence Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery Nhận xét: - Dựa vào biểu đồ nhận thấy rằng với số rút gọn phát sinh từ nguồn training là 1, thì việc sử dụng độ đo RIM để đánh giá luật cho kết quả test chính xác không cao. WA I 56 - Với nguồn Nursery các thuộc tính điều kiện đều có trọng số bằng nhau, nên sử dụng độ đo ERIM và WAERIM đều không cho kết quả tốt hơn RIM. - Độ đo AIERIM lại cho kết quả test chính xác khá cao, tuy thấp hơn độ đo Confidence nhưng cao hơn hẳn Support và Jaccard. 4.3.2. Sử dụng nguồn “BankLoan” Nguồn dữ liệu BankLoan được sử dụng để so sánh khả năng đánh giá luật giữa các độ đo trong 2 trường hợp: trường hợp thứ nhất số lượng luật được chọn để xây dựng phân lớp là 20 luật, trường hợp thứ hai là 40 luật. Với ngưỡng hỗ trợ minSup=0.5% và ngưỡng tin cậy minConf=70% ta thu được tập luật từ nguồn training với số lượng trung bình trong 10 lần test là 240 luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 4 rút gọn. Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 4.3 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo trong trường hợp 1. Bảng 4.6 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 2, Hình 4.4 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo trong trường hợp 2. 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 1 2 3 4 5 6 7 8 9 10 Đ ộ c hí n h x ác RIM ERIM AWERIM AIERIM Lift Support Confidence Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1) WAE I 57 50.0% 55.0% 60.0% 65.0% 70.0% 75.0% 80.0% 85.0% 90.0% 1 2 3 4 5 6 7 8 9 10 Đ ộ ch ín h xá c RIM ERIM AWERIM AIERIM Lift Support Confidence Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) Nhận xét: - Từ 2 biểu đồ trong 2 trường hợp, ta nhận thấy độ đo WAERIM đều cho kết quả test tốt hơn các độ đo RIM, ERIM, AIERIM. - Độ đo ERIM được đề xuất để cải tiến độ đo RIM nhưng chưa hẳn cho kết quả tốt hơn RIM - Hầu như trong 10 lần test, AIERIM cho kết quả tốt hơn RIM và ERIM. - So với độ đo Lift, độ đo WAERIM và AIERIM cho kết quả tốt hơn hẳn. - So với độ đo Confidence, trong một số trường hợp độ đo WAERIM và AIERIM cho kết quả tốt hơn và ngược lại. - Tuy so với độ đo Support, độ đo WAERIM và AIERIM không cho kết quả tốt hơn nhưng sự chênh lệch giữa các kết quả test là không đáng kể. 4.3.3. Kết luận Như vậy, bằng ứng dụng thực tế luận văn đã chứng minh khả năng đánh giá luật của các độ đo mà luận văn đề xuất(WAERIM, AIERIM) so với các độ đo Jiye Li đề xuất và so với các độ đo hữu ích trong các trường hợp cụ thể. WAERIM 58 Mặc dù không có độ đo nào cho kết quả tốt nhất trong các trường hợp, 2 độ đo WAERIM và AIERIM không phải là sự chọn lựa tối ưu nhưng dù sao các kết quả cũng đã chứng tỏ rằng khả năng đánh giá luật của 2 độ đo WAERIM và AIERIM có thể chấp nhận được. 59 Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình AIERIM≥95% 78.4%(50) 82%(66) 83.6%(51) 82.6%(61) 84.8%(55) 84%(60) 82.2%(53) 84.1%(58) 84.5%(54) 81.6%(57) 82.8%(56.5) RIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5) ERIM 28.7%(50) 39.2%(66) 28.4%(51) 32.3%(61) 24.9%(55) 34.4%(60) 28.5%(53) 29.9%(58) 30.2%(54) 32.3%(57) 30.1%(56.5) WAERIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5) Jaccard 73.8%(50) 79.2%(66) 76.9%(51) 76.2%(61) 77.9%(55) 78.5%(60) 75.5%(53) 76.8%(58) 77.6%(54) 77.3%(57) 76.9%(56.5) Support 73.1%(50) 78.6%(66) 76.5%(51) 76.3%(61) 78%(55) 78.2%(60) 75.3%(53) 76.6%(58) 76.4%(54) 75.9%(57) 76.5%(56.5) 1 Confidence 87.3%(50) 90.4%(66) 91.4%(51) 90.2%(61) 87.2%(55) 90.4%(60) 89.2%(53) 89%(58) 90%(54) 90.9%(57) 89.6%(56.5) AIERIM≥95% 77.3%(60) 83.7%(59) 81.1%(63) 79.1%(59) 79.2%(56) 80.3%(55) 84.3%(62) 81.6%(64) 84.2%(54) 84.2%(53) 81.5%(59.2) RIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2) ERIM 38.7%(60) 31.6%(59) 31.7%(63) 32.5%(59) 30.3%(56) 32.9%(55) 34.6%(62) 35.2%(64) 28.9%(54) 32.9%(53) 32.9%(59.2) WAERIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2) Jaccard 76.2%(60) 76.3%(59) 77.6%(63) 76.2%(59) 76.4%(56) 75.7%(55) 80.9%(62) 79%(64) 75.5%(54) 75.2%(53) 76.9%(59.2) Support 75.8%(60) 76.6%(59) 77.2%(63) 76.3%(59) 76.2%(56) 75.5%(55) 90.4%(62) 78.3%(64) 75.5%(54) 75%(53) 77.7%(59.2) 2 Confidence 88.3%(60) 89.8%(59) 90%(63) 89%(59) 89.1%(56) 90.3%(55) 81.7%(62) 89%(64) 88.9%(54) 89.5%(53) 88.6%(59.2) AIERIM≥95% 82.9%(56) 82.9%(55) 83.2%(57) 83.8%(61) 81.3%(58) 82.4%(58) 82.9%(60) 83.1%(57) 83%(58) 83%(54) 82.9%(57.4) RIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4) ERIM 28.9%(56) 29.1%(55) 31.8%(57) 32.5%(61) 31.2%(58) 32%(58) 34.4%(60) 31.4%(57) 32.7%(58) 29.6%(54) 31.4%(57.4) WAERIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4) Jaccard 76.9%(56) 76.9%(55) 76.2%(57) 77%(61) 76.2%(58) 75.2%(58) 77.4%(60) 78.1%(57) 78.3%(58) 78.4%(54) 77.1%(57.4) Support 76.8%(56) 77.1%(55) 75.9%(57) 76.6%(61) 76.2%(58) 75.8%(58) 76.6%(60) 78%(57) 77.9%(58) 77.8%(54) 76.9%(57.4) 3 Confidence 88.7%(56) 89.1%(55) 90%(57) 90.2%(61) 89%(58) 89.8%(58) 90.4%(60) 90.6%(57) 91%(58) 90.5%(54) 89.9%(57.4) AIERIM≥95% 83.3%(61) 84%(63) 82.8%(60) 49.6%(68) 84%(60) 83.2%(60) 83.3%(55) 82.5%(57) 82.6%(58) 83.3%(54) 79.9%(59.6) RIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6) ERIM 34.7%(61) 35.6%(63) 31.5%(60) 34.8%(68) 32.4%(60) 34.6%(60) 30.9%(55) 30.8%(57) 30.3%(58) 31%(54) 35.7%(59.6) WAERIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6) Jaccard 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6) Support 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6) 4 Confidence 90%(61) 90.6%(63) 89.7%(60) 89.9%(68) 90.4%(60) 90.2%(60) 91.3%(55) 90.1%(57) 90.9%(58) 90.6%(54) 77%(59.6) AIERIM≥95% 83.2%(54) 83.3%(56) 80.9%(57) 84.6%(66) 81.9%(53) 83%(58) 80.3%(60) 80.9%(57) 84%(61) 82.3%(52) 82.4%(57.4) RIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4) ERIM 29.6%(54) 31%(56) 30%(57) 37.7%(66) 29.5%(53) 30.6%(58) 32.6%(60) 29.9%(57) 32.6%(61) 28.5%(52) 32.8%(57.4) WAERIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4) Jaccard 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4) Support 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4) 5 Confidence 87.2%(54) 87%(56) 90.5%(57) 89.8%(66) 90.7%(53) 90.9%(58) 89.2%(60) 89.3%(57) 90.3%(61) 88.4%(52) 76.4%(57.4) 60 AIERIM≥95% 82.8%(57) 82.6%(60) 82.6%(56) 82.3%(57) 84%(58) 82%(56) 82.9%(66) 83.8%(53) 84.3%(52) 83.4%(59) 83.1%(57.4) RIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4) ERIM 28.6%(57) 32.8%(60) 27.4%(56) 30.1%(57) 32.5%(58) 32.3%(56) 38.3%(66) 32.2%(53) 28%(52) 29.7%(59) 31.2%(57.4) WAERIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4) Jaccard 78.9%(57) 78.7%(60) 76.9%(56) 76.8%(57) 76.5%(58) 76.9%(56) 79.2%(66) 76.2%(53) 76.8%(52) 77.6%(59) 77.5%(57.4) Support 77.9%(57) 78.7%(60) 76.9%(56) 76%(57) 76%(58) 76.4%(56) 78%(66) 76.3%(53) 76.3%(52) 77.5%(59) 77%(57.4) 6 Confidence 90.7%(57) 90.4%(60) 88.7%(56) 91%(57) 89.5%(58) 90.5%(56) 90.4%(66) 89.7%(53) 88.3%(52) 88.2%(59) 89.7%(57.4) AIERIM≥95% 83.4%(52) 82.6%(57) 81.8%(54) 83.3%(62) 83%(61) 83.5%(58) 83.8%(63) 84.7%(58) 83.5%(60) 82.5%(60) 83.2%(58.5) RIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5) ERIM 29.4%(52) 32.2%(57) 30.3%(54) 35.4%(62) 33.5%(61) 30.7%(58) 36.1%(63) 30.6%(58) 34.9%(60) 31.6%(60) 32.5%(58.5) WAERIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5) Jaccard 76.2%(52) 76.8%(57) 75.9%(54) 77%(62) 77.9%(61) 77%(58) 78.7%(63) 77.9%(58) 77%(60) 77.4%(60) 77.2%(58.5) Support 76%(52) 76.5%(57) 75.8%(54) 76.4%(62) 77.8%(61) 76.9%(58) 77.6%(63) 77.5%(58) 76.9%(60) 76.9%(60) 76.8%(58.5) 7 Confidence 89.4%(52) 89.5%(57) 89.4%(54) 90.2%(62) 90.1%(61) 89.4%(58) 89.5%(63) 90.2%(58) 89.7%(60) 89.9%(60) 89.7%(58.5) AIERIM≥95% 82.5%(56) 81.8%(63) 84.4%(52) 84.8%(61) 79.5%(56) 81.8%(61) 83.2%(53) 82.5%(54) 82.9%(51) 82.9%(53) 82.6%(56) RIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56) ERIM 27.3%(56) 36%(63) 28.1%(52) 32.7%(61) 30.3%(56) 32.5%(61) 32.9%(53) 30.2%(54) 29.1%(51) 38.5%(53) 31.8%(56) WAERIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56) Jaccard 75.9%(56) 78.1%(63) 76.8%(52) 77.1%(61) 76.4%(56) 77.1%(61) 75.2%(53) 77.7%(54) 76.9%(51) 76.2%(53) 76.7%(56) Support 75.9%(56) 77.2%(63) 76.3%(52) 76.6%(61) 76.2%(56) 76.6%(61) 75.2%(53) 76.4%(54) 77.1%(51) 75.8%(53) 76.3%(56) 8 Confidence 87.7%(56) 89.4%(63) 88.2%(52) 90.3%(61) 89.1%(56) 90.2%(61) 89.5%(53) 90.4%(54) 89.1%(51) 90.5%(53) 89.4%(56) AIERIM≥95% 81.5%(58) 80.4%(57) 82.8%(61) 82.5%(53) 84.8%(66) 81.8%(55) 84.3%(58) 78.1%(50) 81.9%(57) 82.1%(59) 82%(57.4) RIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4) ERIM 31.2%(58) 30.2%(57) 31.5%(61) 28.5%(53) 39.7%(66) 34.9%(55) 29.9%(58) 28.7%(50) 30.5%(57) 28.5%(59) 31.4%(57.4) WAERIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4) Jaccard 76.5%(58) 78.6%(57) 77.2%(61) 76.3%(53) 78.5%(66) 77.9%(55) 76.8%(58) 73.1%(50) 78.5%(57) 75.7%(59) 76.9%(57.4) Support 76.5%(58) 79%(57) 75.6%(61) 76%(53) 78.5%(66) 78%(55) 76.6%(58) 73.1%(50) 78.1%(57) 75.3%(59) 76.7%(57.4) 9 Confidence 89.5%(58) 90.5%(57) 88.7%(61) 88.4%(53) 89.8%(66) 87.8%(55) 89.8%(58) 87.3%(50) 90%(57) 89.6%(59) 89.1%(57.4) AIERIM≥95% 83%(60) 82.5%(63) 83.1%(58) 77.3%(51) 81.5%(54) 83.1%(62) 82.6%(57) 81.5%(56) 83.6%(60) 82.2%(55) 82.2%(57.6) RIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6) ERIM 34.4%(60) 39.2%(63) 30.6%(58) 31.2%(51) 30.3%(54) 35.4%(62) 32.3%(57) 37.3%(56) 32.8%(60) 29.9%(55) 33.3%(57.6) WAERIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6) Jaccard 78.8%(60) 79.2%(63) 76.2%(58) 74.2%(51) 74.9%(54) 77%(62) 78.3%(57) 75.3%(56) 78.7%(60) 76.9%(55) 77%(57.6) Support 78.2%(60) 78.5%(63) 75.7%(58) 74.2%(51) 74.8%(54) 76.4%(62) 78.9%(57) 75.3%(56) 78.7%(60) 77.1%(55) 76.8%(57.6) 10 Confidence 90.1%(60) 91.4%(63) 90.5%(58) 85%(51) 89.6%(54) 89.2%(62) 92.9%(57) 87.9%(56) 90.7%(60) 89.3%(55) 89.7%(57.6) Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery 61 Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình RIM 67.2%(20) 63.6%(20) 74.6%(20) 69.5%(20) 69.5%(20) 71.8%(20) 71.2%(20) 66.9%(20) 66.9%(20) 68.8%(20) 69%(20) ERIM 48.9%(20) 36.4%(20) 44.4%(20) 46.1%(20) 39.7%(20) 53.4%(20) 50.8%(20) 50%(20) 46.9%(20) 52%(20) 46.9%(20) WAERIM 83.2%(20) 86%(20) 83.3%(20) 81.2%(20) 80.2%(20) 83.2%(20) 84.1%(20) 85.4%(20) 84.6%(20) 82.4%(20) 83.4%(20) AIERIM 74%(20) 65.9%(20) 72.2%(20) 76.6%(20) 64.9%(20) 64.9%(20) 76.5%(20) 73.1%(20) 72.3%(20) 75.2%(20) 71.6%(20) Lift 49.3%(20) 55.1%(20) 67.2%(20) 75.8%(20) 66.3%(20) 55.3%(20) 50.4%(20) 58.1%(20) 65%(20) 62.3%(20) 60.5%(20) Support 81.7%(20) 85.3%(20) 87.3%(20) 85.2%(20) 82.4%(20) 86.3%(20) 83.3%(20) 83.1%(20) 84.6%(20) 83.2%(20) 84.2%(20) 1 Confidence 60.3%(20) 57.4%(20) 55.6%(20) 68%(20) 63.4%(20) 59.5%(20) 62.1%(20) 57.7%(20) 58.5%(20) 58.4%(20) 60.1%(20) RIM 68.2%(20) 73.8%(20) 69%(20) 68.5%(20) 70.5%(20) 64.8%(20) 77.1%(20) 65.6%(20) 64.3%(20) 69.4%(20) 69.1%(20) ERIM 44.7%(20) 51.5%(20) 42.6%(20) 49.2%(20) 55.3%(20) 50.8%(20) 49.6%(20) 48.4%(20) 48.1%(20) 48.4%(20) 48.9%(20) WAERIM 86.4%(20) 77.7%(20) 82.2%(20) 87.7%(20) 84.8%(20) 82.8%(20) 82.4%(20) 87.5%(20) 83.7%(20) 80.6%(20) 83.6%(20) AIERIM 68.9%(20) 67.7%(20) 69.8%(20) 73.1%(20) 71.2%(20) 68.8%(20) 72.5%(20) 75%(20) 72.9%(20) 75%(20) 71.5%(20) Lift 68.4%(20) 43.7%(20) 45.2%(20) 70.3%(20) 53.9%(20) 51.5%(20) 69.7%(20) 58.9%(20) 54.6%(20) 59.2%(20) 57.5%(20) Support 84.8%(20) 79.2%(20) 83.7%(20) 87.7%(20) 86.4%(20) 82.8%(20) 84%(20) 86.7%(20) 83.7%(20) 83.1%(20) 84.2%(20) 2 Confidence 53.8%(20) 59.2%(20) 63.6%(20) 58.5%(20) 62.9%(20) 56.2%(20) 58%(20) 64.8%(20) 60.5%(20) 62.1%(20) 60%(20) RIM 65.6%(20) 67.9%(20) 71%(20) 70.5%(20) 68.7%(20) 70.3%(20) 68.9%(20) 62.3%(20) 75.4%(20) 67.8%(20) 68.8%(20) ERIM 48.1%(20) 43.5%(20) 48.1%(20) 44.7%(20) 51.9%(20) 40.6%(20) 49.2%(20) 49.2%(20) 44.4%(20) 43%(20) 46.3%(20) WAERIM 84.7%(20) 84%(20) 81.7%(20) 84.8%(20) 84.7%(20) 80.5%(20) 84.1%(20) 87.7%(20) 77.8%(20) 83.5%(20) 83.4%(20) AIERIM 74.8%(20) 74%(20) 73.3%(20) 68.2%(20) 76.3%(20) 70.3%(20) 73.5%(20) 76.2%(20) 67.5%(20) 64.5%(20) 71.9%(20) Lift 61.5%(20) 64.5%(20) 68%(20) 67%(20) 55.2%(20) 54.6%(20) 65.4%(20) 63.6%(20) 52.7%(20) 49.8%(20) 60.2%(20) Support 84%(20) 86.3%(20) 81.7%(20) 83.3%(20) 88.5%(20) 79.7%(20) 88.6%(20) 87.7%(20) 80.2%(20) 81.8%(20) 84.2%(20) 3 Confidence 60.3%(20) 58%(20) 58%(20) 59.8%(20) 61.1%(20) 64.1%(20) 62.1%(20) 57.7%(20) 63.5%(20) 56.2%(20) 60.1%(20) RIM 57.7%(20) 74.6%(20) 68.8%(20) 69.7%(20) 71.3%(20) 64.4%(20) 58.6%(20) 74.2%(20) 56.5%(20) 68.6%(20) 66.4%(20) ERIM 46.2%(20) 25.4%(20) 70.3%(20) 81.1%(20) 35.7%(20) 81.8%(20) 28.1%(20) 57.6%(20) 19.8%(20) 46.3%(20) 49.2%(20) WAERIM 57.7%(20) 79.2%(20) 73.4%(20) 81.1%(20) 69.8%(20) 80.3%(20) 77.3%(20) 78%(20) 80.2%(20) 76.9%(20) 75.4%(20) AIERIM 83.1%(20) 56.2%(20) 73.4%(20) 78%(20) 48.8%(20) 83.3%(20) 55.5%(20) 76.5%(20) 62.6%(20) 64.5%(20) 68.2%(20) Lift 83.8%(20) 54.6%(20) 53.1%(20) 75%(20) 35.7%(20) 73.5%(20) 40.6%(20) 40.9%(20) 77.9%(20) 64.5%(20) 60%(20) Support 87.7%(20) 83.1%(20) 84.4%(20) 78%(20) 79.8%(20) 68.9%(20) 73.4%(20) 79.5%(20) 86.3%(20) 81.8%(20) 80.3%(20) 4 Confidence 61.5%(20) 65.4%(20) 40.6%(20) 67.4%(20) 41.1%(20) 72%(20) 60.2%(20) 46.2%(20) 68.7%(20) 47.1%(20) 57%(20) RIM 72.5%(20) 69.2%(20) 72.9%(20) 57.3%(20) 62%(20) 63.4%(20) 65.6%(20) 66.4%(20) 64.7%(20) 82.3%(20) 67.6%(20) ERIM 81.7%(20) 63.1%(20) 31%(20) 70.2%(20) 26.4%(20) 65.6%(20) 35.9%(20) 27.3%(20) 31.6%(20) 83.9%(20) 51.7%(20) WAERIM 85.5%(20) 79.2%(20) 82.9%(20) 74.8%(20) 77.5%(20) 63.4%(20) 65.6%(20) 73.4%(20) 70.7%(20) 84.7%(20) 75.8%(20) AIERIM 83.2%(20) 73.1%(20) 53.5%(20) 73.3%(20) 50.4%(20) 79.4%(20) 60.3%(20) 59.4%(20) 58.6%(20) 86.3%(20) 67.8%(20) Lift 51.1%(20) 50.8%(20) 49.6%(20) 67.2%(20) 62%(20) 69.5%(20) 76.3%(20) 61.7%(20) 50.4%(20) 52.4%(20) 59.1%(20) Support 89.3%(20) 80.8%(20) 85.3%(20) 84%(20) 81.4%(20) 88.5%(20) 89.3%(20) 86.7%(20) 85.7%(20) 79.8%(20) 85.1%(20) 5 Confidence 58%(20) 57.7%(20) 56.6%(20) 53.4%(20) 61.2%(20) 56.5%(20) 55%(20) 62.5%(20) 50.4%(20) 58.1%(20) 56.9%(20) 62 RIM 60.5%(20) 54%(20) 34.4%(20) 69.5%(20) 62%(20) 66.9%(20) 65.6%(20) 81.4%(20) 65.9%(20) 62.4%(20) 62.3%(20) ERIM 40.3%(20) 20.6%(20) 16.8%(20) 75.6%(20) 33.3%(20) 34.6%(20) 80.2%(20) 77.5%(20) 32.6%(20) 24.8%(20) 43.6%(20) WAERIM 80.6%(20) 70.6%(20) 63.4%(20) 76.3%(20) 81.4%(20) 76.9%(20) 77.9%(20) 76.7%(20) 75%(20) 76.8%(20) 75.6%(20) AIERIM 62%(20) 57.9%(20) 29.8%(20) 83.2%(20) 64.3%(20) 64.1%(20) 80.2%(20) 85.3%(20) 56.8%(20) 58.4%(20) 64.2%(20) Lift 48.1%(20) 44.4%(20) 54.2%(20) 65.6%(20) 69%(20) 67.7%(20) 75.6%(20) 43.4%(20) 51.5%(20) 53.6%(20) 57.3%(20) Support 82.9%(20) 81.7%(20) 80.9%(20) 78.6%(20) 86%(20) 80%(20) 87%(20) 85.3%(20) 86.4%(20) 84%(20) 83.3%(20) 6 Confidence 51.2%(20) 56.3%(20) 58.8%(20) 53.4%(20) 58.1%(20) 53.8%(20) 63.4%(20) 51.9%(20) 52.3%(20) 54.4%(20) 55.4%(20) RIM 68.2%(20) 63.4%(20) 82.7%(20) 63.2%(20) 59.1%(20) 63.1%(20) 64.3%(20) 35.7%(20) 68.5%(20) 65.9%(20) 63.4%(20) ERIM 48.8%(20) 21.4%(20) 80.3%(20) 24.1%(20) 23.5%(20) 26.9%(20) 22.5%(20) 17.5%(20) 30.8%(20) 43.7%(20) 34%(20) WAERIM 68.2%(20) 77.9%(20) 81.9%(20) 71.4%(20) 78%(20) 77.7%(20) 74.4%(20) 65.1%(20) 73.1%(20) 78.6%(20) 74.6%(20) AIERIM 74.4%(20) 48.9%(20) 79.5%(20) 54.1%(20) 55.3%(20) 30%(20) 55%(20) 23%(20) 56.2%(20) 61.1%(20) 53.8%(20) Lift 55%(20) 45.8%(20) 53.5%(20) 60.9%(20) 63.6%(20) 68.5%(20) 55%(20) 61.1%(20) 48.5%(20) 67.5%(20) 57.9%(20) Support 89.1%(20) 85.5%(20) 84.3%(20) 78.9%(20) 82.6%(20) 81.5%(20) 82.2%(20) 81.7%(20) 82.3%(20) 84.1%(20) 83.2%(20) 7 Confidence 55%(20) 51.9%(20) 56.7%(20) 61.7%(20) 51.5%(20) 53.8%(20) 65.1%(20) 54.8%(20) 55.4%(20) 52.4%(20) 55.8%(20) RIM 68.7%(20) 69.5%(20) 57.9%(20) 64.9%(20) 67.4%(20) 57.7%(20) 62.3%(20) 60.6%(20) 63.6%(20) 61.3%(20) 63.4%(20) ERIM 35.9%(20) 37.4%(20) 26.2%(20) 61.8%(20) 51.2%(20) 24.6%(20) 58.5%(20) 22%(20) 29.5%(20) 29%(20) 37.6%(20) WAERIM 68.7%(20) 79.4%(20) 75.4%(20) 74%(20) 78.3%(20) 73.1%(20) 73.8%(20) 75.8%(20) 79.1%(20) 77.4%(20) 75.5%(20) AIERIM 68.7%(20) 61.8%(20) 57.9%(20) 75.6%(20) 66.7%(20) 58.5%(20) 70%(20) 25%(20) 56.6%(20) 62.1%(20) 60.3%(20) Lift 49.6%(20) 67.2%(20) 43.7%(20) 70.2%(20) 51.9%(20) 50.8%(20) 45.4%(20) 50%(20) 62%(20) 66.9%(20) 55.8%(20) Support 81.7%(20) 86.3%(20) 81%(20) 87%(20) 75.2%(20) 85.4%(20) 84.6%(20) 81.1%(20) 83.7%(20) 83.9%(20) 83%(20) 8 Confidence 59.5%(20) 58.8%(20) 51.6%(20) 59.5%(20) 54.3%(20) 53.8%(20) 55.4%(20) 50%(20) 79.8%(20) 65.3%(20) 58.8%(20) RIM 34.3%(20) 64.4%(20) 64.1%(20) 74.5%(20) 75.2%(20) 75.7%(20) 69.6%(20) 67.8%(20) 69.2%(20) 62.6%(20) 65.7%(20) ERIM 16.8%(20) 81.8%(20) 48.1%(20) 44.4%(20) 57.6%(20) 44.4%(20) 46.2%(20) 43.4%(20) 39.7%(20) 36.4%(20) 45.9%(20) WAERIM 63.4%(20) 80.3%(20) 83.7%(20) 84.3%(20) 78.5%(20) 77.8%(20) 81.2%(20) 84%(20) 80.4%(20) 86%(20) 80%(20) AIERIM 29.5%(20) 83.3%(20) 72.8%(20) 72.2%(20) 76.5%(20) 67.5%(20) 76.6%(20) 74%(20) 64.9%(20) 65.9%(20) 68.3%(20) Lift 54.2%(20) 73.5%(20) 54.6%(20) 67.2%(20) 40.9%(20) 52.8%(20) 75.8%(20) 64.6%(20) 66.3%(20) 55.1%(20) 60.5%(20) Support 80.7%(20) 72.2%(20) 83.7%(20) 86.3%(20) 79.5%(20) 80.2%(20) 86.2%(20) 86.3%(20) 82.5%(20) 85.4%(20) 82.3%(20) 9 Confidence 58.5%(20) 68.9%(20) 60.7%(20) 57.6%(20) 46.2%(20) 63.1%(20) 68%(20) 58%(20) 63.4%(20) 57.4%(20) 60.2%(20) RIM 68.9%(20) 69.6%(20) 69.1%(20) 77.2%(20) 74.5%(20) 59.6%(20) 62.2%(20) 68.4%(20) 59.7%(20) 72.4%(20) 68.2%(20) ERIM 52%(20) 46.1%(20) 42.6%(20) 49.6%(20) 25.4%(20) 28.7%(20) 63.1%(20) 49.8%(20) 23.5%(20) 81.3%(20) 46.2%(20) WAERIM 82.5%(20) 81.2%(20) 82.2%(20) 82.4%(20) 79.2%(20) 77.3%(20) 79.2%(20) 68.2%(20) 78.7%(20) 85.5%(20) 79.6%(20) AIERIM 75.2%(20) 76.6%(20) 69.8%(20) 72.5%(20) 56.3%(20) 55.6%(20) 73.1%(20) 74.6%(20) 55.5%(20) 83.2%(20) 69.2%(20) Lift 62.3%(20) 75.8%(20) 45.2%(20) 69.7%(20) 54.6%(20) 40.6%(20) 50.8%(20) 55%(20) 63.6%(20) 51.1%(20) 56.9%(20) Support 83.2%(20) 85.3%(20) 83.7%(20) 84.1%(20) 83.1%(20) 73.4%(20) 80.8%(20) 89.1%(20) 82.6%(20) 89.3%(20) 83.5%(20) 10 Confidence 58.6%(20) 68%(20) 63.7%(20) 59.3%(20) 65.6%(20) 60.9%(20) 57.9%(20) 55.3%(20) 51.8%(20) 58.6%(20) 60%(20) Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) 63 Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình RIM 79.4%(40) 84.5%(40) 86.5%(40) 86.7%(40) 80.9%(40) 83.2%(40) 85.6%(40) 81.5%(40) 76.9%(40) 84.8%(40) 83%(40) ERIM 81.7%(40) 82.9%(40) 81.7%(40) 82.8%(40) 78.6%(40) 79.4%(40) 86.4%(40) 80.8%(40) 82.3%(40) 84.8%(40) 82.1%(40) WAERIM 83.2%(40) 86%(40) 83.3%(40) 81.2%(40) 80.2%(40) 84%(40) 84.1%(40) 85.4%(40) 84.6%(40) 82.4%(40) 83.4%(40) AIERIM 80.9%(40) 82.2%(40) 84.1%(40) 84.4%(40) 80.2%(40) 81.7%(40) 86.4%(40) 83.1%(40) 83.1%(40) 84.8%(40) 83.1%(40) Lift 72.1%(40) 77.3%(40) 65.4%(40) 75.2%(40) 67.8%(40) 78.9%(40) 77.5%(40) 68.9%(40) 79.2%(40) 71%(40) 73.33%(40) Support 81.7%(40) 85.3%(40) 87.3%(40) 85.2%(40) 82.4%(40) 86.3%(40) 83.3%(40) 83.1%(40) 84.6%(40) 83.2%(40) 84.2%(40) 1 Confidence 85.5%(40) 85.3%(40) 90.5%(40) 89.8%(40) 85.5%(40) 87%(40) 89.4%(40) 86.9%(40) 84.6%(40) 85.6%(40) 87%(40) RIM 80.3%(40) 83.8%(40) 79.8%(40) 80.8%(40) 84.1%(40) 82.8%(40) 89.3%(40) 84.4%(40) 80.6%(40) 83.9%(40) 83%(40) ERIM 83.3%(40) 79.2%(40) 81.4%(40) 86.9%(40) 87.1%(40) 82%(40) 81.7%(40) 85.9%(40) 81.4%(40) 80.6%(40) 83%(40) WAERIM 86.4%(40) 81.5%(40) 82.2%(40) 87.7%(40) 86.4%(40) 84.4%(40) 82.4%(40) 87.5%(40) 83.7%(40) 80.6%(40) 84.3%(40) AIERIM 83.3%(40) 80%(40) 82.2%(40) 86.2%(40) 87.9%(40) 83.6%(40) 83.2%(40) 86.7%(40) 83.7%(40) 82.3%(40) 83.9%(40) Lift 72.8%(40) 67.9%(40) 77.5%(40) 76.2%(40) 70%(40) 70.5%(40) 73.8%(40) 78.2%(40) 77.7%(40) 76.6%(40) 74.12%(40) Support 84.8%(40) 79.2%(40) 83.7%(40) 87.7%(40) 86.4%(40) 82.8%(40) 84%(40) 86.7%(40) 83.7%(40) 83.1%(40) 84.2%(40) 2 Confidence 85.6%(40) 83.8%(40) 88.4%(40) 83.8%(40) 90.2%(40) 85.2%(40) 84.7%(40) 92.2%(40) 88.4%(40) 87.9%(40) 87%(40) RIM 77.9%(40) 84.7%(40) 84.7%(40) 81.8%(40) 84%(40) 85.2%(40) 81.8%(40) 80%(40) 85.7%(40) 84.3%(40) 83%(40) ERIM 82.4%(40) 84.7%(40) 80.9%(40) 81.1%(40) 84.7%(40) 78.1%(40) 85.6%(40) 87.7%(40) 78.6%(40) 78.5%(40) 82.2%(40) WAERIM 84.7%(40) 84%(40) 81.7%(40) 84.8%(40) 84.7%(40) 80.5%(40) 84.1%(40) 87.7%(40) 77.8%(40) 83.5%(40) 83.4%(40) AIERIM 84.7%(40) 84.7%(40) 80.9%(40) 84.1%(40) 86.3%(40) 77.3%(40) 87.1%(40) 88.5%(40) 79.4%(40) 78.5%(40) 83.2%(40) Lift 76.5%(40) 69.9%(40) 71.1%(40) 76.3%(40) 75%(40) 68%(40) 74.5%(40) 72.7%(40) 76.8%(40) 80%(40) 74.08%(40) Support 84%(40) 86.3%(40) 81.7%(40) 83.3%(40) 88.5%(40) 79.7%(40) 88.6%(40) 87.7%(40) 80.2%(40) 81.8%(40) 84.2%(40) 3 Confidence 87.8%(40) 90.1%(40) 81.7%(40) 87.9%(40) 87%(40) 88.3%(40) 88.6%(40) 86.2%(40) 90.5%(40) 83.5%(40) 87.2%(40) RIM 81.5%(40) 83.1%(40) 75.8%(40) 75%(40) 82.9%(40) 69.7%(40) 64.1%(40) 87.9%(40) 75.6%(40) 76%(40) 77.2%(40) ERIM 86.2%(40) 76.9%(40) 77.3%(40) 87.9%(40) 77.5%(40) 85.6%(40) 71.9%(40) 82.6%(40) 81.7%(40) 79.3%(40) 80.7%(40) WAERIM 81.5%(40) 86.2%(40) 80.5%(40) 88.6%(40) 78.3%(40) 82.6%(40) 81.2%(40) 87.1%(40) 84.7%(40) 82.6%(40) 83.3%(40) AIERIM 90%(40) 76.2%(40) 80.5%(40) 87.9%(40) 83.7%(40) 84.8%(40) 71.9%(40) 84.1%(40) 87%(40) 79.3%(40) 82.5%(40) Lift 71.6%(40) 66.9%(40) 75.8%(40) 79.5%(40) 67.4%(40) 78.8%(40) 66.4%(40) 69.7%(40) 78.6%(40) 70.2%(40) 72.6%(40) Support 80.3%(40) 86.2%(40) 85.2%(40) 78%(40) 79.8%(40) 69.7%(40) 73.4%(40) 79.5%(40) 86.3%(40) 83.5%(40) 80.2%(40) 4 Confidence 72.5%(40) 83.1%(40) 62.5%(40) 79.5%(40) 55.8%(40) 79.5%(40) 67.2%(40) 66.7%(40) 84.7%(40) 76%(40) 72.8%(40) RIM 81.7%(40) 84.6%(40) 83.7%(40) 71%(40) 70.5%(40) 74.8%(40) 77.1%(40) 80.5%(40) 79.7%(40) 85.5%(40) 78.9%(40) ERIM 81.7%(40) 79.2%(40) 83.7%(40) 75.6%(40) 78.3%(40) 80.2%(40) 77.9%(40) 77.3%(40) 83.5%(40) 88.7%(40) 80.6%(40) WAERIM 85.5%(40) 87.7%(40) 87.6%(40) 80.9%(40) 86%(40) 74.8%(40) 77.1%(40) 79.7%(40) 82%(40) 89.5%(40) 83.1%(40) AIERIM 83.2%(40) 81.5%(40) 83.7%(40) 77.9%(40) 77.5%(40) 86.3%(40) 81.7%(40) 82%(40) 86.5%(40) 91.1%(40) 83.1%(40) Lift 81.7%(40) 76.2%(40) 83.7%(40) 76.3%(40) 70.5%(40) 82.4%(40) 78.6%(40) 78.1%(40) 78.9%(40) 80.6%(40) 78.7%(40) Support 87%(40) 80.8%(40) 85.3%(40) 84.7%(40) 82.9%(40) 88.5%(40) 89.3%(40) 89.8%(40) 85.7%(40) 81.5%(40) 85.6%(40) 5 Confidence 82.4%(40) 70%(40) 70.5%(40) 79.4%(40) 86.8%(40) 84.7%(40) 85.5%(40) 83.6%(40) 65.4%(40) 71.8%(40) 78%(40) 64 RIM 68.2%(40) 70.6%(40) 61.1%(40) 76.3%(40) 72.1%(40) 81.5%(40) 80.2%(40) 86%(40) 78%(40) 80.8%(40) 75.5%(40) ERIM 76%(40) 75.4%(40) 42%(40) 80.2%(40) 76.7%(40) 80.8%(40) 90.8%(40) 82.2%(40) 78.8%(40) 81.6%(40) 76.4%(40) WAERIM 80.6%(40) 81.7%(40) 77.1%(40) 80.9%(40) 83.7%(40) 86.2%(40) 88.5%(40) 87.6%(40) 84.8%(40) 84%(40) 83.5%(40) AIERIM 76.7%(40) 76.2%(40) 64.9%(40) 86.3%(40) 76.7%(40) 82.3%(40) 90.8%(40) 89.1%(40) 82.6%(40) 84%(40) 81%(40) Lift 68.2%(40) 69.8%(40) 74%(40) 80.2%(40) 80.6%(40) 76.2%(40) 80.2%(40) 72.9%(40) 76.5%(40) 80%(40) 75.9%(40) Support 82.9%(40) 82.5%(40) 80.9%(40) 78.6%(40) 86%(40) 82.3%(40) 87%(40) 85.3%(40) 87.9%(40) 84%(40) 83.7%(40) 6 Confidence 71.3%(40) 73%(40) 69.5%(40) 77.9%(40) 83.7%(40) 83.8%(40) 87%(40) 58.9%(40) 67.4%(40) 84.8%(40) 75.7%(40) RIM 83.7%(40) 77.9%(40) 87.4%(40) 75.9%(40) 72.7%(40) 68.5%(40) 82.2%(40) 60.3%(40) 83.1%(40) 81%(40) 77.3%(40) ERIM 86.8%(40) 80.9%(40) 83.5%(40) 78.9%(40) 75.8%(40) 73.1%(40) 86%(40) 38.9%(40) 80.8%(40) 81%(40) 76.6%(40) WAERIM 83.7%(40) 83.2%(40) 89.8%(40) 82%(40) 82.6%(40) 83.1%(40) 85.3%(40) 73%(40) 83.8%(40) 86.5%(40) 83.3%(40) AIERIM 92.2%(40) 80.9%(40) 85.8%(40) 82%(40) 80.3%(40) 76.9%(40) 89.1%(40) 67.5%(40) 83.8%(40) 81.7%(40) 82%(40) Lift 79.1%(40) 73.3%(40) 71.7%(40) 73.7%(40) 72.7%(40) 76.9%(40) 81.4%(40) 78.6%(40) 76.9%(40) 77.8%(40) 76.2%(40) Support 90.7%(40) 86.3%(40) 85%(40) 79.7%(40) 82.6%(40) 81.5%(40) 82.2%(40) 82.5%(40) 83.1%(40) 84.1%(40) 83.8%(40) 7 Confidence 64.3%(40) 63.4%(40) 73.2%(40) 85%(40) 78%(40) 86.2%(40) 90.7%(40) 86.5%(40) 86.2%(40) 81%(40) 79.4%(40) RIM 77.9%(40) 83.2%(40) 60.3%(40) 84.7%(40) 82.9%(40) 73.1%(40) 77.7%(40) 74.2%(40) 76%(40) 70.2%(40) 76%(40) ERIM 65.6%(40) 77.1%(40) 75.4%(40) 83.2%(40) 79.8%(40) 82.3%(40) 77.7%(40) 79.5%(40) 76.7%(40) 81.5%(40) 77.9%(40) WAERIM 77.9%(40) 82.4%(40) 80.2%(40) 85.5%(40) 85.3%(40) 83.8%(40) 79.2%(40) 82.6%(40) 83.7%(40) 84.7%(40) 82.5%(40) AIERIM 77.9%(40) 80.2%(40) 77%(40) 87.8%(40) 80.6%(40) 85.4%(40) 79.2%(40) 80.3%(40) 78.3%(40) 82.3%(40) 80.9%(40) Lift 76.3%(40) 74%(40) 72.2%(40) 75.6%(40) 77.5%(40) 76.2%(40) 73.8%(40) 66.7%(40) 76%(40) 75.8%(40) 74.4%(40) Support 81.7%(40) 87%(40) 81%(40) 89.3%(40) 76%(40) 85.4%(40) 85.4%(40) 81.1%(40) 84.5%(40) 84.7%(40) 83.6%(40) 8 Confidence 79.4%(40) 81.7%(40) 60.3%(40) 84.7%(40) 67.4%(40) 66.2%(40) 80%(40) 68.2%(40) 88.4%(40) 80.6%(40) 75.7%(40) RIM 84.7%(40) 85.6%(40) 76.7%(40) 83.4%(40) 80.8%(40) 81.3%(40) 83.8%(40) 81.9%(40) 84.1%(40) 81.6%(40) 82.4%(40) ERIM 82.9%(40) 86.9%(40) 82.3%(40) 85.9%(40) 86.9%(40) 83.3%(40) 80.9%(40) 85.6%(40) 78.5%(40) 81.7%(40) 83.5%(40) WAERIM 86%(40) 84.1%(40) 84.6%(40) 87.5%(40) 87.7%(40) 86.4%(40) 81.7%(40) 84.1%(40) 83.5%(40) 85.5%(40) 85.1%(40) AIERIM 82.2%(40) 86.4%(40) 83.1%(40) 86.6%(40) 86.2%(40) 83.3%(40) 80.9%(40) 87.1%(40) 78.5%(40) 83.2%(40) 83.8%(40) Lift 77.3%(40) 77.7%(40) 79.2%(40) 78.2%(40) 76.2%(40) 72.8%(40) 71.1%(40) 74.5%(40) 80%(40) 81.6%(40) 76.9%(40) Support 85.3%(40) 83.3%(40) 84.6%(40) 86.7%(40) 87.7%(40) 84.8%(40) 81.7%(40) 88.6%(40) 81.8%(40) 87%(40) 85.2%(40) 9 Confidence 85.6%(40) 89.4%(40) 84.5%(40) 92.1%(40) 83.8%(40) 85.6%(40) 81.7%(40) 88.6%(40) 83.5%(40) 82.4%(40) 85.7%(40) RIM 83.5%(40) 80.4%(40) 61.2%(40) 71.7%(40) 77.8%(40) 85.6%(40) 80.7%(40) 60.5%(40) 76.9%(40) 83.7%(40) 76.2%(40) ERIM 83.5%(40) 77.3%(40) 42%(40) 75.8%(40) 65.6%(40) 88.7%(40) 81.6%(40) 38.8%(40) 78.9%(40) 86.8%(40) 71.9%(40) WAERIM 87.6%(40) 79.7%(40) 77.1%(40) 82.6%(40) 77.8%(40) 89.5%(40) 84%(40) 73%(40) 82%(40) 83.7%(40) 81.7%(40) AIERIM 83.5%(40) 82.1%(40) 64.9%(40) 80.3%(40) 77.8%(40) 91.1%(40) 84%(40) 67.5%(40) 82.5%(40) 92.2%(40) 80.6%(40) Lift 83.5%(40) 78.1%(40) 74%(40) 71.7%(40) 76.3%(40) 80.6%(40) 80%(40) 78.6%(40) 73.7%(40) 79.1%(40) 77.6%(40) Support 85.3%(40) 89.8%(40) 80.9%(40) 82.6%(40) 81.7%(40) 81.5%(40) 84%(40) 82.5%(40) 79.7%(40) 90.7%(40) 83.9%(40) 10 Confidence 70.5%(40) 83.7%(40) 69.7%(40) 78.5%(40) 79.6%(40) 71.8%(40) 84.7%(40) 86.4%(40) 85%(40) 64.3%(40) 77.4%(40) Bảng 4.6. Kết quả 10 lần thử nghiệm với BankLoan (trường hợp 2) 65 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận văn đã giới thiệu một số kỹ thuật đánh giá luật dựa trên lý thuyết tập thô thông qua 3 độ đo: RIM, RAM, ERIM và đề xuất 2 độ đo mới WAERIM và AIERIM để giải quyết hạn chế của độ đo ERIM. Vì các rút gọn chứa các thuộc tính tiêu biểu nên những luật phát sinh từ các rút gọn là những tri thức tiêu biểu cho toàn bộ CSDL. Ứng với mỗi rút gọn ta có một tập luật, một luật được xem là quan trọng nếu nó xuất hiện thường xuyên trong các tập luật, độ đo RIM của một luật chính là tỉ lệ giữa số lượng các tập luật chứa luật này so với tổng số lượng các tập luật. Độ đo RIM dùng để đánh giá mức độ quan trọng của một luật và so sánh tầm quan trọng của nó với các luật khác. Đây là một độ đo khách quan, đơn giản và tính toán khá dễ dàng. Độ đo RAM được đề xuất để rút trích những luật quan trọng nhất từ tập luật dù độ đo này không có một giá trị tượng trưng cụ thể. Bằng cách xem luật như thuộc tính, độ đo này xây dựng lại bảng quyết định mới và tìm rút gọn của bảng quyết định mới này, vì rút gọn chứa những thuộc tính tiêu biểu nên các rút gọn của bảng quyết định mới chính là những luật tiêu biểu nhất cho toàn bộ dữ liệu. Độ đo ERIM là độ đo chủ quan vì giá trị của độ đo này được tính toán dựa trên trọng số của các thuộc tính được đánh giá bởi các chuyên gia. Từ tập luật RIM – tập luật thu được từ độ đo RIM – ta tính toán giá trị ERIM cho từng luật, những luật có giá trị độ đo RIM và ERIM cao được xem là quan trọng. Tuy nhiên hạn chế của độ đo ERIM là phụ thuộc vào số lượng các thuộc tính điều kiện trong luật, do đó luận văn đề xuất độ đo WAERIM như là giải pháp thay thế ERIM. Việc sử dụng trọng số của các thuộc tính điều kiện trong quá trình đánh giá luật giúp người dùng có thể chọn ra những luật thực sự đáng tin cậy vì các trọng số này chính là ý kiến nhận định của các chuyên gia trong cùng lĩnh vực (ERIM, WAERIM). Tuy nhiên đối với những ứng dụng không được các 66 chuyên gia đánh giá thì việc đánh giá tầm quan trọng của luật theo độ đo này mang lại hiệu quả thấp, vì vậy song song với độ đo WAERIM luận văn đề xuất độ đo AIERIM, độ đo này cũng cải tiến độ đo RIM dựa vào mức độ quan trọng của các thuộc tính điều kiện. Khác với ERIM và WAERIM, mức độ quan trọng các thuộc tính điều kiện ở độ đo AIERIM có được từ chính nguồn dữ liệu dùng để khai phá. Khả năng đánh giá luật của các độ đo này được chứng minh bằng thử nghiệm thực tế trên 2 nguồn dữ liệu Nursery và BankLoan. Cũng như các độ đo hữu ích, các độ đo dựa trên lý thuyết tập thô không phải là sự chọn lựa tốt nhất cho tất cả các ứng dụng, mỗi độ đo đều có những mặc hạn chế nhất định và trong một số trường hợp nó không mang lại kết quả như mong đợi. Hướng phát triển - Mở rộng kỹ thuật đánh giá luật bằng cách kết hợp các độ đo đã được đề xuất, chẳng hạn kết hợp WAERIM với Confidence, AIERIM với Support, hay sử dụng tập luật RIM để xây dựng lại bảng quyết định mới và tìm các luật quan trọng theo độ đo RAM… - Tiếp tục tìm hiểu các độ đo khác kết hợp giữa độ đo chủ quan và khách quan để đưa ra nhiều kỹ thuật đánh giá luật hỗ trợ việc chọn lựa những tri thức thực sự có ích trong quá trình khai thác dữ liệu. 67 CÔNG TRÌNH NGHIÊN CỨU 1. Tham gia bài báo cùng với tác giả TS. Vũ Thanh Nguyên: “Evaluating Technologies Based Rough Set Theory”, bài báo vừa nhận được sự chấp nhận của ICMLC 2010 tại InterContinental Qingdao, Trung Quốc (International Conference on Machine Learning and Cybernetics 2010). Hội nghị sẽ diễn ra vào ngày 11-14/7/2010. 68 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Võ Đình Bảy(2005). Một số thuật toán khai thác luật kết hợp trên tập đóng và dàn. Luận văn Thạc sĩ Công Nghệ Thông Tin – Đại học Khoa học Tự nhiên TpHCM. Tiếng Anh [2] A.Skowron, C.Rauszer(1991). The Discernibility Matrics and Functions in Information Systems. Handbook of Applications and Advances of the Rough Sets Thoery, Kluwer, Dordrecht. [3] A.Ohrn(1999). Discernibility and Rough Sets in Medicine: Tools and Applications. PhD Thesis, Department of Computer and Information and Science, Norwegian University of Science and Technology, Trondheim Norway. The ROSETTA Homepage, [4] B.Liu, W.Hsu, Y.Ma(1998). “Integrating Classification and Association Rule Mining”. In Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, NewYork, USA. [5] C.L.Blake, C.J.Merz. UCI Repository of machine learning databases, Irvine, CA: University of California (1998): [6] Jiye Li, Nick Cercone(2005). “Discovering and Ranking Important Rules”.Granular Computing, IEEE International Conference on Volume 2. [7] Jiye Li(2007). Rough Set Based Rule Evaluations and Their Applications. PhD Thesis in Computer Science, presented to the University of Waterloo. [8] J.Wroblewski(1995). “Finding Minimal Reducts Using Genetic Algorithm”. Institute of Mathematics, University of Warsor. 69 [9] Jiye Li, Nick Cercone, W. H . Wong, Lisa Jing Yan(2009). “Enhancing Rule Importance Measure Using Concept Hierarchy”. Faculty of Computer Science and Engineering, York University. [10] N.H. Son(1997), Discretization of Real Value attributes. A Boolean Reasoning approach. Thesis for Doctor of Philosophy. [11] P.Tan, V.Kumar, J.Sivastava(2002). “Selecting the Right Interestingness Measure for Association Patterns”, in SIGKDD’02 ACM. [12] Z. Pawlak(1991). “Rough Sets – Theoretical Aspects of Reasoning about Data”. Kluwer Academic Publishers, Dordrecht. [13] Z.Yingjun, Z.Feixiang, X.Shengwei(2008). “A Rough Set – based Heuristic Algorithm for Attribute Reduction”. Institute of Traffic Information Engineering, Dalian Maritime University, Dalian, China.

Các file đính kèm theo tài liệu này:

Một số kỹ thuật đánh giá luật dựa trên lí thuyết tập thô.pdf