Đề tài Tìm hiểu luật kết hợp trong khai phá dữ liệu

Khai phá luật kết hợp Mục đích chính của khai phá dữ liệu là các tri thức được kiết xuất ra sẽ được sử dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa học. Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thường mua loại TV 21 inches”. Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể. Đó chính là nhiệm vụ khai phá luật kết hợp. Giả sử chúng ta có một CSDL D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các mục X nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những mục T cũng trong những bản ghi đó. Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả X và T. Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ  và độ tin cậy . Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn  và  tương ứng. Giả thiết D là CSDL giao dịch và với  = 40%,  = 90%. Vấn đề phát hiện luật kết hợp được thực hiện như sau: Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác. Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%. Hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách hàng. Giả sử công ty quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp và sản phẩm". Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên. Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất, thoả mãn một ngưỡng nào đó ?

doc31 trang | Chia sẻ: lvcdongnoi | Lượt xem: 2645 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đề tài Tìm hiểu luật kết hợp trong khai phá dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Đề tài : TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU Danh sách nhóm: 1. Nguyễn Thị Thuỳ Dung 2. Lê Thị Hoa 3. Đặng Thị Cẩm Vi 1. Khai phá luật kết hợp Mục đích chính của khai phá dữ liệu là các tri thức được kiết xuất ra sẽ được sử dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa học. Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thường mua loại TV 21 inches”. Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể. Đó chính là nhiệm vụ khai phá luật kết hợp. Giả sử chúng ta có một CSDL D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các mục X nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những mục T cũng trong những bản ghi đó. Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả X và T. Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ q và độ tin cậy b. Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn q và b tương ứng. Giả thiết D là CSDL giao dịch và với q = 40%, b = 90%. Vấn đề phát hiện luật kết hợp được thực hiện như sau: Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác. Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%. Hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách hàng. Giả sử công ty quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp và sản phẩm". Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên. Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất, thoả mãn một ngưỡng nào đó ? 2. Lý thuyết về luật kết hợp 2.1. Định nghĩa luật kết hợp Một luật kết hợp có dạng R: X => Y, trong đó, X, Y là các tập mục, X,Y ÍI và X∩Y=Æ X được gọi là tiền đề và Y được gọi là hệ quả của luật. 2.2 Khái niệm Cho một tập I = {I1, I2, ..., Im} các tập m mục, một giao dịch T được định nghĩa như một tập con của các mục trong I (TÍI). Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh duy nhất. Nói rằng, một giao dịch T Î D hỗ trợ một tập X Í I nếu nó chứa tất cả các mục của X. Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là: sup(X) = hay số lượng giao dịch hỗ trợ X Supp(X)= Tổng số giao dịch Độ hỗ trợ tối thiểu minsup là một giá trị cho trước bởi người sử dụng. Nếu tập mục X có sup(X) ³ minsup thì ta nói X là một tập các mục phổ biến. Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục, X, Y Í I và X ÇY = Æ. +) X được gọi là tiên đề . +) Y được gọi là hệ quả của luật. Luật X => Y tồn tại một độ tin cậy confidence (c/conf). Độ tin cậy c được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y. Ta có công thức tính độ tin cậy c như sau: conf(X =>Y) = (2.2) Ví dụ: cho CSDL bán hàng 1 – có bán sản phẩm 0 – không bán sản phẩm Khoản mục Giao dịch Bánh mì bơ phomat táo Nho T1 1 1 0 1 0 T2 1 0 1 1 0 T3 0 1 1 1 0 T4 1 0 1 1 1 Ví dụ: X ={ bánh mi, phomat} +) Các giao dịch hỗ trợ cho X: T2, T4 +) Các giao dịch không hỗ trợ cho X: T1, T3. X Supp(X) Bánh mì, phomat 2/4 =1/2 Bánh mì, táo 3/4 Táo, nho 1/4 Táo 4/4 = 1 Bơ 2/4 = 1/2 Phomat 3/4 Bo, phomat, bánh mì 0/4 = 0 Tuy nhiên, không phải bất cứ luật kết hợp nào có mặt trong tập các luật có thể được sinh ra cũng đều có ý nghĩa trên thực tế. Mà các luật đều phải thoả mãn một ngưỡng hỗ trợ và tin cậy cụ thể. Khai phá luật kết hợp được phân thành hai bài toán con: Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do người dùng xác định. Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến. Bài toán 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn. Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy: (2.3) Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến).  2.2 Một số tính chất liên quan: 2.2.1. Với tập mục phổ biến, có 3 tính chất sau: Tính chất 1 (Độ hỗ trợ của tập con): Với A và B là tập các mục, nếu A Í B thì sup(A) ³ sup(B) Điều này là rõ ràng vì tất cả các giao tác của D hỗ trợ B thì cũng hỗ trợ A. Tính chất 2: Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến. Nếu một mục trong B không có độ hỗ trợ tối thiểu trên D nghĩa là sup(B)< minsup thì một tập con A của B sẽ không phải là một tập phổ biến vì sup(B) £ sup(A) < minsup (theo tính chất 1) Tính chất 3: Các tập con của tập phổ biến cũng là tập phổ biến Nếu mục B là mục phổ biến trên D, nghĩa là sup(B) ³ minsup thì mọi tập con A của B là tập phổ biến trên D vì sup(A) ³ sup(B) > minsup. 2.2.2 Với luật kết hợp, có 4 tính chất sau: Tính chất 1:( Không hợp các luật kết hợp) Nếu có X®Z và Y®Z trong D thì không nhất thiết XÈY®Z là đúng Xét trường hợp X ÇZ =Æ và các tác vụ trong D hỗ trợ Z nếu và chỉ nếu chúng hỗ trợ mỗi X hoặc Y, khi đó luật XÈY®Z có độ hỗ trợ 0%. Tương tự : X®Y Ù X®Z Þ X®YÈZ Tính chất 2:(Không tách luật) Nếu XÈY®Z thì X®Z và Y®Z chưa chắc xảy ra Ví dụ trường hợp Z có mặt trong một giao tác chỉ khi cả hai X và Y cũng có mặt, tức là sup(XÈY)= sup(Z), nếu độ hỗ trợ của X và Y đủ lớn hơn sup(XÈY), tức là sup(X) > sup(XÈY) và sup(Y) > sup(XÈY) thì hai luật riêng biệt sẽ không đủ độ tin cậy Tuy nhiên đảo lại: X®YÈZ Þ X®Y Ù X®Z Tính chất 3: (Các luật kết hợp không có tính bắc cầu) Nếu X®Y và Y®Z, chúng ta không thể suy ra X®Z. Ví dụ: giả sử T(X) Ì T(Y) Ì T(Z), ở đó T(X), T(Y), T(Z) tương ứng là các giao dịch chứa X,Y,Z, và độ tin cậy cực tiểu minconf conf(X®Y) =conf(Y®Z)=minconf thế thì: conf(X®Y) =minconf2 < minconf vì minconf < 1, do đó luật X®Z không đủ độ tin cậy Tính chất 4: Nếu A®(L - A) không thoả mãn độ tin cậy cực tiểu thì luật B ®(L -B) cũng không thoả mãn, với các tập mục L,A,B và B Í A Ì L Vì supp(B) ³ sup(A) (theo tính chất 1) và định nghĩa độ tin cậy, chúng ta nhận được: conf(B ®(L-B)) =< minconf (2.4) Cũng như vậy: Nếu có (L-C)® C thì ta cũng có luật (L – D)®D, với DÍC và D¹Æ. Bởi vì DÍC nên (L - D) Ê (L - C), do đó sup(L - D) £ sup(L-C) Þ ³ minconf (2.5) Các tính chất này sẽ được sử dụng trong thuật toán mô tả trong các chương sau. Thuật toán Apriori Giới thiệu bài toán: Bài toán được phát biểu: Tìm t có độ hỗ trợ s thỏa mãn s ³ s0 và độ tin cậy c ³ c0 (s0, c0 là hai ngưỡng do người dùng xác định và s0=minsupp, c0 =minconf) . Ký hiệu : Lk tập các tập k - mục phổ biến, Ck tập các tập k-mục ứng cử (cả hai tập có: tập mục và độ hỗ trợ). Bài toán đặt ra là: Tìm tất cả các tập mục phổ biến với minsup nào đó. Sử dụng các tập mục phổ biến để sinh ra các luật kết hợp với độ tin cậy minconf nào đó. Quá trình thực hiện (duyệt): Thực hiện nhiều lần duyệt lặp đi lặp lại, trong đó tập (k-1) - mục được sử dụng cho việc tìm tập k-mục. Lần thứ nhất tìm tất cả các độ hỗ trợ của các mục, xác định mục phổ biến (mục thoả mãn độ hỗ trợ cực tiểu-minsup). Giả sử tìm được L1-mục phổ biến. Các lần duyệt còn lại: Bắt đầu kết quả tìm được bước trước nó, sử dụng các tập mục mẫu (L1) sinh ra các tập mục phổ biến tiềm năng (ứng cử)(giả sử L2), tìm độ hỗ trợ thực sự. Mỗi lần duyệt ta phải xác định tập mục mẫu cho lần duyệt tiếp theo. Thực hiện lặp để tìm L3, ..., Lk cho đến khi không tìm thấy tập mục phổ biến nào nữa. Chú ý: Ứng dụng Lk-1 để tìm Lk bao gồm hai bước chính: Bước kết nối: tìm Lk là tập k-mục tương ứng được sinh ra bởi việc kết nối Lk-1 với chính nó cho kết quả là Ck. Giả sử L1, L2 thuộc Lk-1. Ký hiệu Lij là mục thứ j trong Li. Điều kiện là các tập mục hay các mục trong giao dịch có thứ tự. Bước kết nối như sau: Các thành phần Lk-1 kết nối (nếu có chung k-2-mục đầu tiên) tức là:(L1[1]=L2[1]) Ç (L1[2]=L2[2]) Ç ... Ç (L1[k-2]=L2[k-2]) Ç (L1[k-1]=L2[k-1]). Bước tỉa: Ck là tập chứa Lk (có thể là tập phổ biến hoặc không) nhưng tất cả tập k-mục phổ biến được chứa trong Ck. Bước này, duyệt lần hai CSDL để tính độ hỗ trợ cho mỗi ứng cử trong Ck sẽ nhận được Lk Thuật toán Apriori Các kí hiệu: Lk: Tập các k-mục phổ biến (large k-itemset) (tức tập các itemset có sup tối thiểu và có lực lượng bằng k). Mỗi phần tử của tập này có 2 trường: itemset và support-count. Ck: Tập các candidate k-itemset (tập các tập k-mục ứng cử viên). Mỗi phần tử trong tập này cũng có 2 trường itemset và support-count. Nội dung thuật toán Apriori được trình bày như sau: Input: Tập các giao dịch D, ngưỡng support tối thiểu minsup Output: L- tập mục phổ biến trong D Method: L1={large 1-itemset (tập 1- mục phổ biến)} //tìm tất cả các tập mục phổ biến: nhận được L1 for (k=2; Lk-1 ¹ Æ; k++) do begin Ck=apriori-gen(Lk-1); //sinh ra tập ứng cử viên từ Lk-1 for (mỗi một giao dịch TD) do begin CT = subset(Ck, T); //lấy tập con của T là ứng cử viên trong Ck for (mỗi một ứng cử viên c CT) do c.count++; //tăng bộ đếm tần xuất 1 đơn vị end; Lk = {c Î Ck| c.count ³ minsup} end; return ÈkLk +) Trong thuật toán này, giai đoạn đầu đơn giản chỉ là việc đếm support cho các mục(item). Để xác định tập 1-mục phổ biến (L1), người ta chỉ giữ lại các mục (item) mà sup của nó lớn hơn hoặc bằng minsup. +) Trong các giai đoạn thứ k sau đó (k>1), mỗi giai đoạn gồm có 2 pha. Trước hết các large(k-1)-itemset (tập k-1- mục phổ biến) trong tập Lk-1được sử dụng để sinh ra các candidate itemset (tập ứng cử viên) Ck, bằng cách thực hiện hàm Apriori_gen. +) Tiếp theo CSDL D sẽ được quét để tính support cho mỗi ứng viên trong Ck. Để việc đếm được nhanh, cần phải có một giải pháp hiệu quả để xác định các ứng viên trong Ck là có mặt trong một giao dịch T cho trước. Vấn đề sinh tập candidate (tập ứng cử) của Apriori – Hàm Apriori_gen: Hàm Apriori_gen với đối số là Lk-1(tập các large(k-1)-itemset) sẽ cho lại kết quả là một superset, tập của tất cả các large k – itemset. Sơ đồ sau là thuật toán cho hàm này. Input: tập mục phổ biến Lk-1 có kích thước k-1 Output: tập ứng cử viên Ck Method: function apriori-gen(Lk-1: tập mục phổ biến có kích thước k-1) Begin For (mỗi L1 Î Lk-1) doa For (mỗi L2 Î Lk-1) do begin If ((L1[1]=L2[1]) Ç (L1[2]=L2[2]) Ç ... Ç (L1[k-2]=L2[k-2]) Ç (L1[k-1]=L2[k-1])) then c = L1 Å L2; // kết nối L1 với L2 sinh ra ứng cử viên c If has_infrequent_subset(c, Lk-1) then //có tập con ko pổ biến của c trong Lk-1 remove (c) // bước tỉa (xoá ứng cử viên c) else Ck = Ck È {c}; kết tập c vào Ck end; Return Ck; End; Với nội dung trên, ta thấy hàm này có 2 bước: - Bước nối (join step) - Bước cắt tỉa (prune step) Hàm Subset (trong bước tỉa) Các tập ứng cử viên Ck được lưu trữ trong một cây băm. +) Nút lá của cây băm chứa danh sách một tập mục và đếm +) Các nút trong chứa ở trong bảng băm Hàm subset: tìm tất cả các ứng cử viên được chứa trong giao tác. Ví dụ : Giả sử tập các mục I = {A ,B, C, D, E} và cơ sở dữ liệu giao dịch: TID (giao dịch) Các khoản mục 1 {A, C, D} 2 {B, C, E} 3 {A, B, C, E} 4 {B, E} Với minsup = 0.5 (tức tương đương 2 giao dịch). Khi thực hiện thuật toán Apriori trên ta có bảng 1.1: Hình 9: Các tập Ck và Lk sau khi thực hiện thuật toán Apriori trên tập D  Quét toàn bộ D C1 1 - itemset Count-support {A} 2 - 50% {B} 3 – 75% {C} 3 – 75% {D} 1 - 25% {E} 3 - 75% C2 2 - itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Tỉa Xóa bỏ mục có support < minsup Kết nối L1 & L1 L1 1 - itemset Count-support {A} 2 - 50% {B} 3 – 75% {C} 3 – 75% {E} 3 - 75% D (CSDL) TID Các mục 1 {A, C, D} 2 {B, C, E} 3 {A, B, C, E} 4 {B, E} C2 2 - itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Quét toàn bộ D C2 2 - itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} C2 2 - itemset Count-support {A, B} 1 – 25% {A, C} 2 – 50% {A, E} 1 – 25% {B, C} 2 – 50% {B, E} 3 – 75% {C, E} 2 – 50% Quét toàn bộ D 3 - itemset {B, C, E} 3 - itemset {A, B, C} Kết nối L2 & L2 {A, B, E} {B, C, E} L3 3 - itemset Count- support {B, C, E} 2 - 50% Xóa bỏ mục có support < minsup C3 3 - itemset Count- support {B, C, E} 2 - 50% Tỉa L2 2 - itemset Count-support {A, C} 2 – 50% {B, C} 2 – 50% {B, E} 3 – 75% {C, E} 2 – 50% Hình 3.1. Ví dụ thuật toán Apriori Ví dụ 2: Cho cơ sở dữ liệu như sau: Sinh các luật kết hợp từ tập mục phổ biến: Số luật tối đa Cho d mục tổng số của tập mục ứng cử là 2d tổng số của luật kết hợp tối đa là R=3d – 2d +1 Ví dụ: d=6R=602rules Minh họa: d={A, B, C, D, E) Rule generation(tập gen) Cho tập mục phổ biến L,tìm tất cả các tập con khôngrỗng f⊆ L mà f => L – f thỏa mãn conf min_conf Nếu L={A,B,C,D} là tập mục phổ biến, các ứng cử viên của luật ABC =>D, ABD =>C, ACD =>B, BCD =>A, A =>BCD, B =>ACD, C =>ABD, D =>ABC AB =>CD, AC =>BD, AD =>BC, BC =>AD, BD =>AC, CD =>AB, Nếu |L| = k, thì có 2k-2 ứng cử luật kết hợp(trừ L => ∅ và ∅ => L) Generate Hash Tree (cây băm_gen) Giả sử có 15 tập mục ứng cử của độ dài 3: {1 4 5}, {1 2 4}, {4 5 7}, {1 2 5}, {4 5 8}, {1 5 9}, {1 3 6}, {2 3 4}, {5 6 7}, {3 4 5}, {3 5 6}, {3 5 7}, {6 8 9}, {3 6 7}, {3 6 8} H(a)= a mod 3 Phép toán tập con sử dụng trong cây băm Ví dụ áp dụng cho CSDL bán một số mặt hàng ở cửa hàng tạp hóa Giao dịch Mục T1 Bánh kẹo, sữa, trà, cà phê, coca, thuốc lá, bia T2 Cà phê, bia, thuốc lá, bột giặt, nước xả T3 Sữa, cà phê, thuốc lá, trà, bia T4 Bánh kẹo bột giặt, nước xả, coca T5 Bia, coca, thuốc lá, trà, cà phê T6 Trà, thuốc lá, bia, bánh kẹo, sữa T7 Sữa, cà phê, coca, thuốc lá Với min_sup = 40% Xóa bỏ mục có support < minsup C1 1-tập mục đếm- supp bánh kẹo 3 – 42,8% sữa 4 – 57,2% trà 4 – 57,2% cà phê 5 -71,4% bia 5 – 71,4% coca 4 -57,2% thuốc lá 4 – 57,2% bột giặt 2- 28,5% nước xả 2 -28,5% L1 1- tập mục đếm – supp bánh kẹo 3 -42,8% sữa 4 -57,2% trà 4 – 57,2% cà phê 5 – 71,4% bia 5 – 71,4% coca 4 -57,2% thuốc lá 4- 57,2% Kết nối L1 & L1 C2 2- tập mục đếm - supp bánh kẹo, sữa 2- 28,5% bánh kẹo, trà 2-28,5% bánh kẹo, cà phê 1-14,3% bánh kẹo, coca 2- 28,5% bánh kẹo, thuốc lá 2 -28,5% sữa, trà 3 -42,8% sữa, càphê 3 -42,8% sữa, bia 3 -42,8% sữa, coca 2 -28,5% Sữa, thuốc lá 4 -57,2% trà, cà phê 3 -42,8% trà, bia 3- 42,8% trà, coca 2 -28,5% trà, thuốc lá 4 -57,2% cà phê, bia 4 -57,2% cà phê, coca 3- 42,8% cà phê, thuốc lá 5 -71,4% bia, coca 2- 28,5% bia, thuốc lá 4- 52,8% coca, thuốc lá 3 – 42,8% C2 2- tập mục bánh kẹo, sữa bánh kẹo trà bánh kẹo, cà phê bánh kẹo, c oca bánh kẹo, thuốc lá sữa, trà sữa, cà phê sữa, bia sữa, coca sữa, thuốc lá trà, cà phê trà, bia trà, coca trà, thuốc lá cà phê, bia cà phê, coca cà phê, thuốc lá bia, coca bia, thuốc lá coca, thuốc lá C2 2- tập mục bánh kẹo, sữa bánh kẹo, trà bánh kẹo, cà phê bánh kẹo, coca bánh kẹo, thuốc lá sữa, trà sữa, cà phê sữa, bia sữa, coca sữa, thuốc lá trà, cà phê trà, bia trà, coca trà, thuốc lá cà phê, bia cà phê, coca cà phê, thuốc lá bia, coca bia, thuốc lá coca, thuốc lá Quét toàn bộ D Tỉa Quét toàn bộ D C2 2- tập mục đếm - supp bánh kẹo, sữa 2- 28,5% bánh kẹo, trà 2-28,5% bánh kẹo, cà phê 1-14,3% bánh kẹo, coca 2- 28,5% bánh kẹo, thuốc lá 2 -28,5% sữa, trà 3 -42,8% sữa, càphê 3 -42,8% sữa, bia 3 -42,8% sữa, coca 2 -28,5% Sữa, thuốc lá 4 -57,2% trà, cà phê 3 -42,8% trà, bia 3- 42,8% trà, coca 2 -28,5% trà, thuốc lá 4 -57,2% cà phê, bia 4 -57,2% cà phê, coca 3- 42,8% cà phê, thuốc lá 5 -71,4% bia, coca 2- 28,5% bia, thuốc lá 4- 52,8% coca, thuốc lá 3 – 42,8% C3 3- tập mục đếm supp sữa, trà, cà phê 2 -28,5% sữa, trà, bia 3 – 42,8% sữa, trà, thuốc lá 3 -42,8% sữa, cà phê, thuốc lá 3 – 42,8% sữa, bia, thuốc lá 2- 28,5% trà, cà phê, bia 3 -42,8% trà, cà phê, thuốc lá 2 – 28,5% trà, bia, thuốc lá 4- 57,2% cà phê, bia, thuốc lá 4 – 57,2% cà phê, thuốc lá, coca 3- 42,8% \ Kết nối L2 & L2 L2 2-tập mục Đếm – supp Sữa, trà 3 -42,8% Sữa, cà phê 3 – 42,8% Sữa, bia 3 – 42,8% Sữa, thuốc lá 4 -57,2% Trà, cà phê 3 – 42,8% Trà, bia 3 – 42,8% Trà, thuốc lá 4 -57,2% Cà phê, bia 4- 57,2% Cà phê, coca 3 -42,8% Cà phê, thuốc lá 5 – 71,4% Bia, thuốc lá 4 -57,2% Coca, thuốc lá 3 – 42,8% Tỉa C3 3- tập mục sữa, trà, cà phê sữa, trà bia sữa, trà, thuốc lá sữa, trà, coca sữa, cà phê, bia sữa, cà phê, thuốc lá sữa, cà phê, coca sữa, bia, thuốc lá sữa, bia, coca sữa, thuốc lá, coca trà, cà phê, bia trà, cà phê, thuốc lá trà, cà phê, coca trà, bia ,thuốc lá trà, bia ,coca trà, thuốc lá, coca cà phê, bia, thuốc lá cà phê, bia, coca cà phê, thuốc lá coca bia, thuốc lá, coca Xóa bỏ mục có support < minsup C3 3- tập mục sữa, trà, cà phê sữa, trà, bia sữa, trà, thuốc lá sữa, cà phê, thuốc lá sữa, bia, thuốc lá trà, cà phê, bia trà, cà phê, thuốc lá trà, bia, thuốc lá cà phê, bia, thuốc lá cà phê, thuốc lá, coca L3 3 – tập mục Đếm – supp Sữa, trà, bía 3 – 42,8% Sữa, trà, thuốc lá 3 – 42,8% Sữa, cà phê, thuốc lá 3 -42,8% Trà, cà phê, bia 3 -42,8% Trà, bia, thuốc lá 4 – 57,2% Cà phê, bia, thuốc lá 4- 57,2% Cà phê, thuốc lá, coca 3 – 42,8% C3 3- tập mục đếm supp sữa, trà, cà phê 2 -28,5% sữa, trà, bia 3 – 42,8% sữa, trà, thuốc lá 3 -42,8% sữa, cà phê, thuốc lá 3 – 42,8% sữa, bia, thuốc lá 2- 28,5% trà, cà phê, bia 3 -42,8% trà, cà phê, thuốc lá 2 – 28,5% trà, bia, thuốc lá 4- 57,2% cà phê, bia, thuốc lá 4 – 57,2% cà phê, thuốc lá, coca 3- 42,8% \ Xóa bỏ mục có support < minsup

Các file đính kèm theo tài liệu này:

  • docĐề tài- Tìm hiểu luật kết hợp trong khai phá dữ liệu.doc