Khai phá luật kết hợp
Mục đích chính của khai phá dữ liệu là các tri thức được kiết xuất ra sẽ được sử dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa học.
Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thường mua loại TV 21 inches”. Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể. Đó chính là nhiệm vụ khai phá luật kết hợp.
Giả sử chúng ta có một CSDL D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các mục X nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những mục T cũng trong những bản ghi đó. Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả X và T.
Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ và độ tin cậy . Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn và tương ứng.
Giả thiết D là CSDL giao dịch và với = 40%, = 90%. Vấn đề phát hiện luật kết hợp được thực hiện như sau:
Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác.
Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%.
Hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách hàng. Giả sử công ty quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp và sản phẩm". Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên. Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất, thoả mãn một ngưỡng nào đó ?
31 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2816 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Tìm hiểu luật kết hợp trong khai phá dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Đề tài :
TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU
Danh sách nhóm:
1. Nguyễn Thị Thuỳ Dung
2. Lê Thị Hoa
3. Đặng Thị Cẩm Vi
1. Khai phá luật kết hợp
Mục đích chính của khai phá dữ liệu là các tri thức được kiết xuất ra sẽ được sử dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa học.
Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thường mua loại TV 21 inches”. Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể. Đó chính là nhiệm vụ khai phá luật kết hợp.
Giả sử chúng ta có một CSDL D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các mục X nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những mục T cũng trong những bản ghi đó. Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả X và T.
Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ q và độ tin cậy b. Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn q và b tương ứng.
Giả thiết D là CSDL giao dịch và với q = 40%, b = 90%. Vấn đề phát hiện luật kết hợp được thực hiện như sau:
Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác.
Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%.
Hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách hàng. Giả sử công ty quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp và sản phẩm". Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên. Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất, thoả mãn một ngưỡng nào đó ?
2. Lý thuyết về luật kết hợp
2.1. Định nghĩa luật kết hợp
Một luật kết hợp có dạng R: X => Y, trong đó, X, Y là các tập mục, X,Y ÍI và X∩Y=Æ
X được gọi là tiền đề và
Y được gọi là hệ quả của luật.
2.2 Khái niệm
Cho một tập I = {I1, I2, ..., Im} các tập m mục, một giao dịch T được định nghĩa như một tập con của các mục trong I (TÍI).
Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh duy nhất. Nói rằng, một giao dịch T Î D hỗ trợ một tập X Í I nếu nó chứa tất cả các mục của X.
Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:
sup(X) =
hay
số lượng giao dịch hỗ trợ X
Supp(X)=
Tổng số giao dịch
Độ hỗ trợ tối thiểu minsup là một giá trị cho trước bởi người sử dụng.
Nếu tập mục X có sup(X) ³ minsup thì ta nói X là một tập các mục phổ biến.
Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục, X, Y Í I và X ÇY = Æ.
+) X được gọi là tiên đề .
+) Y được gọi là hệ quả của luật.
Luật X => Y tồn tại một độ tin cậy confidence (c/conf). Độ tin cậy c được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y. Ta có công thức tính độ tin cậy c như sau:
conf(X =>Y) = (2.2)
Ví dụ: cho CSDL bán hàng
1 – có bán sản phẩm
0 – không bán sản phẩm
Khoản mục
Giao dịch
Bánh mì
bơ
phomat
táo
Nho
T1
1
1
0
1
0
T2
1
0
1
1
0
T3
0
1
1
1
0
T4
1
0
1
1
1
Ví dụ: X ={ bánh mi, phomat}
+) Các giao dịch hỗ trợ cho X: T2, T4
+) Các giao dịch không hỗ trợ cho X: T1, T3.
X
Supp(X)
Bánh mì, phomat
2/4 =1/2
Bánh mì, táo
3/4
Táo, nho
1/4
Táo
4/4 = 1
Bơ
2/4 = 1/2
Phomat
3/4
Bo, phomat, bánh mì
0/4 = 0
Tuy nhiên, không phải bất cứ luật kết hợp nào có mặt trong tập các luật có thể được sinh ra cũng đều có ý nghĩa trên thực tế. Mà các luật đều phải thoả mãn một ngưỡng hỗ trợ và tin cậy cụ thể.
Khai phá luật kết hợp được phân thành hai bài toán con:
Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do người dùng xác định. Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến.
Bài toán 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn. Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:
(2.3)
Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến).
2.2 Một số tính chất liên quan:
2.2.1. Với tập mục phổ biến, có 3 tính chất sau:
Tính chất 1 (Độ hỗ trợ của tập con):
Với A và B là tập các mục, nếu A Í B thì sup(A) ³ sup(B)
Điều này là rõ ràng vì tất cả các giao tác của D hỗ trợ B thì cũng hỗ trợ A.
Tính chất 2:
Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến.
Nếu một mục trong B không có độ hỗ trợ tối thiểu trên D nghĩa là sup(B)< minsup thì một tập con A của B sẽ không phải là một tập phổ biến vì sup(B) £ sup(A) < minsup (theo tính chất 1)
Tính chất 3: Các tập con của tập phổ biến cũng là tập phổ biến
Nếu mục B là mục phổ biến trên D, nghĩa là sup(B) ³ minsup thì mọi tập con A của B là tập phổ biến trên D vì sup(A) ³ sup(B) > minsup.
2.2.2 Với luật kết hợp, có 4 tính chất sau:
Tính chất 1:( Không hợp các luật kết hợp)
Nếu có X®Z và Y®Z trong D thì không nhất thiết XÈY®Z là đúng
Xét trường hợp X ÇZ =Æ và các tác vụ trong D hỗ trợ Z nếu và chỉ nếu chúng hỗ trợ mỗi X hoặc Y, khi đó luật XÈY®Z có độ hỗ trợ 0%.
Tương tự : X®Y Ù X®Z Þ X®YÈZ
Tính chất 2:(Không tách luật)
Nếu XÈY®Z thì X®Z và Y®Z chưa chắc xảy ra
Ví dụ trường hợp Z có mặt trong một giao tác chỉ khi cả hai X và Y cũng có mặt, tức là sup(XÈY)= sup(Z), nếu độ hỗ trợ của X và Y đủ lớn hơn sup(XÈY), tức là sup(X) > sup(XÈY) và sup(Y) > sup(XÈY) thì hai luật riêng biệt sẽ không đủ độ tin cậy
Tuy nhiên đảo lại: X®YÈZ Þ X®Y Ù X®Z
Tính chất 3: (Các luật kết hợp không có tính bắc cầu)
Nếu X®Y và Y®Z, chúng ta không thể suy ra X®Z.
Ví dụ: giả sử T(X) Ì T(Y) Ì T(Z), ở đó T(X), T(Y), T(Z) tương ứng là các giao dịch chứa X,Y,Z, và độ tin cậy cực tiểu minconf
conf(X®Y) =conf(Y®Z)=minconf thế thì: conf(X®Y) =minconf2 < minconf vì minconf < 1, do đó luật X®Z không đủ độ tin cậy
Tính chất 4:
Nếu A®(L - A) không thoả mãn độ tin cậy cực tiểu thì luật
B ®(L -B) cũng không thoả mãn, với các tập mục L,A,B và B Í A Ì L
Vì supp(B) ³ sup(A) (theo tính chất 1) và định nghĩa độ tin cậy, chúng ta nhận được: conf(B ®(L-B)) =< minconf (2.4)
Cũng như vậy: Nếu có (L-C)® C thì ta cũng có luật (L – D)®D, với DÍC và D¹Æ.
Bởi vì DÍC nên (L - D) Ê (L - C), do đó sup(L - D) £ sup(L-C)
Þ ³ minconf (2.5)
Các tính chất này sẽ được sử dụng trong thuật toán mô tả trong các chương sau.
Thuật toán Apriori
Giới thiệu bài toán:
Bài toán được phát biểu: Tìm t có độ hỗ trợ s thỏa mãn s ³ s0 và độ tin cậy c ³ c0 (s0, c0 là hai ngưỡng do người dùng xác định và s0=minsupp, c0 =minconf) . Ký hiệu :
Lk tập các tập k - mục phổ biến,
Ck tập các tập k-mục ứng cử (cả hai tập có: tập mục và độ hỗ trợ).
Bài toán đặt ra là:
Tìm tất cả các tập mục phổ biến với minsup nào đó.
Sử dụng các tập mục phổ biến để sinh ra các luật kết hợp với độ tin cậy minconf nào đó.
Quá trình thực hiện (duyệt):
Thực hiện nhiều lần duyệt lặp đi lặp lại, trong đó tập (k-1) - mục được sử dụng cho việc tìm tập k-mục. Lần thứ nhất tìm tất cả các độ hỗ trợ của các mục, xác định mục phổ biến (mục thoả mãn độ hỗ trợ cực tiểu-minsup). Giả sử tìm được L1-mục phổ biến.
Các lần duyệt còn lại: Bắt đầu kết quả tìm được bước trước nó, sử dụng các tập mục mẫu (L1) sinh ra các tập mục phổ biến tiềm năng (ứng cử)(giả sử L2), tìm độ hỗ trợ thực sự. Mỗi lần duyệt ta phải xác định tập mục mẫu cho lần duyệt tiếp theo.
Thực hiện lặp để tìm L3, ..., Lk cho đến khi không tìm thấy tập mục phổ biến nào nữa.
Chú ý:
Ứng dụng Lk-1 để tìm Lk bao gồm hai bước chính:
Bước kết nối: tìm Lk là tập k-mục tương ứng được sinh ra bởi việc kết nối Lk-1 với chính nó cho kết quả là Ck. Giả sử L1, L2 thuộc Lk-1. Ký hiệu Lij là mục thứ j trong Li. Điều kiện là các tập mục hay các mục trong giao dịch có thứ tự.
Bước kết nối như sau: Các thành phần Lk-1 kết nối (nếu có chung k-2-mục đầu tiên) tức là:(L1[1]=L2[1]) Ç (L1[2]=L2[2]) Ç ... Ç (L1[k-2]=L2[k-2]) Ç (L1[k-1]=L2[k-1]).
Bước tỉa: Ck là tập chứa Lk (có thể là tập phổ biến hoặc không) nhưng tất cả tập k-mục phổ biến được chứa trong Ck. Bước này, duyệt lần hai CSDL để tính độ hỗ trợ cho mỗi ứng cử trong Ck sẽ nhận được Lk
Thuật toán Apriori
Các kí hiệu:
Lk: Tập các k-mục phổ biến (large k-itemset) (tức tập các itemset có sup tối thiểu và có lực lượng bằng k).
Mỗi phần tử của tập này có 2 trường: itemset và support-count.
Ck: Tập các candidate k-itemset (tập các tập k-mục ứng cử viên). Mỗi phần tử trong tập này cũng có 2 trường itemset và support-count.
Nội dung thuật toán Apriori được trình bày như sau:
Input: Tập các giao dịch D, ngưỡng support tối thiểu minsup
Output: L- tập mục phổ biến trong D
Method:
L1={large 1-itemset (tập 1- mục phổ biến)} //tìm tất cả các tập mục phổ biến: nhận được L1
for (k=2; Lk-1 ¹ Æ; k++) do
begin
Ck=apriori-gen(Lk-1); //sinh ra tập ứng cử viên từ Lk-1
for (mỗi một giao dịch TD) do
begin
CT = subset(Ck, T); //lấy tập con của T là ứng cử viên trong Ck
for (mỗi một ứng cử viên c CT) do
c.count++; //tăng bộ đếm tần xuất 1 đơn vị
end;
Lk = {c Î Ck| c.count ³ minsup}
end;
return ÈkLk
+) Trong thuật toán này, giai đoạn đầu đơn giản chỉ là việc đếm support cho các mục(item). Để xác định tập 1-mục phổ biến (L1), người ta chỉ giữ lại các mục (item) mà sup của nó lớn hơn hoặc bằng minsup.
+) Trong các giai đoạn thứ k sau đó (k>1), mỗi giai đoạn gồm có 2 pha. Trước hết các large(k-1)-itemset (tập k-1- mục phổ biến) trong tập Lk-1được sử dụng để sinh ra các candidate itemset (tập ứng cử viên) Ck, bằng cách thực hiện hàm Apriori_gen.
+) Tiếp theo CSDL D sẽ được quét để tính support cho mỗi ứng viên trong Ck. Để việc đếm được nhanh, cần phải có một giải pháp hiệu quả để xác định các ứng viên trong Ck là có mặt trong một giao dịch T cho trước.
Vấn đề sinh tập candidate (tập ứng cử) của Apriori – Hàm Apriori_gen:
Hàm Apriori_gen với đối số là Lk-1(tập các large(k-1)-itemset) sẽ cho lại kết quả là một superset, tập của tất cả các large k – itemset. Sơ đồ sau là thuật toán cho hàm này.
Input: tập mục phổ biến Lk-1 có kích thước k-1
Output: tập ứng cử viên Ck
Method:
function apriori-gen(Lk-1: tập mục phổ biến có kích thước k-1)
Begin
For (mỗi L1 Î Lk-1) doa
For (mỗi L2 Î Lk-1) do
begin
If ((L1[1]=L2[1]) Ç (L1[2]=L2[2]) Ç ... Ç (L1[k-2]=L2[k-2]) Ç (L1[k-1]=L2[k-1])) then
c = L1 Å L2; // kết nối L1 với L2 sinh ra ứng cử viên c
If has_infrequent_subset(c, Lk-1) then //có tập con ko pổ biến của c trong Lk-1
remove (c) // bước tỉa (xoá ứng cử viên c)
else Ck = Ck È {c}; kết tập c vào Ck
end;
Return Ck;
End;
Với nội dung trên, ta thấy hàm này có 2 bước:
- Bước nối (join step)
- Bước cắt tỉa (prune step)
Hàm Subset (trong bước tỉa) Các tập ứng cử viên Ck được lưu trữ trong một cây băm.
+) Nút lá của cây băm chứa danh sách một tập mục và đếm
+) Các nút trong chứa ở trong bảng băm
Hàm subset: tìm tất cả các ứng cử viên được chứa trong giao tác.
Ví dụ : Giả sử tập các mục I = {A ,B, C, D, E} và cơ sở dữ liệu giao dịch:
TID (giao dịch)
Các khoản mục
1
{A, C, D}
2
{B, C, E}
3
{A, B, C, E}
4
{B, E}
Với minsup = 0.5
(tức tương đương 2 giao dịch). Khi thực hiện thuật toán Apriori trên ta có bảng 1.1:
Hình 9: Các tập Ck và Lk sau khi thực hiện thuật toán Apriori trên tập D
Quét toàn bộ D
C1
1 - itemset
Count-support
{A}
2 - 50%
{B}
3 – 75%
{C}
3 – 75%
{D}
1 - 25%
{E}
3 - 75%
C2
2 - itemset
{A, B}
{A, C}
{A, E}
{B, C}
{B, E}
{C, E}
Tỉa
Xóa bỏ mục có support < minsup
Kết nối
L1 & L1
L1
1 - itemset
Count-support
{A}
2 - 50%
{B}
3 – 75%
{C}
3 – 75%
{E}
3 - 75%
D (CSDL)
TID
Các mục
1
{A, C, D}
2
{B, C, E}
3
{A, B, C, E}
4
{B, E}
C2
2 - itemset
{A, B}
{A, C}
{A, E}
{B, C}
{B, E}
{C, E}
Quét toàn bộ D
C2
2 - itemset
{A, B}
{A, C}
{A, E}
{B, C}
{B, E}
{C, E}
C2
2 - itemset
Count-support
{A, B}
1 – 25%
{A, C}
2 – 50%
{A, E}
1 – 25%
{B, C}
2 – 50%
{B, E}
3 – 75%
{C, E}
2 – 50%
Quét toàn bộ D
3 - itemset
{B, C, E}
3 - itemset
{A, B, C}
Kết nối
L2 & L2
{A, B, E}
{B, C, E}
L3
3 - itemset
Count- support
{B, C, E}
2 - 50%
Xóa bỏ mục có support < minsup
C3
3 - itemset
Count- support
{B, C, E}
2 - 50%
Tỉa
L2
2 - itemset
Count-support
{A, C}
2 – 50%
{B, C}
2 – 50%
{B, E}
3 – 75%
{C, E}
2 – 50%
Hình 3.1. Ví dụ thuật toán Apriori
Ví dụ 2: Cho cơ sở dữ liệu như sau:
Sinh các luật kết hợp từ tập mục phổ biến:
Số luật tối đa
Cho d mục tổng số của tập mục ứng cử là 2d tổng số của luật kết hợp tối đa là
R=3d – 2d +1
Ví dụ: d=6R=602rules
Minh họa: d={A, B, C, D, E)
Rule generation(tập gen)
Cho tập mục phổ biến L,tìm tất cả các tập con khôngrỗng f⊆ L mà f => L – f thỏa mãn conf min_conf
Nếu L={A,B,C,D} là tập mục phổ biến, các ứng cử viên của luật
ABC =>D, ABD =>C, ACD =>B, BCD =>A,
A =>BCD, B =>ACD, C =>ABD, D =>ABC
AB =>CD, AC =>BD, AD =>BC, BC =>AD,
BD =>AC, CD =>AB,
Nếu |L| = k, thì có 2k-2 ứng cử luật kết hợp(trừ L => ∅ và ∅ => L)
Generate Hash Tree (cây băm_gen)
Giả sử có 15 tập mục ứng cử của độ dài 3:
{1 4 5}, {1 2 4}, {4 5 7}, {1 2 5}, {4 5 8}, {1 5 9}, {1 3 6}, {2 3 4}, {5 6 7},
{3 4 5}, {3 5 6}, {3 5 7}, {6 8 9}, {3 6 7}, {3 6 8}
H(a)= a mod 3
Phép toán tập con sử dụng trong cây băm
Ví dụ áp dụng cho CSDL bán một số mặt hàng ở cửa hàng tạp hóa
Giao dịch
Mục
T1
Bánh kẹo, sữa, trà, cà phê, coca, thuốc lá, bia
T2
Cà phê, bia, thuốc lá, bột giặt, nước xả
T3
Sữa, cà phê, thuốc lá, trà, bia
T4
Bánh kẹo bột giặt, nước xả, coca
T5
Bia, coca, thuốc lá, trà, cà phê
T6
Trà, thuốc lá, bia, bánh kẹo, sữa
T7
Sữa, cà phê, coca, thuốc lá
Với min_sup = 40%
Xóa bỏ mục có support < minsup
C1
1-tập mục
đếm- supp
bánh kẹo
3 – 42,8%
sữa
4 – 57,2%
trà
4 – 57,2%
cà phê
5 -71,4%
bia
5 – 71,4%
coca
4 -57,2%
thuốc lá
4 – 57,2%
bột giặt
2- 28,5%
nước xả
2 -28,5%
L1
1- tập mục
đếm – supp
bánh kẹo
3 -42,8%
sữa
4 -57,2%
trà
4 – 57,2%
cà phê
5 – 71,4%
bia
5 – 71,4%
coca
4 -57,2%
thuốc lá
4- 57,2%
Kết nối
L1 & L1
C2
2- tập mục
đếm - supp
bánh kẹo, sữa
2- 28,5%
bánh kẹo, trà
2-28,5%
bánh kẹo, cà phê
1-14,3%
bánh kẹo, coca
2- 28,5%
bánh kẹo, thuốc lá
2 -28,5%
sữa, trà
3 -42,8%
sữa, càphê
3 -42,8%
sữa, bia
3 -42,8%
sữa, coca
2 -28,5%
Sữa, thuốc lá
4 -57,2%
trà, cà phê
3 -42,8%
trà, bia
3- 42,8%
trà, coca
2 -28,5%
trà, thuốc lá
4 -57,2%
cà phê, bia
4 -57,2%
cà phê, coca
3- 42,8%
cà phê, thuốc lá
5 -71,4%
bia, coca
2- 28,5%
bia, thuốc lá
4- 52,8%
coca, thuốc lá
3 – 42,8%
C2
2- tập mục
bánh kẹo, sữa
bánh kẹo trà
bánh kẹo, cà phê
bánh kẹo, c oca
bánh kẹo, thuốc lá
sữa, trà
sữa, cà phê
sữa, bia
sữa, coca
sữa, thuốc lá
trà, cà phê
trà, bia
trà, coca
trà, thuốc lá
cà phê, bia
cà phê, coca
cà phê, thuốc lá
bia, coca
bia, thuốc lá
coca, thuốc lá
C2
2- tập mục
bánh kẹo, sữa
bánh kẹo, trà
bánh kẹo, cà phê
bánh kẹo, coca
bánh kẹo, thuốc lá
sữa, trà
sữa, cà phê
sữa, bia
sữa, coca
sữa, thuốc lá
trà, cà phê
trà, bia
trà, coca
trà, thuốc lá
cà phê, bia
cà phê, coca
cà phê, thuốc lá
bia, coca
bia, thuốc lá
coca, thuốc lá
Quét toàn bộ D
Tỉa
Quét toàn bộ D
C2
2- tập mục
đếm - supp
bánh kẹo, sữa
2- 28,5%
bánh kẹo, trà
2-28,5%
bánh kẹo, cà phê
1-14,3%
bánh kẹo, coca
2- 28,5%
bánh kẹo, thuốc lá
2 -28,5%
sữa, trà
3 -42,8%
sữa, càphê
3 -42,8%
sữa, bia
3 -42,8%
sữa, coca
2 -28,5%
Sữa, thuốc lá
4 -57,2%
trà, cà phê
3 -42,8%
trà, bia
3- 42,8%
trà, coca
2 -28,5%
trà, thuốc lá
4 -57,2%
cà phê, bia
4 -57,2%
cà phê, coca
3- 42,8%
cà phê, thuốc lá
5 -71,4%
bia, coca
2- 28,5%
bia, thuốc lá
4- 52,8%
coca, thuốc lá
3 – 42,8%
C3
3- tập mục
đếm supp
sữa, trà, cà phê
2 -28,5%
sữa, trà, bia
3 – 42,8%
sữa, trà, thuốc lá
3 -42,8%
sữa, cà phê, thuốc lá
3 – 42,8%
sữa, bia, thuốc lá
2- 28,5%
trà, cà phê, bia
3 -42,8%
trà, cà phê, thuốc lá
2 – 28,5%
trà, bia, thuốc lá
4- 57,2%
cà phê, bia, thuốc lá
4 – 57,2%
cà phê, thuốc lá, coca
3- 42,8%
\
Kết nối
L2 & L2
L2
2-tập mục
Đếm – supp
Sữa, trà
3 -42,8%
Sữa, cà phê
3 – 42,8%
Sữa, bia
3 – 42,8%
Sữa, thuốc lá
4 -57,2%
Trà, cà phê
3 – 42,8%
Trà, bia
3 – 42,8%
Trà, thuốc lá
4 -57,2%
Cà phê, bia
4- 57,2%
Cà phê, coca
3 -42,8%
Cà phê, thuốc lá
5 – 71,4%
Bia, thuốc lá
4 -57,2%
Coca, thuốc lá
3 – 42,8%
Tỉa
C3
3- tập mục
sữa, trà, cà phê
sữa, trà bia
sữa, trà, thuốc lá
sữa, trà, coca
sữa, cà phê, bia
sữa, cà phê, thuốc lá
sữa, cà phê, coca
sữa, bia, thuốc lá
sữa, bia, coca
sữa, thuốc lá, coca
trà, cà phê, bia
trà, cà phê, thuốc lá
trà, cà phê, coca
trà, bia ,thuốc lá
trà, bia ,coca
trà, thuốc lá, coca
cà phê, bia, thuốc lá
cà phê, bia, coca
cà phê, thuốc lá coca
bia, thuốc lá, coca
Xóa bỏ mục có support < minsup
C3
3- tập mục
sữa, trà, cà phê
sữa, trà, bia
sữa, trà, thuốc lá
sữa, cà phê, thuốc lá
sữa, bia, thuốc lá
trà, cà phê, bia
trà, cà phê, thuốc lá
trà, bia, thuốc lá
cà phê, bia, thuốc lá
cà phê, thuốc lá, coca
L3
3 – tập mục
Đếm – supp
Sữa, trà, bía
3 – 42,8%
Sữa, trà, thuốc lá
3 – 42,8%
Sữa, cà phê, thuốc lá
3 -42,8%
Trà, cà phê, bia
3 -42,8%
Trà, bia, thuốc lá
4 – 57,2%
Cà phê, bia, thuốc lá
4- 57,2%
Cà phê, thuốc lá, coca
3 – 42,8%
C3
3- tập mục
đếm supp
sữa, trà, cà phê
2 -28,5%
sữa, trà, bia
3 – 42,8%
sữa, trà, thuốc lá
3 -42,8%
sữa, cà phê, thuốc lá
3 – 42,8%
sữa, bia, thuốc lá
2- 28,5%
trà, cà phê, bia
3 -42,8%
trà, cà phê, thuốc lá
2 – 28,5%
trà, bia, thuốc lá
4- 57,2%
cà phê, bia, thuốc lá
4 – 57,2%
cà phê, thuốc lá, coca
3- 42,8%
\
Xóa bỏ mục có support < minsup
Các file đính kèm theo tài liệu này:
- Đề tài- Tìm hiểu luật kết hợp trong khai phá dữ liệu.doc