Luận văn Khai phá dữ liệu ứng dụng trong đào tạo

Khai phá dữ liệu là một lĩnh vực vẫn còn khá mới mẻ, lý thú. Luận văn đã trình bày, một số vấn đề cơ bản nhất, các phương pháp cơ bản để khai phá dữ liệu, đặc biệt trình bày chi tiết, làm rõ vấn đề khai phá luật kết hợp. Phương pháp khai phá dữ liệu có thể là: phân lớp, hồi quy, cây quyết định, suy diễn, quy nạp, K-láng giềng gần, các phương pháp trên có thể áp dụng trong dữ liệu thông thường và trên tập mờ.

78 trang | Chia sẻ: lylyngoc | Lượt xem: 3940 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Khai phá dữ liệu ứng dụng trong đào tạo, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

bỏ mục có support < minsup C2 2 - itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} C2 2 - itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Tỉa L1 1 - itemset Count-support {A} 2 - 50% {B} 3 – 75% {C} 3 – 75% {E} 3 - 75% Kết nối L1 & L1 L2 2 - itemset Count-support {A, C} 2 – 50% {B, C} 2 – 50% {B, E} 3 – 75% {C, E} 2 – 50% Kết nối L2 & L2 Tỉa C3 3 - itemset Count- support {B, C, E} 2 - 50% Quét toàn bộ D C2 2 - itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Quét toàn bộ D C2 2 - itemset Count-support {A, B} 1 – 25% {A, C} 2 – 50% {A, E} 1 – 25% {B, C} 2 – 50% {B, E} 3 – 75% {C, E} 2 – 50% Xóa bỏ mục có support < minsup Xóa bỏ mục có support < minsup L3 3 - itemset Count- support {B, C, E} 2 - 50% 3 - itemset {B, C, E} 3 - itemset {B, C, E} 43 Một số biến thể của giải thuật Apriori Giải thuật Apriori_TID là phần mở rộng theo hướng tiếp cận cơ bản của giải thuật Apriori. Thay vì dựa vào cơ sở dữ liệu thô, giải thuật AprioriTID biểu diễn bên trong mỗi giao dịch bởi các ứng viên hiện hành. 1. L1= {Large 1-itemset}; 2. C’1 = Database D; 3. for (k=2; Lk-1  ; k++) do 4. Begin 5. Ck = apriori_gen(Lk-1); 6. C’k = ; 7. for tất cả t  C’k-1 do 8. begin // xác định tập ứng viên trong Ck chứa trong giao dịch với định //danh t. Tid (Transaction Code) 9. Ct = c  Ck | (c-c[k])  t.Set_of_ItemSets ^ (c-c[k-1] t.Set_of_ItemSets 10. for những ứng viên c  Ct do c.count ++; 11. if (Ct) then C’k+= 12. end 13. Lk = c Ck | c.count  minsup; 14. End 15. return = kLk; Thuật toán này cũng sử dụng hàm apriori_gen để sinh ra các tập ứng cử viên cho mỗi giai đoạn. Nhưng thuật toán này không dùng CSDL D để đếm các support với các giai đoạn k > 1 mà sử dụng tập C’k. Mỗi phần tử của C’k có dạng , trong đó mỗi Xk là một tập phổ biến k_itemset tiềm năng trong giao dịch Tid. Khi k = 1, C’k tương ứng với D, trong đó mỗi item i được coi là một itemset {i}. Với k>1, C’k được sinh ra bởi C’k+= . Phần tử của C’k tương ứng với giao dịch t là <t.Tid, {c | c chứa trong t}>. Nếu một giao dịch không chứa bất kỳ tập ứngviên k_itemset nào thì C’k sẽ không có một điểm vào nào cho giao dịch này. Do đó, số lượng điểm vào trong C’k có thể nhỏ hơn số giao dịch trong CSDL, đặc biệt với k lớn. Hơn nữa, với các giá trị k khá lớn, mỗi điểm vào có thể nhỏ hơn giao dịch tương ứng vì một số ứng viên đã được chứa trong giao dịch. Tuy nhiên, với các giá trị k nhỏ, mỗi điểm vào có thể lớn hơn giao dịch tương ứng vì một một điểm vào trong C’k bao gồm tất cả các ứng viên k_itemset được chứa trong giao dịch. Giải thuật AprioriHybrid kết hợp cả hai hướng tiếp cận trên. Ngoài ra còn có một số các giải thuật tựa Apriori(TID), chúng được định hướng để cài trực tiếp trong SQL. 44 Giải thuật DIC là một biến thể khác nữa của giải thuật Apriori. Giải thuật DIC làm giảm đi khoảng phân biệt nghiêm ngặt giữa việc đếm và việc phát sinh các ứng viên. Bất kỳ ứng viên nào tới được ngưỡng minsupp, thì giải thuật DIC bắt đầu phát sinh thêm các ứng viên dựa vào nó. Để thực hiện điều này giải thuật DIC dùng một prefix-tree (cây tiền tố). Ngược với hashtree, mỗi nút (nút lá hoặc nút trong) của prefix-tree được gán một ứng viên xác định trong tập phổ biến. Cách sử dụng cũng ngược với hashtree, bất cứ khi nào tới được một nút ta có thể khẳng định rằng tập item đã kết hợp với nút này trong giao tác đó. Hơn nữa, việc xác định độ hỗ trợ và phát sinh ứng viên khớp nhau sẽ làm giảm đi số lần duyệt cơ sở dữ liệu. 2.3.2.Kỹ thuật DFS Giả sử việc đếm các thể hiện được thực hiện trên tập các ứng viên có kích thước hợp lý, với mỗi tập các ứng viên đó thì cần một thao tác duyệt cơ sở dữ liệu. Chẳng hạn như, giải thuật Apriori dựa vào BFS thực hiện duyệt cơ sở dữ liệu mỗi k-kích thước ứng viên một lần. Khi thực hiện tìm kiếm ưu tiên theo chiều sâu (DFS) tập ứng viên chỉ gồm chỉ gồm một nút của cây từ phần 2.2.2. Một điều hiển nhiên là nếu phải thực hiện duyệt cơ sở dữ liệu cho mỗi nút thì tổng chi phí kết quả thật khổng lồ. Vì thế việc kết hợp DFS với việc đếm các thể hiện là không thật sự thích hợp. 2.5. Thuật toán AIS 2.5.1. Bài toán đặt ra Đầu tiên, duyệt toàn bộ CSDL để tìm tất cả các tập mục phổ biến L1. Tiếp theo, chừng nào Lk-1 ! =  ( k >= 2) 1. Tìm tập các ứng cử viên bằng cách quét toàn bộ CSDL, với mỗi giao dịch, ta tìm tổ hợp chập k của các mục có trong giao dịch và xác định các mục trong tổ hợp này có là phổ biến hay không? Nếu không phải thì bỏ qua. Trái lại, ta bổ sung tổ hợp đó vào tập hợp ứng cử viên bằng cách: kiểm tra xem tổ hợp này đã nằm trong tổ hợp ứng cử viên hay chưa? Nếu chưa thì bổ sung thêm và tăng độ hỗ trợ lên 1. Trái lại, tăng độ hỗ trợ của tổ hợp tương ứng trong tập ứng cử viên thêm 1. 2. Duyệt toàn bộ các ứng cử viên, loại bỏ tất các tổ hợp có độ hỗ trợ nhỏ hơn độ hỗ trợ yêu cầu của người sử dụng. Cuối cùng ta được tất cả các tập mục phổ biến thoả mãn, có độ hỗ trợ tối thiểu lớn hơn hoặc bằng độ hỗ trợ tối thiểu mà người sử dụng yêu cầu. 45 Thuật toán hoàn toàn sử dụng chiến lược “vét cạn”, xem xét toàn bộ các tập mục phổ biến bằng cách sinh tổ hợp tập các mục và kiểm tra độ hỗ trợ. 2.5.2. Thuật toán AIS Input: CSDL minsup Output: Các tập mục phổ biến 1. L1={ Các tập mục phổ biến }. 2. For ( k=2;Lk-1  ; k++ ) 3.{ Ck = ; 4. for ( tất cả các giao dịch t D ) 5.  Lt = subSet (Lk-1; t); 6. // Các tập mục phổ biến thuộc Lk-1 chứa trong giao dịch t 7. for (tất cả các tập mục phổ biến lt Lt) 8.  Ct = tăng lt thêm một mục có trong giao dịch t; 9. for (Các ứng cử viên c  Ct ) 10. if ( c  Ck) tăng biến đếm của c thêm l cho mục tương ứng thuộc Ck 11. else add c vào Ck và tăng biến đếm tương ứng thêm 1) 12.  13.  14. Lk =  c  Ck  c.count  minsup  15.  16.return L = kLk Ví dụ minh hoạ thuật toán AIS Cho CSDL trong bảng sau. Giả sử với độ hỗ trợ tối thiểu là 2 giao dịch CSDL L1 TID Các mục Tập mục Độ hỗ trợ 100 1, 3, 4 1 2 200 2, 3, 5 2 3 300 1, 2, 3, 5 3 3 400 2, 5 5 3 C2 L2 Tập mục Độ hỗ trợ Tập mục Độ hỗ trợ 1, 3 2 1, 3 2 1, 4 1 2, 3 2 46 3, 4 1 2, 5 3 2, 3 2 3, 5 2 2, 5 3 3, 5 2 1, 2 1 1, 5 1 C3 L3 Tập mục Độ hỗ trợ Tập mục Độ hỗ trợ 1,3,4 1 2,3,5 2 2,3,5 2 1,2,3 1 1,2,5 1 1,3,5 1 C4 Tập mục Độ hỗ trợ 1,2,3,5 1 Bảng 2.7. Ví dụ thuật toán AIS Theo bước 1 của thuật toán, ta thu được L1 là tập gồm các mục có số lần xuất hiện (độ hỗ trợ) lớn hơn hoặc bằng 2. Trong các bước từ 2 đến 14 ta thu được tập ứng cử viên C2 là tập tất cả các tập có hai mục (2-itemset) và độ hỗ trợ tương ứng. Bước 13, ta thu được tập phổ biến L2 từ C2, L2 là tập các 2 itemset có độ hỗ trợ lớn hơn hoặc bằng 2. Lặp lại các bước từ 2 đến 14 ta thu được tập các ứng cử viên C3 gồm tập tất cả các tập có ba mục có độ hỗ trợ lớn hơn hoặc bằng 2. Tương tự, ta thu được C4 là tập có bốn mục L4 bằng rỗng. Như vậy, tập các tập mục phổ biến mà ví dụ trên ta thu được là: 1, 2, 3, 5, 1,3, 2,3, 2,5, 3,5, 2,3,5}. Thuật toán kết thúc. 47 2.6. Thuật toán SETM 2.6.1. Bài toán đặt ra Thuật toán SETM được đề xuất do mong muốn dùng SQL để tìm các tập mục phổ biến. 1. Đầu tiên, duyệt toàn bộ CSDL để tìm tất cả các tập mục phổ biến L1 và các mục phổ biến cùng với TID của nó L1' được xếp theo TID. 2. Tiếp theo chừng nào Lk-1!=  (k >= 2) 3. Tìm tập các ứng cử viên bằng cách quét toàn bộ CSDL, với mỗi giao dịch ta tìm tổ hợp chập k của các mục có trong giao dịch và xác định các mục cùng với TID trong tổ hợp này có thuộc L'k-1 ? Nếu không phải thì bỏ qua. Trái lại, ta bổ sung tổ hợp đó vào tập ứng cử viên đồng thời lưu một bản sao của tập mục ứng cử viên cùng với TID của nó. 4. Sắp xếp lại các ứng cử viên theo tập mục. 5. Xoá tất cả các ứng cử viên có độ hỗ trợ nhỏ hơn độ hỗ trợ do người sử dụng đề ra. Kết quả lưu vào Lk'. 6. Xếp lại Lk' theo TID. 7. Cuối cùng ta được tất cả các tập mục phổ biến thoả mãn, có độ hỗ trợ tối thiểu lớn hơn hoặc bằng độ hỗ trợ tối thiểu mà người sử dụng yêu cầu. 2.6.2. Thuật toán SETM Input: CSDL D, minsup Ouput: Tập các tập mục phổ biến. 1.L1 = Các mục phổ biến 2.L1' = Các mục phổ biến cùng các TID của nó được xếp theo TID 3.for (k=2; Lk-1  ; k ++) 4.C'k = ; 5. for (tất cả các giao dịch t  D) 6. Lt = l L'k-1 \I.TID = t.TID // Các tập có ( k-1) - itemset phổ biến có trong giao dịch t 7.for (tất cả các tập mục phổ bíên lt  Lt) 8. Ct = tăng lt thêm một mục có trong t; // Các ứng cử viên có trong t 9. C'k + =  \ c  C1 ; 10.  11.  48 12. sort C'k theo các tập mục 13. delete các mục c  C'k có c.count < minsup đưa vào L'k; 14. Lk = \ l  L'k; kết hợp với bước 13 15. sort L'k theo TID 16.  17.return L =  kLk'; Giống như AIS thuật toán SETM cũng sinh ra các ứng cử viên dựa trên các giao dịch đọc được từ CSDL. Vì thế, nó sinh ra và đếm mỗi tập mục ứng cử viên mà thuật toán AIS sinh ra. Tuy nhiên, để dùng phép nối (JOIN) chuẩn của SQL. SETM chia sự phát sinh ứng cử viên từ việc đếm. Nó lưu một bản sao của tập mục ứng cử viên cùng với TID của việc phát sinh giao dịch trong cấu trúc tuần tự (bước 9). Cuối mỗi bước, đếm độ hỗ trợ của các tập mục ứng cử viên được xác định bởi việc xếp (bước 12) và việc kết hợp lại cấu trúc tuần tự này (bước 13). SETM ghi nhớ các TID của việc phát sinh các giao dịch với các tập mục ứng cử viên. Để tránh việc thao tác trên tập con, nó dùng thông tin này để xác định các tập mục lớn chứa trong giao dịch được đọc (bước 6). L'k  C'k và thu được bởi việc xóa các ứng cử viên này mà không có độ hỗ trợ tối thiểu (bước 13). Giả sử rằng CSDL được xếp thứ tự TID, SETM có thể dễ dàng tìm các tập mục phổ biến được chứa trong một giao dịch trong bước tiếp theo bằng việc xếp L'k theo TID (bước 15). Thực tế, nó cần thăm hỏi mỗi thành viên của L'k chỉ một lần theo thứ tự TID và việc sinh ứng cử viên ở các bước 5 đến 11 có thể thực hiện nhờ phép toán Merge-join. Nhược điểm chính của thuật toán này là dựa vào số các tập ứng cử viên C'k. Khi với mỗi tập các mục ứng cử viên có một TID kết hợp với nó, nó yêu cầu nhiều không gian để lưu trữ số lượng lớn các TID. Hơn nữa, khi độ hỗ trợ của tập mục ứng cử viên được tính vào cuối mỗi bước, C'k không theo thứ tự. Vì thế, việc xếp lại các mục là cần thiết (bước 12). Sau đó, các tập mục ứng cử viên được cắt tỉa bằng việc loại bỏ các tập mục ứng cử viên không thoả mãn ràng buộc độ hỗ trợ. Một sắp xếp khác trên TID là cần thiết đối với tập kết qủa L'k (bước 15) trước khi nó có thể được sử dụng để phát sinh các ứng cử viên trong bước tiếp theo. Ví dụ minh hoạ thuật toán SETM Xét CSDL cho trong bảng sau. Giả sử với độ hỗ trợ tối thiểu là 2 giao dịch CSDL L1 L’1 TID Các mục Tập mục Độ hỗ trợ TID Tập mục 100 1, 3, 4 {1} 2 100 {1} 200 2, 3, 5 {2} 3 100 {3} 49 300 1, 2, 3, 5 {3} 3 200 {2} 400 2, 5 {5} 3 200 {3} 200 {5} 300 {1} 300 {2} 300 {3} 300 {5} 400 {2} 400 {5} C’2 L2 L’2 TID Tập mục Tập mục Độ hỗ trợ TID Tập mục 100 {1, 3} {1, 3} 2 100 {1, 3} 100 {1, 4} {2, 3} 2 200 {2, 3} 100 {3, 4} {2, 5} 3 200 {2, 5} 200 {2, 3} {3, 5} 2 200 {3, 5} 200 {2, 5} 300 {1, 3} 200 {3, 5} 300 {2,3} 300 {1, 2} 300 {2, 5} 300 {1, 3} 300 {3, 5} 300 {1, 5} 400 {2, 5} 300 {2, 3} 300 {2, 5} 300 {3, 5} 400 {2,5} L'3 L3 TID Tập mục Tập mục Độ hỗ trợ 50 200 {2, 3, 5} {2, 3, 5} 2 300 {2, 3, 5} C'4 L4 =  L'4 =  TID Tập mục 300 {1, 2, 3, 5} Bảng 2.8: Ví dụ thuật toán SETM Như vậy, tập các tập mục phổ biến mà ví dụ trên thu được là: L = 1, 2,3,5,1, 3,2, 3,2, 5,3, 5,2, 3, 5. Thuật toán kết thúc. 2.7. Thuật toán CHARM[9] 2.7.1. Tư tưởng thuật toán CHARM 2.7.1.1. Cơ sở lý thuyết Cho quan hệ nhị phân R I x X. Cho R I & R T, xét các ánh xạ: t: I  T, t(X) = {yT/xX, x R y}; i:TI, i(Y) = {xl/yY, x R y}. Một ánh xạ t(X) là tập tất cả các giao dịch chứa tập mục X, tương tự i(Y) là tập mục tất cả các giao dịch chứa tập mục Y. Định nghĩa một kết nối Galois giữa P(I) và P(T) tương ứng là các tập khả năng của l và T. Chúng ta biểu diễn cặp (X, t(X) là X x t(X) và cặp (i(X),Y) là i(Y) x Y kết nối Galois thoả mãn các thuộc tính sau (trong đó X, X1, X2  P(I) và Y,Y1, Y2  P(T):  X X2  t(X1) t(X2).  Y1 Y2  i(Y1) i(Y2).  X i(t(X)) và Y i(t(Y)). Cho s là một tập. Hàm c: P(S)P(S) là một toán tử đóng trên S nếu với  X,Y  S, c thoả mãn các thuộc tính sau:  Extention: X c(X)  Monotonicity: Nếu X  Y, thì c(X) c(Y)  Idempotency: c(c(X)) = c(X) 51  Một tập con X của S được gọi là đóng nếu c(X) =X Cho X Y và Y T. Cho Cit (X) biểu diễn ánh xạ hợp i0t(X) = i(t(X)) và Cit (Y)= i0i(Y) = t(i(Y)). Thì Cit :P(I) P(I) và Cti :P(T) P(T) là hai toán tử đóng trên các tập mục và các tập giao dịch tương ứng. Một số định nghĩa :  Định nghĩa tập mục đóng: X được gọi là tập mục đóng nếu X = Cit(X)  Định nghĩa tập mục đóng phổ biến: X được gọi là tập mục đóng phổ biến nếu X là tập mục đóng và support(X)  minsup.  Định nghĩa tập giao dịch đóng: Y là tập giao đóng nếu Y=Cit(Y) Các ánh xạ Cit và Cti là các toán tử đóng, thoả mãn 3 thuộc tính Extension, monotonicity và Idempotency. Cho f: P(I)  N là ánh xạ 1-1 từ các tập mục sang số nguyên. Với bất kỳ hai tập mục X1 và X2 nào, chúng ta nói X1  X2 f(X1)  f(X2). Hàm f xác định thứ tự toàn thể trên tập tất cả các tập mục. Ví dụ: nếu f biểu diễn theo thứ tự các từ điển, thì tập mục AC < AD. Khi với mẫu khác, nếu f sắp xếp các tập mục theo thứ tự tăng dần độ hỗ trợ của chúng, thì AD < AC nếu độ hỗ trợ của AD nhỏ hơn độ hỗ trợ của AC. Giả sử rằng chúng ta đang xử lý nhánh X1  t(X1) và chúng ta muốn kết nối với anh em của nó X2  t(X2). Điều này là X1  X2 (dưới dạng một thứ tự phù hợp f). Việc tính toán trong CHARM dựa trên các thuộc tính dưới đây: 1. Nếu t(X1) = t(X2), thì t(X1  X2) = t(X1)  t(X2) = t(X1) = t(X2). Vì thế chúng ta có sự xuất hiện của X1 bằng X1  X2 và xoá X2 được xem xét từ xa, vì bao đóng của X2 được đồng nhất với bao đóng của X1  X2. Mặt khác, chúng ta coi như X1  X2 là một tập mục hợp. 2. Nếu t(X1)  t(X2) thì t(X1  X2) = t(X1)  t(X2) = t(X1)  t(X2). Ở đây ta có thể thay mọi sự xuất hiện của X1 bằng X1  X2, vì nếu X1 xuất hiện trong bất kỳ giao dịch nào, thì X2 cũng xuất hiện. Nhưng khi t(X1)  t(X2), chúng ta không thể xóa X2. Nó phát sinh ra bao đóng khác. 3. Nếu t(X1)  t(X2) thì t(X1  X2) = t(X1)  t(X2) = t(X1)  t(X2). Trong trường hợp này, chúng ta thay thế mọi sự xuất hiện của X2 bằng X1  X2, vì bất chỗ nào X2 xuất hiện thì X1 cũng xuất hiện. Tuy nhiên, X1 là kết quả của bao đóng khác và nó phải được giữ lại. 52 4. Nếu t(X1)  t(X2) thì t(X1  X2) = t(X1)  t(X2)  t(X1)  t(X2). Trong trường hợp này, không được loại bỏ cả X1 và X2 dẫn đến các bao đóng khác nhau. 2.7.2.2. Bài toán đặt ra CHARM thực hiện trên cả không gian các tập phổ biến (itemset) và không gian các tập định danh (TIDset). CHARM không tìm tất cả các tập con có thể của tập mục mà thuật toán kết hợp tìm tập đóng hiệu quả hơn (bottom-up). Nếu CSDL cảu tập mục là lớn và tập mục phổ biến là dày thì CHARM duyệt cả không gian tập mục và tập định danh. Đồng thời sẽ bỏ qua nhiều mức để đi tìm tập phổ biến đóng thay cho việc tính toán nhiều tập con không đóng. Hơn nữa, CHARM sử dụng hai kỹ thuật cắt tỉa: 1. Tỉa các ứng cử viên nếu tập con của nó không phổ biến đồng thời tỉa các nhánh dựa trên tính chất không đóng (non-closure-property). 2. Bất kỳ tập không đóng nào cũng đều bị tỉa. CHARM không sử dụng cấu trúc dữ liệu cây băm (hash tree), phép toán cơ sở được sử dụng là hợp 2 tập mục và giao 2 tập định danh. Thuật toán bắt đầu bằng việc khởi tạo các nút để kiểm tra các mục đơn phổ biến và các tập giao dịch của chúng trong dòng 1. Tính toán chính được thực hiện trong CHARM-EXTEND, nó trả về các tập mục đóng phổ biến C. CHARM-EXTEND có trách nhiệm kiểm tra mỗi nhánh có khả năng. Nó rút ra mỗi cặp tập mục – tập giao dịch (itemset-tidset) trong tập nút hiện tại Node (Xi  t(Xi), dòng 3), và kết nối nó với các cặp khác mà đứng sau nó (Xi  t(Xi),dòng 5) theo thứ tự tuyệt đối f. Việc kết nối các cặp itemset-tidsset được tính toán trong. Thủ tục CHARM-PROPERTY kiểm tra tập kết quả với độ hỗ trợ yêu cầu và cũng áp dụng 4 thuộc tính được thảo luận ở trên. Lưu ý rằng thủ tục này có thể thay đổi tập nút hiện tại bằng việc xoá các cặp itemset-tidset mà đã được chứa trong các cặp đó. Nó cũng chèn các cặp phổ biến con mới được sinh ra trong tập các nút mới New. Nếu tập này khác rỗng chúng ta thực hiện lại quá trình theo chiều sâu (dòng 8). Sau đó, chúng ta chèn tập mục mở rộng có thể có X của Xi trong tập các tập mục đóng, vì nó không thể được thực hiện; ở giai đoạn này bất kỳ tập mục đóng đang chứa Xi, đã từng được sinh ra, sau đó chúng ta quay lại dòng 3 để xử lý nhánh tiếp theo (không được tỉa). Thủ tục CHARM-PROPERTY kiểm tra đơn giản nếu cặp mới là phổ biến. Sau khi nó kiểm tra mỗi cặp itemset-tidset với 4 thuộc tính cơ bản, việc mở rộng các tập mục hiện có, xoá một nhánh được gộp từ các nút hiện có, hoặc việc chèn các cặp mới trong tập nút cho bước tiếp theo (theo chiều sâu). 53 2.7.2. Thuật toán CHARM CHARM (R  I  T, minsup) 1.Nodes = {Ij  t(Ij): Ij  I  t(Ij)   minsup } 2.CHARM-EXTEND (Nodes, C) 3.For (mỗi Xi  t(Xj)  Nodes) 4. NewN =  & X = Xi 5. for (mỗi Xj  t(Xj)  Nodes với f(j) > f(i)) 6. X= X  Xj và Y= t(Xi)  t(Xj) 7. CHARM-PROPERTY( Nodes, NewN) 8. if (NewN   ) CHARM-EXTEND (NewN) 9. C=C  X;//nếu X chưa được gộp CHARM-PROPERTY( Nodes, NewN) 10. if ( || Y ||  minsup) 11. if(t(Xi) = t(Xj)) // Thuộc tính 1 12. Loại Xj ra khỏi Nodes 13. Thay thế tất cả các Xi bởi X 14. else if (t(Xi)  t(Xj)) // Thuộc tính 2 15. Thay thế tất cả các Xi bởi X 16. else (if t(Xi)  t(Xj)) // Thuộc tính 3 17. Xoá tất cả các Xj khỏi Nodes 18. Bổ sung X  Y vào NewN 19. else if (t(Xi)  t(Xj)) // Thuộc tính 4 20. Bổ sung X  Y vào NewN Ví dụ minh hoạ thuật toán CHARM Cho I ={A, C, D, T, W } và T = {1, 2, 3, 4, 5, 6} Giao dịch Các mục 1 {A, C, T, W} 2 {C, D, W } 3 {A, C,T, W } 4 {A, C, D, W } 5 {A, C, D, T, W } 6 {C, D, T } Bảng 2.9: Tập các giao dịch trong ví dụ thuật toán CHARM Từ bảng giao dịch trên, ta thu được tập mục phổ biến với độ hỗ trợ tối thiểu là 3 giao dịch: 54 Tập mục Hỗ trợ {C} 6 {{W}, {C, W }} 5 {{A}, {D}, {T}, {A,C},{A,W}, 4 {{A,T},{D,W},{T,W},{A,C,T},{A,T,W},{C,T,W},{C,D,W},{ A,C,T,W} 3 Bảng 2.10: Tập mục phổ biến trong ví dụ minh hoạ thuật toán CHARM a) Sắp xếp các tập mục theo thứ tự từ điển Chú ý: Để tiện cho mô tả chúng ta qui ước viết: ví dụ: 1345 tương ứng là {1,3,4,5}, ACD tương ứng với {A,C,D} Hình 2.11: Thuật toán CHARM sắp xếp theo thứ tự từ điển Ban đầu ta có 5 nhánh tương ứng với 5 mục và các tập giao dịch từ CSDL trên(minsup=3). Để phát sinh con của mục A(hoặc cặp A x{1,3,4,5}) chúng ta cần nối nó với tất cả các anh em đi sau nó. Khi ta nối 2 cặp X1 x t(X1) và X2 x t(X2). Cặp kết quả đưa ra là (X1 X2) x (t(X1)  t(X2)). Mặt khác, chúng ta cần thực hiện giao của các tập giao dịch tương ứng mỗi khi chúng ta nối hai hoặc nhiều hơn hai mục. Khi chúng ta thử mở rộng A với C, chúng ta thấy rằng thuộc tính hai là đúng. Nghĩa là, t(A) = {1,3,4,5} {1,2,3,4,5,6} =t(C). Vì thế, chúng ta có thể xoá A và thay bằng AC. Kết nối A với D kết quả là tập không phổ biến {A,C,D} bị cắt tỉa. Kết nối với T kết quả cặp{A,T,C} x {1,3,5} theo thuộc tính 4 không bị tỉa. Khi thử kết nối A D x 2456 CD x 2456 CT x 1356 CW x 12345 CTW x 135 A x 1345 AC x 1345 ACW x 1345 C x 123456 Tx 1356 W x 12345 ACD x 45 ACTx 135 ACTW x 135 CDT x 56 CDW x 245 {} 55 với W ta thấy rằng t(A)  t(W) theo thuộc tính 2 ta thay A bằng {A,W}. Do đó {A,C} thành {A,C,W} và {A,C,T} thành {A,C,T,W}. Tiếp theo ta bắt đầu xử lý nhánh C, ta kết nối C với D, ta thấy thuộc tính có 3 hiệu lực, nghĩa là: t(X)  t(D), tức là mỗi khi D xuất hiện thì C cũng xuất hiện. Vì thế, D có thể được loại bỏ và toàn bộ nhánh D bị tỉa; còn {C,D} thay bằng D. Cũng như vậy, ngữ cảnh tương tự xảy ra với T và W. Cả 2 nhánh bị tỉa và được tỉa thay thế bởi {C,T} và {C,W} là con của C.Tiếp tục duyệt theo chiều sâu,chúng ta xử lý tiếp với nút{C,D}.Nối{C,D} với{C,T} kết quả là tập mục không phổ biến {C,D,T} bị cắt tỉa. Nối {C,D} với {C,W} kết quả là {C,D,W} theo thuộc tính 4 không bị loại bỏ. Tương tự, nối {C,T} và {C,W} thành {C,T,W}.Lúc này các nhánh đã được xử lý. Cuối cùng, chúng ta xoá {C,T,W} x {1,3,5} vì nó được chứa trong{A,C,T,W} x {1,3,5}. Qua 10 bước xác định được tất cả 7 tập mục phổ biến đóng. b) Sắp xếp các tập mục theo độ hỗ trợ tăng dần Hình 2.12: Sắp xếp theo độ hỗ trợ tăng dần Nhận xét: Tính đúng đắn: Thuật toán CHARM tìm ra tất cả các tập mục phổ biến đóng. Thời gian tính toán: Thời gian tính toán của thuật toán CHARM là O(l*|C|) trong đó C là các tập mục phổ biến đóng; l là độ dài trung bình của tập định danh. Độ phức tạp: Số lần duyệt CSDL của CHARM là O(|C|/(*|I|)) trong đó: C là các tập mục phổ biến đóng; {I} là tập các mục và  là độ lớn phân vùng CSDL trong bộ nhớ. { } A x 1345 AW x 1345 ACW x 1345 T x 1356 CT x 1356 W x 12345 CW x 12345 C x 123456 AT x 135 ATW x 135 ACTW x 134 AD x 45 DT x 56 D x 2456 CD x 2456 DW x 245 CDW x 245 TW x 135 CTW x 135 56 2.8. Kết luận Chương này đã trình bày về lý thuyết luật và luật kết hợp, trình bày một số vấn đề cơ bản của việc khai phá dữ liệu dùng luật kết hợp. Trình bày một số thuật toán tiêu biểu khai phá luật kết hợp. Thuật toán kinh điển Apriori tìm tập mục phổ biến theo cách sinh các ứng cử, biến thể của thuật toán Apriori là thuật toán Apriori_Tid, và thuật toán AIS, SETS, CHARM. Độ phức tạp thuật toán tìm các tập mục phổ biến là khó, thời gian tìm các tập mục phổ biến là tuyến tính với kích thước của CSDL vì các CSDL thường là rất thừa và các thuật toán đã dùng một số kỹ thuật tỉa hiệu quả. 57 Chương 3 ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG ĐÀO TẠO 3.1. Bài toán Hiện nay trường Đại học Dân lập Hải Phòng đã bắt đầu thực hiện chương trình đào tạo theo chế tín chỉ, nên đầu mỗi học kỳ sinh viên phải tiến hành đăng ký môn học. Để tạo điều kiện cho việc chọn đăng ký môn học cho mỗi học kỳ phòng Đào tạo sẽ phải lên danh sách các lớp học kèm theo thời khóa biểu. Bên cạnh đó để hỗ trợ thêm cho sinh viên có thể đăng ký môn học được tốt hơn thì các cán bộ phòng đào tạo và cán bộ tư vấn học tập phải tổ chức dữ liệu một cách khoa học rồi tiến hành trích rút thông tin dựa theo kết quả học tập của các môn học kỳ trước đó. Để có thể hỗ trợ sinh viên lựa chọn ngành nghề, lựa chọn môn học, hỗ trợ sau tốt nghiệp, đánh giá kết quả học tập của sinh viên phải dựa trên cơ sở hệ thống điểm mà sinh viên đã đạt được. Đây là cơ sở mang tính khoa học. Để có được những đánh giá mang tính thuyết phục, thì cần phải có phương pháp khai phá dữ liệu có hiệu quả, từ đó để đưa ra những kết luận có cơ sở khoa học, mang nhiều ý nghĩa thực tiễn. Muốn vậy chúng ta phải có dữ liệu tương đối đầy đủ. Trên cơ sở rút ra những luật kết hợp, tìm ra được các luật mạnh để có thể phân tích dựa trên dữ liệu điểm sinh viên. Hình 3.1: Trường Đại học Dân lập Hải phòng Trong phạm vi luận văn này, tác giả sử dụng các kỹ thuật khai phá dữ liệu đối với CSDL điểm của sinh viên trường Đại học Dân lập Hải phòng nhằm giúp cho sinh viên có thể lựa chọn tốt môn học, ngành nghề, giúp cho cán bộ đào tạo đánh giá được kết quả học tập của sinh viên, và hiệu quả đào tạo thông qua thuật toán Apriori đã trình bày ở phần trước. 58 3.2. Đặc tả dữ liệu Một đặc điểm mang tính thực tế là các item không đơn thuần chỉ được xét là “có” hay “không” trong khi đếm support mà mỗi item được kèm theo một trọng số mô tả mức quan trọng của item đó. Các item ta vẫn xem xét thường ở dạng Boolean. Chúng mang giá trị là “1” nếu item có mặt trong giao dịch và “0” nếu ngược lại. Các bài toán khai phá như trên người ta vẫn gọi là khai phá luật kết hợp kiểu Boolean (Mining Boolean Association Rules). Nhưng trong thực tế, các bảng số liệu thường xuất hiện các thuộc tính không đơn giản như vậy. Các thuộc tính có thể ở dạng số (quantitative) như điểm môn lập trình Java, điểm môn cơ sở dữ liệu, hoặc dạng phân loại (categorical) như các lớp, các ngành... Các bài toán khai phá luật kết hợp trên các thuộc tính như vậy gọi là khai phá luật kết hợp định lượng (Mining Quantitative Association Rules). Cũng như các bài toán khai phá luật kết hợp trước đây, mục tiêu của bài toán khai phá luật kết hợp định lượng cũng là kết xuất các luật kết hợp trên các ngưỡng support tối thiểu và các ngưỡng confidence tối thiểu. Với các thuộc tính định lượng thì cần phải có sự phân đoạn cho các thuộc tính này vì suy cho cùng thì khi tính support cũng cần phải kiểm tra lại nó tồn tại hay không tồn tại trong giao dịch. Nói cách khác là cần phải thực hiện ánh xạ các thuộc tính định lượng sang thuộc tính Boolean. Nếu các thuộc tính phân loại hoặc số lượng chỉ có vài giá trị riêng biệt thì có thể thực hiện ánh xạ này đơn giản như sau: Mỗi thuộc tính trong bảng dữ liệu có p giá trị riêng biệt sẽ được lập thành p thuộc tính logic mới. Mỗi thuộc tính logic này tương ứng với một cặp (attribute, value). Nó có giá trị “1” nếu value có mặt trong dữ liệu gốc và có giá trị “0” nếu ngược lại. Nếu số giá trị riêng biệt của một số thuộc tính khá lớn thì người ta thực hiện phân đoạn thuộc tính thành các khoảng và ánh xạ mỗi cặp (attribute, value) thành một thuộc tính. Sau khi ánh xạ, có thể thực hiện khai phá luật kết hợp trên cơ sở dữ liệu mới bằng thuật toán khai phá luật kết hợp kiểu logic. Tổng quát, ta có thể đưa ra một số phương pháp rời rạc hoá như sau: Trường hợp 1 : Nếu A là thuộc tính số rời rạc hoặc là thuộc tính hạng mục có miền giá trị hữu hạng dạng {V1, V2,..., Vk} và k đủ nhỏ (<100) thì ta biến đổi thuộc tính này thành k thuộc tính nhị phân A_V1, A_V2,..., A_Vk. Giá trị của bản ghi tại trường A_Vi = True (hoặc 1) Nếu giá trị của bản ghi đó tại thuộc tính A ban đầu bằng vi, Ngược lại Giá trị của A_Vi = False (hoặc 0). 59 Trường hợp 2 : Nếu A là thuộc tính số liên tục hoặc A là thuộc tính số rời rạc hay thuộc tính hạng mục có miền giá trị hữu hạng dạng {V1, V2,..., Vp} (p lớn) thì ta sẽ ánh xạ thành q thuộc tính nhị phân , ,..., <A : startq.. endq>. Giá trị của bản ghi tại trường bằng True (hoặc 1) nếu giá trị của bản ghi đó tại thuộc tính A ban đầu nằm trong khoảng [starti.. endi], ngược lại giá trị của = False (hoặc 0). Mã Sv Họ tên Lớp CSDL CTDL& GT Java …. C++ 08850 Lã Vũ Bình CT801 8 8 8 …. 7 08963 Trần Quang Lâm CT802 8 7 9 …. 7 08760 Bùi Thị Hạnh CT801 7 8 9 …. 7 08865 Trần Văn Sơn CT801 5 6 6 …. 4 07866 Nguyễn Thị Thuỳ CT701 5 7 7 … 8 07889 Trần Thị Lan CT702 9 8 9 … 8 08975 Trần Hồng Quang CT801 4 6 6 … 7 LT1011 Nguyễn Tuấn Anh LT101 6 5 7 … 7 ….. …. … … … … … … Bảng 3.2: Ví dụ CSDL điểm của sinh viên Ví dụ: Với bảng số liệu trên đây ta có thể phân chia như sau: Theo quy chế 25 của bộ giáo dục đào tạo mỗi sinh viên chỉ được phép thi tối đa hai lần cho một lần học của mỗi môn học, nếu sinh viên nào qua hai lần thi vẫn chưa đỗ thì phải học lại môn đó. Vậy ở đây nếu sinh viên nào phải thi lại thì sẽ có hai điểm của môn học đó. Vậy đối với các sinh viên này tác giả sẽ lấy điểm cao nhất trong hai lần thi. Thuộc tính điểm các môn là thuộc tính có nhiều giá trị, ta có thể phân thành các khoảng, 0..5, 5..7, 7..9, 9..10. Vậy theo như bảng trên thì mỗi điểm sẽ có 4 khoảng điểm: ở đó đặt 1 ứng với khoảng điểm (0..5), 2 ứng với khoảng [5..7), 3 ứng với khoảng [7..9), 4 ứng với khoảng [9..10]. Như vậy, với cách ánh xạ trên, từ CSDL gốc ban đầu, ta có CSDL dạng logic đối với môn CSDL sau đây, các môn khác tương tự cũng chia làm 4 khoảng: 60 CSDL Mã Sv Họ tên Lớp 1:(0..5) 2:[5..7) 3:[7..9) 4:[9..10] 08850 Lã Vũ Bình CT801 0 0 1 0 08963 Trần Quang Lâm CT802 0 0 1 0 08760 Bùi Thị Hạnh CT801 0 0 1 0 08865 Trần Văn Sơn CT801 0 1 0 0 07866 Nguyễn Thị Thuỳ CT701 0 1 0 0 07889 Trần Thị Lan CT702 0 0 0 1 08975 Trần Hồng Quang CT801 1 0 0 0 LT1011 Nguyễn Tuấn Anh LT101 0 1 0 0 ….. …. … … … … … Bảng 3.3: Dữ liệu đã chuyển đổi từ dạng số sang dạng logic Việc ánh xạ như trên có thể xảy ra vấn đề sau:  “minsup”: Nếu số lượng khoảng cho thuộc tính số lượng (hoặc số các giá trị riêng cho thuộc tính phân loại) là lớn thì support cho các khoảng có thể là nhỏ. Do đó, việc chia một thuộc tính ra quá nhiều khoảng có thể làm cho luật chứa nó không đạt được support tối thiểu.  “minconf”: Một số thông tin có thể bị mất do việc chia khoảng. Một số luật có thể có minconf chỉ khi một item trong chúng có giá trị đơn hoặc một khoảng rất nhỏ, do đó thông tin có thể bị mất. Sự mất mát thông tin càng tăng khi kích thước khoảng chia càng lớn. Như vậy, nếu kích thước khoảng là quá lớn (số khoảng nhỏ) thì có nguy cơ một số luật sẽ không có confidence tối thiểu, còn nếu kích thước các khoảng quá nhỏ (số khoảng lớn) thì một số luật lại có nguy cơ không có support tối thiểu. Để giải quyết hai vấn đề trên, người ta chú ý đến tất cả các vùng liên tục trên thuộc tính số lượng hoặc trên các khoảng đã phân đoạn. Vấn đề “minsup”sẽ được khắc phục bằng cách liên hợp các khoảng gần kề hoặc các giá trị gần kề. Vấn đề “minconf” sẽ được khắc phục bằng cách tăng số lượng khoảng mà không ảnh hưởng đến vấn đề “minsup”. 61 Người ta có thể thực hiện một phương pháp đơn giản để thực hiện việc chuyển các thuộc tính số lượng và phân loại về cùng một dạng với nhau. Với thuộc tính phân loại, các giá trị của nó sẽ được ánh xạ vào tập các số nguyên liên tiếp. Với các thuộc tính số lượng không cần khoảng chia (tức là có ít giá trị) thì các giá trị sẽ được ánh xạ vào tập các số nguyên liên tiếp theo thứ tự của các giá trị đó. Còn đối với các thuộc tính số lượng được phân khoảng, thì các khoảng sẽ được ánh xạ vào tập số nguyên liên tiếp, trong đó thứ tự các khoảng sẽ được bảo tồn. Các ánh xạ này sẽ làm cho mỗi bản ghi trong CSDL trở thành một tập các cặp (Attribute, Value). Bài toán khai phá luật kết hợp lúc này có thể thực hiện qua các bước sau: 1. Xác định số lượng mỗi phần chia cho mỗi thuộc tính số lượng. 2. Với các thuộc tính phân loại, ánh xạ các thuộc tính vào tập số nguyên liên tiếp. Với các thuộc tính số lượng không cần sự phân khoảng, ánh xạ các giá trị của chúng vào tập các số nguyên liên tiếp theo thứ tự giá trị thuộc tính. Với các thuộc tính số lượng đã được phân khoảng, ánh xạ các khoảng được chia vào tập các số nguyên liên tiếp và bảo tồn thứ tự các khoảng. Bằng cách này, thuật toán chỉ xem các giá trị hoặc các vùng giá trị như là các thuộc tính định lượng. 3. Tìm support cho mỗi giá trị của các thuộc tính phân loại lẫn thuộc tính số lượng, tiếp theo tìm tất cả các itemset mà support của nó lớn hơn support tối thiểu. 4. Sử dụng các tập tìm được để sinh ra các luật kết hợp. 5. Xác định luật đáng quan tâm và kết xuất chúng. Như vậy, khi xét trên CSDL điểm của sinh viên (giả sử với các môn học chuyên ngành CNTT), ta có thể thực hiện phân chia thuộc tính điểm trong bảng thành các khoảng và ký hiệu như sau: Mã mh Tên môn học 1:(0..5) 2:[5..7) 3:[7..9) 4:[9..10] ct1 An toàn bảo mật thông tin A1 A2 A3 A4 ct2 Anh văn chuyên ngành B1 B2 B3 B4 ct3 Bảo vệ đồ án tốt nghiệp_ Mon TN C1 C2 C3 C4 ct4 Cấu trúc dữ liệu và giải thuật D1 D2 D3 D4 ct5 Cấu trúc máy tính E1 E2 E3 E4 ct6 Chương trình dịch F1 F2 F3 F4 ct7 Cơ sở dữ liệu 1 G1 G2 G3 G4 62 ct8 Cơ sở dữ liệu 2 H1 H2 H3 H4 ct9 Công nghệ phần mềm I1 I2 I3 I4 ct10 Đồ hoạ máy tính J1 J2 J3 J4 ct11 Hệ điều hành K1 K2 K3 K4 ct12 Hệ quản trị CSDL Oracle N1 N2 N3 N4 ct13 Kỹ thuật Ghép nối máy tính M1 M2 M3 M4 ct14 Lập trình Visual Basic O1 O2 O3 O4 ct15 Lập trình ASP/PHP P1 P2 P3 P4 ct16 Lập trình C Q1 Q2 Q3 Q4 ct17 Lập trình C++ R1 R2 R3 R4 ct18 Lập trình hướng đối tượng S1 S2 S3 S4 ct19 Lập trình JAVA T1 T2 T3 T4 ct20 Lôgíc toán U1 U2 U3 U4 ct21 Lý thuyết đồ thị V1 V2 V3 V4 ct22 Mạng máy tính W1 W2 W3 W4 ct23 Mạng máy tính và truyền số liệu X1 X2 X3 X4 ct24 Mạng và hệ phân tán Y1 Y2 Y3 Y4 ct25 MATLAP và mô phỏng Z1 Z2 Z3 Z4 ct26 Otomat và ngôn ngữ hình thức Aa1 Aa2 Aa3 Aa4 ct27 Phân tích và thiết kế hệ thống Bb1 Bb2 Bb3 Bb4 ct28 Phương pháp tính Cc1 Cc2 Cc3 Cc4 ct29 Quản lý dự án CNTT Dd1 Dd2 Dd3 Dd4 ct30 Quản trị mạng Ee1 Ee2 Ee3 Ee4 ct31 Thương mại điện tử Ff1 Ff2 Ff3 Ff4 ct32 Tin học đại cương Gg1 Gg2 Gg3 Gg4 ct33 Trí tuệ nhân tạo Hh1 Hh2 Hh3 Hh4 ct34 Vi xử lý và lập trình Assembly Ii1 Ii2 Ii3 Ii4 ct35 Xử lý ảnh Jj1 Jj2 Jj3 Jj4 63 Bảng 3.4: Bảng ký hiệu tên các môn học Sơ đồ quan hệ để lưu trữ dữ liệu điểm của sinh viên như sau: Hình 3.5: Sơ đồ quan hệ CSDL điểm sinh viên 3.3. Chương trình thử nghiệm minh họa Đẻ thử nghiệm một số khía cạnh lí thuyết liên quan đến khai phá dữ liệu, luận văn thực hienẹ chương trình minh họa. Chương trình cài đặt trên ngôn ngữ C#, CSDL thiết kế trên SQL Server 2005, hệ điều hành WindowsXP, chip máy tính Pentium IV 1.7 GHz, RAM 512 MB, ổ cứng 80 GB còn trống gần 7 GB. Chương trình có một số giao diện chính sau: Hình 3.6: Giao diện chương trình chính 64 Hình 3.7: Phần kết nối CSDL Hinh 3.8: Form cập nhật điểm sinh viên Hình 3.9: Form cập nhật thêm sinh viên 65 Hình 3.10: Phần dữ liệu đã được mã hoá Hình 3.11: Phần tạo luật kết hợp dùng thuật toán Apriori 66 Hình 3.12: Phần mô phỏng thuật toán với dữ liệu nhập vào từ bàn phím 3.4. Kết luận Chương trình thực hiện tìm các tập phổ biến và luật kết hợp thông qua thuật toán Apriori. Từ các luật kết hợp thu được từ chương trình ta có thể tìm ra các luật mạnh phục vụ cho công tác đào tạo, hỗ trợ cho sinh viên lựa chọn môn học, ngành nghề. Để xác định độ Support của các tập ứng viên, thuật toán Apriori luôn luôn phải quét lại toàn bộ các giao dịch trong CSDL. Do vậy sẽ tiêu tốn rất nhiều thời gian khi số k-items tăng (số lần xét duyệt các giao dịch tăng). Hướng phát triển Tiếp tục hoàn thiện và mở rộng chương trình trong luận văn này để có thể áp dụng vào thực tế toàn diện hơn. Mở rộng khai phá luật kết hợp với dữ liệu đầu vào rộng hơn, không chỉ dừng lại ở điểm của sinh viên mà còn có thể là các yếu tố khác như: chuyên ngành về mạng máy tính thì sau khi ra trường có thể dễ xin việc hơn nên có nhiều sinh viên đăng ký học ngành này hơn. Xây dựng thêm phần tiền xử lý dữ liệu. Các tệp CSDL khác nhau như: Microsoft Access, Foxpro, Oracle… đều có thể chuyển về một dạng thống nhất để chương trình xử lý được. Nghiên cứu sâu các thuật toán khai phá dữ liệu, và áp dụng vào một số bài toán khai phá dữ liệu phù hợp với giai đoạn hiện nay: dự báo dân số, bệnh dịch, thời tiết, định hướng trong kinh doanh … 67 KẾT LUẬN Khai phá dữ liệu là một lĩnh vực vẫn còn khá mới mẻ, lý thú. Luận văn đã trình bày, một số vấn đề cơ bản nhất, các phương pháp cơ bản để khai phá dữ liệu, đặc biệt trình bày chi tiết, làm rõ vấn đề khai phá luật kết hợp. Phương pháp khai phá dữ liệu có thể là: phân lớp, hồi quy, cây quyết định, suy diễn, quy nạp, K- láng giềng gần, … các phương pháp trên có thể áp dụng trong dữ liệu thông thường và trên tập mờ. Bài toán khai phá luật kết hợp là bài toán khó. Luận văn đã trình bày thuật toán khai phá kinh điển Apriori và các thuật toán mới hiệu quả nhất (Apriori_Tid, Setm, Ais, Charm). Một cách tiếp cận khai phá luật kết hợp đảm bảo không dư thừa các luật và cho hiệu quả khai phá cao là dựa trên tập đóng. Thuật toán khai phá hiệu quả điển hình là thuật toán CHARM. Kết quả xây dựng chương trình thử nghiệm dựa trên thuật toán Apriori nhằm mô phỏng rõ hơn về khai phá dữ liệu bằng luật kết hợp. Chương trình ứng dụng vào bài toán dự báo kết quả học tập của sinh viên, hỗ trợ sinh viên lựa chọn môn học, lựa chọn ngành học, hỗ trợ cho cán bộ đào tạo đưa ra định hướng đào tạo trong các năm tiếp theo. 68 PHỤ LỤC Lớp Apriori public class Apriori { //Mang danh sach cac tap phan tu luu trong cac tap muc pho bien protected ItemsetArrayList itemsetsFrequentCollection; //Mang danh sach cac phan tu luu trong tap muc cac ung cu protected ItemsetArrayList itemsetsCandidateCollection; //Xay dung lop Apriori public Apriori() { this.itemsetsCandidateCollection = new ItemsetArrayList(); this.itemsetsFrequentCollection = new ItemsetArrayList(); } public void OnProgressMonitorEvent(ProgressMonitorEventArgs e) { if (ProgressMonitorEvent != null) { ProgressMonitorEvent(this, e); } } public event ProgressMonitorEventHandler ProgressMonitorEvent; protected DataRow[] FindItems(string find, DataTable data) { return data.Select(find); } protected int FindItems(string find, string data) { string[] splitstring = data.Split(new Char[] { ',' }); int length = splitstring.Length; int countFound = 0; string[] found = new string[length]; for (int counter = 0; counter < length; counter++) { found[counter] = splitstring[counter].Trim(); } foreach (string member in found) { if (member == find) { countFound++; } } return countFound; } //Mang danh sach cac tap muc protected int FindItems(ItemsetArrayList find, string data) 69 { string[] splitstring = data.Split(new Char[] { ',' }); int length = find.Count; string[] found = new string[splitstring.Length]; int minimumValue = 0; int[] search = new int[length]; for (int counter = 0; counter < splitstring.Length; counter++) { found[counter] = splitstring[counter].Trim(); } for (int count = 0; count < length; count++) { foreach (string member in found) { if (member == (string)find[count]) { search[count]++; } } } switch (length) { case 0: { minimumValue = 0; break; } case 1: { minimumValue = search[0]; break; } default: { for (int counter = 0; counter < search.Length; counter++) { if (counter == 0) { minimumValue = search[counter]; } else { if (search[counter] < minimumValue) { minimumValue = search[counter]; } } 70 } break; } } return minimumValue; } //Tinh Support cua 1 tap muc trong CSDL public int SupportCount(string find, Database Transactions_Data) { int count = 0; DataTable datatable = Transactions_Data.Transactions.Tables[0]; foreach (DataRow datarow in datatable.Rows) { count = count + FindItems(find, (datarow["Transactions"]).ToString()); } return count; } //Lay gia tri Support cua 1 tap muc public int SupportCount(ItemsetArrayList find, Database transactionsData) { int count = 0; int total = 0; DataTable dataTable =transactionsData.Transactions.Tables["TransactionTable"]; foreach (DataRow datarow in dataTable.Rows) { count = this.FindItems(find, (datarow["Transactions"]).ToString()); total = count + total; } return total; } //Tao tap cac tap muc tu CSDL cua cac giao [ReservedAttribute(false, "December 25, 2002")] public ItemsetCandidate CreateOneItemsets(Database dataBase) { DataTable dataTable = dataBase.Transactions.Tables["TransactionTable"]; ItemsetCandidate candidateItemset = new ItemsetCandidate(); ItemsetArrayList uniqueItems = new ItemsetArrayList(1); ; ItemsetArrayList candidateItems; ItemsetArrayList items; StringBuilder item = new StringBuilder(10); int itemSupportCount = 0; int counter = 1; string msg = "Creating One Itemsets"; ProgressMonitorEventArgs e = new ProgressMonitorEventArgs(1, 100, 80, "Apriori.CreateOneItemsets(Database)", msg); this.OnProgressMonitorEvent(e); foreach (DataRow dataRow in dataTable.Rows) 71 { item.Append(dataRow["Transactions"].ToString()); if (counter < (dataTable.Rows.Count)) { item.Append(", "); counter++; } } candidateItems = ItemsetArrayList.ConvertToItemsetArrayList(item.ToString(), new Char[] { ',' }); for (int count = 0; count < candidateItems.Count; count++) { item = new StringBuilder(10); item.Append(((string)candidateItems[count]).Trim()); if (!(item.ToString() == "")) { if (!uniqueItems.Contains(item.ToString())) { itemSupportCount = this.SupportCount(item.ToString(), dataBase); dataBase.AddItemset(item.ToString(), 1, itemSupportCount); items = new ItemsetArrayList(1); uniqueItems.Add(item.ToString()); items.Add(item.ToString()); items.Level = 1; items.SupportCount = itemSupportCount; items.TrimToSize(); candidateItemset.Items.Add(items); } } } candidateItemset.Items.TrimToSize(); candidateItemset.Level = 1; return candidateItemset; } //Lop Apriori_Gen public void AprioriGenerator(ItemsetCandidate Candidate_Itemset, Database TransactionsData, int minimum_support) { string start = "Generating Level " + Candidate_Itemset.Level + " Candidates : " + Candidate_Itemset.Items.Count + " Items"; ProgressMonitorEventArgs e = new ProgressMonitorEventArgs(1, 100, 25, "Apriori.AprioriGenerator()", start); this.OnProgressMonitorEvent(e); //Them 1 tap muc ung cu vien vao tap cac tap muc ung cu vien ItemsetCandidate candidateItemset = this.JoinCandidateItemsets(Candidate_Itemset, TransactionsData, minimum_support); if (candidateItemset.Items.Count > 0) { 72 this.AprioriGenerator(candidateItemset, TransactionsData, minimum_support); } string done = "Finished Generating Candidate Itemsets "; e = new ProgressMonitorEventArgs(1, 100, 70, "Apriori.AprioriGenerator()", done); this.OnProgressMonitorEvent(e); } //tap muc ung cu vien protected ItemsetCandidate GenerateFrequentItemsets(ItemsetCandidate candidateItemset, int minimum_support) { ItemsetCandidate itemsetFrequent = new ItemsetCandidate(); foreach (ItemsetArrayList itemsFrequent in candidateItemset.Items) { if (itemsFrequent.SupportCount >= minimum_support) { itemsetFrequent.Items.Add(itemsFrequent); } } itemsetFrequent.Items.Capacity = itemsetFrequent.Items.Count; return itemsetFrequent; } //Kiem tra neu 1 phan tap muc co 1 tap muc con pho bien protected bool HasInfrequentSubSet() { throw new Exception("This is a reserved attribute! Do not use it"); } public ItemsetArrayList ItemsetsFrequentCollection { get { return itemsetsFrequentCollection; } set { itemsetsFrequentCollection.Add(value); } } //Lua chon tap cac ung cu vien public ItemsetArrayList ItemsetsCandidateCollection { get { return itemsetsCandidateCollection; } set { 73 itemsetsCandidateCollection.Add(value); } } //Tao 1 tap muc bang 1 tap muc ung cu vien public ItemsetCandidate JoinCandidateItemsets(ItemsetCandidate candidate_itemset, Database transactionsData, int minimumSupport) { //neu so tap muc bang 0 if (candidate_itemset.Items.Count == 0) { throw new Exception("cannot join items : no items are present!"); } else { ItemsetArrayList copy_candidate_itemset = candidate_itemset.Items; ItemsetCandidate new_candidate_itemset = new ItemsetCandidate(); new_candidate_itemset.Level = candidate_itemset.Level + 1; //thanh phan cua 1 tap muc cua k phan tu duoc ket noi //neu (k-2) phan tu dau tien tham gia vao ket noi int count_common_items = (new_candidate_itemset.Level - 2); foreach (ItemsetArrayList itemset in candidate_itemset.Items) { int count_members = 0; foreach (ItemsetArrayList copy_itemset in copy_candidate_itemset) { bool join_items = true; for (count_members = 0; count_members < count_common_items; count_members++) { if (itemset[count_members] != copy_itemset[count_members]) { join_items = false; break; } } If (itemset[count_common_items].ToString().CompareTo(copy_itemset[count_common _items].ToString()) != -1) { join_items = false; } if (join_items == true) { ItemsetArrayList new_itemset = new ItemsetArrayList(1); for (count_members = 0; count_members <= count_common_items; count_members++) { if (itemset[count_members] == copy_itemset[count_members]) 74 { new_itemset.Add(itemset[count_members]); } else { new_itemset.Add(itemset[count_members]); new_itemset.Add(copy_itemset[count_members]); } } new_itemset.Capacity = new_itemset.Count; //lay ra support cho moi tap muc new_itemset.SupportCount = this.SupportCount(new_itemset, transactionsData); new_itemset.Level = new_candidate_itemset.Level; itemset.Capacity = itemset.Count; //Them tap muc vao bang cac tap muc transactionsData.AddItemset(new_itemset, ","); //Khong them cac tap muc neu co support < minsupp if (new_itemset.SupportCount >= minimumSupport) { new_candidate_itemset.Items.Add(new_itemset); } } } } new_candidate_itemset.Items.Capacity = new_candidate_itemset.Items.Count; return new_candidate_itemset; } } //Tao tap cac luat tu cac tap muc public void CreateItemsetRuleset(ItemsetArrayList parentRuleset, ItemsetArrayList leftRuleset, ItemsetArrayList rightRuleset, Database transactionsData) { //Tao va them 1 luat ket hop vao CSDL transactionsData.AddRuleset(parentRuleset, leftRuleset, rightRuleset); } public void CreateItemsetSubsets(int Level, ItemsetArrayList itemSubset, ItemsetArrayList parentItemset, Database transactionsData) { int length = 0; ItemsetArrayList childSubset = new ItemsetArrayList(1); ItemsetArrayList rulesItemset; if (itemSubset.Count > Level) { foreach (ItemsetArrayList item in itemSubset) { 75 ItemsetArrayList[] subsets = this.CreateItemsetSubsets(item); if (parentItemset == null) { parentItemset = item; } if (subsets != null) { length = subsets.Length; } else { break; } for (int count = 0; count < length; count++) { //them tap muc va tap con vao bangAdd the itemset and the subset to the subsets table transactionsData.AddSubset(item, subsets[count]); childSubset.Add(subsets[count]); //Tao 1 tap muc co support, conf va luat ket hop rulesItemset = (parentItemset - subsets[count]); this.CreateItemsetRuleset(parentItemset, subsets[count], rulesItemset, transactionsData); } } childSubset.TrimToSize(); this.CreateItemsetSubsets(0, childSubset, parentItemset, transactionsData); } } public ItemsetArrayList[] CreateItemsetSubsets(ItemsetArrayList itemSubset) { int length = itemSubset.Count; ItemsetArrayList[] subset = new ItemsetArrayList[length]; switch (length) { case 0: { subset = null; break; } case 1: { subset = null; break; } default: { subset[0] = new ItemsetArrayList(1); 76 for (int count = 0; count < (length - 1); count++) { subset[0].Add(itemSubset[count]); } subset[0].TrimToSize(); subset[1] = new ItemsetArrayList(1); for (int count = 1; count < (length); count++) { subset[1].Add(itemSubset[count]); } subset[1].TrimToSize(); for (int count = 1; count < (length - 1); count++) { int position = 0; subset[(count + 1)] = new ItemsetArrayList(1); subset[(count + 1)].Add(itemSubset[position]); for (position = 1; position < length; position++) { if (position != count) { subset[(count + 1)].Add(itemSubset[position]); } } subset[(count + 1)].TrimToSize(); } break; } } return subset; } } } 77 TÀI LIỆU THAM KHẢO Tiếng Việt [1]. Thái Nguyên (29 – 31 tháng 8 năm 2003), Một số vấn đề chọn lọc của công nghệ thông tin, Nhà xuất bản Khoa học Kỹ thuật. [2]. Nguyễn Công Cường, Nguyễn Doãn Phước (2001), Hệ mờ, mạng nơron và ứng dụng - NXB Khoa học Kỹ thuật. [3] Nguyễn Văn Vỵ (2006), Phân tích thiết kế hệ thống, NXB. Đại học Quốc gia Hà Nội. [4]. Đỗ Trung Tuấn (1999), Cơ sở dữ liệu, Nhà xuất bản Giáo dục. [5]. Nguyễn Đình Thúc (1998), Mạng nơron, Nhà xuất bản Giáo dục. Tiếng Anh [6]. John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc. [7]. Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology. [8]. Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – Verlag New York, Inc. [9]. Mohammet J. Zaki and Chin Jui Hasiao CHAM, An efficient Algorithm for Close Itemset Mining. [10]. Jean-Marc Adamo (2001), Data Mining for Association Rule and Sequential Pattens, With 54 Illustrations. ISBN0-95048-6. [11]. John Wiley & Son, Visual Data Mining: Techniques and Tools for Data Visualization and Mining, by Tom Soukup and Ian Davidson, ISBN: 0471149993. [12]. John Wiley & Sons (2003), Data Mining: Concepts, Models, Methods, and Algorithms, by Mehmed Kantardzic, ISBN:0471228524. [13]. W. H. Inmon, R. D. Hackthon, Using the Data Warehouse, A Wiley-QEA Publication. [14]. J.R. Quinlan (1986), Introduction of Decision Trees. Machine learning 1, Kluwer Academic Press,81-106. 78 Địa chỉ trang Web [15] [16] [17] [18] [19] es-4spp.pdf

Các file đính kèm theo tài liệu này:

LUẬN VĂN-PHÁ DỮ LIỆU ỨNG DỤNG TRONG ĐÀO TẠO.pdf