Luận án Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

Trong quá trình triển khai các mô hình, luận án vẫn còn tồn tại một số hạn chế như sau: Một là, thuật toán phân lớp đa nhãn dựa trên phân cụm bán giám sát cần được nghiên cứu công phu hơn bao gồm các phân tích chi tiết về độ phức tạp thuật toán, các cải tiến phù hợp trong từng thành phần thuật toán để phát huy lợi thế “tham lam” của thuật toán. Hai là, tuy đã đề cập tới vấn đề giảm chiều dữ liệu trong phân lớp đơn nhãn và phân lớp đa nhãn song nghiên cứu trong luận án mới chỉ đề cập ở mức độ rất cơ bản mà chưa khảo sát các giải pháp tiên tiến trong giảm chiều dữ liệu, đặc biệt là giảm chiều dữ liệu trong phân lớp đa nhãn. Ba là, miền ứng dụng văn bản có lợi thế cho các nghiên cứu về phân lớp đa nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể hiện như các miền ứng dụng khác, chẳng hạn miền ứng dụng dữ liệu ảnh.

152 trang | Chia sẻ: yenxoi77 | Lượt xem: 821 | Lượt tải: 4

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ thuật láng giềng gần nhất khai thác tập nhãn của cụm láng giềng gần nhất. a. Phân cụm dữ liệu Trong bước phân cụm, dựa trên chiến thuật tham lam lựa chọn nhãn chiếm ưu thế theo tần suất xuất hiện, tập dữ liệu huấn luyện bao gồm dữ liệu có nhãn và dữ liệu không nhãn được phân chia thành ba tập con, qua bước biến đổi dữ liệu để thích nghi vận dụng kỹ thuật phân cụm bán giám sát TESC trên các tập con dữ liệu. 111 Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được trình bày theo dạng giả mã (pseudo-code) như sau: ( ̅ ) Đầu vào: ̅: Tập dữ liệu có nhãn và không nhãn. ̅ * ̅ ̅ +, Trong đó ̅ và ̅ lần lượt là tập dữ liệu có nhãn và không nhãn. Khởi tạo ban đầu ̅ là toàn bộ tập dữ liệu huấn luyện. : tập nhãn mặc định cho tất cả dữ liệu trong ̅ . Khởi tạo ban đầu là tập rỗng. : tập nhãn (ngoài ) có thể thêm vào dữ liệu trong ̅ ( ). Khởi tạo ban đầu là tập tất cả các nhãn Đầu ra: : tập các cụm được gán nhãn. Thuật toán: 1. Gọi là một nhãn trong tập có tần xuất xuất hiện lớn nhất trong tập dữ liệu ̅ 2. Xây dựng tập nhãn giả * +, trong đó * +, * + * * ++, * + /* gán cho dữ liệu hiện tại có nhãn * +, gán cho dữ liệu hiện tại có nhãn * + các nhãn khác và gán cho dữ liệu hiện tại không chứa nhãn */ ̅ ( ̅ * +); /* Xây dựng tập dữ liệu đơn nhãn ̅ từ tập ̅ bằng cách chuyển đổi theo bộ ba nhãn giả * + để thích nghi cho thuật toán phân cụm bán giám sát TESC và thu được phân hoạch trên tập dữ liệu theo 3 loại nhãn giả.*/ ( ̅ ) 3. Chia tập dữ liệu ̅ thành 3 tập con dựa trên phân hoạch : a. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong đó dữ liệu có nhãn được gãn nhãn 112 b. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong đó dữ liệu có nhãn được gãn nhãn c. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong đó dữ liệu có nhãn được gãn nhãn 4. Đối với tập ̅ : ( ̅ * +) 5. Đối với tập ̅ a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi tập nhãn này là ( ̅ ) b. Ngược lại // Trường hợp các dữ liệu trong ̅ không đồng nhất nhãn. // Chuyển nhãn từ tập nhãn sang tập nhãn ( ̅ , * + * + ) 6. Đối với tập ̅ a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi tập nhãn này là ( ̅ ) b. Ngược lại //Trường hợp các dữ liệu trong ̅ không đồng nhất nhãn // Xóa từ tập nhãn ( ̅ * + ) 7. Return Thủ tục 4.1 Thủ tục phân cụm MULTICSLearn Để tìm phân hoạch trên tập dữ liệu, đầu tiên khởi tạo tập C rỗng {}, sau đó gọi thủ tục phân cụm với các tham số như sau: ( ̅ * + ). Phân hoạch C kết quả của MULTICSLearn chính là bộ phân lớp đa nhãn cần tìm. Sau đây là ví dụ minh họa tư tưởng thuật toán trên tập dữ liệu nhỏ: 113 Giả sử tập dữ liệu đầu vào gồm 350 văn bản D=(d1, d2, , d350} gồm cả tài liệu đã được gán nhãn và chưa được gán nhãn trong tập 5 nhãn L = {l1, l2, l3,l4, l5} với 10 tài liệu có 5 nhãn, 12 tài liệu có bốn nhãn {l1, l2, l3,l4 }, Khởi tạo: *+, * +, ( xuất hiện với tần suất lớn nhất 100 lần) Xây dựng tập nhãn giả: * + trong đó: Tài liệu chỉ có nhãn được gán nhãn giả ; tài liệu có nhãn và ít nhất một nhãn khác được gán nhãn giả , tài liệu không có nhãn được gán nhãn giả . Ví dụ tập dữ liệu được gán nhãn giả như sau: 20 tài liệu gán nhãn , 80 tài liệu gán nhãn , 70 tài liệu gán nhãn và 180 tài liệu chưa gán nhãn. Phân hoạch trên tập dữ liệu với nhãn giả sử dụng thuật toán TESC, trong đó sẽ gom được dữ liệu có nhãn va không nhãn vào các cụm. Sau phân hoạch chia tập D thành 3 tập con: D1 bao gồm các tài liệu có nhãn và tài liệu không nhãn, D2 bao gồm các tài liệu có nhãn và tài liệu không nhãn, D3 bao gồm các tài liệu có nhãn và tài liệu không nhãn. Lần lượt xét các tập con: - Xét D1 là tập có các tài liệu có nhãn đồng nhất và các tài liệu không nhãn: Thực hiện phân hoạch trên tập D1 sử dụng thuật toán TESC thu được một tập các cụm. - Xét D2: o Nếu các tài liệu có nhãn trong D2 đồng nhất nhãn (theo tập nhãn ban đầu ) thì tiến hành phân hoạch trên D2 sử dụng thuật toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài liệu được gán một nhãn đơn) thu được một tập các cụm. o Nếu các tài liệu có nhãn trong D2 không đồng nhất nhãn nhãn (theo tập nhãn ban đầu ) thì chuyển nhãn l1 sang tập L1 sau đó tiến hành đệ quy MULTICS trên D2 với đầu vào * +, * +. - Xét D3: 114 o Nếu các tài liệu có nhãn trong D3 đồng nhất nhãn (theo tập nhãn ban đầu ) thì tiến hành phân hoạch trên D3 sử dụng thuật toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài liệu được gán một nhãn đơn) thu được một tập các cụm. o Nếu các tài liệu có nhãn trong D3 không đồng nhất nhãn nhãn (theo tập nhãn ban đầu ) thì loại bỏ nhãn l1 trong tập L2 sau đó tiến hành đệ quy MULTICS trên D3 với đầu vào * +, * +. Thuật toán sẽ dừng lại khi các tập con đồng nhất nhãn hoặc số lượng văn bản nhỏ hơn 3 (theo cấu hình của thuật toán TESC). Cuối cùng thu được tập các cụm là phân hoạch trên tập dữ liệu. b. Phân lớp dữ liệu Trong bước phân lớp dữ liệu, đầu vào là phân hoạch trên tập dữ liệu được xây dựng ở bước huấn luyện và dữ liệu cần gán nhãn. Đầu ra của bước này sẽ là tập nhãn tương ứng với văn bản cần gán nhãn. Phương pháp 1NN được áp dụng ở bước này theo hướng tính khoảng cách của văn bản cần gán nhãn với tâm các cụm để tìm ra cụm gần nhất, khi đó tập nhãn của cụm gần nhất sẽ được gán cho văn bản cần gán nhãn. Giả mã của bước xác định nhãn được thể hiện như sau: Thủ tục MULTICSClassifier Đầu vào: : tập các cụm dữ liệu đã được gán nhãn * + : dữ liệu cần gán nhãn Đẩu ra: : Tập các nhãn tương ứng với văn bản Thuật toán: 1. // là cụm đầu tiên xét đến trong 2. // là nhãn của cụm 3. Với mỗi cụm 4. ( ) ‖ ‖ //tính khoảng cách của và 115 5. If ( ) ( ) 6. 7. 8. End for 9. Thủ tục 4.2 Thủ tục phân lớp MULTICSClassifier Bằng việc chia nhỏ tập dữ liệu thành ba tập con, mô hình đề xuất MULTICS đã hạn chế được các vấn đề về độ phức tạp tính toán. Tuy nhiên, do sự phức tạp của dữ liệu nên việc xác định tính chất và lực lượng các tập con để tính toán số vòng lặp của thuật toán trong trường hợp tổng quát là rất khó. Xét một số trường hợp đơn giản như sau: - Trường hợp vùng |D2| |D3| | ̅|/2. Theo công thức truy hồi, công thức tính thời gian thực thi như sau: T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) và 2 lần đệ quy MULTICS trên D2 và D3 Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng TESC có độ phức tạp là O(n2), thời gian đệ quy MULTICS trên D2 và D3 là T(n/2). Do đó: ( ) ( ) ( . /) . / ( ) ( . /) ( ) . / ( ) . / ( ) . / Công thức dừng khi đạt được T(1). Khi đó  Ta có: ( ) . / ( ) ( ) 116 Khi đó, độ phức tạp tính toán trong trường hợp này là ( ) - Trường hợp vùng |D1| |D2| |D3| | ̅|/3. T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3), thời gian phân hoạch trên D1 và 2 lần đệ quy MULTICS trên D2 và D3 Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng TESC có độ phức tạp là O(n2), thời gian phân hoạch thời gian đệ quy MULTICS trên D2 và D3 là T(n/3). Do đó: Theo công thức truy hồi, ta có công thức tính thời gian thực thi như sau: ( ) . / Tương tự như trên thì ( ) ( ) Như vậy, có thể thấy mô hình thực thi tương đối tốt trong các trường hợp đơn giản xét trên đây. 4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất Luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát, trong đó kết hợp các bước bổ sung, làm giàu các đặc trưng nhằm tăng cường biểu diễn cho dữ liệu, bước lựa chọn đặc trưng nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các đặc trưng quan trọng, bước vận dụng thuật toán phân lớp bán giám sát MULTICS đề xuất ở trên nhằm khai thác các nguồn dữ liệu đa nhãn phong phú và sẵn có trong miền ứng dụng. Quy trình các bước giải quyết bài toán được thực hiện như sau: Pha 1: Xây dựng mô hình phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát - Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu huấn luyện bao gồm dữ liệu có nhãn và dữ liệu không nhãn - Bước 2: Làm giàu đặc trưng - Bước 3: Rút gọn đặc trưng - Bước 4: Xây dựng bộ phân lớp theo thuật toán MULTICSLearn. Pha 2: Phân lớp dữ liệu và đánh giá 117 - Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu kiểm thử - Bước 2: Làm giàu đặc trưng - Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng rút gọn - Bước 4: Sử dụng bộ phân lớp trên tập dữ liệu kiểm thử và đánh giá. Quy trình 4.1 Các bước giải quyết bài toán theo mô hình đề xuất Mô hình biểu diễn cho quy trình này được thể hiện ở Hình 4.1 Hình 4.1 Mô hình phân lớp bán giám sát đề xuất 4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát 4.3.1. Mô hình đề xuất Thừa hưởng các kết quả thu được từ các mô hình biểu diễn dữ liệu theo chủ đề ẩn (đã trình bày ở Chương 3) nhằm khai thác các ngữ nghĩa ẩn làm giàu cho tập đặc trưng và tiếp cận bán giám sát phân lớp đa nhãn theo thuật toán MULTICS trình bày ở trên, luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát cho miền ứng dụng văn bản tiếng Việt như trình bày ở Hình 4.2bvà các bước giải quyết bài toán được thực hiện theo Quy trình 4.2. 118 Pha 1: Huấn luyện mô hình - Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc trưng TFIDF / Nhị phân - Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn. - Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI do G. Doquire và M. Verleysen [34] đề xuất để rút gọn và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp. - Bước 4: Xây dựng bộ phân lớp đa nhãn sử dụng thuật toán MULTICS Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện - Bước 1: Tiền xử lý dữ liệu kiểm thử và xây dựng tập đặc trưng - Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho dữ liệu huấn luyện - Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng lựa chọn - Bước 4: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1 Quy trình 4.2 Quy trình giải quyết bài toán. 4.3.1.1. Pha 1. Huấn luyện mô hình Bước 1: Xuất phát từ đặc điểm kiểu dữ liệu về phân phối xác suất chủ đề ẩn là kiểu dữ liệu thực, trong khi thuật toán MULTICS ở trên sử dụng đặc trưng nhị phân, nên để khảo sát đặc trưng về kiểu dữ liệu, luận án đề xuất xây dựng các tập đặc trưng khác nhau bao gồm biểu diễn theo đặc trưng TFIDF (dữ liệu kiểu thực – liên tục) và đặc trưng nhị phân (dữ liệu kiểu nguyên – rời rạc). Sau bước này, thu được vector biểu diễn đặc trưng. Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập vector đặc trưng phân phối xác suất các chủ đề ẩn. Sau bước này, thu được tập đặc trưng dữ liệu bao gồm đặc trưng TFIDF/nhị phân và đặc trưng phân phối xác suất chủ đề ẩn. ( ) ( ( ) ( ) ( ) ) ( ) ( ( ) ( ) ( ) ) Trong đó, ( ) là giá trị TFIDF của từ thứ i trong văn bản d ( ) là giá trị nhị phân của từ thứ i trong văn bản d 119 là giá trị phân phối xác xuất của văn bản d trên chủ đề ẩn thứ i Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt Bước 3: Lựa chọn đặc trưng là một bước cơ bản trong mô hình xử lý dữ liệu nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các đặc trưng quan trọng. Luận án khảo sát ý nghĩa của bước lựa chọn đặc trưng sử dụng kỹ thuật thông tin tương hỗ. Bước 4: Xây dựng mô hình phân lớp sử dụng thuật toán bán giám sát MULTICS. Sau khi thu được phân hoạch trên tập dữ liệu, mô hình được xây dựng theo phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập nhãn cho dữ liệu mới dựa trên tập nhãn của cụm gần nhất. 120 4.3.1.2. Pha 2. Phân lớp sử dụng mô hình huấn luyện Dữ liệu mới được tiền xử lý và xây dựng tập đặc trưng tương tự như ở Bước 1, 2, 3 trong pha huấn luyện mô hình. Sau đó được đưa vào bộ phân lớp để xác định nhãn theo phương pháp 1NN. 4.3.2. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất Để đánh giá hiệu quả của mô hình đề xuất, mô hình cũng được áp dụng vào bài toán đánh giá khách sạn như đã trình bày ở Chương 3. Ba tập dữ liệu được xây dựng bao gồm: dữ liệu có nhãn, dữ liệu không nhãn và dữ liệu kiểm tra. Để đánh giá sự đóng góp của dữ liệu có nhãn với mô hình, chúng tôi sinh ra các tập con tập dữ liệu có nhãn với kích thước 500, 750, 1000 đánh giá. Đồng thời để đánh giá sự đóng góp của dữ liệu không nhãn với mô hình, chúng tôi cũng sử dụng tập dữ liệu không nhãn với các kích thước 0, 50, 100, 200 và 300 đánh giá. Các thực nghiệm sử dụng cùng một tập dữ liệu kiểm thử bao gồm 250 đánh giá. Ngoài ra, thực nghiệm sử dụng một tập dữ liệu trong miền ứng dụng để xây dựng mô hình chủ đề ẩn LDA gồm hơn 22000 đánh giá. Các mô hình chủ đề ẩn được xây dựng với số lượng chủ đề ẩn khác nhau để đánh giá mức độ ảnh hưởng của đăc trưng phân phối xác suất chủ đề ẩn này. Chúng tôi cũng xây dựng một mô hình phân lớp đa nhãn theo tiếp cận giám sát dựa trên phương pháp chuyển đổi bài toán đa nhãn về bài toán đơn nhãn truyền thống với nhân là kỹ thuật SVM. Mô hình này cũng được thực thi trên cùng tập dữ liệu và kết quả tốt nhất ở nhóm dữ liệu huấn luyện gồm 750 đánh giá được sử dụng để so sánh với mô hình đề xuất. Kịch bản thực nghiệm được thiết kế như sau: - Thực nghiệm 1 (ký hiệu là BN): Chỉ sử dụng tập đặc trưng nhị phân cho mô hình. Đây chính là thực nghiệm ở Mục 4.3 - Thực nghiệm 2 (ký hiệu là BN+MI): Sử dụng tập đặc trưng nhị phân kết hợp bước lựa chọn đặc trưng sử dụng thông tin tương hỗ. - Thực nghiệm 3 (ký hiệu là BN+LDA): Sử dụng tập đặc trưng nhị phân và đặc trưng phân phối xác suất chủ đề ẩn LDA. 121 - Thực nghiệm 4 (ký hiệu là TFIDF+LDA): Sử dụng tập đặc trưng TFIDF và đặc trưng phân phối xác suất chủ đề ẩn LDA. - Thực nghiệm 5 (ký hiệu là TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF và đặc trưng phân phối xác suất chủ đề ẩn LDA kết hợp với kỹ thuật lựa chọn đặc trưng sử dụng thông tin tương hỗ. Chúng tôi sử dụng độ đo dựa trên nhãn ( * +) như đã trình bày ở mục 1.2.3.2. Kết quả thực nghiệm cơ sở theo hướng sử dụng tiếp cận chuyển đổi bài toán về các bộ phân lớp nhị phân với nhân là kỹ thuật SVM cho kết quả tốt nhất ở bộ dữ liệu huấn luyện gồm 750 nhận xét có gán nhãn với độ đo F1 là 63.9%. Các kết quả thực nghiệm ứng dụng mô hình đề xuất đều cho thực thi tốt hơn phương pháp cơ sở với kết quả tốt nhất có độ đo F1 là 85.3%. Sau đây sẽ đi sâu phân tích các kết quả của kịch bản thực nghiệm theo mô hình đề xuất để phân tích ảnh hưởng của các bước trong mô hình. Kích thước tập dữ liệu huấn luyện Kích thước tập dữ liệu không nhãn BN BN + MI Precisionmicro (%) Recallmicro (%) F1micro (%) Precisionmicro (%) Recallmicro (%) F1micro (%) 500 0 77.4 81.1 79.2 74.3 75.8 75 50 81.4 77.7 79.5 76.3 78.7 77.5 100 80.6 78.7 79.7 73.1 78.5 75.7 200 83 82.5 82.7 74.8 76.4 75.6 300 79.6 80.4 80 81 76.1 78.5 750 0 77.7 81.5 79.6 75.7 76.8 76.2 50 82.4 81.3 81.8 77 78.2 77.6 100 82.1 82.3 82.2 74.8 78.2 76.4 200 80.7 82.5 81.6 74.1 81.2 77.5 300 79 82.3 80.6 79.9 80.4 80.2 1000 0 80.1 79.6 79.8 80.3 78.1 79.1 50 80.7 81 80.9 78.4 81.2 79.8 100 81.3 83.3 82.3 83.1 82.7 82.8 200 81 84.4 82.6 75.9 84.6 80 300 82.4 83.9 83.2 78.2 80.9 79.5 Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2 122 Kết quả thực nghiệm 1 và 2 được thể hiện ở Bảng 4.1 cho thấy việc sử dụng dữ liệu không nhãn đều làm tăng hiệu quả thực thi của mô hình so với các thực nghiệm không sử dụng dữ liệu không nhãn. Tuy nhiên, kết quả thực nghiệm 2 đều thấp hơn các kết quả thực nghiệm 1 cho thấy kỹ thuật lựa chọn đặc trưng không làm tăng hiệu quả thực thi của mô hình. Theo quan điểm của nghiên cứu sinh, bản thân thuật toán MULTICS có quá trình xây dựng tập đặc trưng riêng nhãn/tập con nhãn chứ không sử dụng toàn bộ tập đặc trưng, như vậy có thể coi đây là bước lựa chọn các đặc trưng hữu ích riêng biệt cho nhãn/tập con nhãn. Do đó, việc sử dụng thêm bước lựa chọn đặc trưng sử dụng thông tin tương hỗ ở thực nghiệm 2 làm giảm đi hiệu quả thực thi của thuật toán MULTICS. K íc h t h ư ớ c tậ p d ữ l iệ u k h ô n g n h ã n BN+LDA F1micro (%) TFIDF+LDA F1micro (%) TFIDF+LDA+MI F1 micro (%) Số lượng chủ đề Số lượng chủ đề Số lượng chủ đề 10 15 25 50 100 10 15 25 50 100 10 15 25 50 100 0 79.4 79.1 79.2 80.5 80.6 79.2 81.5 82.4 80 80.9 79.5 82.4 80.5 80.7 80.6 50 79.5 80.1 80 80.9 80.9 78.4 82.5 85.3 81.5 82.2 82 83.9 81.8 83.7 82.8 100 81.1 81.1 79.6 80.3 80.2 81.3 84.9 84.4 82.3 83.5 83.4 83.5 82.8 83.6 82.7 200 79.8 80.6 79.8 80 79.8 79.4 3 81.9 81.2 81.4 82.3 82.3 81.4 83.5 83.8 83.6 300 80.2 79.8 80.6 79.7 80.3 80.8 81.9 82.6 81.7 83.8 80.5 83.4 84 83.6 83.9 Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5 Số lượng thực nghiệm trong các nhóm thực nghiệm 3, 4, 5 tương đối lớn nên luận án chọn các thực nghiệm có kết quả tốt nhất ở mỗi nhóm thực nghiệm để trình bày ở Bảng 4.2. Kết quả thực nghiệm 3 cho thấy việc kết hợp đặc trưng nhị phân với đặc trưng phân phối xác suất chủ đề ẩn làm giảm hiệu quả thực thi của mô hình. Điều này có thể được lý giải bởi sự khác biệt về kiểu dữ liệu đặc trưng nhị phân (dữ liệu nguyên) và kiểu dữ liệu của phân phối xác suất chủ đề ẩn (dữ liệu thực). Do đó, luận án đề xuất tiến hành thực nghiệm 4 với sự đồng nhất kiểu dữ liệu thực trong đặc trưng TFIDF và đặc trưng phân phối xác xuất chủ đề ẩn LDA. Kết quả thực nghiệm 4 cho kết quả tốt hơn tất cả các thực nghiệm khác với kết quả tốt nhất là 85.3%. Thực nghiệm 5 đề xuất kết hợp kỹ thuật lựa chọn đặc trưng sử dụng thông tin tương hỗ không làm tăng hiệu quả thực thi mô hình so với thực nghiệm 4. Kết quả này một lần 123 nữa khẳng định thuật toán phân lớp đa nhãn bán giám sát MULTICS vẫn cho kết quả tốt hơn mà không cần kết hợp với kỹ thuật lựa chọn đặc trưng. 4.4. Kết luận chương 4 Chương 4 đã trình bày một mô hình đề xuất cho phân lớp đa nhãn bán giám sát. Trong đó, kỹ thuật phân cụm bán giám sát được xây dựng để tạo ra các đặc trưng cho đối tượng. Bên cạnh đó, tiếp thu đề xuất liên quan về việc xây dựng tập đặc trưng riêng biệt cho từng nhãn nhằm tăng hiệu quả phân lớp, luận án đã xây dựng một thuật toán phân lớp đa nhãn hướng tới việc cá thể các nhãn và nhóm nhãn có quan hệ với nhau và xây dựng tập đặc trưng cho riêng các cá thể, từ đó làm tăng hiệu quả phân lớp cho từng đối tượng. Việc sử dụng nguồn dữ liệu không nhãn phong phú tham gia vào học mô hình sẽ tận dụng được nguồn tài nguyên sẵn có và kết hợp với dữ liệu có nhãn để tăng hiệu quả mô hình. Đây là một xu hướng đang được nhiều nhà nghiên cứu quan tâm. 124 KẾT LUẬN I. Những kết quả chính của luận án Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và đạt được một số đóng góp sau đây về phân lớp đơn nhãn và phân lớp đa nhãn văn bản tiếng Việt. Thứ nhất, luận án đề xuất hai mô hình phân lớp đơn nhãn là mô hình gán nhãn thực thể có tên và mô hình hệ tư vấn xã hội. Trong đó, nhận dạng thực thể có tên là bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin nhằm tìm kiếm và rút ra các thông tin liên quan thực thể trong văn bản. Bài toán này có thể được coi là bài toán phân lớp đơn nhãn trong đó mỗi thực thể sẽ được gán cho một nhãn (tên gọi) trong tập các nhãn cho trước. Luận án đề xuất một mô hình học bán giám sát trường ngẫu nhiên có điều kiện CRFs dựa trên tiêu chuẩn kỳ vọng tổng quát được xây dựng từ tập các ràng buộc về đặc trưng và phân phối xác suất các thực thể có tên được khai thác từ các thông tin hữu ích trên tập dữ liệu không nhãn. Tiếp theo, đề án cũng đề xuất mô hình hệ tư vấn xã hội dựa trên các kỹ thuật phân tích quan điểm người dùng, sử dụng mô hình lọc cộng tác với phương pháp hướng người dùng dựa trên mối quan hệ và sự tương đồng giữa người dùng trong hệ thống mạng xã hội. Mô hình đã khai thác và xây dựng các tập đặc trưng phong phú về xã hội và tiểu sử để tăng cường quan hệ người dùng. Thứ hai, luận án khảo sát hai giải pháp biểu diễn dữ liệu phân lớp đa nhãn văn bản tiếng Việt bao gồm phương pháp biểu diễn dữ liệu theo mô hình chủ đề ẩn và phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách. Với giả thiết là mỗi văn bản được tạo ra bằng việc kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối trên các từ, mô hình chủ đề ẩn LDA đã cung cấp một phương pháp khai thác các ngữ nghĩa ẩn trong văn bản để làm giàu thêm đặc trưng cho mô hình. Luận án đã đề xuất mô hình phân lớp dữ liệu dựa trên một số bước quan trọng như sau: Xây dựng tập đặc trưng cho mô hình bao gồm đặc trưng TFIDF truyền thống kết hợp với tập đặc trưng xác suất chủ đề ẩn mà văn bản đang xét thuộc về; đặc trưng xác suất chủ đề ẩn này được khai thác từ mô hình chủ đề ẩn LDA trên tập dữ liệu của miền ứng 125 dụng. Bước tiếp theo là sử dụng phương pháp lựa chọn đặc trưng dựa trên thông tin tương hỗ nhằm loại bỏ các đặc trưng dư thừa và giữ lại được các đặc trưng có tính chất quan trọng, quyết định của mô hình, từ đó tăng hiệu quả mô hình và giảm độ phức tạp tính toán. Mô hình thứ hai được đề xuất nhằm khai thác các đặc trưng về khoảng cách và trật tự từ trong biểu diễn mô hình đồ thị khoảng cách. Mô hình này đã khắc phục được các nhược điểm của mô hình biểu diễn theo không gian vectơ truyền thống – chỉ quan tâm đến đặc trưng đơn lẻ mà không quan tâm đến quan hệ, trật từ và khoảng cách giữa các đặc trưng. Mô hình do luận án đề xuất kết hợp khai thác cả đặc trưng ngữ nghĩa ẩn do mô hình chủ đề ẩn LDA cung cấp đồng thời áp dụng mô hình đồ thị khoảng cách trên đối tượng chủ đề ẩn từ đó khai thác thông tin về quan hệ thứ bậc và khoảng cách giữa các chủ đề ẩn trong văn bản. Cả hai mô hình đã cung cấp phương pháp biểu diễn dữ liệu mới nhằm tăng cường hiệu quả cho mô hình phân lớp dữ liệu đa nhãn. Thứ ba, luận án đề xuất một thuật toán MULTICS phân lớp dữ liệu đa nhãn bán giám sát dựa trên kỹ thuật phân cụm nhằm khai thác thông tin đặc trưng riêng biệt cho nhãn / tập nhãn. Học máy bán giám sát là một tiếp cận được cho là phương pháp tiên tiến hiệu quả nhờ sự kết hợp của dữ liệu có nhãn làm định hướng và dữ liệu không có nhãn để mở rộng và củng cố mô hình. Trong khi dữ liệu có nhãn cần tốn nhiều thời gian và công sức để gán nhãn thủ công thì dữ liệu không nhãn rất phong phú và dễ dàng thu được. Dựa trên giả thiết rằng, các đặc trưng riêng biệt của nhãn / tập nhãn là những đặc trưng mang tính chất phân biệt và tối ưu cho nhãn/tập nhãn đó, khi sử dụng tập đặc trưng này vào quá trình phân lớp sẽ mang lại hiệu quả tốt hơn. Luận án đề xuất một mô hình phân lớp bán giám sát dựa trên kỹ thuật phân cụm bán giám sát để xây dựng phân hoạch trên tập dữ liệu có nhãn và không nhãn trong miền ứng dụng. Dựa vào các phân hoạch trên tập dữ liệu này, xây dựng bộ phân lớp để đoán nhận nhãn cho các dữ liệu mới dựa trên khoảng cách với các tâm cụm trong phân hoạch. Thuật toán MULTICS [PTNgan6] được B. Trawiński và cộng sự [9] tham chiếu cho thấy sự tham gia của thuật toán vào dòng nghiên cứu phân lớp đa nhãn trên thế giới. 126 Đồng thời, luận án cũng cung cấp một khảo sát khái quát về phân lớp đa nhãn. Phân lớp đa nhãn là một tiến hóa tiên tiến hơn phân lớp đơn nhãn truyền thống, nó phù hợp với nhiều ứng dụng thực tế như phân lớp văn bản, gán nhãn ảnh, dự đoán chức năng gen, khi mà một đối tượng có thể đồng thời thuộc về nhiều phân lớp khác nhau. Sự khác biệt này đã đề ra nhiều thách thức về tiếp cận giải quyết bài toán, mối quan hệ giữa các nhãn, các độ đo và đánh giá bài toán phân lớp đa nhãn. Luận án đã khảo sát các tiếp cận cho bài toán đa nhãn, các kỹ thuật giảm chiều dữ liệu cho bài toán phân lớp đa nhãn nhằm loại bỏ các đặc trưng không liên quan và giữ lại các đặc trưng quan trọng từ đó tăng cường hiệu quả mô hình; các độ đo và phương pháp đánh giá cho bài toán phân lớp đa nhãn làm cơ sở để đánh giá hiệu quả mô hình đề xuất. II. Hạn chế của luận án Trong quá trình triển khai các mô hình, luận án vẫn còn tồn tại một số hạn chế như sau: Một là, thuật toán phân lớp đa nhãn dựa trên phân cụm bán giám sát cần được nghiên cứu công phu hơn bao gồm các phân tích chi tiết về độ phức tạp thuật toán, các cải tiến phù hợp trong từng thành phần thuật toán để phát huy lợi thế “tham lam” của thuật toán. Hai là, tuy đã đề cập tới vấn đề giảm chiều dữ liệu trong phân lớp đơn nhãn và phân lớp đa nhãn song nghiên cứu trong luận án mới chỉ đề cập ở mức độ rất cơ bản mà chưa khảo sát các giải pháp tiên tiến trong giảm chiều dữ liệu, đặc biệt là giảm chiều dữ liệu trong phân lớp đa nhãn. Ba là, miền ứng dụng văn bản có lợi thế cho các nghiên cứu về phân lớp đa nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể hiện như các miền ứng dụng khác, chẳng hạn miền ứng dụng dữ liệu ảnh. III. Định hướng nghiên cứu tiếp theo Trong thời gian tiếp theo, nghiên cứu sinh sẽ tiếp tục nghiên cứu các hướng giải quyết cho các hạn chế còn tồn tại của luận án và tiếp tục triển khai các đề xuất 127 để hoàn thiện hơn các giải pháp cho phân lớp đa nhãn. Một là, thuật toán MULTICSLearn cần được phân tích sâu sắc hơn đặc biệt ở khía cạnh độ phức tạp thời gian tính toán trong một vùng hoặc toàn bộ miền ứng dụng. Cải tiến kỹ thuật tìm nhãn để phân hoạch tập dữ liệu theo bộ nhãn giả theo hướng tìm nhãn có ảnh hưởng lớn nhất trong mạng xã hội tập nhãn hiện thời [99]. Hai là, các kỹ thuật giảm chiều dữ liệu tiên tiến cho phân lớp đa nhãn như [62], [75], [78] cần được nghiên cứu để áp dụng sáng tạo vào các bài toán ứng dụng trong luận án. Ba là, khảo sát miền ứng dụng dữ liệu ảnh, nghiên cứu các mô hình và giải pháp phân lớp đa nhãn – đa thể hiện đối với dữ liệu ảnh nhằm làm phù hợp với quá trình tiến hóa của phân lớp dữ liệu như được đề cập ở Chương 1. 128 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 1. [PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012). Named Entity Recognition for Vietnamese documents using semi- supervised learning method of CRFs with Generalized Expectation Criteria. IALP 2012: 85-89 (Scopus7, DBLP8). 2. [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, Mai-Vu Tran, Quang-Thuy Ha (2016). Sentiment Analysis and User Similarity for Social Recommender System: An Experimental Study. Lecture Notes in Electrical Engineering (376): 1147-1156 (Scopus) 3. [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013). Hidden Topic Models for Multi-label Review Classification: An Experimental Study. Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 (Scopus, DBLP). 4. [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, Quang- Thuy Ha (2017). Exploiting Distance graph and Hidden Topic Models for Multi-label Text Classification. ACIIDS 2017. Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 321-331. (Scopus). 5. [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri- Thanh Nguyen, Quang-Thuy Ha (2017). MASS: a Semi-supervised Multi- label Classification Algorithm With specific Features. ACIIDS 2017. Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 37-47. (Scopus). 6. [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha (2017). A semi-supervised multi-label classification framework with feature reduction and enrichment. Journal of Information and Telecommunication, 1(2), 141-154 (DBLP). 7 https://www.scopus.com/authid/detail.uri?authorId=56013971500 8 129 TÀI LIỆU THAM KHẢO [1] A. Elisseeff and J. Weston. A Kernel method for Multi-Labelled Classiﬁcation. Neural Information Proceesing Systems 2001 (NIPS 2001): 681–687. [2] A. H. Razavi, D. Inkpen. Text Representation Using Multi-level Latent Dirichlet Allocation. Canadian Conference on AI 2014: 215-226. [3] A. K. Menon, C. Elkan. Link prediction via matrix factorization. In Joint european conference on machine learning and knowledge discovery in databases. Springer, Berlin, Heidelberg, 2011: 437-452. [4] A. Mansouri, L.S. Affendey, A. Mamat. Named entity recognition approaches. International Journal of Computer Science and Network Security 8.2 (2008): 339-344 [5] A. McCallum, G. Mann, G. Druck. Generalized Expectation Criteria. Technical Report UM-CS-2007-60, University of Massachusetts Amherst, 2007. [6] A. McCallum. Multi-label text classification with a mixture model trained by EM. AAAI Workshop on text learning, 1999: 1-7. [7] B. Hariharan, S. V. N. Vishwanathan, M. Varma. Efficient max-margin multi-label classification with applications to zero-shot learning. Machine Learning, 88 (1-2) 2012: 127-155. [8] B. Qian, I. Davidson. Semi-Supervised Dimension Reduction for Multi- Label Classification. AAAI, Volumn10, 2010: 569-574. [9] B. Trawiński, T. Lasota, O. Kempa, Z. Telec, M. Kutrzyński. Comparison of Ensemble Learning Models with Expert Algorithms Designed for a Property Valuation System. In: Conference on Computational Collective Intelligence Technologies and Applications. Springer, Cham, 2017: 317- 327. [10] C. C. Aggarwal and P. Zhao. Towards Graphical Models for Text Processing. Knowledge and Information Systems Vol 36:1, 2013: 1-21. [11] C. C. Aggarwal. Data classification: algorithms and applications. CRC Press, 2014. [12] C. Vens, J. Struyf, L. Schietgat, S. Džeroski, H. Blockeel. Decision trees for hierarchical multilabel classification. Machine Learning, 73(2) 2008: 130 185–214. [13] D. B. Nguyen, S.H. Hoang, S.B. Pham, T.P. Nguyen. Named entity recognition for Vietnamese. In Asian Conference on Intelligent Information and Database Systems, Springer, Berlin, Heidelberg, 2010: 205-214 [14] D. Jurafsky, J.H. Martin. Speech and language processing. Pearson, 2014. [15] D. M. Blei, A. Y. Ng, M. I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research 3, 2003: 993-1022. [16] D. M. Blei. Probabilistic topic models. Communications of the ACM 55.4, 2012: 77-84. [17] D. M. Dunlavy, T. G. Kolda, E. Acar. Temporal link prediction using matrix and tensor factorizations. ACM Transactions on Knowledge Discovery from Data (TKDD), 5(2), 10, 2011. [18] D. Nadeau, S. Sekine. A survey of named entity recognition and classification. Lingvisticae Investigationes 30(1), 2007: 3-26. [19] D. Ramage, D. Hall, R. Nallapati, C. D. Manning. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora. EMNLP 2009: 248-256. [20] D. Yang, D. Zhang, Z. Yu, Z. Wang. A sentiment-enhanced personalized location recommendation system. In Proceedings of the 24th ACM Conference on Hypertext and Social Media, ACM 2013: 119-128.] [21] E. Gibaja, S. Ventura. A tutorial on multilabel learning. ACM Computing Surveys (CSUR) 47(3), 2015: 52. [22] E. Gibaja, S. Ventura. Multi-label learning: a review of the state of the art and ongoing research. Wiley Interdisc. Rew.: Data Mining and Knowledge Discovery, 4(6), 2014: 411-444. [23] E. Hüllermeier, J. Fürnkranz, W. Cheng, K. Brinker. Label ranking by learning pairwise preferences. Artif. Intell. 172(16-17), 2008: 1897-1916. [24] E. L. Mencía, F. Janssen. Stacking Label Features for Learning Multilabel Rules. Discovery Science 2014: 192-203. [25] E. L. Mencia, J. Furnkranz. Pairwise learning of multilabel classiﬁcations with perceptrons. Neural Networks, 2008. IJCNN 2008.(IEEE World Congress on Computational Intelligence). IEEE International Joint Conference on. IEEE, 2008: 2899-2906. 131 [26] E. Spyromitros, G. Tsoumakas, I. Vlahavas. An empirical study of lazy multilabel classification algorithms. In: Hellenic conference on artificial intelligence. Springer, Berlin, Heidelberg, 2008: 401-406. [27] F. Briggst, X.Z. Fern, R. Raich. Rank-loss support instance machines for MIML instance annotation. In: Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012: 534-542. [28] F. Charte, A.J. Rivera, M.J. Del Jesus, F. Herrera. LI-MLC: A label inference methodology for addressing high dimensionality in the label space for multilabel classification. IEEE transactions on neural networks and learning systems, 25(10), 2014:1842-1854. [29] F. Herrera, F. Charte, A. J. Rivera, M.J. Del Jesus. Multilabel Classification: Problem Analysis, Metrics and Techniques. Springer International, 2016 [30] F. Ricci, L. Rokach, B. Shapira, P. B. Kantor. Recommender systems handbook. Springer US, 2011. [31] F. Sebastiani. Machine Learning in Automated Text Categorization. ACM Computing Survey 34, 2002: 1-47. [32] G. Chen, Y. Song, F. Wang, C. Zhang. Semi-supervised multi-label learning by solving a sylvester equation. In: Proceedings of the 2008 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2008: 410-419. [33] G. Doquire, M. Verleysen. Mutual information-based feature selection for multilabel classification. Neurocomputing 122 (2013): 148-155. [34] G. Doquire, M. Verleysen. Feature Selection for Multi-label Classification Problems. Advances in Computational Intelligence, 2011: 9-16. [35] G. Druck, G. Mann, A. McCallum. Learning from Labeled Features using Generalized Expectation Criteria. In: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008: 595-602. [36] G. Ruffo. Learning single and multiple instance decision trees for computer security applications. PhD Thesis, University of Turin, 2000. [37] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi- 132 Supervised Learning of Conditional Random Fields. In ACL Volumn 8, 2008: 870–878. [38] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi- Supervised Learning with Weakly Labeled Data. Journal of Machine Learning Research 11, 2010: 955-984. [39] G. Salton, A. Wong, C. S. Yang. A vector space model for automatic indexing. Communications of the ACM, 18(11), 1975: 613-620. [40] G. Tsoumakas, I. Katakis, I. Vlahavas. Mining Multi-label Data. Data Mining and Knowledge Discovery Handbook, Springer, 2010: 667–686. [41] G. Tsoumakas, I. Katakis, I. Vlahavas. Random k-labelsets for multi-label classification. IEEE Transactions on Knowledge and Data Engineering, 2011, 23.7: 1079-1089. [42] G. Tsoumakas, I. Katakis. Multi-label Classification: An Overview. International Journal of Data Warehousing and Mining (IJDWM), 2007, 3.3: 1-13. [43] G. Tsoumakas, I. Vlahavas. Random k-labelsets: An ensemble method for multilabel classification. European Conference on Machine Learning 2007: 406-417. [44] G. Tsoumakas, M. Zhang, Z.H. Zhou. Introduction to the special issue on learning from multi-label data. Machine Learning 88 (1-2), 2012: 1-4. [45] H. Hotelling. Relations between two sets of variates. In: Breakthroughs in Statistics, Springer, 1992: 162–190. [46] H. Le Trung, V. Le Anh, K. Le Trung. Bootstrapping and rule-based model for recognizing Vietnamese named entity. In Asian Conference on Intelligent Information and Database Systems (ACIIDS) 2014: 167–176. [47] H. Liu, L. Yu. Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on Knowledge and Data Engineering 17, 2005: 491–502. [48] H. Ma, D. Zhou, C. Liu, M.R. Lyu, I. King. Recommender systems with social regularization. In: Proceedings of the fourth ACM international conference on Web search and data mining, 2011: 287–296. [49] H. Ma, H. Yang, M.R. Lyu, I. King. Sorec: social recommendation using probabilistic matrix factorization. In: Proceeding of the 17th ACM 133 conference on Information and knowledge management, 2008: 931–940. [50] H. Ma, I. King, M.R. Lyu. Learning to recommend with social trust ensemble. In: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009: 203–210. [51] H. Q. Le. Making use of category structure for multi-class classification. PhD Thesis, Heinrich Heine University Düsseldorf, 2010. [52] H. Q. Le, M. V. Tran, N. N. Bui, N. C. Phan, Q. T. Phan. An integrated approach using conditional random fields for named entity recognition and person property extraction in vietnamese text. In: Asian Language Processing (IALP), 2011: 115-118. [53] H. Q. Pham, M.L. Nguyen, B. Nguyen, V.C. Nguyen. Semi-supervised Learning for Vietnamese Named Entity Recognition using Online Conditional Random Fields. In: Proceedings of NEWS 2015 the fifth named entities workshop, 2015: 53-8. [54] H. Qu, S. Zhang, H. Liu, J. Zhao: A multi-label classification algorithm based on label-specific features. Wuhan University Journal of Natural Sciences 16, (6), 2011: 520-524. [55] I. T. Jolliffe. Principal Component Analysis. Springer, 2002. [56] J. D. Lafferty, A. McCallum, F.C.N. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In: Proceedings of the 18th International Conference on Machine Learning. 2001: 282-289. [57] J. Fürnkranz, E. Hüllermeier, E.L. Mencía, K. Brinker. Multilabel classification via calibrated label ranking. Machine Learning, 73 (2), 2008: 133–153. [58] J. Golbeck. Generating predictive movie recommendations from trust in social networks. Trust Management, 2006: 93-104. [59] J. J. Zhang, M. Fang, X. Li. Multi-label learning with discriminative features for each label. Neurocomputing 154, 2015: 305-316. [60] J. Jiang. Information extraction from text. Mining text data, 2012: 11-41. [61] J. Lee, H. Lim, D.W. Kim. Approximating Mutual Information for Multi- Label Feature Selection. Electronics Letters, vol. 48(15), 2012: 129-130. 134 [62] J. Li, H. Liu. Challenges of Feature Selection for Big Data Analytics. IEEE Inteligent Systems 32(2), 2017: 9-15. [63] J. Read, A. Bifet, G. Holmes, B. Pfahringer. Scalable and efficient multi- label classification for evolving data streams. Machine Learning, 88 (1-2), 2012: 243-272. [64] J. Read, B. Pfahringer, G. Holmes, E. Frank. Classifier chains for multi- label classification. Machine Learning 85(3), 2011: 333-359. [65] J. Read, L. Martino, J. Hollmén. Multi-label methods for prediction with sequential data. Pattern Recognition 63, 2017: 45-55. [66] J. Read. A Pruned Problem Transformation Method for Multi-label Classiﬁcation. In: Proceedings of 2008 New Zealand Computer Science Research Student Conference (NZCSRS), 2008: 143–150. [67] J. Read. Scalable Multi-label Classification. PhD Thesis, The University of Waikat, 2010. [68] J. Tang, H. Gao, H. Liu. mTrust: Discerning multi-faceted trust in a connected world. In: Proceedings of the fifth ACM international conference on Web search and data mining. ACM, 2012: 93-102. [69] J. Tang, H. Gao, X. Hu, H. Liu. Exploiting homophily effect for trust prediction. In: Proceedings of the sixth ACM international conference on Web search and data mining. ACM, 2013: 53-62. [70] J. Tang, X. Hu, H. Liu. Social Recommendation: A Review. Social Network Analysis and Mining, 2013, 3.4: 1113-1133. [71] J. V. Carrera-Trejo, G. Sidorov, S. Miranda-Jiménez, M. M. Ibarra, R. C. Martínez. Latent Dirichlet Allocation complement in the vector space model for Multi-Label Text Classification. International Journal of Combinatorial Optimization Problems and Informatics, 6(1), 2015: 7-19. [72] J. Wang, J. D. Zucker. Solving the multi-instance problem: A lazy learning approach. In Proceedings of 17th International Conf. on Machine Learning, 2000: 1119–1126. [73] K. Brinker, J. Furnkranz, E. Hullermeier. A uniﬁed model for multilabel classiﬁcation and ranking. In: Proceedings of the 2006 conference on ECAI 2006: 17th European Conference on Artificial Intelligence August 29-- September 1, 2006, Riva del Garda, Italy. IOS Press, 2006: 489-493. 135 [74] K. Brinker,. E. Hullermeier. Case-based multilabel ranking. In: Proceedings of the 20th international joint conference on Artifical intelligence. Morgan Kaufmann Publishers Inc., 2007. p. 702-707. [75] K. Cheng, J. Li, H. Liu. FeatureMiner: A Tool for Interactive Feature Selection. In: Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM, 2016: 2445-2448. [76] K. Dembczynski, W. Waegeman, W. Cheng, E. Hüllermeier. On label dependence and loss minimization in multi-label classification. Machine Learning, 88 (1-2), 2012: 5-45. [77] L. Breiman. Random forests. Machine Learning. 45(1), 2001:5–32. [78] L. Jian, J. Li, K. Shu, H. Liu. Multi-Label Informed Feature Selection. In: IJCAI International Joint Conference on Artificial Intelligence. 2016: 1627-1633. [79] L. Sun, S. Ji, J. Ye. Multi-label dimensionality reduction. CRC Press, 2013. [80] M. Jamali, M. Ester. A matrix factorization technique with trust propagation for recommendation in social networks. In: Proceedings of the fourth ACM conference on Recommender systems, ACM 2010: 135–142. [81] M. Jamali, M. Ester. Trustwalker: a random walk model for combining trust-based and item-based recommendation. In: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM 2009: 397–406. [82] M. L. Zhang, J. M. Peña, V. Robles. Feature selection for multi-label naive Bayes classification. Information Sciences, 2009, 179.19: 3218-3229. [83] M. L. Zhang, L. Wu. LIFT: Multi-label learning with label-specific features. IEEE transactions on pattern analysis and machine intelligence, 37(1), 2015: 107-120. [84] M. L. Zhang, Z. H. Zhou. A Review on Multi-Label Learning Algorithms. IEEE transactions on knowledge and data engineering, 2014, 26.8: 1819- 1837 [85] M. L. Zhang, Z. H. Zhou. Improve multi-instance neural networks through feature selection. Neural Processing Letters. 2004: 1–10. [86] M. L. Zhang, Z. H. Zhou. ML-KNN: A Lazy Learning Approach to Multi- Label Learning. Pattern Recogn, 40, 2007: 2038–2048. 136 [87] M. L. Zhang. LIFT: Multi-Label Learning with Label-Specific Features. In: Proceedings of the Twenty-Second international joint conference on Artificial Intelligence-Volume Volume Two. AAAI Press, 2011: 1609-1614. [88] M. Poyraz, Z.H. Kilimci, M.C. Ganiz. Higher-order smoothing: a novel semantic smoothing method for text classification. Journal of Computer Science and Technology 29(3), 2014: 376-391. [89] M. R. Boutell, J. Luo, X. Shen, C.M. Brown. Learning multi-label scene classification. Pattern Recognition, 37 (9), 2004: 1757–1771. [90] M. V. Tran, X. T. Tran, and H. L. Uong. User Interest Analysis with Hidden Topic in News Recommendation System. Asian Language Processing (IALP), 2010: 211-214. [91] MALLET. n.d. [92] N. Nguyen. Semi-Supervised Learning With Partially Labeled Examples. PhD Thesis, Cornell University, 2010. [93] O. G. R. Pupo, C. Morell, S. Ventura. Evolutionary feature weighting to improve the performance of multi-label lazy algorithms. Integrated Computer-Aided Engineering 21(4), 2014: 339-354. [94] O. G. R. Pupo, C. Morell, S. Ventura. Scalable extensions of the ReliefF algorithm for weighting and selecting features on the multi-label learning context. Neurocomputing 161, 2015: 168-182. [95] O. Maron, T. Lozano-Pérez. A Framework for Multiple-Instance Learning. In: Advances in neural information processing systems. 1998: 570-576.. [96] P. Massa, P. Avesani. Controversial users demand local trust metrics: An experimental study on Epinions.com community. AAAI 2005: 121-126. [97] P. Massa, P. Avesani. Trust-aware collaborative filtering for recommender systems. In: OTM Confederated International Conferences" On the Move to Meaningful Internet Systems". Springer, Berlin, Heidelberg, 2004: 492-508. [98] P. Massa, P. Avesani. Trust-aware recommender systems. In: Proceedings of the 2007 ACM conference on Recommender systems. ACM, 2007: 17-24. [99] P. Szymanski, T. Kajdanowicz, K. Kersting. How Is a Data-Driven Approach Better than Random Choice in Label Space Division for Multi- 137 Label Classification? Entropy 18(8) 282, 2016. [100] P. V. Krishna, S. Misra, D. Joshi, M.S. Obaidat. Learning automata based sentiment analysis for recommender system on cloud. In Computer, Information and Telecommunication Systems (CITS), 2013 International Conference on IEEE 2013: 1-5. [101] P. Victor, C. Cornelis, M. De Cock, A. Teredesai. A comparative analysis of trustenhanced recommenders for controversial items. The International AAI Conference on Weblogs and Social Media, 2009: 342–345. [102] P. Victor, M. De Cock, C. Cornelis. Trust and recommendations. Recommender Systems Handbook, Springer, 2011: 645–675. [103] Q. T. Ha, H. N Bui, T. T. Nguyen. A Trace Clustering Solution Based on Using the Distance Graph Model. International Conference on Computational Collective Intelligence. Springer International Publishing, 2016: 313-322. [104] Q. T. Tran, T. T. Pham, Q. H. Ngo, D. Dinh, N. Collier. Named entity recognition in Vietnamese documents. Progress in Informatics Journal 5, 2007: 14-17. [105] Q. Zhang, S.A. Goldman. EM-DD: An improved multi-instance learning technique. In: Advances in neural information processing systems. 2002: 1073-1080. [106] R. E. Schapire, Y. Singer. BoosTexter: A Boosting-based System for Text Categorization. Machine Learning 39(2-3), 2000: 135-168. [107] S. Andrews, I. Tsochantaridis, T. Hofmann. Support vector machines for multiple-instance learning. In: Advances in neural information processing systems, 2002: 561-568. [108] S. Basu. Semi-supervised clustering: probabilistic models, algorithms and experiments. PhD Thesis, The University of Texas at Austin, 2005. [109] S. Godbole, S. Sarawagi. Discriminative methods for multi-labeled classification. Advances in knowledge discovery and data mining (PAKDD) 2004: 22–30. [110] S. H. Yang, H. Zha, B. G. Hu. Dirichlet-bernoulli alignment: A generative model for multi-class multi-label multi-instance corpora. In: Advances in neural information processing systems, 2009: 2143-2150. 138 [111] S. Jungjit. New Multi-Label Correlation-Based Feature Selection Methods for Multi-Label Classification and Application in Bioinformatics. PhD Thesis, University of Kent at Canterbury, March 2016. [112] S. Li, Z. Zhang, J. Duan. An ensemble multi-label feature selection algorithm based on information entropy. International Arab Journal of Information Technology (IAJIT), 2014, 11.4: 379-386. [113] S. S. Bucak. Multiple Kernel and Multi-Label Learning for Image Categorization. PhD Thesis, Michigan State University, 2014. [114] S. Vembu, T. Gartner. Label ranking algorithms: A survey. Preference Learning 2010: 45-64 [115] T. G. Dietterich, R. H. Lathrop, T. Lozano-Pérez. Solving the Multiple Instance Problem with Axis-Parallel Rectangles. Artificial intelligence, 89(1-2), 1997: 31-71. [116] T. Gartner, P. A. Flach, A. Kowalczyk, A. J. Smola. Multi-instance kernels. The 19th International Conference on Machine Learning (ICML 2002): 179–186. [117] T. N. Rubin, A. Chambers, P. Smyth, M. Steyvers. Statistical topic models for multi-label document classification. Machine Learning, 88(1-2), 2012: 157-208. [118] T. Zhou, D. Tao, X. Wu. Compressed labeling on distilled labelsets for multi-label learning. Machine Learning, 88 (1-2), 2012: 69-126. [119] W. He, Y. Wang. Text representation and classification based on multi- instance learning. In: Management Science and Engineering, ICMSE 2009. International Conference on. IEEE, 2009: 34-39. [120] W. Zhang, X. Tang, T. Yoshida. TESC: An approach to text classification using semi-supervised clustering. Knowledge-Based Systems 75, 2015: 152-160. [121] X. Wu, V. Kumar. Top 10 algorithms in data mining. CRC Press, 2009 [122] X. Zhu, A. B. Goldberg. Introduction to Semi-Supervised Learning. Morgan and Claypool, 2009. [123] Y. Chen and J. Z. Wang. Image categorization by learning and reasoning with regions. Machine Learning Research 5, 2004: 913–939. [124] Y. Chevaleyre, J. D. Zucker. Solving Multiple-Instance and Multiple-Part 139 Learning Problems with Decision Trees and Rule Sets. Application to the Mutagenesis Problem. Canadian Conference on AI 2001: 204-214. [125] Y. Guo, D. Schuurmans. Semi-supervised multi-label classification: A Simultaneous Large-Margin, Subspace Learning Approach. Machine Learning and Knowledge Discovery in Databases, (2) 2012: 355-370. [126] Y. Liu, R.Jin, L. Yang. Semi-supervised multi-label learning by constrained nonnegative matrix factorization. AAAI Volumn 1, 2006: 421-426. [127] Y. Yang, S. Gopal. Multi-label classification with meta-level features in a learning-to-rank framework. Machine Learning, 88 (1-2), 2012: 47-68. [128] Z. H Zhou, M. L. Zhang, S.J. Huang, Y.F. Li. Multi-instance multi-label learning. Artificial intelligence. 176(1), 2012: 2291-2320. [129] Z. H Zhou, M. L. Zhang. Multi-Instance Multi-Label Learning with Application to Scene Classification. In: Advances in neural information processing systems. 2007: 1609-1616. [130] Z. H. Zhou, J. M. Xu. On the relation between multi-instance learning and semisupervised learning. In: Proceedings of the 24th international conference on Machine learning. ACM, 2007: 1167-1174.

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_cai_tien_phan_lop_da_nhan_van_ban_va_ung.pdf