Trong quá trình triển khai các mô hình, luận án vẫn còn tồn tại một số hạn
chế như sau:
Một là, thuật toán phân lớp đa nhãn dựa trên phân cụm bán giám sát cần
được nghiên cứu công phu hơn bao gồm các phân tích chi tiết về độ phức tạp thuật
toán, các cải tiến phù hợp trong từng thành phần thuật toán để phát huy lợi thế
“tham lam” của thuật toán.
Hai là, tuy đã đề cập tới vấn đề giảm chiều dữ liệu trong phân lớp đơn nhãn
và phân lớp đa nhãn song nghiên cứu trong luận án mới chỉ đề cập ở mức độ rất cơ
bản mà chưa khảo sát các giải pháp tiên tiến trong giảm chiều dữ liệu, đặc biệt là
giảm chiều dữ liệu trong phân lớp đa nhãn.
Ba là, miền ứng dụng văn bản có lợi thế cho các nghiên cứu về phân lớp đa
nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể hiện như các
miền ứng dụng khác, chẳng hạn miền ứng dụng dữ liệu ảnh.
152 trang |
Chia sẻ: yenxoi77 | Lượt xem: 694 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ thuật láng giềng gần
nhất khai thác tập nhãn của cụm láng giềng gần nhất.
a. Phân cụm dữ liệu
Trong bước phân cụm, dựa trên chiến thuật tham lam lựa chọn nhãn chiếm
ưu thế theo tần suất xuất hiện, tập dữ liệu huấn luyện bao gồm dữ liệu có nhãn và
dữ liệu không nhãn được phân chia thành ba tập con, qua bước biến đổi dữ liệu để
thích nghi vận dụng kỹ thuật phân cụm bán giám sát TESC trên các tập con dữ liệu.
111
Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được trình bày theo dạng
giả mã (pseudo-code) như sau:
( ̅ )
Đầu vào:
̅: Tập dữ liệu có nhãn và không nhãn. ̅ * ̅ ̅ +, Trong đó
̅ và ̅ lần lượt là tập dữ liệu có nhãn và không nhãn.
Khởi tạo ban đầu ̅ là toàn bộ tập dữ liệu huấn luyện.
: tập nhãn mặc định cho tất cả dữ liệu trong ̅
. Khởi tạo
ban đầu là tập rỗng.
: tập nhãn (ngoài ) có thể thêm vào dữ liệu trong ̅
( ). Khởi tạo ban đầu là tập tất cả các nhãn
Đầu ra:
: tập các cụm được gán nhãn.
Thuật toán:
1. Gọi là một nhãn trong tập có tần xuất xuất hiện
lớn nhất trong tập dữ liệu ̅
2. Xây dựng tập nhãn giả * +, trong đó
* +, * + * * ++, * +
/* gán cho dữ liệu hiện tại có nhãn * +, gán
cho dữ liệu hiện tại có nhãn * + các nhãn khác
và gán cho dữ liệu hiện tại không chứa nhãn */
̅ ( ̅ * +);
/* Xây dựng tập dữ liệu đơn nhãn ̅ từ tập ̅ bằng cách
chuyển đổi theo bộ ba nhãn giả * + để thích nghi
cho thuật toán phân cụm bán giám sát TESC và thu được
phân hoạch trên tập dữ liệu theo 3 loại nhãn giả.*/
( ̅ )
3. Chia tập dữ liệu ̅ thành 3 tập con dựa trên phân hoạch :
a. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong
đó dữ liệu có nhãn được gãn nhãn
112
b. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong
đó dữ liệu có nhãn được gãn nhãn
c. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong
đó dữ liệu có nhãn được gãn nhãn
4. Đối với tập ̅ :
( ̅ * +)
5. Đối với tập ̅
a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi
tập nhãn này là
( ̅ )
b. Ngược lại
// Trường hợp các dữ liệu trong ̅ không đồng
nhất nhãn.
// Chuyển nhãn từ tập nhãn sang tập nhãn
( ̅ , * + * + )
6. Đối với tập ̅
a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi
tập nhãn này là
( ̅ )
b. Ngược lại
//Trường hợp các dữ liệu trong ̅ không đồng nhất
nhãn
// Xóa từ tập nhãn
( ̅ * + )
7. Return
Thủ tục 4.1 Thủ tục phân cụm MULTICSLearn
Để tìm phân hoạch trên tập dữ liệu, đầu tiên khởi tạo tập C rỗng {},
sau đó gọi thủ tục phân cụm với các tham số như sau: ( ̅ * + ).
Phân hoạch C kết quả của MULTICSLearn chính là bộ phân lớp đa nhãn cần tìm.
Sau đây là ví dụ minh họa tư tưởng thuật toán trên tập dữ liệu nhỏ:
113
Giả sử tập dữ liệu đầu vào gồm 350 văn bản D=(d1, d2, , d350} gồm cả tài
liệu đã được gán nhãn và chưa được gán nhãn trong tập 5 nhãn L = {l1, l2, l3,l4, l5}
với 10 tài liệu có 5 nhãn, 12 tài liệu có bốn nhãn {l1, l2, l3,l4 },
Khởi tạo: *+, * +, ( xuất hiện với tần suất
lớn nhất 100 lần)
Xây dựng tập nhãn giả: * + trong đó: Tài liệu chỉ có nhãn
được gán nhãn giả ; tài liệu có nhãn và ít nhất một nhãn khác được gán nhãn
giả , tài liệu không có nhãn được gán nhãn giả . Ví dụ tập dữ liệu được gán
nhãn giả như sau: 20 tài liệu gán nhãn , 80 tài liệu gán nhãn , 70 tài liệu gán
nhãn và 180 tài liệu chưa gán nhãn.
Phân hoạch trên tập dữ liệu với nhãn giả sử dụng thuật toán TESC, trong đó
sẽ gom được dữ liệu có nhãn va không nhãn vào các cụm. Sau phân hoạch chia tập
D thành 3 tập con: D1 bao gồm các tài liệu có nhãn và tài liệu không nhãn, D2
bao gồm các tài liệu có nhãn và tài liệu không nhãn, D3 bao gồm các tài liệu có
nhãn và tài liệu không nhãn.
Lần lượt xét các tập con:
- Xét D1 là tập có các tài liệu có nhãn đồng nhất và các tài liệu không nhãn:
Thực hiện phân hoạch trên tập D1 sử dụng thuật toán TESC thu được một
tập các cụm.
- Xét D2:
o Nếu các tài liệu có nhãn trong D2 đồng nhất nhãn (theo tập nhãn ban
đầu ) thì tiến hành phân hoạch trên D2 sử dụng thuật
toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài
liệu được gán một nhãn đơn) thu được một tập các cụm.
o Nếu các tài liệu có nhãn trong D2 không đồng nhất nhãn nhãn (theo
tập nhãn ban đầu ) thì chuyển nhãn l1 sang tập L1 sau đó
tiến hành đệ quy MULTICS trên D2 với đầu vào * +,
* +.
- Xét D3:
114
o Nếu các tài liệu có nhãn trong D3 đồng nhất nhãn (theo tập nhãn ban
đầu ) thì tiến hành phân hoạch trên D3 sử dụng thuật
toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài
liệu được gán một nhãn đơn) thu được một tập các cụm.
o Nếu các tài liệu có nhãn trong D3 không đồng nhất nhãn nhãn (theo
tập nhãn ban đầu ) thì loại bỏ nhãn l1 trong tập L2 sau đó
tiến hành đệ quy MULTICS trên D3 với đầu vào * +,
* +.
Thuật toán sẽ dừng lại khi các tập con đồng nhất nhãn hoặc số lượng văn bản
nhỏ hơn 3 (theo cấu hình của thuật toán TESC). Cuối cùng thu được tập các cụm là
phân hoạch trên tập dữ liệu.
b. Phân lớp dữ liệu
Trong bước phân lớp dữ liệu, đầu vào là phân hoạch trên tập dữ liệu được
xây dựng ở bước huấn luyện và dữ liệu cần gán nhãn. Đầu ra của bước này sẽ là tập
nhãn tương ứng với văn bản cần gán nhãn. Phương pháp 1NN được áp dụng ở bước
này theo hướng tính khoảng cách của văn bản cần gán nhãn với tâm các cụm để tìm
ra cụm gần nhất, khi đó tập nhãn của cụm gần nhất sẽ được gán cho văn bản cần
gán nhãn. Giả mã của bước xác định nhãn được thể hiện như sau:
Thủ tục MULTICSClassifier
Đầu vào:
: tập các cụm dữ liệu đã được gán nhãn * +
: dữ liệu cần gán nhãn
Đẩu ra:
: Tập các nhãn tương ứng với văn bản
Thuật toán:
1. // là cụm đầu tiên xét đến trong
2. // là nhãn của cụm
3. Với mỗi cụm
4. ( ) ‖
‖ //tính khoảng cách của
và
115
5. If ( ) (
)
6.
7.
8. End for
9.
Thủ tục 4.2 Thủ tục phân lớp MULTICSClassifier
Bằng việc chia nhỏ tập dữ liệu thành ba tập con, mô hình đề xuất MULTICS đã
hạn chế được các vấn đề về độ phức tạp tính toán. Tuy nhiên, do sự phức tạp của dữ liệu
nên việc xác định tính chất và lực lượng các tập con để tính toán số vòng lặp của thuật
toán trong trường hợp tổng quát là rất khó. Xét một số trường hợp đơn giản như sau:
- Trường hợp vùng |D2| |D3| | ̅|/2. Theo công thức truy hồi, công thức
tính thời gian thực thi như sau:
T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) và 2 lần đệ quy
MULTICS trên D2 và D3
Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng
TESC có độ phức tạp là O(n2), thời gian đệ quy MULTICS trên D2 và D3 là T(n/2).
Do đó:
( ) ( )
(
.
/)
.
/
(
) (
.
/) (
) .
/
(
) .
/
( )
.
/
Công thức dừng khi đạt được T(1). Khi đó
Ta có: ( ) .
/ ( ) ( )
116
Khi đó, độ phức tạp tính toán trong trường hợp này là ( )
- Trường hợp vùng |D1| |D2| |D3| | ̅|/3.
T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3), thời gian phân
hoạch trên D1 và 2 lần đệ quy MULTICS trên D2 và D3
Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng
TESC có độ phức tạp là O(n2), thời gian phân hoạch thời gian đệ quy MULTICS
trên D2 và D3 là T(n/3). Do đó:
Theo công thức truy hồi, ta có công thức tính thời gian thực thi như sau:
( )
.
/
Tương tự như trên thì ( ) ( )
Như vậy, có thể thấy mô hình thực thi tương đối tốt trong các trường hợp
đơn giản xét trên đây.
4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất
Luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát, trong đó kết hợp
các bước bổ sung, làm giàu các đặc trưng nhằm tăng cường biểu diễn cho dữ liệu, bước
lựa chọn đặc trưng nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các
đặc trưng quan trọng, bước vận dụng thuật toán phân lớp bán giám sát MULTICS đề
xuất ở trên nhằm khai thác các nguồn dữ liệu đa nhãn phong phú và sẵn có trong miền
ứng dụng. Quy trình các bước giải quyết bài toán được thực hiện như sau:
Pha 1: Xây dựng mô hình phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán
giám sát
- Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu huấn luyện bao
gồm dữ liệu có nhãn và dữ liệu không nhãn
- Bước 2: Làm giàu đặc trưng
- Bước 3: Rút gọn đặc trưng
- Bước 4: Xây dựng bộ phân lớp theo thuật toán MULTICSLearn.
Pha 2: Phân lớp dữ liệu và đánh giá
117
- Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu kiểm thử
- Bước 2: Làm giàu đặc trưng
- Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng rút gọn
- Bước 4: Sử dụng bộ phân lớp trên tập dữ liệu kiểm thử và đánh giá.
Quy trình 4.1 Các bước giải quyết bài toán theo mô hình đề xuất
Mô hình biểu diễn cho quy trình này được thể hiện ở Hình 4.1
Hình 4.1 Mô hình phân lớp bán giám sát đề xuất
4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát
4.3.1. Mô hình đề xuất
Thừa hưởng các kết quả thu được từ các mô hình biểu diễn dữ liệu theo chủ
đề ẩn (đã trình bày ở Chương 3) nhằm khai thác các ngữ nghĩa ẩn làm giàu cho tập
đặc trưng và tiếp cận bán giám sát phân lớp đa nhãn theo thuật toán MULTICS trình
bày ở trên, luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát cho miền
ứng dụng văn bản tiếng Việt như trình bày ở Hình 4.2bvà các bước giải quyết bài
toán được thực hiện theo Quy trình 4.2.
118
Pha 1: Huấn luyện mô hình
- Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa
dữ liệu và biểu diễn dữ liệu theo đặc trưng TFIDF / Nhị phân
- Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn.
- Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI
do G. Doquire và M. Verleysen [34] đề xuất để rút gọn và tìm ra tập đặc
trưng tiêu biểu nhất cho quá trình phân lớp.
- Bước 4: Xây dựng bộ phân lớp đa nhãn sử dụng thuật toán MULTICS
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
- Bước 1: Tiền xử lý dữ liệu kiểm thử và xây dựng tập đặc trưng
- Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho dữ liệu huấn luyện
- Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng lựa chọn
- Bước 4: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1
Quy trình 4.2 Quy trình giải quyết bài toán.
4.3.1.1. Pha 1. Huấn luyện mô hình
Bước 1: Xuất phát từ đặc điểm kiểu dữ liệu về phân phối xác suất chủ đề ẩn
là kiểu dữ liệu thực, trong khi thuật toán MULTICS ở trên sử dụng đặc trưng nhị
phân, nên để khảo sát đặc trưng về kiểu dữ liệu, luận án đề xuất xây dựng các tập
đặc trưng khác nhau bao gồm biểu diễn theo đặc trưng TFIDF (dữ liệu kiểu thực –
liên tục) và đặc trưng nhị phân (dữ liệu kiểu nguyên – rời rạc). Sau bước này, thu
được vector biểu diễn đặc trưng.
Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập vector đặc trưng phân
phối xác suất các chủ đề ẩn. Sau bước này, thu được tập đặc trưng dữ liệu bao gồm
đặc trưng TFIDF/nhị phân và đặc trưng phân phối xác suất chủ đề ẩn.
( ) ( ( ) ( ) ( ) )
( ) ( ( ) ( ) ( ) )
Trong đó, ( ) là giá trị TFIDF của từ thứ i trong văn bản d
( ) là giá trị nhị phân của từ thứ i trong văn bản d
119
là giá trị phân phối xác xuất của văn bản d trên chủ đề ẩn thứ i
Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt
Bước 3: Lựa chọn đặc trưng là một bước cơ bản trong mô hình xử lý dữ liệu
nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các đặc trưng quan
trọng. Luận án khảo sát ý nghĩa của bước lựa chọn đặc trưng sử dụng kỹ thuật thông
tin tương hỗ.
Bước 4: Xây dựng mô hình phân lớp sử dụng thuật toán bán giám sát
MULTICS. Sau khi thu được phân hoạch trên tập dữ liệu, mô hình được xây dựng
theo phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập nhãn cho dữ liệu
mới dựa trên tập nhãn của cụm gần nhất.
120
4.3.1.2. Pha 2. Phân lớp sử dụng mô hình huấn luyện
Dữ liệu mới được tiền xử lý và xây dựng tập đặc trưng tương tự như ở Bước
1, 2, 3 trong pha huấn luyện mô hình. Sau đó được đưa vào bộ phân lớp để xác định
nhãn theo phương pháp 1NN.
4.3.2. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất
Để đánh giá hiệu quả của mô hình đề xuất, mô hình cũng được áp dụng vào
bài toán đánh giá khách sạn như đã trình bày ở Chương 3. Ba tập dữ liệu được xây
dựng bao gồm: dữ liệu có nhãn, dữ liệu không nhãn và dữ liệu kiểm tra. Để đánh giá
sự đóng góp của dữ liệu có nhãn với mô hình, chúng tôi sinh ra các tập con tập dữ
liệu có nhãn với kích thước 500, 750, 1000 đánh giá. Đồng thời để đánh giá sự đóng
góp của dữ liệu không nhãn với mô hình, chúng tôi cũng sử dụng tập dữ liệu không
nhãn với các kích thước 0, 50, 100, 200 và 300 đánh giá. Các thực nghiệm sử dụng
cùng một tập dữ liệu kiểm thử bao gồm 250 đánh giá.
Ngoài ra, thực nghiệm sử dụng một tập dữ liệu trong miền ứng dụng để xây
dựng mô hình chủ đề ẩn LDA gồm hơn 22000 đánh giá. Các mô hình chủ đề ẩn
được xây dựng với số lượng chủ đề ẩn khác nhau để đánh giá mức độ ảnh hưởng
của đăc trưng phân phối xác suất chủ đề ẩn này.
Chúng tôi cũng xây dựng một mô hình phân lớp đa nhãn theo tiếp cận giám
sát dựa trên phương pháp chuyển đổi bài toán đa nhãn về bài toán đơn nhãn truyền
thống với nhân là kỹ thuật SVM. Mô hình này cũng được thực thi trên cùng tập dữ
liệu và kết quả tốt nhất ở nhóm dữ liệu huấn luyện gồm 750 đánh giá được sử dụng
để so sánh với mô hình đề xuất.
Kịch bản thực nghiệm được thiết kế như sau:
- Thực nghiệm 1 (ký hiệu là BN): Chỉ sử dụng tập đặc trưng nhị phân cho mô
hình. Đây chính là thực nghiệm ở Mục 4.3
- Thực nghiệm 2 (ký hiệu là BN+MI): Sử dụng tập đặc trưng nhị phân kết hợp
bước lựa chọn đặc trưng sử dụng thông tin tương hỗ.
- Thực nghiệm 3 (ký hiệu là BN+LDA): Sử dụng tập đặc trưng nhị phân và
đặc trưng phân phối xác suất chủ đề ẩn LDA.
121
- Thực nghiệm 4 (ký hiệu là TFIDF+LDA): Sử dụng tập đặc trưng TFIDF và
đặc trưng phân phối xác suất chủ đề ẩn LDA.
- Thực nghiệm 5 (ký hiệu là TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF
và đặc trưng phân phối xác suất chủ đề ẩn LDA kết hợp với kỹ thuật lựa
chọn đặc trưng sử dụng thông tin tương hỗ.
Chúng tôi sử dụng độ đo dựa trên nhãn
( * +) như đã trình bày ở mục 1.2.3.2.
Kết quả thực nghiệm cơ sở theo hướng sử dụng tiếp cận chuyển đổi bài toán
về các bộ phân lớp nhị phân với nhân là kỹ thuật SVM cho kết quả tốt nhất ở bộ dữ
liệu huấn luyện gồm 750 nhận xét có gán nhãn với độ đo F1 là 63.9%. Các kết quả
thực nghiệm ứng dụng mô hình đề xuất đều cho thực thi tốt hơn phương pháp cơ sở
với kết quả tốt nhất có độ đo F1 là 85.3%. Sau đây sẽ đi sâu phân tích các kết quả
của kịch bản thực nghiệm theo mô hình đề xuất để phân tích ảnh hưởng của các
bước trong mô hình.
Kích
thước
tập dữ
liệu
huấn
luyện
Kích
thước tập
dữ liệu
không
nhãn
BN BN + MI
Precisionmicro
(%)
Recallmicro
(%)
F1micro
(%)
Precisionmicro
(%)
Recallmicro
(%)
F1micro
(%)
500
0 77.4 81.1 79.2 74.3 75.8 75
50 81.4 77.7 79.5 76.3 78.7 77.5
100 80.6 78.7 79.7 73.1 78.5 75.7
200 83 82.5 82.7 74.8 76.4 75.6
300 79.6 80.4 80 81 76.1 78.5
750
0 77.7 81.5 79.6 75.7 76.8 76.2
50 82.4 81.3 81.8 77 78.2 77.6
100 82.1 82.3 82.2 74.8 78.2 76.4
200 80.7 82.5 81.6 74.1 81.2 77.5
300 79 82.3 80.6 79.9 80.4 80.2
1000
0 80.1 79.6 79.8 80.3 78.1 79.1
50 80.7 81 80.9 78.4 81.2 79.8
100 81.3 83.3 82.3 83.1 82.7 82.8
200 81 84.4 82.6 75.9 84.6 80
300 82.4 83.9 83.2 78.2 80.9 79.5
Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2
122
Kết quả thực nghiệm 1 và 2 được thể hiện ở Bảng 4.1 cho thấy việc sử dụng
dữ liệu không nhãn đều làm tăng hiệu quả thực thi của mô hình so với các thực
nghiệm không sử dụng dữ liệu không nhãn. Tuy nhiên, kết quả thực nghiệm 2 đều
thấp hơn các kết quả thực nghiệm 1 cho thấy kỹ thuật lựa chọn đặc trưng không làm
tăng hiệu quả thực thi của mô hình. Theo quan điểm của nghiên cứu sinh, bản thân
thuật toán MULTICS có quá trình xây dựng tập đặc trưng riêng nhãn/tập con nhãn
chứ không sử dụng toàn bộ tập đặc trưng, như vậy có thể coi đây là bước lựa chọn
các đặc trưng hữu ích riêng biệt cho nhãn/tập con nhãn. Do đó, việc sử dụng thêm
bước lựa chọn đặc trưng sử dụng thông tin tương hỗ ở thực nghiệm 2 làm giảm đi
hiệu quả thực thi của thuật toán MULTICS.
K
íc
h
t
h
ư
ớ
c
tậ
p
d
ữ
l
iệ
u
k
h
ô
n
g
n
h
ã
n
BN+LDA F1micro (%) TFIDF+LDA F1micro (%) TFIDF+LDA+MI F1 micro (%)
Số lượng chủ đề Số lượng chủ đề Số lượng chủ đề
10 15 25 50 100 10 15 25 50 100 10 15 25 50 100
0 79.4 79.1 79.2 80.5 80.6 79.2 81.5 82.4 80 80.9 79.5 82.4 80.5 80.7 80.6
50 79.5 80.1 80 80.9 80.9 78.4 82.5 85.3 81.5 82.2 82 83.9 81.8 83.7 82.8
100 81.1 81.1 79.6 80.3 80.2 81.3 84.9 84.4 82.3 83.5 83.4 83.5 82.8 83.6 82.7
200 79.8 80.6 79.8 80 79.8
79.4
3
81.9 81.2 81.4 82.3 82.3 81.4 83.5 83.8 83.6
300 80.2 79.8 80.6 79.7 80.3 80.8 81.9 82.6 81.7 83.8 80.5 83.4 84 83.6 83.9
Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5
Số lượng thực nghiệm trong các nhóm thực nghiệm 3, 4, 5 tương đối lớn nên
luận án chọn các thực nghiệm có kết quả tốt nhất ở mỗi nhóm thực nghiệm để trình
bày ở Bảng 4.2. Kết quả thực nghiệm 3 cho thấy việc kết hợp đặc trưng nhị phân với
đặc trưng phân phối xác suất chủ đề ẩn làm giảm hiệu quả thực thi của mô hình. Điều
này có thể được lý giải bởi sự khác biệt về kiểu dữ liệu đặc trưng nhị phân (dữ liệu
nguyên) và kiểu dữ liệu của phân phối xác suất chủ đề ẩn (dữ liệu thực). Do đó, luận
án đề xuất tiến hành thực nghiệm 4 với sự đồng nhất kiểu dữ liệu thực trong đặc trưng
TFIDF và đặc trưng phân phối xác xuất chủ đề ẩn LDA. Kết quả thực nghiệm 4 cho
kết quả tốt hơn tất cả các thực nghiệm khác với kết quả tốt nhất là 85.3%. Thực
nghiệm 5 đề xuất kết hợp kỹ thuật lựa chọn đặc trưng sử dụng thông tin tương hỗ
không làm tăng hiệu quả thực thi mô hình so với thực nghiệm 4. Kết quả này một lần
123
nữa khẳng định thuật toán phân lớp đa nhãn bán giám sát MULTICS vẫn cho kết quả
tốt hơn mà không cần kết hợp với kỹ thuật lựa chọn đặc trưng.
4.4. Kết luận chương 4
Chương 4 đã trình bày một mô hình đề xuất cho phân lớp đa nhãn bán giám
sát. Trong đó, kỹ thuật phân cụm bán giám sát được xây dựng để tạo ra các đặc
trưng cho đối tượng. Bên cạnh đó, tiếp thu đề xuất liên quan về việc xây dựng tập
đặc trưng riêng biệt cho từng nhãn nhằm tăng hiệu quả phân lớp, luận án đã xây
dựng một thuật toán phân lớp đa nhãn hướng tới việc cá thể các nhãn và nhóm nhãn
có quan hệ với nhau và xây dựng tập đặc trưng cho riêng các cá thể, từ đó làm tăng
hiệu quả phân lớp cho từng đối tượng. Việc sử dụng nguồn dữ liệu không nhãn
phong phú tham gia vào học mô hình sẽ tận dụng được nguồn tài nguyên sẵn có và
kết hợp với dữ liệu có nhãn để tăng hiệu quả mô hình. Đây là một xu hướng đang
được nhiều nhà nghiên cứu quan tâm.
124
KẾT LUẬN
I. Những kết quả chính của luận án
Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và
đạt được một số đóng góp sau đây về phân lớp đơn nhãn và phân lớp đa nhãn văn
bản tiếng Việt.
Thứ nhất, luận án đề xuất hai mô hình phân lớp đơn nhãn là mô hình gán nhãn
thực thể có tên và mô hình hệ tư vấn xã hội. Trong đó, nhận dạng thực thể có tên là
bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin nhằm tìm kiếm và
rút ra các thông tin liên quan thực thể trong văn bản. Bài toán này có thể được coi là
bài toán phân lớp đơn nhãn trong đó mỗi thực thể sẽ được gán cho một nhãn (tên gọi)
trong tập các nhãn cho trước. Luận án đề xuất một mô hình học bán giám sát trường
ngẫu nhiên có điều kiện CRFs dựa trên tiêu chuẩn kỳ vọng tổng quát được xây dựng
từ tập các ràng buộc về đặc trưng và phân phối xác suất các thực thể có tên được khai
thác từ các thông tin hữu ích trên tập dữ liệu không nhãn. Tiếp theo, đề án cũng đề
xuất mô hình hệ tư vấn xã hội dựa trên các kỹ thuật phân tích quan điểm người dùng,
sử dụng mô hình lọc cộng tác với phương pháp hướng người dùng dựa trên mối quan
hệ và sự tương đồng giữa người dùng trong hệ thống mạng xã hội. Mô hình đã khai
thác và xây dựng các tập đặc trưng phong phú về xã hội và tiểu sử để tăng cường
quan hệ người dùng.
Thứ hai, luận án khảo sát hai giải pháp biểu diễn dữ liệu phân lớp đa nhãn
văn bản tiếng Việt bao gồm phương pháp biểu diễn dữ liệu theo mô hình chủ đề ẩn
và phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách. Với giả thiết là mỗi văn
bản được tạo ra bằng việc kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối
trên các từ, mô hình chủ đề ẩn LDA đã cung cấp một phương pháp khai thác các
ngữ nghĩa ẩn trong văn bản để làm giàu thêm đặc trưng cho mô hình. Luận án đã đề
xuất mô hình phân lớp dữ liệu dựa trên một số bước quan trọng như sau: Xây dựng
tập đặc trưng cho mô hình bao gồm đặc trưng TFIDF truyền thống kết hợp với tập
đặc trưng xác suất chủ đề ẩn mà văn bản đang xét thuộc về; đặc trưng xác suất chủ
đề ẩn này được khai thác từ mô hình chủ đề ẩn LDA trên tập dữ liệu của miền ứng
125
dụng. Bước tiếp theo là sử dụng phương pháp lựa chọn đặc trưng dựa trên thông tin
tương hỗ nhằm loại bỏ các đặc trưng dư thừa và giữ lại được các đặc trưng có tính
chất quan trọng, quyết định của mô hình, từ đó tăng hiệu quả mô hình và giảm độ
phức tạp tính toán. Mô hình thứ hai được đề xuất nhằm khai thác các đặc trưng về
khoảng cách và trật tự từ trong biểu diễn mô hình đồ thị khoảng cách. Mô hình này
đã khắc phục được các nhược điểm của mô hình biểu diễn theo không gian vectơ
truyền thống – chỉ quan tâm đến đặc trưng đơn lẻ mà không quan tâm đến quan hệ,
trật từ và khoảng cách giữa các đặc trưng. Mô hình do luận án đề xuất kết hợp khai
thác cả đặc trưng ngữ nghĩa ẩn do mô hình chủ đề ẩn LDA cung cấp đồng thời áp
dụng mô hình đồ thị khoảng cách trên đối tượng chủ đề ẩn từ đó khai thác thông tin
về quan hệ thứ bậc và khoảng cách giữa các chủ đề ẩn trong văn bản. Cả hai mô
hình đã cung cấp phương pháp biểu diễn dữ liệu mới nhằm tăng cường hiệu quả cho
mô hình phân lớp dữ liệu đa nhãn.
Thứ ba, luận án đề xuất một thuật toán MULTICS phân lớp dữ liệu đa nhãn
bán giám sát dựa trên kỹ thuật phân cụm nhằm khai thác thông tin đặc trưng riêng
biệt cho nhãn / tập nhãn. Học máy bán giám sát là một tiếp cận được cho là phương
pháp tiên tiến hiệu quả nhờ sự kết hợp của dữ liệu có nhãn làm định hướng và dữ
liệu không có nhãn để mở rộng và củng cố mô hình. Trong khi dữ liệu có nhãn cần
tốn nhiều thời gian và công sức để gán nhãn thủ công thì dữ liệu không nhãn rất
phong phú và dễ dàng thu được. Dựa trên giả thiết rằng, các đặc trưng riêng biệt của
nhãn / tập nhãn là những đặc trưng mang tính chất phân biệt và tối ưu cho nhãn/tập
nhãn đó, khi sử dụng tập đặc trưng này vào quá trình phân lớp sẽ mang lại hiệu quả
tốt hơn. Luận án đề xuất một mô hình phân lớp bán giám sát dựa trên kỹ thuật phân
cụm bán giám sát để xây dựng phân hoạch trên tập dữ liệu có nhãn và không nhãn
trong miền ứng dụng. Dựa vào các phân hoạch trên tập dữ liệu này, xây dựng bộ
phân lớp để đoán nhận nhãn cho các dữ liệu mới dựa trên khoảng cách với các tâm
cụm trong phân hoạch. Thuật toán MULTICS [PTNgan6] được B. Trawiński và
cộng sự [9] tham chiếu cho thấy sự tham gia của thuật toán vào dòng nghiên cứu
phân lớp đa nhãn trên thế giới.
126
Đồng thời, luận án cũng cung cấp một khảo sát khái quát về phân lớp đa
nhãn. Phân lớp đa nhãn là một tiến hóa tiên tiến hơn phân lớp đơn nhãn truyền
thống, nó phù hợp với nhiều ứng dụng thực tế như phân lớp văn bản, gán nhãn ảnh,
dự đoán chức năng gen, khi mà một đối tượng có thể đồng thời thuộc về nhiều
phân lớp khác nhau. Sự khác biệt này đã đề ra nhiều thách thức về tiếp cận giải
quyết bài toán, mối quan hệ giữa các nhãn, các độ đo và đánh giá bài toán phân lớp
đa nhãn. Luận án đã khảo sát các tiếp cận cho bài toán đa nhãn, các kỹ thuật giảm
chiều dữ liệu cho bài toán phân lớp đa nhãn nhằm loại bỏ các đặc trưng không liên
quan và giữ lại các đặc trưng quan trọng từ đó tăng cường hiệu quả mô hình; các độ
đo và phương pháp đánh giá cho bài toán phân lớp đa nhãn làm cơ sở để đánh giá
hiệu quả mô hình đề xuất.
II. Hạn chế của luận án
Trong quá trình triển khai các mô hình, luận án vẫn còn tồn tại một số hạn
chế như sau:
Một là, thuật toán phân lớp đa nhãn dựa trên phân cụm bán giám sát cần
được nghiên cứu công phu hơn bao gồm các phân tích chi tiết về độ phức tạp thuật
toán, các cải tiến phù hợp trong từng thành phần thuật toán để phát huy lợi thế
“tham lam” của thuật toán.
Hai là, tuy đã đề cập tới vấn đề giảm chiều dữ liệu trong phân lớp đơn nhãn
và phân lớp đa nhãn song nghiên cứu trong luận án mới chỉ đề cập ở mức độ rất cơ
bản mà chưa khảo sát các giải pháp tiên tiến trong giảm chiều dữ liệu, đặc biệt là
giảm chiều dữ liệu trong phân lớp đa nhãn.
Ba là, miền ứng dụng văn bản có lợi thế cho các nghiên cứu về phân lớp đa
nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể hiện như các
miền ứng dụng khác, chẳng hạn miền ứng dụng dữ liệu ảnh.
III. Định hướng nghiên cứu tiếp theo
Trong thời gian tiếp theo, nghiên cứu sinh sẽ tiếp tục nghiên cứu các hướng
giải quyết cho các hạn chế còn tồn tại của luận án và tiếp tục triển khai các đề xuất
127
để hoàn thiện hơn các giải pháp cho phân lớp đa nhãn.
Một là, thuật toán MULTICSLearn cần được phân tích sâu sắc hơn đặc biệt ở
khía cạnh độ phức tạp thời gian tính toán trong một vùng hoặc toàn bộ miền ứng
dụng. Cải tiến kỹ thuật tìm nhãn để phân hoạch tập dữ liệu theo bộ nhãn giả theo
hướng tìm nhãn có ảnh hưởng lớn nhất trong mạng xã hội tập nhãn hiện thời [99].
Hai là, các kỹ thuật giảm chiều dữ liệu tiên tiến cho phân lớp đa nhãn như
[62], [75], [78] cần được nghiên cứu để áp dụng sáng tạo vào các bài toán ứng dụng
trong luận án.
Ba là, khảo sát miền ứng dụng dữ liệu ảnh, nghiên cứu các mô hình và giải
pháp phân lớp đa nhãn – đa thể hiện đối với dữ liệu ảnh nhằm làm phù hợp với quá
trình tiến hóa của phân lớp dữ liệu như được đề cập ở Chương 1.
128
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ
LIÊN QUAN TỚI LUẬN ÁN
1. [PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012).
Named Entity Recognition for Vietnamese documents using semi-
supervised learning method of CRFs with Generalized Expectation
Criteria. IALP 2012: 85-89 (Scopus7, DBLP8).
2. [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, Mai-Vu
Tran, Quang-Thuy Ha (2016). Sentiment Analysis and User Similarity for
Social Recommender System: An Experimental Study. Lecture Notes in
Electrical Engineering (376): 1147-1156 (Scopus)
3. [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen,
Quang-Thuy Ha (2013). Hidden Topic Models for Multi-label Review
Classification: An Experimental Study. Computational Collective
Intelligence. Technologies and Applications, Lecture Notes in Computer
Science Volume 8083:603-611 (Scopus, DBLP).
4. [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, Quang-
Thuy Ha (2017). Exploiting Distance graph and Hidden Topic Models for
Multi-label Text Classification. ACIIDS 2017. Studies in Computational
Intelligence, Volume 710 (Advanced Topics in Intelligent Information
and Database Systems): 321-331. (Scopus).
5. [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri-
Thanh Nguyen, Quang-Thuy Ha (2017). MASS: a Semi-supervised Multi-
label Classification Algorithm With specific Features. ACIIDS
2017. Studies in Computational Intelligence, Volume 710 (Advanced
Topics in Intelligent Information and Database Systems): 37-47. (Scopus).
6. [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh
Nguyen, and Quang-Thuy Ha (2017). A semi-supervised multi-label
classification framework with feature reduction and enrichment. Journal of
Information and Telecommunication, 1(2), 141-154 (DBLP).
7
https://www.scopus.com/authid/detail.uri?authorId=56013971500
8
129
TÀI LIỆU THAM KHẢO
[1] A. Elisseeff and J. Weston. A Kernel method for Multi-Labelled
Classification. Neural Information Proceesing Systems 2001 (NIPS 2001):
681–687.
[2] A. H. Razavi, D. Inkpen. Text Representation Using Multi-level Latent
Dirichlet Allocation. Canadian Conference on AI 2014: 215-226.
[3] A. K. Menon, C. Elkan. Link prediction via matrix factorization. In Joint
european conference on machine learning and knowledge discovery in
databases. Springer, Berlin, Heidelberg, 2011: 437-452.
[4] A. Mansouri, L.S. Affendey, A. Mamat. Named entity recognition
approaches. International Journal of Computer Science and Network
Security 8.2 (2008): 339-344
[5] A. McCallum, G. Mann, G. Druck. Generalized Expectation Criteria.
Technical Report UM-CS-2007-60, University of Massachusetts Amherst,
2007.
[6] A. McCallum. Multi-label text classification with a mixture model trained
by EM. AAAI Workshop on text learning, 1999: 1-7.
[7] B. Hariharan, S. V. N. Vishwanathan, M. Varma. Efficient max-margin
multi-label classification with applications to zero-shot learning. Machine
Learning, 88 (1-2) 2012: 127-155.
[8] B. Qian, I. Davidson. Semi-Supervised Dimension Reduction for Multi-
Label Classification. AAAI, Volumn10, 2010: 569-574.
[9] B. Trawiński, T. Lasota, O. Kempa, Z. Telec, M. Kutrzyński. Comparison
of Ensemble Learning Models with Expert Algorithms Designed for a
Property Valuation System. In: Conference on Computational Collective
Intelligence Technologies and Applications. Springer, Cham, 2017: 317-
327.
[10] C. C. Aggarwal and P. Zhao. Towards Graphical Models for Text
Processing. Knowledge and Information Systems Vol 36:1, 2013: 1-21.
[11] C. C. Aggarwal. Data classification: algorithms and applications. CRC
Press, 2014.
[12] C. Vens, J. Struyf, L. Schietgat, S. Džeroski, H. Blockeel. Decision trees
for hierarchical multilabel classification. Machine Learning, 73(2) 2008:
130
185–214.
[13] D. B. Nguyen, S.H. Hoang, S.B. Pham, T.P. Nguyen. Named entity
recognition for Vietnamese. In Asian Conference on Intelligent Information
and Database Systems, Springer, Berlin, Heidelberg, 2010: 205-214
[14] D. Jurafsky, J.H. Martin. Speech and language processing. Pearson, 2014.
[15] D. M. Blei, A. Y. Ng, M. I. Jordan. Latent Dirichlet Allocation. Journal of
Machine Learning Research 3, 2003: 993-1022.
[16] D. M. Blei. Probabilistic topic models. Communications of the ACM 55.4,
2012: 77-84.
[17] D. M. Dunlavy, T. G. Kolda, E. Acar. Temporal link prediction using
matrix and tensor factorizations. ACM Transactions on Knowledge
Discovery from Data (TKDD), 5(2), 10, 2011.
[18] D. Nadeau, S. Sekine. A survey of named entity recognition and
classification. Lingvisticae Investigationes 30(1), 2007: 3-26.
[19] D. Ramage, D. Hall, R. Nallapati, C. D. Manning. Labeled LDA: A
supervised topic model for credit attribution in multi-labeled corpora.
EMNLP 2009: 248-256.
[20] D. Yang, D. Zhang, Z. Yu, Z. Wang. A sentiment-enhanced personalized
location recommendation system. In Proceedings of the 24th ACM
Conference on Hypertext and Social Media, ACM 2013: 119-128.]
[21] E. Gibaja, S. Ventura. A tutorial on multilabel learning. ACM Computing
Surveys (CSUR) 47(3), 2015: 52.
[22] E. Gibaja, S. Ventura. Multi-label learning: a review of the state of the art
and ongoing research. Wiley Interdisc. Rew.: Data Mining and Knowledge
Discovery, 4(6), 2014: 411-444.
[23] E. Hüllermeier, J. Fürnkranz, W. Cheng, K. Brinker. Label ranking by
learning pairwise preferences. Artif. Intell. 172(16-17), 2008: 1897-1916.
[24] E. L. Mencía, F. Janssen. Stacking Label Features for Learning Multilabel
Rules. Discovery Science 2014: 192-203.
[25] E. L. Mencia, J. Furnkranz. Pairwise learning of multilabel classifications
with perceptrons. Neural Networks, 2008. IJCNN 2008.(IEEE World
Congress on Computational Intelligence). IEEE International Joint
Conference on. IEEE, 2008: 2899-2906.
131
[26] E. Spyromitros, G. Tsoumakas, I. Vlahavas. An empirical study of lazy
multilabel classification algorithms. In: Hellenic conference on artificial
intelligence. Springer, Berlin, Heidelberg, 2008: 401-406.
[27] F. Briggst, X.Z. Fern, R. Raich. Rank-loss support instance machines for
MIML instance annotation. In: Proceedings of the 18th ACM SIGKDD
international conference on Knowledge discovery and data mining. ACM,
2012: 534-542.
[28] F. Charte, A.J. Rivera, M.J. Del Jesus, F. Herrera. LI-MLC: A label
inference methodology for addressing high dimensionality in the label
space for multilabel classification. IEEE transactions on neural networks
and learning systems, 25(10), 2014:1842-1854.
[29] F. Herrera, F. Charte, A. J. Rivera, M.J. Del Jesus. Multilabel
Classification: Problem Analysis, Metrics and Techniques. Springer
International, 2016
[30] F. Ricci, L. Rokach, B. Shapira, P. B. Kantor. Recommender systems
handbook. Springer US, 2011.
[31] F. Sebastiani. Machine Learning in Automated Text Categorization. ACM
Computing Survey 34, 2002: 1-47.
[32] G. Chen, Y. Song, F. Wang, C. Zhang. Semi-supervised multi-label
learning by solving a sylvester equation. In: Proceedings of the 2008 SIAM
International Conference on Data Mining. Society for Industrial and
Applied Mathematics, 2008: 410-419.
[33] G. Doquire, M. Verleysen. Mutual information-based feature selection for
multilabel classification. Neurocomputing 122 (2013): 148-155.
[34] G. Doquire, M. Verleysen. Feature Selection for Multi-label Classification
Problems. Advances in Computational Intelligence, 2011: 9-16.
[35] G. Druck, G. Mann, A. McCallum. Learning from Labeled Features using
Generalized Expectation Criteria. In: Proceedings of the 31st annual
international ACM SIGIR conference on Research and development in
information retrieval. ACM, 2008: 595-602.
[36] G. Ruffo. Learning single and multiple instance decision trees for computer
security applications. PhD Thesis, University of Turin, 2000.
[37] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi-
132
Supervised Learning of Conditional Random Fields. In ACL Volumn 8,
2008: 870–878.
[38] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi-
Supervised Learning with Weakly Labeled Data. Journal of Machine
Learning Research 11, 2010: 955-984.
[39] G. Salton, A. Wong, C. S. Yang. A vector space model for automatic
indexing. Communications of the ACM, 18(11), 1975: 613-620.
[40] G. Tsoumakas, I. Katakis, I. Vlahavas. Mining Multi-label Data. Data
Mining and Knowledge Discovery Handbook, Springer, 2010: 667–686.
[41] G. Tsoumakas, I. Katakis, I. Vlahavas. Random k-labelsets for multi-label
classification. IEEE Transactions on Knowledge and Data Engineering,
2011, 23.7: 1079-1089.
[42] G. Tsoumakas, I. Katakis. Multi-label Classification: An Overview.
International Journal of Data Warehousing and Mining (IJDWM), 2007,
3.3: 1-13.
[43] G. Tsoumakas, I. Vlahavas. Random k-labelsets: An ensemble method for
multilabel classification. European Conference on Machine Learning 2007:
406-417.
[44] G. Tsoumakas, M. Zhang, Z.H. Zhou. Introduction to the special issue on
learning from multi-label data. Machine Learning 88 (1-2), 2012: 1-4.
[45] H. Hotelling. Relations between two sets of variates. In: Breakthroughs in
Statistics, Springer, 1992: 162–190.
[46] H. Le Trung, V. Le Anh, K. Le Trung. Bootstrapping and rule-based model
for recognizing Vietnamese named entity. In Asian Conference on
Intelligent Information and Database Systems (ACIIDS) 2014: 167–176.
[47] H. Liu, L. Yu. Toward integrating feature selection algorithms for
classification and clustering. IEEE Transactions on Knowledge and Data
Engineering 17, 2005: 491–502.
[48] H. Ma, D. Zhou, C. Liu, M.R. Lyu, I. King. Recommender systems with
social regularization. In: Proceedings of the fourth ACM international
conference on Web search and data mining, 2011: 287–296.
[49] H. Ma, H. Yang, M.R. Lyu, I. King. Sorec: social recommendation using
probabilistic matrix factorization. In: Proceeding of the 17th ACM
133
conference on Information and knowledge management, 2008: 931–940.
[50] H. Ma, I. King, M.R. Lyu. Learning to recommend with social trust
ensemble. In: Proceedings of the 32nd international ACM SIGIR
conference on Research and development in information retrieval, 2009:
203–210.
[51] H. Q. Le. Making use of category structure for multi-class classification.
PhD Thesis, Heinrich Heine University Düsseldorf, 2010.
[52] H. Q. Le, M. V. Tran, N. N. Bui, N. C. Phan, Q. T. Phan. An integrated
approach using conditional random fields for named entity recognition
and person property extraction in vietnamese text. In: Asian Language
Processing (IALP), 2011: 115-118.
[53] H. Q. Pham, M.L. Nguyen, B. Nguyen, V.C. Nguyen. Semi-supervised
Learning for Vietnamese Named Entity Recognition using Online
Conditional Random Fields. In: Proceedings of NEWS 2015 the fifth
named entities workshop, 2015: 53-8.
[54] H. Qu, S. Zhang, H. Liu, J. Zhao: A multi-label classification algorithm
based on label-specific features. Wuhan University Journal of Natural
Sciences 16, (6), 2011: 520-524.
[55] I. T. Jolliffe. Principal Component Analysis. Springer, 2002.
[56] J. D. Lafferty, A. McCallum, F.C.N. Pereira. Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data.
In: Proceedings of the 18th International Conference on Machine Learning.
2001: 282-289.
[57] J. Fürnkranz, E. Hüllermeier, E.L. Mencía, K. Brinker. Multilabel
classification via calibrated label ranking. Machine Learning, 73 (2), 2008:
133–153.
[58] J. Golbeck. Generating predictive movie recommendations from trust in
social networks. Trust Management, 2006: 93-104.
[59] J. J. Zhang, M. Fang, X. Li. Multi-label learning with discriminative
features for each label. Neurocomputing 154, 2015: 305-316.
[60] J. Jiang. Information extraction from text. Mining text data, 2012: 11-41.
[61] J. Lee, H. Lim, D.W. Kim. Approximating Mutual Information for Multi-
Label Feature Selection. Electronics Letters, vol. 48(15), 2012: 129-130.
134
[62] J. Li, H. Liu. Challenges of Feature Selection for Big Data Analytics. IEEE
Inteligent Systems 32(2), 2017: 9-15.
[63] J. Read, A. Bifet, G. Holmes, B. Pfahringer. Scalable and efficient multi-
label classification for evolving data streams. Machine Learning, 88 (1-2),
2012: 243-272.
[64] J. Read, B. Pfahringer, G. Holmes, E. Frank. Classifier chains for multi-
label classification. Machine Learning 85(3), 2011: 333-359.
[65] J. Read, L. Martino, J. Hollmén. Multi-label methods for prediction with
sequential data. Pattern Recognition 63, 2017: 45-55.
[66] J. Read. A Pruned Problem Transformation Method for Multi-label
Classification. In: Proceedings of 2008 New Zealand Computer Science
Research Student Conference (NZCSRS), 2008: 143–150.
[67] J. Read. Scalable Multi-label Classification. PhD Thesis, The University of
Waikat, 2010.
[68] J. Tang, H. Gao, H. Liu. mTrust: Discerning multi-faceted trust in a
connected world. In: Proceedings of the fifth ACM international conference
on Web search and data mining. ACM, 2012: 93-102.
[69] J. Tang, H. Gao, X. Hu, H. Liu. Exploiting homophily effect for trust
prediction. In: Proceedings of the sixth ACM international conference on
Web search and data mining. ACM, 2013: 53-62.
[70] J. Tang, X. Hu, H. Liu. Social Recommendation: A Review. Social Network
Analysis and Mining, 2013, 3.4: 1113-1133.
[71] J. V. Carrera-Trejo, G. Sidorov, S. Miranda-Jiménez, M. M. Ibarra, R. C.
Martínez. Latent Dirichlet Allocation complement in the vector space model
for Multi-Label Text Classification. International Journal of Combinatorial
Optimization Problems and Informatics, 6(1), 2015: 7-19.
[72] J. Wang, J. D. Zucker. Solving the multi-instance problem: A lazy learning
approach. In Proceedings of 17th International Conf. on Machine
Learning, 2000: 1119–1126.
[73] K. Brinker, J. Furnkranz, E. Hullermeier. A unified model for multilabel
classification and ranking. In: Proceedings of the 2006 conference on ECAI
2006: 17th European Conference on Artificial Intelligence August 29--
September 1, 2006, Riva del Garda, Italy. IOS Press, 2006: 489-493.
135
[74] K. Brinker,. E. Hullermeier. Case-based multilabel
ranking. In: Proceedings of the 20th international joint conference on
Artifical intelligence. Morgan Kaufmann Publishers Inc., 2007. p. 702-707.
[75] K. Cheng, J. Li, H. Liu. FeatureMiner: A Tool for Interactive Feature
Selection. In: Proceedings of the 25th ACM International on Conference on
Information and Knowledge Management. ACM, 2016: 2445-2448.
[76] K. Dembczynski, W. Waegeman, W. Cheng, E. Hüllermeier. On label
dependence and loss minimization in multi-label classification. Machine
Learning, 88 (1-2), 2012: 5-45.
[77] L. Breiman. Random forests. Machine Learning. 45(1), 2001:5–32.
[78] L. Jian, J. Li, K. Shu, H. Liu. Multi-Label Informed Feature Selection.
In: IJCAI International Joint Conference on Artificial Intelligence. 2016:
1627-1633.
[79] L. Sun, S. Ji, J. Ye. Multi-label dimensionality reduction. CRC Press, 2013.
[80] M. Jamali, M. Ester. A matrix factorization technique with trust
propagation for recommendation in social networks. In: Proceedings of the
fourth ACM conference on Recommender systems, ACM 2010: 135–142.
[81] M. Jamali, M. Ester. Trustwalker: a random walk model for combining
trust-based and item-based recommendation. In: Proceedings of the 15th
ACM SIGKDD international conference on Knowledge discovery and data
mining, ACM 2009: 397–406.
[82] M. L. Zhang, J. M. Peña, V. Robles. Feature selection for multi-label naive
Bayes classification. Information Sciences, 2009, 179.19: 3218-3229.
[83] M. L. Zhang, L. Wu. LIFT: Multi-label learning with label-specific
features. IEEE transactions on pattern analysis and machine intelligence,
37(1), 2015: 107-120.
[84] M. L. Zhang, Z. H. Zhou. A Review on Multi-Label Learning Algorithms.
IEEE transactions on knowledge and data engineering, 2014, 26.8: 1819-
1837
[85] M. L. Zhang, Z. H. Zhou. Improve multi-instance neural networks through
feature selection. Neural Processing Letters. 2004: 1–10.
[86] M. L. Zhang, Z. H. Zhou. ML-KNN: A Lazy Learning Approach to Multi-
Label Learning. Pattern Recogn, 40, 2007: 2038–2048.
136
[87] M. L. Zhang. LIFT: Multi-Label Learning with Label-Specific
Features. In: Proceedings of the Twenty-Second international joint
conference on Artificial Intelligence-Volume Volume Two. AAAI Press,
2011: 1609-1614.
[88] M. Poyraz, Z.H. Kilimci, M.C. Ganiz. Higher-order smoothing: a novel
semantic smoothing method for text classification. Journal of Computer
Science and Technology 29(3), 2014: 376-391.
[89] M. R. Boutell, J. Luo, X. Shen, C.M. Brown. Learning multi-label scene
classification. Pattern Recognition, 37 (9), 2004: 1757–1771.
[90] M. V. Tran, X. T. Tran, and H. L. Uong. User Interest Analysis with
Hidden Topic in News Recommendation System. Asian Language
Processing (IALP), 2010: 211-214.
[91] MALLET. n.d.
[92] N. Nguyen. Semi-Supervised Learning With Partially Labeled Examples.
PhD Thesis, Cornell University, 2010.
[93] O. G. R. Pupo, C. Morell, S. Ventura. Evolutionary feature weighting to
improve the performance of multi-label lazy algorithms. Integrated
Computer-Aided Engineering 21(4), 2014: 339-354.
[94] O. G. R. Pupo, C. Morell, S. Ventura. Scalable extensions of the ReliefF
algorithm for weighting and selecting features on the multi-label learning
context. Neurocomputing 161, 2015: 168-182.
[95] O. Maron, T. Lozano-Pérez. A Framework for Multiple-Instance
Learning. In: Advances in neural information processing systems. 1998:
570-576..
[96] P. Massa, P. Avesani. Controversial users demand local trust metrics: An
experimental study on Epinions.com community. AAAI 2005: 121-126.
[97] P. Massa, P. Avesani. Trust-aware collaborative filtering for recommender
systems. In: OTM Confederated International Conferences" On the Move to
Meaningful Internet Systems". Springer, Berlin, Heidelberg, 2004: 492-508.
[98] P. Massa, P. Avesani. Trust-aware recommender systems. In: Proceedings
of the 2007 ACM conference on Recommender systems. ACM, 2007: 17-24.
[99] P. Szymanski, T. Kajdanowicz, K. Kersting. How Is a Data-Driven
Approach Better than Random Choice in Label Space Division for Multi-
137
Label Classification? Entropy 18(8) 282, 2016.
[100] P. V. Krishna, S. Misra, D. Joshi, M.S. Obaidat. Learning automata based
sentiment analysis for recommender system on cloud. In Computer,
Information and Telecommunication Systems (CITS), 2013 International
Conference on IEEE 2013: 1-5.
[101] P. Victor, C. Cornelis, M. De Cock, A. Teredesai. A comparative analysis
of trustenhanced recommenders for controversial items. The International
AAI Conference on Weblogs and Social Media, 2009: 342–345.
[102] P. Victor, M. De Cock, C. Cornelis. Trust and recommendations.
Recommender Systems Handbook, Springer, 2011: 645–675.
[103] Q. T. Ha, H. N Bui, T. T. Nguyen. A Trace Clustering Solution Based on
Using the Distance Graph Model. International Conference on
Computational Collective Intelligence. Springer International Publishing,
2016: 313-322.
[104] Q. T. Tran, T. T. Pham, Q. H. Ngo, D. Dinh, N. Collier. Named entity
recognition in Vietnamese documents. Progress in Informatics Journal 5,
2007: 14-17.
[105] Q. Zhang, S.A. Goldman. EM-DD: An improved multi-instance learning
technique. In: Advances in neural information processing systems. 2002:
1073-1080.
[106] R. E. Schapire, Y. Singer. BoosTexter: A Boosting-based System for Text
Categorization. Machine Learning 39(2-3), 2000: 135-168.
[107] S. Andrews, I. Tsochantaridis, T. Hofmann. Support vector machines for
multiple-instance learning. In: Advances in neural information processing
systems, 2002: 561-568.
[108] S. Basu. Semi-supervised clustering: probabilistic models, algorithms and
experiments. PhD Thesis, The University of Texas at Austin, 2005.
[109] S. Godbole, S. Sarawagi. Discriminative methods for multi-labeled
classification. Advances in knowledge discovery and data mining (PAKDD)
2004: 22–30.
[110] S. H. Yang, H. Zha, B. G. Hu. Dirichlet-bernoulli alignment: A generative
model for multi-class multi-label multi-instance corpora. In: Advances in
neural information processing systems, 2009: 2143-2150.
138
[111] S. Jungjit. New Multi-Label Correlation-Based Feature Selection Methods
for Multi-Label Classification and Application in Bioinformatics. PhD
Thesis, University of Kent at Canterbury, March 2016.
[112] S. Li, Z. Zhang, J. Duan. An ensemble multi-label feature selection
algorithm based on information entropy. International Arab Journal of
Information Technology (IAJIT), 2014, 11.4: 379-386.
[113] S. S. Bucak. Multiple Kernel and Multi-Label Learning for Image
Categorization. PhD Thesis, Michigan State University, 2014.
[114] S. Vembu, T. Gartner. Label ranking algorithms: A survey. Preference
Learning 2010: 45-64
[115] T. G. Dietterich, R. H. Lathrop, T. Lozano-Pérez. Solving the Multiple
Instance Problem with Axis-Parallel Rectangles. Artificial intelligence,
89(1-2), 1997: 31-71.
[116] T. Gartner, P. A. Flach, A. Kowalczyk, A. J. Smola. Multi-instance kernels.
The 19th International Conference on Machine Learning (ICML 2002):
179–186.
[117] T. N. Rubin, A. Chambers, P. Smyth, M. Steyvers. Statistical topic models
for multi-label document classification. Machine Learning, 88(1-2), 2012:
157-208.
[118] T. Zhou, D. Tao, X. Wu. Compressed labeling on distilled labelsets for
multi-label learning. Machine Learning, 88 (1-2), 2012: 69-126.
[119] W. He, Y. Wang. Text representation and classification based on multi-
instance learning. In: Management Science and Engineering, ICMSE 2009.
International Conference on. IEEE, 2009: 34-39.
[120] W. Zhang, X. Tang, T. Yoshida. TESC: An approach to text classification
using semi-supervised clustering. Knowledge-Based Systems 75, 2015:
152-160.
[121] X. Wu, V. Kumar. Top 10 algorithms in data mining. CRC Press, 2009
[122] X. Zhu, A. B. Goldberg. Introduction to Semi-Supervised Learning. Morgan
and Claypool, 2009.
[123] Y. Chen and J. Z. Wang. Image categorization by learning and reasoning
with regions. Machine Learning Research 5, 2004: 913–939.
[124] Y. Chevaleyre, J. D. Zucker. Solving Multiple-Instance and Multiple-Part
139
Learning Problems with Decision Trees and Rule Sets. Application to the
Mutagenesis Problem. Canadian Conference on AI 2001: 204-214.
[125] Y. Guo, D. Schuurmans. Semi-supervised multi-label classification: A
Simultaneous Large-Margin, Subspace Learning Approach. Machine
Learning and Knowledge Discovery in Databases, (2) 2012: 355-370.
[126] Y. Liu, R.Jin, L. Yang. Semi-supervised multi-label learning by constrained
nonnegative matrix factorization. AAAI Volumn 1, 2006: 421-426.
[127] Y. Yang, S. Gopal. Multi-label classification with meta-level features in a
learning-to-rank framework. Machine Learning, 88 (1-2), 2012: 47-68.
[128] Z. H Zhou, M. L. Zhang, S.J. Huang, Y.F. Li. Multi-instance multi-label
learning. Artificial intelligence. 176(1), 2012: 2291-2320.
[129] Z. H Zhou, M. L. Zhang. Multi-Instance Multi-Label Learning with
Application to Scene Classification. In: Advances in neural information
processing systems. 2007: 1609-1616.
[130] Z. H. Zhou, J. M. Xu. On the relation between multi-instance learning and
semisupervised learning. In: Proceedings of the 24th international
conference on Machine learning. ACM, 2007: 1167-1174.
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_cai_tien_phan_lop_da_nhan_van_ban_va_ung.pdf