KẾT LUẬN
Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương
đồng của câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng
nhau trong bản tổng hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý
kiến dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên. Luận văn đã
xây dựng chương trình thực nghiệm cho kết quả tốt, chứng minh khả
năng có thể áp dụng giải pháp vào giải quyết bài toán thực tế.
Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau:
- Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng
độ chính xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng
Việt. Kết hợp các bài toán tính độ tương đồng và phủ định trong tiếng
Việt để có giải pháp tối ưu giải quyết vấn đề phát hiện nội dung góp ý
giống nhau trong quá trình tổng hợp ý kiến góp ý tại các Hội nghị.
- Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ
thuật phát hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý
kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ
tổng hợp tại các Hội nghị Trung ương
                
              
                                            
                                
            
 
            
                 26 trang
26 trang | 
Chia sẻ: yenxoi77 | Lượt xem: 2699 | Lượt tải: 2 
              
            Bạn đang xem trước 20 trang tài liệu Tóm tắt luận văn Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ 
*** 
TRẦN THANH TÙNG 
TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG 
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP 
Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 
TÓM TẮT LUẬN VĂN THẠC SĨ 
CÔNG NGHỆ THÔNG TIN 
HÀ NỘI - 2016 
1 
MỤC LỤC 
MỤC LỤC.1 
MỞ ĐẦU2 
CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI 
NGHỊ...4 
1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị4 
2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội 
nghị Trung ƣơng4 
3. Xác định bài toán cần giải quyết.6 
CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG 
CÂU7 
1. Khái niệm độ tƣơng đồng câu..7 
2. Các phƣơng pháp tính độ tƣơng đồng câu.7 
3. Đánh giá và lựa chọn phƣơng pháp..17 
CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG 
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP 
Ý TRONG HỘI NGHỊ.17 
1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần 
mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ18 
2. Xử lý dữ liệu.18 
3. Thực nghiệm19 
4. Đánh giá kết quả thực nghiệm21 
KẾT LUẬN22 
Tài liệu tham khảo.23 
2 
MỞ ĐẦU 
1. Đặt vấn đề 
Trong một nhiệm kỳ hoạt động, Ban Chấp hành Trung ương 
Đảng tổ chức các Hội nghị Trung ương với nhiều nội dung quan trọng 
được đưa ra bàn thảo, xin ý kiến các Ủy viên Trung ương trước khi 
thông qua chính thức. Những nhiệm vụ quan trọng của Văn phòng 
Trung ương Đảng là chuẩn bị, tổ chức, phục vụ về cơ sở vật chất và nội 
dung, tổng hợp tất cả các ý kiến góp ý của các Hội nghị Trung ương 
Đảng. Hiện nay, ở Văn phòng Trung ương Đảng sử dụng phần mềm hỗ 
trợ tổng hợp ý kiến thảo luận tổ tại các Hội nghị Trung ương. Nhưng phần 
mềm này chưa có chức năng phát hiện, đánh dấu các ý kiến giống nhau. 
Với mong muốn nâng cao chất lượng phần mềm, luận văn nghiên cứu các 
giải pháp nhằm giải quyết vấn đề trên. 
2. Mục tiêu và nhiệm vụ nghiên cứu của luận văn 
* Mục tiêu: Nghiên cứu các phương pháp tính toán độ tương 
đồng câu. Trên cơ sở đó, đề xuất giải pháp xây dựng chức năng phát 
hiện, đánh dấu những câu, đoạn văn giống nhau về ngữ nghĩa trong các 
ý kiến góp ý vào cùng một nội dung của chủ đề được đưa ra bàn thảo 
tại Hội nghị Trung ương Đảng. 
* Nhiệm vụ: 
- Giới thiệu bài toán tổng hợp ý kiến trong hội nghị. 
- Tìm hiểu các phương pháp tính độ tương đồng câu. 
- Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống 
tổng hợp ý kiến góp ý trong Hội nghị 
3. Tổng quan nghiên cứu vấn đề 
3 
Trên thế giới, các công trình nghiên cứu về tính toán độ tương 
đồng giữa các từ, các câu hoặc đoạn văn ngắn đã được nghiên cứu rộng 
rãi. Tại Việt Nam, các thuật toán tính toán độ tương đồng giữa các câu 
để áp dụng vào bài toán tóm tắt văn bản cũng đã được nhiều tác giả tìm 
hiểu, nghiên cứu. Đã có tác giả nghiên cứu về bài toán phân lớp ý kiến 
góp ý trong tổng hợp ý kiến trong Hội nghị [3]. Tuy nhiên việc phát 
hiện nội dung góp ý giống nhau trong một nội dung thảo luận để cảnh 
báo, lược bỏ thì chưa được nghiên cứu áp dụng. 
5. Phƣơng pháp nghiên cứu 
Các phương pháp nghiên cứu: phương pháp khảo sát; tổng hợp; 
phân tích, đánh giá; thực nghiệm. 
6. Nội dung của luận văn 
Ngoài phần mở đầu và kết luận, luận văn được bố cục thành 3 
chương: 
- Chương 1. Bài toán tổng hợp ý kiến góp ý trong hội nghị. 
- Chương 2. Các phương pháp tính độ tương đồng câu. 
- Chương 3. Đề xuất giải pháp phát hiện nội dung giống nhau 
trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị 
4 
CHƢƠNG 1 
BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 
1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị 
Trong luận văn, cụm từ “tổng hợp ý kiến” được hiểu theo khía 
cạnh là tập hợp các ý kiến góp ý riêng lẻ để thể hiện xu hướng của đại 
biểu góp ý vào một nội dung của vấn đề. Ví dụ như: Đa số ý kiến cho 
rằng, Một số ý kiến cho rằng, Có ý kiến cho rằng. 
Có những bài toán được hiểu tương tự bài toán tổng hợp ý kiến 
theo một khía cạnh nào đó: Bài toán về “khai phá quan điểm”, Bài toán 
Tóm tắt văn. Trong luận văn về “Hệ thống tự động tổng hợp ý kiến góp 
ý trong Hội nghị” [3], tác giả có đưa ra mô hình phân lớp ý kiến tổng 
hợp. Nhu cầu đặt ra là cần xây dựng một hệ thống hỗ trợ tổng hợp ý 
kiến có chức năng tập hợp các ý kiến góp ý, có các tính năng giúp cho 
người sử dụng tổng hợp nhanh hơn như việc phát hiện, đánh dấu các 
nội dung giống nhau để qua đó người sử dụng quyết định việc tổng hợp 
ý kiến. 
2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội 
nghị Trung ƣơng 
Hiện tại Văn phòng Trung ương Đảng đang sử dụng phần mềm 
Hỗ trợ tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung ương. Phầm 
mềm đang được sử dụng này có chức năng cơ bản là từ các bản tổng 
hợp ý kiến thảo luận của Trung ương tại mỗi tổ, phần mềm đã gộp các 
ý kiến này theo từng nội dung. Kết quả là phần mềm đã giúp cho các 
chuyên viên tránh được tổng hợp thiếu, sót các ý kiến trong quá trình 
tổng hợp. 
5 
2.1. Quy trình tổng hợp ý kiến thảo luận 
Tại mỗi kỳ họp Hội nghị Trung ương, các ủy viên Trung ương 
được chia thành các tổ để bàn nội dung của Hội nghị. Để ghi chép biên 
bản và tổng hợp ý kiến góp ý ở mỗi tổ, Văn phòng Trung ương Đảng 
bố trí : Các tổ thư ký tương ứng với các tổ thảo luận của Trung ương 
Đảng và một nhóm tổng hợp chung cho chủ đề thảo luận. Dựa trên biên 
bản chi tiết và bản tổng hợp tổ của các thư ký, nhóm tổng hợp chung 
tổng hợp các ý kiến góp ý của Hội nghị. 
2.2. Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ 
Trên cơ sở khảo sát, nghiên cứu quy trình tổng hợp ý kiến trên 
giấy, Văn phòng Trung ương Đảng đã xây dựng và áp dụng phần mềm 
Hỗ trợ tổng hợp ý kiến với các tiến trình sau: 
Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến 
Kết quả chính của phần mềm là bản tổng hợp các ý kiến góp ý cả các tổ 
6 
Hình 1.3. Kết quả bản tổng hợp các ý kiến góp ý của các Tổ 
* Đánh giá chung: Giúp cho việc tổng hợp các ý kiến có chất 
lượng hơn, tránh được tình trạng tổng hợp thiếu ý kiến của đại biểu. 
Giúp cho các chuyên viên tổng hợp chung hạn chế tối đa việc “bỏ sót” 
ý kiến thảo luận ở tổ. Một số hạn chế: phần mềm chỉ mang tính tập hợp 
các ý kiến các tổ theo các khung mục cho trước mà chưa hỗ trợ đánh 
dấu, phát hiện ý giống nhau trong các bản tổng hợp tại tổ và bản tổng 
hợp chung do vậy hiệu quả hỗ trợ chưa được cao. 
3. Xác định bài toán cần giải quyết 
Để hỗ trợ tốt hơn việc tổng hợp ý kiến thảo luận Tổ tại các Hội 
nghị Trung ương, rất cần thiết phải giải quyết bài toán phát hiện, đánh 
dấu các nội dung giống nhau trong các ý kiến góp ý vào trong cùng một 
vấn đề. Qua đó, giúp các chuyên viên nhanh chóng nhận biết, lược bỏ 
các ý kiến giống nhau đã được tổng hợp trước. Yêu cầu cần đáp ứng 
khi giải quyết bài toán là không đòi hỏi phát hiện chính xác nội dung 
giống nhau (chỉ cần gần giống hoặc tương tự) và giải pháp kỹ thuật 
không quá phức tạp. Người sử dụng sẽ quyết định sự trùng lặp về nội 
dung và quyết định có lược bỏ hay không. Vì vậy, yêu cầu về độ chính 
xác của giải pháp như trên là đảm bảo nhu cầu sử dụng. 
7 
CHƢƠNG 2 
CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU 
1. Khái niệm độ tƣơng đồng câu 
Sự tương đồng là một đại lượng (con số) phản ánh cường độ của 
mối quan hệ giữa hai đối tượng hoặc hai đặc trưng. Đại lượng này 
thường ở trong phạm vi từ 0 đến 1. 
Phát biểu bài toán độ tính tương đồng câu của luận văn này như 
sau: Xét một tài liệu d gồm có n câu: d = s1, s2, , sn. Mục tiêu của bài 
toán là tìm ra một giá trị của hàm S(si, sj) với S϶ (0,1), và i, j = 1, ..., n. 
Hàm S(si, sj) được gọi là độ đo tương đồng giữa hai câu si và sj. Giá trị 
càng cao thì sự giống nhau về nghĩa của hai câu càng nhiều. 
2. Các phƣơng pháp tính độ tƣơng đồng câu 
2.1. Phương pháp tính độ tương đồng câu dựa vào WordNet 
Ý tưởng chính của phương pháp này là thông qua tập ngữ nghĩa 
(WordNet) để tính toán độ tương đồng giữa các từ trong các câu, qua 
đó tính độ tương đồng của các câu. Ngoài ra để tăng thêm phần chính 
xác còn có kết hợp tính sự tương đồng vị trí xuất hiện các từ của các 
câu.[12] 
Giới thiệu về WordNet: WordNet là kho dữ liệu tiếng Anh, các 
từ tiếng Anh được nhóm thành các bộ từ đồng nghĩa được gọi là synset, 
cung cấp các định nghĩa chung và ngắn gọn, đồng thời ghi lại giá trị 
quan hệ ngữ nghĩa giữa các bộ đồng nghĩa. Phương pháp tính độ tương 
đồng giữa 2 từ dựa vào độ dài ngắn nhất trên sơ đồ phân cấp. 
8 
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet 
Các bƣớc tính độ tƣơng đồng của câu 
Hình 2.2. Sơ đồ tính độ tương đồng của câu 
- Bước 1: Tiền xử lý dữ liệu. 
- Bước 2: Tính độ tương đồng của hai từ (dựa vào WordNet). 
- Bước 3: Tính độ tương đồng ngữ nghĩa của hai câu. 
- Bước 4: Tính độ tương đồng thứ tự các từ của hai câu. 
- Bước 5: Tính độ tương đồng hai câu (kết quả của bước 3, bước 4). 
2.2. Phương pháp tính độ tương đồng câu dựa vào Wikipedia 
Giới thiệu mạng ngữ nghĩa Wikipedia: Wikipedia là một bách 
khoa toàn thư nội dung mở, là kết quả của sự cộng tác của chính những 
người đọc từ khắp nơi trên thế giới. Wikipedia tiếng Việt được thành 
lập vào tháng 10 năm 2003. Hiện nay đã có 1.149.101 bài viết bằng 
tiếng Việt với 3.234.593 trang [5]. 
9 
Kiến trúc mạng Wikipedia: Các bài viết của Wikipedia được tổ 
chức dưới dạng một mạng các khái niệm liên quan với nhau về mặt ngữ 
nghĩa. Các mục chủ đề (category) được tổ chức trong một cấu trúc phân 
cấp (taxonomy) được gọi là đồ thị chủ đề Wikipedia (Wikipedia 
Category Graph - WCG)[20]. 
Hình 2.3. Đồ thị chủ đề Wikipedia 
Tính độ tƣơng đồng của hai từ trong Wikipedia: Có hai phương 
pháp tiếp cận để tính toán độ tương đồng dựa trên Wikipedia. 
(1) Phương pháp tiếp cận Semantic similarity: Phương pháp này 
sử dụng các thuật toán xử lý ngôn ngữ tự nhiên để tính toán mối quan 
hệ giữa các từ cần xác định độ tương đồng. Một trong các thuật toán 
được đưa ra như sau[18] 
Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia 
Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia 
để trích một đoạn văn ngắn có liên quan đến từ đó (Wiki Snippet 
10 
Extraction). Khi tìm kiếm một từ trên Wikipedia, thì kết quả trả về 
thường là một văn bản định nghĩa, giải thích về từ đó. Những đoạn văn 
này sẽ được sử dụng để tính toán độ tương đồng ngữ nghĩa giữa các từ. 
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia 
 Sau khi lấy được đoạn văn thì đoạn văn đó được qua các bước 
xử lý dữ liệu như là loại bỏ các từ dùng, những từ không có giá trị. Kết 
quả thu được là một tập các từ, sau đó người ta sử dụng các thuật toán 
xử lý ngôn ngữ tự nhiên thông qua các độ đo như Cosine, Jaccard để 
tính toán. 
(2) Phương pháp tiếp cận Semantic relatedness: Phương pháp 
tính độ đo SR trên đồ thị WCG bằng cách cải tiến các độ đo tính toán 
sự tương đồng ngữ nghĩa của hai từ trên Wordnet. Phương pháp này 
được chia làm hai loại độ đo: 
+ Độ đo dựa khoảng cách giữa các khái niệm (path based). Kết 
quả tính càng nhỏ tức là mối tương đồng càng gần với nhau. 
+ Độ đo dựa vào thông tin giữa các khái niệm (information content 
based). Kết quả tính càng lớn mối quan hệ tương đồng càng gần nhau. 
2.3. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn 
(Latent Dirichlet Allocation) 
11 
Ý tưởng của phương pháp là tính độ tương đồng câu dựa trên mô 
hình phân tích chủ đề ẩn LDA (Latent Dirichlet Allocation) [2,15]. Mô 
hình tính độ tương đồng câu dựa vào chủ đề ẩn như sau: 
Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn 
Giải thích mô hình: 
+ Chọn một tập “universal dataset” và phân tích chủ đề cho nó 
(quá trình ước lượng tham số theo mô hình LDA). 
+ Kết quả lấy ra được các chủ đề trong tập “universal dataset”, 
các chủ đề này được gọi là chủ đề ẩn. 
+ Đầu vào là một văn bản đơn, sau các bước tiền xử lý văn bản 
sẽ thu được một danh sách các câu. 
+ Suy luận chủ đề cho các câu đã qua tiền xử lý, kết quả thu 
được một danh sách các câu được thêm chủ đề ẩn. 
Mô hình LDA dựa trên ý tưởng là giả thuyết mỗi một tài liệu là 
sự tổ hợp của một tập các chủ đề (topic) ẩn k với các trọng số p(k|d) (là 
xác suất xuất hiện của chủ đề k trong tài liệu d), trong đó mỗi chủ đề lại 
là sự tổ hợp của một tập các từ vựng xuất hiện trong các tài liệu với các 
trọng số p(w|k) (là xác suất xuất hiện của từ vựng w trong chủ đề k). 
Khi đó, dựa trên các thông tin về các chủ đề của từng tài liệu, cụ thể ở 
đây là p(k|d) có thể tính độ tương đồng của các tài liệu. 
12 
Hình 2.7. Mô hình LDA 
α tham số Dirichle; β tham số Dirichle; θd phân phối các chủ đề 
trong tài liệu thứ d; Zd,n topic index (từ n của tài liệu d); Wd,n từ n của 
tài liệu d chỉ bởi Zd,n; ɸk (phi) phân phối của các từ được sinh ra bởi 
topic Zd,n; K: số chủ đề (topic); D: số tài liệu; N: số lượng các từ trong 
tập tài liệu D; 
Trong LDA được chia làm ba mức: mức tập tài liệu, mức tài liệu, 
và mức từ. Các tham số (α,β ) là các tham số ở mức tập tài liệu, các 
biến θd là các biến ở mức tài liệu và các biến Wd,n là các biến ở mức từ 
và được xác định với mỗi từ trong mỗi tài liệu. Thông qua mô hình 
LDA ta tính được trọng số của mỗi chủ đề trên tài liệu 
K
kd
kd
kd
1 ,
,
,
 
Khi đó vector tương ứng với tài liệu d có dạng như sau: 
Sd={θ1,θ2,,θK} 
Với hai tài liệu (hai câu) thứ d và thứ p sử dụng độ đo cosine để 
tính độ tương đồng giữa chúng. 
K
k
k
p
K
k
k
d
K
k
k
p
k
d
pdSim
1
22
1
1
)()(
),(
 
2.4. Phương pháp tính độ tương đồng dựa vào phân tích ngữ 
nghĩa tiềm ẩn (Latent Semantic Analysis) 
13 
Phân tích ngữ nghĩa tiềm ẩn là một thuật toán và phương pháp 
trích xuất và đại diện nội dung ngữ nghĩa bởi sử dụng tính toán thống 
kê với một tập văn bản lớn (Landauer và Dumais, 1997). Ý tưởng cơ 
bản là lấy tập hợp các từ trong tập văn bản, đưa ra từ xuất hiện hoặc 
không xuất hiện trong các văn bản thuộc tập văn bản đó, sau đó tính 
toán sự tương đồng của các từ với các từ khác hoặc của tập từ với tập từ 
khác [10]. 
LSA giả định rằng những từ có ngữ nghĩa gần nhau thường xuất 
hiện trong cùng ngữ cảnh. Xuất phát từ bảng dữ liệu D kích thước 
nm , mỗi hàng tượng trưng cho một ký tự, mỗi cột tượng trưng cho 
một đoạn văn bản, mỗi một ô chứa tần suất mà từ ở dòng ma trận xuất 
hiện trong đoạn văn bản được biểu diễn tại cột của ma trận. Sau đó, 
LSA sử dụng kỹ thuật phân tích giá trị đơn (Singular Value 
Decomposition - SVD) rút trích mối tương quan ngữ nghĩa giữa các từ 
trong tập văn bản, giảm số cột (chiều) về k đặc trưng tiềm ẩn của bảng 
dữ liệu, thu được bảng R kích thước km trong khi vẫn giữ được cấu 
trúc tương tự của các dòng trong bảng R. 
Phân tích giá trị đơn (SVD) trong LSA 
Trong LSA ma trận biểu diễn mối quan hệ giữa các từ và văn bản 
là ma trận Amxn là một ma trận thưa có kích thước lớn. Để giảm số 
chiều của ma trận người ta thường tìm cách xấp xỉ ma trận A (có hạng 
r) bằng một ma trận Ak có hạng k nhỏ hơn rất nhiều. Ma trận xấp xỉ của 
A là Ak=UkƩkVk
T
. 
14 
Hình 2.8. SVD trong LSA 
Việc xấp xỉ này có thể xem như chuyển không gian đang xét (r 
chiều) về không gian k chiều, với k <<r. Về mặt thực hành việc cắt ma 
trận A về số chiều k còn loại bỏ nhiễu và tăng cường các mối liên kết 
ngữ nghĩa tiềm ẩn giữa các từ trong tập văn bản [1]. Trong LSA các ma 
trận Ak được gọi là không gian ngữ nghĩa (semantic space). Độ phức 
tạp của thuật toán SVD là O(n2k3), trong đó n là số từ, k là số chiều 
trong không gian ngữ nghĩa (khoản ~ 50 đến 350). 
Để có thể hiểu rõ hơn về LSA ta xem xét một ví dụ sau [8]. 
Có 9 câu về công nghệ thông tin 
c1: Human machine interface for ABC computer applications 
c2: A survey of user opinion of computer system response time 
c3: The EPS user interface management system 
c4: System and human system engineering testing of EPS 
c5: Relation of user perceived response time to error measurement 
m1: The generation of random, binary, ordered trees 
m2: The intersection graph of paths in trees 
m3: Graph minors IV: Widths of trees and well-quasi-ordering 
15 
m4: Graph minors: A survey 
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, 
mỗi một từ xuất hiện ít nhất trong 2 câu 
Hình 2.10. Ma trận U 
Hình 2.11. Ma trận giá trị đơn với k=2 
 c1 c2 c3 c4 c5 m1 m2 m3 m4 
human 1 0 0 1 0 0 0 0 0 
interface 1 0 1 0 0 0 0 0 0 
computer 1 1 0 0 0 0 0 0 0 
user 0 1 1 0 1 0 0 0 0 
system 0 1 1 2 0 0 0 0 0 
response 0 1 0 0 1 0 0 0 0 
time 0 1 0 0 1 0 0 0 0 
EPS 0 0 1 1 0 0 0 0 0 
survey 0 1 0 0 0 0 0 0 1 
trees 0 0 0 0 0 1 1 1 0 
graph 0 0 0 0 0 0 1 1 1 
minors 0 0 0 0 0 0 0 1 1 
16 
Hình 2.12. Ma trận V 
Kết quả tính toán SVD Ak==UkƩkVk
T
 với k=2 
Hình 2.13. Ma trận được xây dựng lại với k=2 
Ví dụ từ “survey” với câu m4 ban đầu là 1, qua biến đổi giá trị 
0.42; từ “trees” với câu m4 ban đầu là 0, qua biến đổi giá trị 0.66. Sự 
thay đổi này được chứng minh là chính xác hơn so với mối quan hệ ban 
đầu. 
Vector ngữ nghĩa của câu được biểu diễn trong mô hình LSA 
như sau: Trong LSA ngữ nghĩa của câu, đoạn văn là tổng ngữ nghĩa 
của các từ trong câu, đoạn văn đó. 
Meaning passage = Ʃ(mword1, mword2,mwordn) [11] 
Trong đó mỗi một từ được biểu diễn bởi một hàng ngang của ma 
trận không gian ngữ nghĩa. 
17 
Tính độ tương đồng giữa các câu: Để tính độ tương đồng giữa 
hai từ, hai câu trong LSA sử dụng độ đo Cosine giữa các vector. 
||||.||||
.
21
21
ss
ss
ss  
3. Đánh giá và lựa chọn phƣơng pháp 
- Phương pháp tính độ tương đồng câu dựa vào WordNet đòi hỏi 
xây dựng kho ngữ liệu tiếng Việt. 
- Phương pháp tính độ tương đồng câu dựa vào Wikipedia cần tải 
bộ dữ liệu Wikipedia tiếng Việt làm cơ sở để so sánh. 
- Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn cần 
một tập dữ liệu lớn, đa dạng về lĩnh vực để phân tích chủ đề. Trong 
trường hợp số lượng chủ đề đưa vào lớn, độ phức tạp của thuật toán 
NP-hard. 
- Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa 
tiềm ẩn cần bộ dữ liệu để tạo ma trận ngữ nghĩa ban đầu nhưng không 
đòi hỏi bộ dữ liệu quá lớn. Độ chính xác tăng cao khi dữ liệu đưa vào 
tạo ma trận ngữ nghĩa cùng ngữ cảnh với dữ liệu cần so sánh. 
Từ đánh giá trên, để giải quyết bài toán phát hiện nội dung giống 
nhau trong tổng hợp ý kiến thảo luận tổ, trong luận văn lựa chọn sử dụng 
phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn. Lý 
do chính để lựa chọn phương pháp là việc xây dựng không gian ngữ nghĩa 
dựa trên các dữ liệu của các Hội nghị trước được lưu trữ lại. Phương pháp 
này đáp ứng được yêu cầu đã xác định ở mục 3 của Chương I. 
CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG 
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP 
Ý TRONG HỘI NGHỊ 
18 
1. Đề xuất giải pháp phát hiện nội dung giống nhau trong 
phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ 
Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến 
Các dữ liệu của các Hội nghị trước và các tài liệu liên quan đến 
vấn đề xin ý kiến được số hóa, qua bước xử lý dữ liệu được xây dựng 
thành ma trận ngữ nghĩa. Thông qua phần mềm Hỗ trợ tổng hợp ý kiến 
kết quả thu được là các bản tổng hợp ý kiến góp ý của các tổ. Qua bước 
xử lý dữ liệu và thông qua ma trận ngữ nghĩa đã được xây dựng từ 
trước các câu (hoặc đoạn văn) được biểu diễn thành các vector. Thông 
qua thuật toán tính độ tương đồng giữa hai câu để xác định sự tương 
đồng của từng đoạn văn với nhau. Thiết lập một ngưỡng về độ tương 
đồng giữa các câu. Kết quả thu được là các câu có độ tương đồng vượt 
ngưỡng được đánh dấu màu để chuyên viên tổng hợp chú ý, lược bỏ. 
2. Xử lý dữ liệu 
Trong bước xử lý dữ liệu, dữ liệu được loại bỏ những dấu câu 
như dấu phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than. Đối với văn 
bản là tiếng Việt xử dụng công cụ tách từ để xác định các từ đơn, từ 
ghép cho trong văn bản. 
19 
3. Thực nghiệm 
3.1. Môi trường thực nghiệm 
Quá trình thực nghiệm trên máy tính có cấu hình như sau: 
Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm 
Thành phần Chỉ số 
CPU Intel (R) Pentium 1,87 Ghz 
RAM 2 GB 
HDD 320 GB 
OS Windows 7 Home Basic 32 bits 
3.2. Chương trình phần mềm 
Các thư viện sử dụng trong phần mềm (các packages của ngôn 
ngữ lập trình R) 
Bảng 3.2. Các thư viện sử dụng 
STT Tên thư viện Nguồn Mục đích 
1 tm https://cran.r-
project.org/web/packa
ges/tm/index.html 
Các hàm xử lý về 
text mining 
2 Lsa https://cran.r-
project.org/web/packa
ges/lsa/index.html 
Hàm xây dựng 
không gian ngữ 
nghĩa 
3 LSAfun https://cran.r-
project.org/web/packa
ges/LSAfun/index.ht
ml 
Hàm tính toán độ 
tương đồng của 
các câu 
4 JVnTextPro Jvntextpro.sourceforg
e.net 
Thư viện tách từ 
tiếng Việt 
Phần giao diện được viết trên ngôn ngữ C#, có chức năng nhập 
vào một đoạn văn bản và so sánh với một số đoạn văn bản khác sau với 
20 
một ngưỡng được thiết lập, sau đó tô đậm đoạn văn nào có độ tương 
đồng lớn hơn hoặc bằng ngưỡng đã cho với đoạn văn nhập vào. 
3.3. Dữ liệu thực nghiệm: 
Dữ liệu để xây dựng ma trận biểu diễn có kích thước 5092 từ và 
687 dòng về nội dung khởi nghiệp (kích thước ma trận 5092 x 687). 
3.4. Giao diện chương trình thực nghiệm 
- Khởi tạo không gian ngữ nghĩa LSA: Có chức năng tạo không 
gian ngữ nghĩa LSA từ dữ liệu đã có (tạo SVD với k=50) 
Hình 3.2. Giao diện khởi tạo LSA 
- Giao diện để nhập đoạn văn để so sánh 
Hình 3.3. Giao diện nhập đoạn văn để so sánh 
21 
- Giao diện kết quả so sánh 
Hình 3.4. Kết quả so sánh 
Với ngưỡng so sánh 0.7 đoạn có độ tương đồng cao hơn được tô 
đậm. 
4. Đánh giá kết quả thực nghiệm 
Trên cơ sở kết quả thực nghiệm, có thể nhận thấy rằng việc giải 
quyết bài toán phát hiện nội dung giống nhau trong tổng hợp ý kiến 
thảo luận tổ là có tính khả thi. Tuy vậy vẫn còn nhiều vấn đề cần được 
nghiên cứu để giải quyết như (1) xác định giá trị ngưỡng sao cho tối ưu, 
(2) trong trường hợp một vấn đề mới đưa ra xin ý kiến nếu ma trận ban 
đầu xây dựng chưa có những tài liệu đề cập tới vấn đề này độ chính xác 
không cao, (3) chưa xử lý được các tình huống phủ định trong tiếng 
Việt, ví dụ “Đa số nhất trí với phương án được xin ý kiến” với “Đa số 
không nhất trí với phương án được xin ý kiến” hay “Chúng ta không 
quyết vấn đề này” với “Chúng ta không thể không quyết vấn đề này”. 
22 
KẾT LUẬN 
Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương 
đồng của câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng 
nhau trong bản tổng hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý 
kiến dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên. Luận văn đã 
xây dựng chương trình thực nghiệm cho kết quả tốt, chứng minh khả 
năng có thể áp dụng giải pháp vào giải quyết bài toán thực tế. 
Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau: 
- Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng 
độ chính xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng 
Việt. Kết hợp các bài toán tính độ tương đồng và phủ định trong tiếng 
Việt để có giải pháp tối ưu giải quyết vấn đề phát hiện nội dung góp ý 
giống nhau trong quá trình tổng hợp ý kiến góp ý tại các Hội nghị. 
- Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ 
thuật phát hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý 
kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ 
tổng hợp tại các Hội nghị Trung ương. 
23 
Tài liệu tham khảo 
Tiếng Việt 
1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng, 
Kỷ yếu Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa 
Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56. 
2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu 
Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu 
điện tử trên lưới dữ liệu VNGRID, Chuyên san “Các công trình nghiên 
cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông”, tr 
72 – 81. 
3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý 
trong Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học 
Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46. 
4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất 
câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công 
nghệ, Đại học Quốc gia Hà Nội. 
5. https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016. 
6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần 
mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”. 
Tiếng Anh 
7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), 
“Latent Dirichlet Allocation”, Journal of Machine Learning Research 
3, pp 993-1022 . 
8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. 
and Harshman, R.A. (1990), “Indexing by latent semantic analysis”, 
Journal of the Society for Information Science, 41(6), pp 391-407. 
9. Aminul Islam and Diana Inkpen (2008), “Semantic Text 
Similarity Using Corpus-Based Word Similarity and String Similarity”, 
24 
ACM Transactions on Knowledge Discovery from Data, Vol. 2, No.2, 
Article 10. 
10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to 
Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, 
Induction, and Representation of Knowledge. 
11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis 
and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 
13-14. 
12. Yuhua Li, David McLean, Zuhair A.Bandar, James 
D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on 
Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge 
and data engineering, VOL. 18, NO. 8 . 
13. Rada Mihalcea and Courtney Corley, Carlo Strapparava, 
Corpus-based and Knowledge-based Measures of Text Semantic 
Similarity. 
14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), 
“VietNamese Sentence Similarity Based on Concept”, IFIP 
International Federation for Information Processing 2014 . 
15. Tu C.Nguyen (2008), Hidden Topic discovery toward 
classification and clustering in Vietnamese web documents, Master 
Thesis, Universtiy of Engineering and Technology, Vietnam National 
University, Hanoi. 
16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA 
and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs 
Consisting of Multipel Sentences. 
17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic 
Information Content Metric for Semantic Similarity in WordNet. 
25 
18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010), 
“Measuring Semantic Similarity between Words Using Web 
Documents”, WWW2007: Track:Semantic Web. 
19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), 
Comparing Wikipedia and German WordNet by Evaluating Semantic 
Relatedness on Multipe Datasets. 
20. TorstenZesch, IrynaGurevych (2007), Analys is of the 
Wikipedia Category Graph for NLP Applications. 
            Các file đính kèm theo tài liệu này:
 tom_tat_luan_van_tu_dong_phan_tich_cac_noi_dung_giong_nhau_t.pdf tom_tat_luan_van_tu_dong_phan_tich_cac_noi_dung_giong_nhau_t.pdf