KẾT LUẬN
Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương
đồng của câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng
nhau trong bản tổng hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý
kiến dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên. Luận văn đã
xây dựng chương trình thực nghiệm cho kết quả tốt, chứng minh khả
năng có thể áp dụng giải pháp vào giải quyết bài toán thực tế.
Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau:
- Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng
độ chính xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng
Việt. Kết hợp các bài toán tính độ tương đồng và phủ định trong tiếng
Việt để có giải pháp tối ưu giải quyết vấn đề phát hiện nội dung góp ý
giống nhau trong quá trình tổng hợp ý kiến góp ý tại các Hội nghị.
- Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ
thuật phát hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý
kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ
tổng hợp tại các Hội nghị Trung ương
26 trang |
Chia sẻ: yenxoi77 | Lượt xem: 2192 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Tóm tắt luận văn Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
***
TRẦN THANH TÙNG
TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP
Ý KIẾN GÓP Ý TRONG HỘI NGHỊ
TÓM TẮT LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2016
1
MỤC LỤC
MỤC LỤC.1
MỞ ĐẦU2
CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI
NGHỊ...4
1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị4
2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội
nghị Trung ƣơng4
3. Xác định bài toán cần giải quyết.6
CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG
CÂU7
1. Khái niệm độ tƣơng đồng câu..7
2. Các phƣơng pháp tính độ tƣơng đồng câu.7
3. Đánh giá và lựa chọn phƣơng pháp..17
CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP
Ý TRONG HỘI NGHỊ.17
1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần
mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ18
2. Xử lý dữ liệu.18
3. Thực nghiệm19
4. Đánh giá kết quả thực nghiệm21
KẾT LUẬN22
Tài liệu tham khảo.23
2
MỞ ĐẦU
1. Đặt vấn đề
Trong một nhiệm kỳ hoạt động, Ban Chấp hành Trung ương
Đảng tổ chức các Hội nghị Trung ương với nhiều nội dung quan trọng
được đưa ra bàn thảo, xin ý kiến các Ủy viên Trung ương trước khi
thông qua chính thức. Những nhiệm vụ quan trọng của Văn phòng
Trung ương Đảng là chuẩn bị, tổ chức, phục vụ về cơ sở vật chất và nội
dung, tổng hợp tất cả các ý kiến góp ý của các Hội nghị Trung ương
Đảng. Hiện nay, ở Văn phòng Trung ương Đảng sử dụng phần mềm hỗ
trợ tổng hợp ý kiến thảo luận tổ tại các Hội nghị Trung ương. Nhưng phần
mềm này chưa có chức năng phát hiện, đánh dấu các ý kiến giống nhau.
Với mong muốn nâng cao chất lượng phần mềm, luận văn nghiên cứu các
giải pháp nhằm giải quyết vấn đề trên.
2. Mục tiêu và nhiệm vụ nghiên cứu của luận văn
* Mục tiêu: Nghiên cứu các phương pháp tính toán độ tương
đồng câu. Trên cơ sở đó, đề xuất giải pháp xây dựng chức năng phát
hiện, đánh dấu những câu, đoạn văn giống nhau về ngữ nghĩa trong các
ý kiến góp ý vào cùng một nội dung của chủ đề được đưa ra bàn thảo
tại Hội nghị Trung ương Đảng.
* Nhiệm vụ:
- Giới thiệu bài toán tổng hợp ý kiến trong hội nghị.
- Tìm hiểu các phương pháp tính độ tương đồng câu.
- Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống
tổng hợp ý kiến góp ý trong Hội nghị
3. Tổng quan nghiên cứu vấn đề
3
Trên thế giới, các công trình nghiên cứu về tính toán độ tương
đồng giữa các từ, các câu hoặc đoạn văn ngắn đã được nghiên cứu rộng
rãi. Tại Việt Nam, các thuật toán tính toán độ tương đồng giữa các câu
để áp dụng vào bài toán tóm tắt văn bản cũng đã được nhiều tác giả tìm
hiểu, nghiên cứu. Đã có tác giả nghiên cứu về bài toán phân lớp ý kiến
góp ý trong tổng hợp ý kiến trong Hội nghị [3]. Tuy nhiên việc phát
hiện nội dung góp ý giống nhau trong một nội dung thảo luận để cảnh
báo, lược bỏ thì chưa được nghiên cứu áp dụng.
5. Phƣơng pháp nghiên cứu
Các phương pháp nghiên cứu: phương pháp khảo sát; tổng hợp;
phân tích, đánh giá; thực nghiệm.
6. Nội dung của luận văn
Ngoài phần mở đầu và kết luận, luận văn được bố cục thành 3
chương:
- Chương 1. Bài toán tổng hợp ý kiến góp ý trong hội nghị.
- Chương 2. Các phương pháp tính độ tương đồng câu.
- Chương 3. Đề xuất giải pháp phát hiện nội dung giống nhau
trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị
4
CHƢƠNG 1
BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ
1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị
Trong luận văn, cụm từ “tổng hợp ý kiến” được hiểu theo khía
cạnh là tập hợp các ý kiến góp ý riêng lẻ để thể hiện xu hướng của đại
biểu góp ý vào một nội dung của vấn đề. Ví dụ như: Đa số ý kiến cho
rằng, Một số ý kiến cho rằng, Có ý kiến cho rằng.
Có những bài toán được hiểu tương tự bài toán tổng hợp ý kiến
theo một khía cạnh nào đó: Bài toán về “khai phá quan điểm”, Bài toán
Tóm tắt văn. Trong luận văn về “Hệ thống tự động tổng hợp ý kiến góp
ý trong Hội nghị” [3], tác giả có đưa ra mô hình phân lớp ý kiến tổng
hợp. Nhu cầu đặt ra là cần xây dựng một hệ thống hỗ trợ tổng hợp ý
kiến có chức năng tập hợp các ý kiến góp ý, có các tính năng giúp cho
người sử dụng tổng hợp nhanh hơn như việc phát hiện, đánh dấu các
nội dung giống nhau để qua đó người sử dụng quyết định việc tổng hợp
ý kiến.
2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội
nghị Trung ƣơng
Hiện tại Văn phòng Trung ương Đảng đang sử dụng phần mềm
Hỗ trợ tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung ương. Phầm
mềm đang được sử dụng này có chức năng cơ bản là từ các bản tổng
hợp ý kiến thảo luận của Trung ương tại mỗi tổ, phần mềm đã gộp các
ý kiến này theo từng nội dung. Kết quả là phần mềm đã giúp cho các
chuyên viên tránh được tổng hợp thiếu, sót các ý kiến trong quá trình
tổng hợp.
5
2.1. Quy trình tổng hợp ý kiến thảo luận
Tại mỗi kỳ họp Hội nghị Trung ương, các ủy viên Trung ương
được chia thành các tổ để bàn nội dung của Hội nghị. Để ghi chép biên
bản và tổng hợp ý kiến góp ý ở mỗi tổ, Văn phòng Trung ương Đảng
bố trí : Các tổ thư ký tương ứng với các tổ thảo luận của Trung ương
Đảng và một nhóm tổng hợp chung cho chủ đề thảo luận. Dựa trên biên
bản chi tiết và bản tổng hợp tổ của các thư ký, nhóm tổng hợp chung
tổng hợp các ý kiến góp ý của Hội nghị.
2.2. Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ
Trên cơ sở khảo sát, nghiên cứu quy trình tổng hợp ý kiến trên
giấy, Văn phòng Trung ương Đảng đã xây dựng và áp dụng phần mềm
Hỗ trợ tổng hợp ý kiến với các tiến trình sau:
Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến
Kết quả chính của phần mềm là bản tổng hợp các ý kiến góp ý cả các tổ
6
Hình 1.3. Kết quả bản tổng hợp các ý kiến góp ý của các Tổ
* Đánh giá chung: Giúp cho việc tổng hợp các ý kiến có chất
lượng hơn, tránh được tình trạng tổng hợp thiếu ý kiến của đại biểu.
Giúp cho các chuyên viên tổng hợp chung hạn chế tối đa việc “bỏ sót”
ý kiến thảo luận ở tổ. Một số hạn chế: phần mềm chỉ mang tính tập hợp
các ý kiến các tổ theo các khung mục cho trước mà chưa hỗ trợ đánh
dấu, phát hiện ý giống nhau trong các bản tổng hợp tại tổ và bản tổng
hợp chung do vậy hiệu quả hỗ trợ chưa được cao.
3. Xác định bài toán cần giải quyết
Để hỗ trợ tốt hơn việc tổng hợp ý kiến thảo luận Tổ tại các Hội
nghị Trung ương, rất cần thiết phải giải quyết bài toán phát hiện, đánh
dấu các nội dung giống nhau trong các ý kiến góp ý vào trong cùng một
vấn đề. Qua đó, giúp các chuyên viên nhanh chóng nhận biết, lược bỏ
các ý kiến giống nhau đã được tổng hợp trước. Yêu cầu cần đáp ứng
khi giải quyết bài toán là không đòi hỏi phát hiện chính xác nội dung
giống nhau (chỉ cần gần giống hoặc tương tự) và giải pháp kỹ thuật
không quá phức tạp. Người sử dụng sẽ quyết định sự trùng lặp về nội
dung và quyết định có lược bỏ hay không. Vì vậy, yêu cầu về độ chính
xác của giải pháp như trên là đảm bảo nhu cầu sử dụng.
7
CHƢƠNG 2
CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU
1. Khái niệm độ tƣơng đồng câu
Sự tương đồng là một đại lượng (con số) phản ánh cường độ của
mối quan hệ giữa hai đối tượng hoặc hai đặc trưng. Đại lượng này
thường ở trong phạm vi từ 0 đến 1.
Phát biểu bài toán độ tính tương đồng câu của luận văn này như
sau: Xét một tài liệu d gồm có n câu: d = s1, s2, , sn. Mục tiêu của bài
toán là tìm ra một giá trị của hàm S(si, sj) với S϶ (0,1), và i, j = 1, ..., n.
Hàm S(si, sj) được gọi là độ đo tương đồng giữa hai câu si và sj. Giá trị
càng cao thì sự giống nhau về nghĩa của hai câu càng nhiều.
2. Các phƣơng pháp tính độ tƣơng đồng câu
2.1. Phương pháp tính độ tương đồng câu dựa vào WordNet
Ý tưởng chính của phương pháp này là thông qua tập ngữ nghĩa
(WordNet) để tính toán độ tương đồng giữa các từ trong các câu, qua
đó tính độ tương đồng của các câu. Ngoài ra để tăng thêm phần chính
xác còn có kết hợp tính sự tương đồng vị trí xuất hiện các từ của các
câu.[12]
Giới thiệu về WordNet: WordNet là kho dữ liệu tiếng Anh, các
từ tiếng Anh được nhóm thành các bộ từ đồng nghĩa được gọi là synset,
cung cấp các định nghĩa chung và ngắn gọn, đồng thời ghi lại giá trị
quan hệ ngữ nghĩa giữa các bộ đồng nghĩa. Phương pháp tính độ tương
đồng giữa 2 từ dựa vào độ dài ngắn nhất trên sơ đồ phân cấp.
8
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet
Các bƣớc tính độ tƣơng đồng của câu
Hình 2.2. Sơ đồ tính độ tương đồng của câu
- Bước 1: Tiền xử lý dữ liệu.
- Bước 2: Tính độ tương đồng của hai từ (dựa vào WordNet).
- Bước 3: Tính độ tương đồng ngữ nghĩa của hai câu.
- Bước 4: Tính độ tương đồng thứ tự các từ của hai câu.
- Bước 5: Tính độ tương đồng hai câu (kết quả của bước 3, bước 4).
2.2. Phương pháp tính độ tương đồng câu dựa vào Wikipedia
Giới thiệu mạng ngữ nghĩa Wikipedia: Wikipedia là một bách
khoa toàn thư nội dung mở, là kết quả của sự cộng tác của chính những
người đọc từ khắp nơi trên thế giới. Wikipedia tiếng Việt được thành
lập vào tháng 10 năm 2003. Hiện nay đã có 1.149.101 bài viết bằng
tiếng Việt với 3.234.593 trang [5].
9
Kiến trúc mạng Wikipedia: Các bài viết của Wikipedia được tổ
chức dưới dạng một mạng các khái niệm liên quan với nhau về mặt ngữ
nghĩa. Các mục chủ đề (category) được tổ chức trong một cấu trúc phân
cấp (taxonomy) được gọi là đồ thị chủ đề Wikipedia (Wikipedia
Category Graph - WCG)[20].
Hình 2.3. Đồ thị chủ đề Wikipedia
Tính độ tƣơng đồng của hai từ trong Wikipedia: Có hai phương
pháp tiếp cận để tính toán độ tương đồng dựa trên Wikipedia.
(1) Phương pháp tiếp cận Semantic similarity: Phương pháp này
sử dụng các thuật toán xử lý ngôn ngữ tự nhiên để tính toán mối quan
hệ giữa các từ cần xác định độ tương đồng. Một trong các thuật toán
được đưa ra như sau[18]
Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia
Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia
để trích một đoạn văn ngắn có liên quan đến từ đó (Wiki Snippet
10
Extraction). Khi tìm kiếm một từ trên Wikipedia, thì kết quả trả về
thường là một văn bản định nghĩa, giải thích về từ đó. Những đoạn văn
này sẽ được sử dụng để tính toán độ tương đồng ngữ nghĩa giữa các từ.
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia
Sau khi lấy được đoạn văn thì đoạn văn đó được qua các bước
xử lý dữ liệu như là loại bỏ các từ dùng, những từ không có giá trị. Kết
quả thu được là một tập các từ, sau đó người ta sử dụng các thuật toán
xử lý ngôn ngữ tự nhiên thông qua các độ đo như Cosine, Jaccard để
tính toán.
(2) Phương pháp tiếp cận Semantic relatedness: Phương pháp
tính độ đo SR trên đồ thị WCG bằng cách cải tiến các độ đo tính toán
sự tương đồng ngữ nghĩa của hai từ trên Wordnet. Phương pháp này
được chia làm hai loại độ đo:
+ Độ đo dựa khoảng cách giữa các khái niệm (path based). Kết
quả tính càng nhỏ tức là mối tương đồng càng gần với nhau.
+ Độ đo dựa vào thông tin giữa các khái niệm (information content
based). Kết quả tính càng lớn mối quan hệ tương đồng càng gần nhau.
2.3. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn
(Latent Dirichlet Allocation)
11
Ý tưởng của phương pháp là tính độ tương đồng câu dựa trên mô
hình phân tích chủ đề ẩn LDA (Latent Dirichlet Allocation) [2,15]. Mô
hình tính độ tương đồng câu dựa vào chủ đề ẩn như sau:
Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn
Giải thích mô hình:
+ Chọn một tập “universal dataset” và phân tích chủ đề cho nó
(quá trình ước lượng tham số theo mô hình LDA).
+ Kết quả lấy ra được các chủ đề trong tập “universal dataset”,
các chủ đề này được gọi là chủ đề ẩn.
+ Đầu vào là một văn bản đơn, sau các bước tiền xử lý văn bản
sẽ thu được một danh sách các câu.
+ Suy luận chủ đề cho các câu đã qua tiền xử lý, kết quả thu
được một danh sách các câu được thêm chủ đề ẩn.
Mô hình LDA dựa trên ý tưởng là giả thuyết mỗi một tài liệu là
sự tổ hợp của một tập các chủ đề (topic) ẩn k với các trọng số p(k|d) (là
xác suất xuất hiện của chủ đề k trong tài liệu d), trong đó mỗi chủ đề lại
là sự tổ hợp của một tập các từ vựng xuất hiện trong các tài liệu với các
trọng số p(w|k) (là xác suất xuất hiện của từ vựng w trong chủ đề k).
Khi đó, dựa trên các thông tin về các chủ đề của từng tài liệu, cụ thể ở
đây là p(k|d) có thể tính độ tương đồng của các tài liệu.
12
Hình 2.7. Mô hình LDA
α tham số Dirichle; β tham số Dirichle; θd phân phối các chủ đề
trong tài liệu thứ d; Zd,n topic index (từ n của tài liệu d); Wd,n từ n của
tài liệu d chỉ bởi Zd,n; ɸk (phi) phân phối của các từ được sinh ra bởi
topic Zd,n; K: số chủ đề (topic); D: số tài liệu; N: số lượng các từ trong
tập tài liệu D;
Trong LDA được chia làm ba mức: mức tập tài liệu, mức tài liệu,
và mức từ. Các tham số (α,β ) là các tham số ở mức tập tài liệu, các
biến θd là các biến ở mức tài liệu và các biến Wd,n là các biến ở mức từ
và được xác định với mỗi từ trong mỗi tài liệu. Thông qua mô hình
LDA ta tính được trọng số của mỗi chủ đề trên tài liệu
K
kd
kd
kd
1 ,
,
,
Khi đó vector tương ứng với tài liệu d có dạng như sau:
Sd={θ1,θ2,,θK}
Với hai tài liệu (hai câu) thứ d và thứ p sử dụng độ đo cosine để
tính độ tương đồng giữa chúng.
K
k
k
p
K
k
k
d
K
k
k
p
k
d
pdSim
1
22
1
1
)()(
),(
2.4. Phương pháp tính độ tương đồng dựa vào phân tích ngữ
nghĩa tiềm ẩn (Latent Semantic Analysis)
13
Phân tích ngữ nghĩa tiềm ẩn là một thuật toán và phương pháp
trích xuất và đại diện nội dung ngữ nghĩa bởi sử dụng tính toán thống
kê với một tập văn bản lớn (Landauer và Dumais, 1997). Ý tưởng cơ
bản là lấy tập hợp các từ trong tập văn bản, đưa ra từ xuất hiện hoặc
không xuất hiện trong các văn bản thuộc tập văn bản đó, sau đó tính
toán sự tương đồng của các từ với các từ khác hoặc của tập từ với tập từ
khác [10].
LSA giả định rằng những từ có ngữ nghĩa gần nhau thường xuất
hiện trong cùng ngữ cảnh. Xuất phát từ bảng dữ liệu D kích thước
nm , mỗi hàng tượng trưng cho một ký tự, mỗi cột tượng trưng cho
một đoạn văn bản, mỗi một ô chứa tần suất mà từ ở dòng ma trận xuất
hiện trong đoạn văn bản được biểu diễn tại cột của ma trận. Sau đó,
LSA sử dụng kỹ thuật phân tích giá trị đơn (Singular Value
Decomposition - SVD) rút trích mối tương quan ngữ nghĩa giữa các từ
trong tập văn bản, giảm số cột (chiều) về k đặc trưng tiềm ẩn của bảng
dữ liệu, thu được bảng R kích thước km trong khi vẫn giữ được cấu
trúc tương tự của các dòng trong bảng R.
Phân tích giá trị đơn (SVD) trong LSA
Trong LSA ma trận biểu diễn mối quan hệ giữa các từ và văn bản
là ma trận Amxn là một ma trận thưa có kích thước lớn. Để giảm số
chiều của ma trận người ta thường tìm cách xấp xỉ ma trận A (có hạng
r) bằng một ma trận Ak có hạng k nhỏ hơn rất nhiều. Ma trận xấp xỉ của
A là Ak=UkƩkVk
T
.
14
Hình 2.8. SVD trong LSA
Việc xấp xỉ này có thể xem như chuyển không gian đang xét (r
chiều) về không gian k chiều, với k <<r. Về mặt thực hành việc cắt ma
trận A về số chiều k còn loại bỏ nhiễu và tăng cường các mối liên kết
ngữ nghĩa tiềm ẩn giữa các từ trong tập văn bản [1]. Trong LSA các ma
trận Ak được gọi là không gian ngữ nghĩa (semantic space). Độ phức
tạp của thuật toán SVD là O(n2k3), trong đó n là số từ, k là số chiều
trong không gian ngữ nghĩa (khoản ~ 50 đến 350).
Để có thể hiểu rõ hơn về LSA ta xem xét một ví dụ sau [8].
Có 9 câu về công nghệ thông tin
c1: Human machine interface for ABC computer applications
c2: A survey of user opinion of computer system response time
c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user perceived response time to error measurement
m1: The generation of random, binary, ordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
15
m4: Graph minors: A survey
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn,
mỗi một từ xuất hiện ít nhất trong 2 câu
Hình 2.10. Ma trận U
Hình 2.11. Ma trận giá trị đơn với k=2
c1 c2 c3 c4 c5 m1 m2 m3 m4
human 1 0 0 1 0 0 0 0 0
interface 1 0 1 0 0 0 0 0 0
computer 1 1 0 0 0 0 0 0 0
user 0 1 1 0 1 0 0 0 0
system 0 1 1 2 0 0 0 0 0
response 0 1 0 0 1 0 0 0 0
time 0 1 0 0 1 0 0 0 0
EPS 0 0 1 1 0 0 0 0 0
survey 0 1 0 0 0 0 0 0 1
trees 0 0 0 0 0 1 1 1 0
graph 0 0 0 0 0 0 1 1 1
minors 0 0 0 0 0 0 0 1 1
16
Hình 2.12. Ma trận V
Kết quả tính toán SVD Ak==UkƩkVk
T
với k=2
Hình 2.13. Ma trận được xây dựng lại với k=2
Ví dụ từ “survey” với câu m4 ban đầu là 1, qua biến đổi giá trị
0.42; từ “trees” với câu m4 ban đầu là 0, qua biến đổi giá trị 0.66. Sự
thay đổi này được chứng minh là chính xác hơn so với mối quan hệ ban
đầu.
Vector ngữ nghĩa của câu được biểu diễn trong mô hình LSA
như sau: Trong LSA ngữ nghĩa của câu, đoạn văn là tổng ngữ nghĩa
của các từ trong câu, đoạn văn đó.
Meaning passage = Ʃ(mword1, mword2,mwordn) [11]
Trong đó mỗi một từ được biểu diễn bởi một hàng ngang của ma
trận không gian ngữ nghĩa.
17
Tính độ tương đồng giữa các câu: Để tính độ tương đồng giữa
hai từ, hai câu trong LSA sử dụng độ đo Cosine giữa các vector.
||||.||||
.
21
21
ss
ss
ss
3. Đánh giá và lựa chọn phƣơng pháp
- Phương pháp tính độ tương đồng câu dựa vào WordNet đòi hỏi
xây dựng kho ngữ liệu tiếng Việt.
- Phương pháp tính độ tương đồng câu dựa vào Wikipedia cần tải
bộ dữ liệu Wikipedia tiếng Việt làm cơ sở để so sánh.
- Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn cần
một tập dữ liệu lớn, đa dạng về lĩnh vực để phân tích chủ đề. Trong
trường hợp số lượng chủ đề đưa vào lớn, độ phức tạp của thuật toán
NP-hard.
- Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa
tiềm ẩn cần bộ dữ liệu để tạo ma trận ngữ nghĩa ban đầu nhưng không
đòi hỏi bộ dữ liệu quá lớn. Độ chính xác tăng cao khi dữ liệu đưa vào
tạo ma trận ngữ nghĩa cùng ngữ cảnh với dữ liệu cần so sánh.
Từ đánh giá trên, để giải quyết bài toán phát hiện nội dung giống
nhau trong tổng hợp ý kiến thảo luận tổ, trong luận văn lựa chọn sử dụng
phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn. Lý
do chính để lựa chọn phương pháp là việc xây dựng không gian ngữ nghĩa
dựa trên các dữ liệu của các Hội nghị trước được lưu trữ lại. Phương pháp
này đáp ứng được yêu cầu đã xác định ở mục 3 của Chương I.
CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP
Ý TRONG HỘI NGHỊ
18
1. Đề xuất giải pháp phát hiện nội dung giống nhau trong
phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ
Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến
Các dữ liệu của các Hội nghị trước và các tài liệu liên quan đến
vấn đề xin ý kiến được số hóa, qua bước xử lý dữ liệu được xây dựng
thành ma trận ngữ nghĩa. Thông qua phần mềm Hỗ trợ tổng hợp ý kiến
kết quả thu được là các bản tổng hợp ý kiến góp ý của các tổ. Qua bước
xử lý dữ liệu và thông qua ma trận ngữ nghĩa đã được xây dựng từ
trước các câu (hoặc đoạn văn) được biểu diễn thành các vector. Thông
qua thuật toán tính độ tương đồng giữa hai câu để xác định sự tương
đồng của từng đoạn văn với nhau. Thiết lập một ngưỡng về độ tương
đồng giữa các câu. Kết quả thu được là các câu có độ tương đồng vượt
ngưỡng được đánh dấu màu để chuyên viên tổng hợp chú ý, lược bỏ.
2. Xử lý dữ liệu
Trong bước xử lý dữ liệu, dữ liệu được loại bỏ những dấu câu
như dấu phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than. Đối với văn
bản là tiếng Việt xử dụng công cụ tách từ để xác định các từ đơn, từ
ghép cho trong văn bản.
19
3. Thực nghiệm
3.1. Môi trường thực nghiệm
Quá trình thực nghiệm trên máy tính có cấu hình như sau:
Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm
Thành phần Chỉ số
CPU Intel (R) Pentium 1,87 Ghz
RAM 2 GB
HDD 320 GB
OS Windows 7 Home Basic 32 bits
3.2. Chương trình phần mềm
Các thư viện sử dụng trong phần mềm (các packages của ngôn
ngữ lập trình R)
Bảng 3.2. Các thư viện sử dụng
STT Tên thư viện Nguồn Mục đích
1 tm https://cran.r-
project.org/web/packa
ges/tm/index.html
Các hàm xử lý về
text mining
2 Lsa https://cran.r-
project.org/web/packa
ges/lsa/index.html
Hàm xây dựng
không gian ngữ
nghĩa
3 LSAfun https://cran.r-
project.org/web/packa
ges/LSAfun/index.ht
ml
Hàm tính toán độ
tương đồng của
các câu
4 JVnTextPro Jvntextpro.sourceforg
e.net
Thư viện tách từ
tiếng Việt
Phần giao diện được viết trên ngôn ngữ C#, có chức năng nhập
vào một đoạn văn bản và so sánh với một số đoạn văn bản khác sau với
20
một ngưỡng được thiết lập, sau đó tô đậm đoạn văn nào có độ tương
đồng lớn hơn hoặc bằng ngưỡng đã cho với đoạn văn nhập vào.
3.3. Dữ liệu thực nghiệm:
Dữ liệu để xây dựng ma trận biểu diễn có kích thước 5092 từ và
687 dòng về nội dung khởi nghiệp (kích thước ma trận 5092 x 687).
3.4. Giao diện chương trình thực nghiệm
- Khởi tạo không gian ngữ nghĩa LSA: Có chức năng tạo không
gian ngữ nghĩa LSA từ dữ liệu đã có (tạo SVD với k=50)
Hình 3.2. Giao diện khởi tạo LSA
- Giao diện để nhập đoạn văn để so sánh
Hình 3.3. Giao diện nhập đoạn văn để so sánh
21
- Giao diện kết quả so sánh
Hình 3.4. Kết quả so sánh
Với ngưỡng so sánh 0.7 đoạn có độ tương đồng cao hơn được tô
đậm.
4. Đánh giá kết quả thực nghiệm
Trên cơ sở kết quả thực nghiệm, có thể nhận thấy rằng việc giải
quyết bài toán phát hiện nội dung giống nhau trong tổng hợp ý kiến
thảo luận tổ là có tính khả thi. Tuy vậy vẫn còn nhiều vấn đề cần được
nghiên cứu để giải quyết như (1) xác định giá trị ngưỡng sao cho tối ưu,
(2) trong trường hợp một vấn đề mới đưa ra xin ý kiến nếu ma trận ban
đầu xây dựng chưa có những tài liệu đề cập tới vấn đề này độ chính xác
không cao, (3) chưa xử lý được các tình huống phủ định trong tiếng
Việt, ví dụ “Đa số nhất trí với phương án được xin ý kiến” với “Đa số
không nhất trí với phương án được xin ý kiến” hay “Chúng ta không
quyết vấn đề này” với “Chúng ta không thể không quyết vấn đề này”.
22
KẾT LUẬN
Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương
đồng của câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng
nhau trong bản tổng hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý
kiến dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên. Luận văn đã
xây dựng chương trình thực nghiệm cho kết quả tốt, chứng minh khả
năng có thể áp dụng giải pháp vào giải quyết bài toán thực tế.
Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau:
- Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng
độ chính xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng
Việt. Kết hợp các bài toán tính độ tương đồng và phủ định trong tiếng
Việt để có giải pháp tối ưu giải quyết vấn đề phát hiện nội dung góp ý
giống nhau trong quá trình tổng hợp ý kiến góp ý tại các Hội nghị.
- Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ
thuật phát hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý
kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ
tổng hợp tại các Hội nghị Trung ương.
23
Tài liệu tham khảo
Tiếng Việt
1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng,
Kỷ yếu Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa
Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56.
2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu
Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu
điện tử trên lưới dữ liệu VNGRID, Chuyên san “Các công trình nghiên
cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông”, tr
72 – 81.
3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý
trong Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học
Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46.
4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất
câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội.
5. https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016.
6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần
mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”.
Tiếng Anh
7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003),
“Latent Dirichlet Allocation”, Journal of Machine Learning Research
3, pp 993-1022 .
8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W.
and Harshman, R.A. (1990), “Indexing by latent semantic analysis”,
Journal of the Society for Information Science, 41(6), pp 391-407.
9. Aminul Islam and Diana Inkpen (2008), “Semantic Text
Similarity Using Corpus-Based Word Similarity and String Similarity”,
24
ACM Transactions on Knowledge Discovery from Data, Vol. 2, No.2,
Article 10.
10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to
Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition,
Induction, and Representation of Knowledge.
11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis
and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp
13-14.
12. Yuhua Li, David McLean, Zuhair A.Bandar, James
D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on
Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge
and data engineering, VOL. 18, NO. 8 .
13. Rada Mihalcea and Courtney Corley, Carlo Strapparava,
Corpus-based and Knowledge-based Measures of Text Semantic
Similarity.
14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014),
“VietNamese Sentence Similarity Based on Concept”, IFIP
International Federation for Information Processing 2014 .
15. Tu C.Nguyen (2008), Hidden Topic discovery toward
classification and clustering in Vietnamese web documents, Master
Thesis, Universtiy of Engineering and Technology, Vietnam National
University, Hanoi.
16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA
and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs
Consisting of Multipel Sentences.
17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic
Information Content Metric for Semantic Similarity in WordNet.
25
18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010),
“Measuring Semantic Similarity between Words Using Web
Documents”, WWW2007: Track:Semantic Web.
19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007),
Comparing Wikipedia and German WordNet by Evaluating Semantic
Relatedness on Multipe Datasets.
20. TorstenZesch, IrynaGurevych (2007), Analys is of the
Wikipedia Category Graph for NLP Applications.
Các file đính kèm theo tài liệu này:
- tom_tat_luan_van_tu_dong_phan_tich_cac_noi_dung_giong_nhau_t.pdf