Tóm tắt luận văn Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị

KẾT LUẬN Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương đồng của câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng nhau trong bản tổng hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý kiến dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên. Luận văn đã xây dựng chương trình thực nghiệm cho kết quả tốt, chứng minh khả năng có thể áp dụng giải pháp vào giải quyết bài toán thực tế. Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau: - Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng độ chính xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng Việt. Kết hợp các bài toán tính độ tương đồng và phủ định trong tiếng Việt để có giải pháp tối ưu giải quyết vấn đề phát hiện nội dung góp ý giống nhau trong quá trình tổng hợp ý kiến góp ý tại các Hội nghị. - Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ thuật phát hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ tổng hợp tại các Hội nghị Trung ương

pdf26 trang | Chia sẻ: yenxoi77 | Lượt xem: 2232 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Tóm tắt luận văn Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ *** TRẦN THANH TÙNG TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 1 MỤC LỤC MỤC LỤC.1 MỞ ĐẦU2 CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ...4 1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị4 2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung ƣơng4 3. Xác định bài toán cần giải quyết.6 CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU7 1. Khái niệm độ tƣơng đồng câu..7 2. Các phƣơng pháp tính độ tƣơng đồng câu.7 3. Đánh giá và lựa chọn phƣơng pháp..17 CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ.17 1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ18 2. Xử lý dữ liệu.18 3. Thực nghiệm19 4. Đánh giá kết quả thực nghiệm21 KẾT LUẬN22 Tài liệu tham khảo.23 2 MỞ ĐẦU 1. Đặt vấn đề Trong một nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ chức các Hội nghị Trung ương với nhiều nội dung quan trọng được đưa ra bàn thảo, xin ý kiến các Ủy viên Trung ương trước khi thông qua chính thức. Những nhiệm vụ quan trọng của Văn phòng Trung ương Đảng là chuẩn bị, tổ chức, phục vụ về cơ sở vật chất và nội dung, tổng hợp tất cả các ý kiến góp ý của các Hội nghị Trung ương Đảng. Hiện nay, ở Văn phòng Trung ương Đảng sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ tại các Hội nghị Trung ương. Nhưng phần mềm này chưa có chức năng phát hiện, đánh dấu các ý kiến giống nhau. Với mong muốn nâng cao chất lượng phần mềm, luận văn nghiên cứu các giải pháp nhằm giải quyết vấn đề trên. 2. Mục tiêu và nhiệm vụ nghiên cứu của luận văn * Mục tiêu: Nghiên cứu các phương pháp tính toán độ tương đồng câu. Trên cơ sở đó, đề xuất giải pháp xây dựng chức năng phát hiện, đánh dấu những câu, đoạn văn giống nhau về ngữ nghĩa trong các ý kiến góp ý vào cùng một nội dung của chủ đề được đưa ra bàn thảo tại Hội nghị Trung ương Đảng. * Nhiệm vụ: - Giới thiệu bài toán tổng hợp ý kiến trong hội nghị. - Tìm hiểu các phương pháp tính độ tương đồng câu. - Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị 3. Tổng quan nghiên cứu vấn đề 3 Trên thế giới, các công trình nghiên cứu về tính toán độ tương đồng giữa các từ, các câu hoặc đoạn văn ngắn đã được nghiên cứu rộng rãi. Tại Việt Nam, các thuật toán tính toán độ tương đồng giữa các câu để áp dụng vào bài toán tóm tắt văn bản cũng đã được nhiều tác giả tìm hiểu, nghiên cứu. Đã có tác giả nghiên cứu về bài toán phân lớp ý kiến góp ý trong tổng hợp ý kiến trong Hội nghị [3]. Tuy nhiên việc phát hiện nội dung góp ý giống nhau trong một nội dung thảo luận để cảnh báo, lược bỏ thì chưa được nghiên cứu áp dụng. 5. Phƣơng pháp nghiên cứu Các phương pháp nghiên cứu: phương pháp khảo sát; tổng hợp; phân tích, đánh giá; thực nghiệm. 6. Nội dung của luận văn Ngoài phần mở đầu và kết luận, luận văn được bố cục thành 3 chương: - Chương 1. Bài toán tổng hợp ý kiến góp ý trong hội nghị. - Chương 2. Các phương pháp tính độ tương đồng câu. - Chương 3. Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong Hội nghị 4 CHƢƠNG 1 BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị Trong luận văn, cụm từ “tổng hợp ý kiến” được hiểu theo khía cạnh là tập hợp các ý kiến góp ý riêng lẻ để thể hiện xu hướng của đại biểu góp ý vào một nội dung của vấn đề. Ví dụ như: Đa số ý kiến cho rằng, Một số ý kiến cho rằng, Có ý kiến cho rằng. Có những bài toán được hiểu tương tự bài toán tổng hợp ý kiến theo một khía cạnh nào đó: Bài toán về “khai phá quan điểm”, Bài toán Tóm tắt văn. Trong luận văn về “Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị” [3], tác giả có đưa ra mô hình phân lớp ý kiến tổng hợp. Nhu cầu đặt ra là cần xây dựng một hệ thống hỗ trợ tổng hợp ý kiến có chức năng tập hợp các ý kiến góp ý, có các tính năng giúp cho người sử dụng tổng hợp nhanh hơn như việc phát hiện, đánh dấu các nội dung giống nhau để qua đó người sử dụng quyết định việc tổng hợp ý kiến. 2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung ƣơng Hiện tại Văn phòng Trung ương Đảng đang sử dụng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung ương. Phầm mềm đang được sử dụng này có chức năng cơ bản là từ các bản tổng hợp ý kiến thảo luận của Trung ương tại mỗi tổ, phần mềm đã gộp các ý kiến này theo từng nội dung. Kết quả là phần mềm đã giúp cho các chuyên viên tránh được tổng hợp thiếu, sót các ý kiến trong quá trình tổng hợp. 5 2.1. Quy trình tổng hợp ý kiến thảo luận Tại mỗi kỳ họp Hội nghị Trung ương, các ủy viên Trung ương được chia thành các tổ để bàn nội dung của Hội nghị. Để ghi chép biên bản và tổng hợp ý kiến góp ý ở mỗi tổ, Văn phòng Trung ương Đảng bố trí : Các tổ thư ký tương ứng với các tổ thảo luận của Trung ương Đảng và một nhóm tổng hợp chung cho chủ đề thảo luận. Dựa trên biên bản chi tiết và bản tổng hợp tổ của các thư ký, nhóm tổng hợp chung tổng hợp các ý kiến góp ý của Hội nghị. 2.2. Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ Trên cơ sở khảo sát, nghiên cứu quy trình tổng hợp ý kiến trên giấy, Văn phòng Trung ương Đảng đã xây dựng và áp dụng phần mềm Hỗ trợ tổng hợp ý kiến với các tiến trình sau: Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến Kết quả chính của phần mềm là bản tổng hợp các ý kiến góp ý cả các tổ 6 Hình 1.3. Kết quả bản tổng hợp các ý kiến góp ý của các Tổ * Đánh giá chung: Giúp cho việc tổng hợp các ý kiến có chất lượng hơn, tránh được tình trạng tổng hợp thiếu ý kiến của đại biểu. Giúp cho các chuyên viên tổng hợp chung hạn chế tối đa việc “bỏ sót” ý kiến thảo luận ở tổ. Một số hạn chế: phần mềm chỉ mang tính tập hợp các ý kiến các tổ theo các khung mục cho trước mà chưa hỗ trợ đánh dấu, phát hiện ý giống nhau trong các bản tổng hợp tại tổ và bản tổng hợp chung do vậy hiệu quả hỗ trợ chưa được cao. 3. Xác định bài toán cần giải quyết Để hỗ trợ tốt hơn việc tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung ương, rất cần thiết phải giải quyết bài toán phát hiện, đánh dấu các nội dung giống nhau trong các ý kiến góp ý vào trong cùng một vấn đề. Qua đó, giúp các chuyên viên nhanh chóng nhận biết, lược bỏ các ý kiến giống nhau đã được tổng hợp trước. Yêu cầu cần đáp ứng khi giải quyết bài toán là không đòi hỏi phát hiện chính xác nội dung giống nhau (chỉ cần gần giống hoặc tương tự) và giải pháp kỹ thuật không quá phức tạp. Người sử dụng sẽ quyết định sự trùng lặp về nội dung và quyết định có lược bỏ hay không. Vì vậy, yêu cầu về độ chính xác của giải pháp như trên là đảm bảo nhu cầu sử dụng. 7 CHƢƠNG 2 CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU 1. Khái niệm độ tƣơng đồng câu Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng. Đại lượng này thường ở trong phạm vi từ 0 đến 1. Phát biểu bài toán độ tính tương đồng câu của luận văn này như sau: Xét một tài liệu d gồm có n câu: d = s1, s2, , sn. Mục tiêu của bài toán là tìm ra một giá trị của hàm S(si, sj) với S϶ (0,1), và i, j = 1, ..., n. Hàm S(si, sj) được gọi là độ đo tương đồng giữa hai câu si và sj. Giá trị càng cao thì sự giống nhau về nghĩa của hai câu càng nhiều. 2. Các phƣơng pháp tính độ tƣơng đồng câu 2.1. Phương pháp tính độ tương đồng câu dựa vào WordNet Ý tưởng chính của phương pháp này là thông qua tập ngữ nghĩa (WordNet) để tính toán độ tương đồng giữa các từ trong các câu, qua đó tính độ tương đồng của các câu. Ngoài ra để tăng thêm phần chính xác còn có kết hợp tính sự tương đồng vị trí xuất hiện các từ của các câu.[12] Giới thiệu về WordNet: WordNet là kho dữ liệu tiếng Anh, các từ tiếng Anh được nhóm thành các bộ từ đồng nghĩa được gọi là synset, cung cấp các định nghĩa chung và ngắn gọn, đồng thời ghi lại giá trị quan hệ ngữ nghĩa giữa các bộ đồng nghĩa. Phương pháp tính độ tương đồng giữa 2 từ dựa vào độ dài ngắn nhất trên sơ đồ phân cấp. 8 Hình 2.1. Sơ đồ phân cấp các từ trong WordNet Các bƣớc tính độ tƣơng đồng của câu Hình 2.2. Sơ đồ tính độ tương đồng của câu - Bước 1: Tiền xử lý dữ liệu. - Bước 2: Tính độ tương đồng của hai từ (dựa vào WordNet). - Bước 3: Tính độ tương đồng ngữ nghĩa của hai câu. - Bước 4: Tính độ tương đồng thứ tự các từ của hai câu. - Bước 5: Tính độ tương đồng hai câu (kết quả của bước 3, bước 4). 2.2. Phương pháp tính độ tương đồng câu dựa vào Wikipedia Giới thiệu mạng ngữ nghĩa Wikipedia: Wikipedia là một bách khoa toàn thư nội dung mở, là kết quả của sự cộng tác của chính những người đọc từ khắp nơi trên thế giới. Wikipedia tiếng Việt được thành lập vào tháng 10 năm 2003. Hiện nay đã có 1.149.101 bài viết bằng tiếng Việt với 3.234.593 trang [5]. 9 Kiến trúc mạng Wikipedia: Các bài viết của Wikipedia được tổ chức dưới dạng một mạng các khái niệm liên quan với nhau về mặt ngữ nghĩa. Các mục chủ đề (category) được tổ chức trong một cấu trúc phân cấp (taxonomy) được gọi là đồ thị chủ đề Wikipedia (Wikipedia Category Graph - WCG)[20]. Hình 2.3. Đồ thị chủ đề Wikipedia Tính độ tƣơng đồng của hai từ trong Wikipedia: Có hai phương pháp tiếp cận để tính toán độ tương đồng dựa trên Wikipedia. (1) Phương pháp tiếp cận Semantic similarity: Phương pháp này sử dụng các thuật toán xử lý ngôn ngữ tự nhiên để tính toán mối quan hệ giữa các từ cần xác định độ tương đồng. Một trong các thuật toán được đưa ra như sau[18] Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia để trích một đoạn văn ngắn có liên quan đến từ đó (Wiki Snippet 10 Extraction). Khi tìm kiếm một từ trên Wikipedia, thì kết quả trả về thường là một văn bản định nghĩa, giải thích về từ đó. Những đoạn văn này sẽ được sử dụng để tính toán độ tương đồng ngữ nghĩa giữa các từ. Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia Sau khi lấy được đoạn văn thì đoạn văn đó được qua các bước xử lý dữ liệu như là loại bỏ các từ dùng, những từ không có giá trị. Kết quả thu được là một tập các từ, sau đó người ta sử dụng các thuật toán xử lý ngôn ngữ tự nhiên thông qua các độ đo như Cosine, Jaccard để tính toán. (2) Phương pháp tiếp cận Semantic relatedness: Phương pháp tính độ đo SR trên đồ thị WCG bằng cách cải tiến các độ đo tính toán sự tương đồng ngữ nghĩa của hai từ trên Wordnet. Phương pháp này được chia làm hai loại độ đo: + Độ đo dựa khoảng cách giữa các khái niệm (path based). Kết quả tính càng nhỏ tức là mối tương đồng càng gần với nhau. + Độ đo dựa vào thông tin giữa các khái niệm (information content based). Kết quả tính càng lớn mối quan hệ tương đồng càng gần nhau. 2.3. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet Allocation) 11 Ý tưởng của phương pháp là tính độ tương đồng câu dựa trên mô hình phân tích chủ đề ẩn LDA (Latent Dirichlet Allocation) [2,15]. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn như sau: Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn Giải thích mô hình: + Chọn một tập “universal dataset” và phân tích chủ đề cho nó (quá trình ước lượng tham số theo mô hình LDA). + Kết quả lấy ra được các chủ đề trong tập “universal dataset”, các chủ đề này được gọi là chủ đề ẩn. + Đầu vào là một văn bản đơn, sau các bước tiền xử lý văn bản sẽ thu được một danh sách các câu. + Suy luận chủ đề cho các câu đã qua tiền xử lý, kết quả thu được một danh sách các câu được thêm chủ đề ẩn. Mô hình LDA dựa trên ý tưởng là giả thuyết mỗi một tài liệu là sự tổ hợp của một tập các chủ đề (topic) ẩn k với các trọng số p(k|d) (là xác suất xuất hiện của chủ đề k trong tài liệu d), trong đó mỗi chủ đề lại là sự tổ hợp của một tập các từ vựng xuất hiện trong các tài liệu với các trọng số p(w|k) (là xác suất xuất hiện của từ vựng w trong chủ đề k). Khi đó, dựa trên các thông tin về các chủ đề của từng tài liệu, cụ thể ở đây là p(k|d) có thể tính độ tương đồng của các tài liệu. 12 Hình 2.7. Mô hình LDA α tham số Dirichle; β tham số Dirichle; θd phân phối các chủ đề trong tài liệu thứ d; Zd,n topic index (từ n của tài liệu d); Wd,n từ n của tài liệu d chỉ bởi Zd,n; ɸk (phi) phân phối của các từ được sinh ra bởi topic Zd,n; K: số chủ đề (topic); D: số tài liệu; N: số lượng các từ trong tập tài liệu D; Trong LDA được chia làm ba mức: mức tập tài liệu, mức tài liệu, và mức từ. Các tham số (α,β ) là các tham số ở mức tập tài liệu, các biến θd là các biến ở mức tài liệu và các biến Wd,n là các biến ở mức từ và được xác định với mỗi từ trong mỗi tài liệu. Thông qua mô hình LDA ta tính được trọng số của mỗi chủ đề trên tài liệu   K kd kd kd 1 , , ,    Khi đó vector tương ứng với tài liệu d có dạng như sau: Sd={θ1,θ2,,θK} Với hai tài liệu (hai câu) thứ d và thứ p sử dụng độ đo cosine để tính độ tương đồng giữa chúng.     K k k p K k k d K k k p k d pdSim 1 22 1 1 )()( ),(   2.4. Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) 13 Phân tích ngữ nghĩa tiềm ẩn là một thuật toán và phương pháp trích xuất và đại diện nội dung ngữ nghĩa bởi sử dụng tính toán thống kê với một tập văn bản lớn (Landauer và Dumais, 1997). Ý tưởng cơ bản là lấy tập hợp các từ trong tập văn bản, đưa ra từ xuất hiện hoặc không xuất hiện trong các văn bản thuộc tập văn bản đó, sau đó tính toán sự tương đồng của các từ với các từ khác hoặc của tập từ với tập từ khác [10]. LSA giả định rằng những từ có ngữ nghĩa gần nhau thường xuất hiện trong cùng ngữ cảnh. Xuất phát từ bảng dữ liệu D kích thước nm , mỗi hàng tượng trưng cho một ký tự, mỗi cột tượng trưng cho một đoạn văn bản, mỗi một ô chứa tần suất mà từ ở dòng ma trận xuất hiện trong đoạn văn bản được biểu diễn tại cột của ma trận. Sau đó, LSA sử dụng kỹ thuật phân tích giá trị đơn (Singular Value Decomposition - SVD) rút trích mối tương quan ngữ nghĩa giữa các từ trong tập văn bản, giảm số cột (chiều) về k đặc trưng tiềm ẩn của bảng dữ liệu, thu được bảng R kích thước km trong khi vẫn giữ được cấu trúc tương tự của các dòng trong bảng R. Phân tích giá trị đơn (SVD) trong LSA Trong LSA ma trận biểu diễn mối quan hệ giữa các từ và văn bản là ma trận Amxn là một ma trận thưa có kích thước lớn. Để giảm số chiều của ma trận người ta thường tìm cách xấp xỉ ma trận A (có hạng r) bằng một ma trận Ak có hạng k nhỏ hơn rất nhiều. Ma trận xấp xỉ của A là Ak=UkƩkVk T . 14 Hình 2.8. SVD trong LSA Việc xấp xỉ này có thể xem như chuyển không gian đang xét (r chiều) về không gian k chiều, với k <<r. Về mặt thực hành việc cắt ma trận A về số chiều k còn loại bỏ nhiễu và tăng cường các mối liên kết ngữ nghĩa tiềm ẩn giữa các từ trong tập văn bản [1]. Trong LSA các ma trận Ak được gọi là không gian ngữ nghĩa (semantic space). Độ phức tạp của thuật toán SVD là O(n2k3), trong đó n là số từ, k là số chiều trong không gian ngữ nghĩa (khoản ~ 50 đến 350). Để có thể hiểu rõ hơn về LSA ta xem xét một ví dụ sau [8]. Có 9 câu về công nghệ thông tin c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering 15 m4: Graph minors: A survey Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi một từ xuất hiện ít nhất trong 2 câu Hình 2.10. Ma trận U Hình 2.11. Ma trận giá trị đơn với k=2 c1 c2 c3 c4 c5 m1 m2 m3 m4 human 1 0 0 1 0 0 0 0 0 interface 1 0 1 0 0 0 0 0 0 computer 1 1 0 0 0 0 0 0 0 user 0 1 1 0 1 0 0 0 0 system 0 1 1 2 0 0 0 0 0 response 0 1 0 0 1 0 0 0 0 time 0 1 0 0 1 0 0 0 0 EPS 0 0 1 1 0 0 0 0 0 survey 0 1 0 0 0 0 0 0 1 trees 0 0 0 0 0 1 1 1 0 graph 0 0 0 0 0 0 1 1 1 minors 0 0 0 0 0 0 0 1 1 16 Hình 2.12. Ma trận V Kết quả tính toán SVD Ak==UkƩkVk T với k=2 Hình 2.13. Ma trận được xây dựng lại với k=2 Ví dụ từ “survey” với câu m4 ban đầu là 1, qua biến đổi giá trị 0.42; từ “trees” với câu m4 ban đầu là 0, qua biến đổi giá trị 0.66. Sự thay đổi này được chứng minh là chính xác hơn so với mối quan hệ ban đầu. Vector ngữ nghĩa của câu được biểu diễn trong mô hình LSA như sau: Trong LSA ngữ nghĩa của câu, đoạn văn là tổng ngữ nghĩa của các từ trong câu, đoạn văn đó. Meaning passage = Ʃ(mword1, mword2,mwordn) [11] Trong đó mỗi một từ được biểu diễn bởi một hàng ngang của ma trận không gian ngữ nghĩa. 17 Tính độ tương đồng giữa các câu: Để tính độ tương đồng giữa hai từ, hai câu trong LSA sử dụng độ đo Cosine giữa các vector. ||||.|||| . 21 21 ss ss ss  3. Đánh giá và lựa chọn phƣơng pháp - Phương pháp tính độ tương đồng câu dựa vào WordNet đòi hỏi xây dựng kho ngữ liệu tiếng Việt. - Phương pháp tính độ tương đồng câu dựa vào Wikipedia cần tải bộ dữ liệu Wikipedia tiếng Việt làm cơ sở để so sánh. - Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn cần một tập dữ liệu lớn, đa dạng về lĩnh vực để phân tích chủ đề. Trong trường hợp số lượng chủ đề đưa vào lớn, độ phức tạp của thuật toán NP-hard. - Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn cần bộ dữ liệu để tạo ma trận ngữ nghĩa ban đầu nhưng không đòi hỏi bộ dữ liệu quá lớn. Độ chính xác tăng cao khi dữ liệu đưa vào tạo ma trận ngữ nghĩa cùng ngữ cảnh với dữ liệu cần so sánh. Từ đánh giá trên, để giải quyết bài toán phát hiện nội dung giống nhau trong tổng hợp ý kiến thảo luận tổ, trong luận văn lựa chọn sử dụng phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn. Lý do chính để lựa chọn phương pháp là việc xây dựng không gian ngữ nghĩa dựa trên các dữ liệu của các Hội nghị trước được lưu trữ lại. Phương pháp này đáp ứng được yêu cầu đã xác định ở mục 3 của Chương I. CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 18 1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến Các dữ liệu của các Hội nghị trước và các tài liệu liên quan đến vấn đề xin ý kiến được số hóa, qua bước xử lý dữ liệu được xây dựng thành ma trận ngữ nghĩa. Thông qua phần mềm Hỗ trợ tổng hợp ý kiến kết quả thu được là các bản tổng hợp ý kiến góp ý của các tổ. Qua bước xử lý dữ liệu và thông qua ma trận ngữ nghĩa đã được xây dựng từ trước các câu (hoặc đoạn văn) được biểu diễn thành các vector. Thông qua thuật toán tính độ tương đồng giữa hai câu để xác định sự tương đồng của từng đoạn văn với nhau. Thiết lập một ngưỡng về độ tương đồng giữa các câu. Kết quả thu được là các câu có độ tương đồng vượt ngưỡng được đánh dấu màu để chuyên viên tổng hợp chú ý, lược bỏ. 2. Xử lý dữ liệu Trong bước xử lý dữ liệu, dữ liệu được loại bỏ những dấu câu như dấu phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than. Đối với văn bản là tiếng Việt xử dụng công cụ tách từ để xác định các từ đơn, từ ghép cho trong văn bản. 19 3. Thực nghiệm 3.1. Môi trường thực nghiệm Quá trình thực nghiệm trên máy tính có cấu hình như sau: Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm Thành phần Chỉ số CPU Intel (R) Pentium 1,87 Ghz RAM 2 GB HDD 320 GB OS Windows 7 Home Basic 32 bits 3.2. Chương trình phần mềm Các thư viện sử dụng trong phần mềm (các packages của ngôn ngữ lập trình R) Bảng 3.2. Các thư viện sử dụng STT Tên thư viện Nguồn Mục đích 1 tm https://cran.r- project.org/web/packa ges/tm/index.html Các hàm xử lý về text mining 2 Lsa https://cran.r- project.org/web/packa ges/lsa/index.html Hàm xây dựng không gian ngữ nghĩa 3 LSAfun https://cran.r- project.org/web/packa ges/LSAfun/index.ht ml Hàm tính toán độ tương đồng của các câu 4 JVnTextPro Jvntextpro.sourceforg e.net Thư viện tách từ tiếng Việt Phần giao diện được viết trên ngôn ngữ C#, có chức năng nhập vào một đoạn văn bản và so sánh với một số đoạn văn bản khác sau với 20 một ngưỡng được thiết lập, sau đó tô đậm đoạn văn nào có độ tương đồng lớn hơn hoặc bằng ngưỡng đã cho với đoạn văn nhập vào. 3.3. Dữ liệu thực nghiệm: Dữ liệu để xây dựng ma trận biểu diễn có kích thước 5092 từ và 687 dòng về nội dung khởi nghiệp (kích thước ma trận 5092 x 687). 3.4. Giao diện chương trình thực nghiệm - Khởi tạo không gian ngữ nghĩa LSA: Có chức năng tạo không gian ngữ nghĩa LSA từ dữ liệu đã có (tạo SVD với k=50) Hình 3.2. Giao diện khởi tạo LSA - Giao diện để nhập đoạn văn để so sánh Hình 3.3. Giao diện nhập đoạn văn để so sánh 21 - Giao diện kết quả so sánh Hình 3.4. Kết quả so sánh Với ngưỡng so sánh 0.7 đoạn có độ tương đồng cao hơn được tô đậm. 4. Đánh giá kết quả thực nghiệm Trên cơ sở kết quả thực nghiệm, có thể nhận thấy rằng việc giải quyết bài toán phát hiện nội dung giống nhau trong tổng hợp ý kiến thảo luận tổ là có tính khả thi. Tuy vậy vẫn còn nhiều vấn đề cần được nghiên cứu để giải quyết như (1) xác định giá trị ngưỡng sao cho tối ưu, (2) trong trường hợp một vấn đề mới đưa ra xin ý kiến nếu ma trận ban đầu xây dựng chưa có những tài liệu đề cập tới vấn đề này độ chính xác không cao, (3) chưa xử lý được các tình huống phủ định trong tiếng Việt, ví dụ “Đa số nhất trí với phương án được xin ý kiến” với “Đa số không nhất trí với phương án được xin ý kiến” hay “Chúng ta không quyết vấn đề này” với “Chúng ta không thể không quyết vấn đề này”. 22 KẾT LUẬN Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương đồng của câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng nhau trong bản tổng hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý kiến dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên. Luận văn đã xây dựng chương trình thực nghiệm cho kết quả tốt, chứng minh khả năng có thể áp dụng giải pháp vào giải quyết bài toán thực tế. Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau: - Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng độ chính xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng Việt. Kết hợp các bài toán tính độ tương đồng và phủ định trong tiếng Việt để có giải pháp tối ưu giải quyết vấn đề phát hiện nội dung góp ý giống nhau trong quá trình tổng hợp ý kiến góp ý tại các Hội nghị. - Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ thuật phát hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ tổng hợp tại các Hội nghị Trung ương. 23 Tài liệu tham khảo Tiếng Việt 1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng, Kỷ yếu Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56. 2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu VNGRID, Chuyên san “Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông”, tr 72 – 81. 3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46. 4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. 5. https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016. 6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”. Tiếng Anh 7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 . 8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and Harshman, R.A. (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407. 9. Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, 24 ACM Transactions on Knowledge Discovery from Data, Vol. 2, No.2, Article 10. 10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge. 11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14. 12. Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL. 18, NO. 8 . 13. Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpus-based and Knowledge-based Measures of Text Semantic Similarity. 14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 . 15. Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi. 16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences. 17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet. 25 18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007: Track:Semantic Web. 19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007), Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets. 20. TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications.

Các file đính kèm theo tài liệu này:

  • pdftom_tat_luan_van_tu_dong_phan_tich_cac_noi_dung_giong_nhau_t.pdf