Luận văn Nghiên cứu các phương pháp xử lý tiếng việt ứng dụng cho tóm tắt văn bản

Tóm tắt văn bản là một lĩnh vực khó của xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt có thể ứng dụng vào nhiều lĩnh vực: từ hỗ trợ việc đọc và khai thác thông tin cho đến hỗ trợ các hệ thống tìm kiếm. Có nhiều hướng tiếp cận để tóm tắt văn bản: từ các phương pháp thống kê, học máy đến ứng dụng các kĩ thuật xửlý ngôn ngữ phức tạp. Tóm tắt văn bản có thể có nhiều dạng, tuỳ theo từng tiêu chí phân loại và mục đích, yêu cầu của người sử dụng.

59 trang | Chia sẻ: lylyngoc | Lượt xem: 3050 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu các phương pháp xử lý tiếng việt ứng dụng cho tóm tắt văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

từ…) và ý nghĩa từ là vấn đề khó, cần có nhiều 17 nghiên cứu thêm. Do vậy, tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) trở nên rất phức tạp với việc xử lý các hư từ, phụ từ, từ láy…; hơn nữa, phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của từ có thể không chính xác như mong đợi. Mặt khác, ranh giới xác định từ không phải là khoảng trắng, khiến cho việc tách từ trở nên khó khăn, dẫn đến khó khăn cho các giai đoạn tiếp theo như kiểm lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ… Như thế, các phương pháp xử lý ngôn ngữ đang áp dụng cho tiếng Anh không thể áp dụng trực tiếp cho tiếng Việt mà cần có sự thay đổi cho phù hợp. 2.3 Phương pháp cho bài toán tóm tắt văn bản tiếng Việt Trong IR, mỗi văn bản được biểu diễn dưới dạng vector, chẳng hạn như Di=(di1, di2, …, din) trong đó dik biểu diễn trọng số của từ Tk trong tài liệu Di. Tính toán độ tương tự giữa hai văn bản Di và Dj là Sim(Di, Dj) – theo các công thức tính độ tương tự. Nếu độ tương tự này đạt đến một ngưỡng đủ lớn thì ta nói rằng chúng có “liên quan về mặt ngữ nghĩa”, và ta có thể thiết lập một liên kết giữa hai văn bản này [23]. Áp dụng phương pháp này vào việc tóm tắt văn bản tự động, thay vì tìm liên kết giữa các văn bản, ta sẽ tìm liên kết trong nội bộ văn bản (liên kết giữa các câu trong văn bản). Sau khi xây dựng được đồ thị quan hệ, ta có được hình vẽ trực quan cấu trúc của văn bản. Từ cấu trúc này, ta có thể xây dựng văn bản tóm tắt bằng cách trích xuất ra các câu phù hợp [24]. Trong việc xác định ngưỡng để quyết định hai câu trong văn bản có quan hệ với nhau về mặt ngữ nghĩa hay không có một ý nghĩa quan trọng, bởi lẽ ngưỡng này có thể là tốt cho một dạng văn bản nào đó nhưng lại không tốt cho văn bản khác. Như vậy, trong quá trình xây dựng và đánh giá kết quả của chương trình tóm tắt văn bản, cần phải thực nghiệm với nhiều ngưỡng khác nhau để chọn ra một ngưỡng thích hợp. Khi áp dụng phương pháp cấu trúc văn bản này đối với văn bản tiếng Việt do có những khác biệt đối với văn bản tiếng Anh nên cần phải có một số cải tiến để nâng cao độ chính xác. Trước hết, đối với việc phân tách từ vựng tiếng Việt. Có thể sử dụng các phương pháp như: + Phương pháp so khớp cực đại hay còn gọi là phương pháp Left Right Maximum Matching (LRMM) [25]. Theo đó, ta thực hiện duyệt một ngữ hoặc một câu từ trái sang phải và chọn từ có nhiều âm tiết có mặt trong từ điển, rồi cứ thế tiếp tục cho đến khi hết câu. + Phương pháp sử dụng bộ chuyển trạng thái hữu hạn có trọng số WFST (Weighted Finite State Transducer) kết hợp với mạng Neural do Đinh Điền (2001) 18 [13] đưa ra. Với ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số lớn nhất sẽ là cách từ được chọn. Ngoài ra sử dụng mạng Neural để khử nhập nhằng nếu có. Do việc xây dựng bộ tách từ khá phức tạp và nằm ngoài phạm vi của luận văn này nên chúng tôi sử dụng bộ tách từ đã được viết sẵn và cung cấp miễn phí để thực hiện bước tiền xử lý các văn bản. Tiếp theo đó là cần loại bỏ các từ dừng. Từ dừng (stop-words) là các từ xuất hiện nhiều trong các văn bản mà thường thì không giúp ích trong việc phân biệt nội dung của các tài liệu. Do đó, khi xây dựng chương trình tóm tắt, cần tìm ra các từ dừng trong văn bản và loại bỏ chúng. Việc xác định các từ dừng trong văn bản được thông qua một từ điển từ dừng. Khi đã loại bỏ các từ dừng, cần phải xác định tiếp các từ đồng nghĩa trong văn bản. Đối với tiếng Việt, do có một số lượng lớn các từ đồng nghĩa nên khi thực hiện đo độ tương tự giữa các câu trong văn bản, ta sử dụng thêm một từ điển đồng nghĩa để xác định các từ có ý nghĩa tương đồng giữa các câu, để có thể nâng cao phần nào độ chính xác. Trong chương tiếp theo, chúng tôi sẽ trình bày chi tiết việc xây dựng ứng dụng tóm tắt văn bản và kĩ thuật sử dụng từ điển đồng nghĩa này. Ngoài ra, trong bước tiền xử lý, các vấn đề như bảng mã, chính tả, dấu câu… cũng cần được xử lý để đảm bảo tính khách quan và chính xác cho các bước tiếp theo. Hình vẽ dưới đây mô tả một đồ thị quan hệ của các câu trong văn bản “Hỗ trợ 400 USD cho sinh viên mua laptop” (Tên file: Text(16).txt trong tập các văn bản thử nghiệm), bỏ qua các liên kết có độ tương tự dưới 0,2. Sau khi đã có được đồ thị quan hệ giữa các câu trong văn bản, tiến hành duyệt đồ thị và chọn ra các câu quan trọng theo một số phương pháp sau: Cách 1. Dựa vào bậc của các nút trên đồ thị Bậc của một nút trên đồ thị là số lượng liên kết tới các nút khác. Khi một nút có bậc lớn thì câu tương ứng nút đó sẽ phủ một lượng lớn từ vựng và có thể chứa chủ đề của nhiều câu khác [24]. + Chọn n nút có bậc cao nhất trong đồ thị (với n là số câu cần chọn trong văn bản tóm tắt). + Sắp xếp các câu được chọn ra theo thứ tự xuất hiện trong văn bản gốc. 19 Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2) Cách 2. Duyệt theo chiều sâu + Chọn một nút quan trọng (thường chọn nút đầu tiên hoặc nút có bậc cao). + Chọn nút tiếp theo tương tự nhất với nút trước đó, và cứ như thế. Khi đã duyệt hết mà vẫn chưa đủ số câu mong muốn, ta sử dụng tiếp cách 1 với các câu còn lại. Cách 3. Phân đoạn văn bản + Chia văn bản thành từng đoạn. + Áp dụng cách 1 cho mỗi đoạn, số đoạn của văn bản được chia phải đảm bảo để chọn được ít nhất một câu trong mỗi đoạn. Trong chương này, chúng tôi đã trình bày về những hướng tiếp cận với bài toán tóm tắt văn bản tiếng Việt, đồng thời cũng nêu ra những đặc trưng cần chú ý của tiếng Việt và cuối cùng đưa ra cách tiếp cận của chúng tôi về việc sử dụng phương pháp cấu trúc để tóm tắt văn bản. 11 1 2 3 4 5 6 7 8 9 10 20 Chương 3. ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT Trong chương này, chúng tôi trình bày chi tiết về việc sử dụng phương pháp cấu trúc đã trình bày trong chương 2 để xây dựng chương trình tóm tắt văn bản tiếng Việt. 3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc Hình 3 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc Trong mô hình này, đầu vào là các văn bản tiếng Việt thuộc nhiều thể loại khác nhau, và để cho đơn giản thì chúng tôi chi sử dụng các văn bản thuần. Các văn bản được xử lý qua 4 giai đoạn. 1. Tiền xử lý Giai đoạn này nhằm chuẩn hoá văn bản về bảng mã, các lỗi chính tả, các lỗi về dấu câu, v.v… ; sau đó, sử dụng bộ tách từ để tách ra các từ và các câu. 2. Xử lý từ 1. Tiền xử lý: - Tách câu - Tách từ Danh sách các câu Danh sách các từ 2. Xử lý từ - Loại bỏ từ dừng - Xử lý các từ đồng nghĩa 3. Xây dựng đồ thị liên kết - Tính tf-idf - Xác định độ tương tự giữa các câu 4. Sinh văn bản tóm tắt Chọn ra các câu theo 3 phương pháp Văn bản tóm tắt Văn bản gốc 21 Pha này nhằm mục đích loại bỏ các từ dừng dựa trên một từ điển từ dừng có trước ; sau đó với mỗi từ trong câu, căn cứ vào từ điển đồng nghĩa để lập ra danh sách các từ đồng nghĩa. 3. Xây dựng đồ thị liên kết Trong pha này, chúng tôi sử dụng kỹ thuật tf-idf để tính toán và vector hoá các câu của văn bản, sau đó tính toán độ tương đồng giữa các vector này. Nếu độ tương đồng giữa hai vector đạt đến một ngưỡng nào đó thì 2 câu sẽ được đưa vào đồ thị liên kết. Giá trị của ngưỡng này cũng sẽ được chúng tôi thử nghiệm và đánh giá hiệu lực. 4. Sinh văn bản tóm tắt Trong pha này, chúng tôi sử dụng 3 kỹ thuật ở mục 2.3 để tạo ra văn bản tóm tắt. Như vậy, mỗi văn bản đầu vào sẽ có 3 văn bản tóm tắt tương ứng với từng kỹ thuật sau đây: + Dựa vào bậc của các nút trên đồ thị. + Duyệt theo chiều sâu. + Phân đoạn văn bản. Để đánh giá hiệu quả của việc sử dụng bộ tách từ và từ điển đồng nghĩa, chúng tôi đã xây dựng 3 phiên bản cho ứng dụng này. + Phiên bản 1: Hoàn toàn không sử dụng bộ tách từ, các từ được tách ra căn cứ vào dấu trắng phân cách. + Phiên bản 2: Sử dụng bộ tách từ tiếng Việt để tách ra các từ. + Phiên bản 3: Sử dụng bộ tách từ tiếng Việt, kết hợp với từ điển từ dừng và từ điển đồng nghĩa. Kết quả của từng phiên bản này sẽ được chúng tôi trình bày chi tiết trong chương kết quả thử nghiệm. 3.2 Tiền xử lý văn bản Chúng tôi sử dụng các tập tin văn bản được thu thập từ nhiều nguồn khác nhau để thực hiện tóm tắt, phần lớn là các bài báo được lấy từ website vnexpress.net thuộc các lĩnh vực khoa học, giáo dục, xã hội và một số bài báo khoa học. Đối với các bài báo được lấy từ website, quá trình xử lý được thực hiện một cách bán tự động theo quy trình sau: - Tải về các trang web chứa nội dung các bài báo (dạng html). - Loại bỏ các thẻ HTML, lấy ra nội dung chính. 22 - Loại bỏ các câu không liên quan đến nội dung của bài viết (như các liên kết tới các trang khác…). - Chuẩn hoá về mặt chính tả (các từ, dấu câu,…). Đối với các bài báo khoa học (chủ yếu là dạng pdf) thì nội dung của các bài báo được sao chép một cách thủ công để đảm bảo tính chuẩn mực về chính tả. Nội dung của mỗi văn bản được lưu trữ trong một file text và được mã hoá bằng mã Unicode UTF-8. Tiếp đó, công cụ WordSegForTV [12] được sử dụng để phân tách ra các từ và các câu. Kết quả ta sẽ thu được 2 file: một file chứa các từ được phân tách (dấu “|” được sử dụng để ngăn cách giữa các từ), và một file chứa các câu, ở đầu mỗi câu có số thứ tự của câu được đặt trong cặp dấu “[ ]”. Ví dụ: Đoạn văn bản sau: “Du lịch Việt Nam suy thoái theo kinh tế thế giới. Tuần trước một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao. Lượng khách quốc tế của nhiều công ty giảm tới 50%.” Khi tách từ xong ta sẽ được kết quả: Du| lịch| Việt Nam| suy thoái| theo| kinh tế| thế giới|.| Tuần| trước| một| đoàn| khách| Australia| đã| hủy| hợp đồng| với| Trung tâm| Du lịch| Vietsky Travel| vì| tỷ giá| ngoại tệ| thay đổi| làm giá| tour| tăng| cao|.| Lượng| khách| quốc tế| của| nhiều| công ty| giảm| tới| 50%| Và danh sách các câu: [1]Du lịch Việt Nam suy thoái theo kinh tế thế giới [2]Tuần trước một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao [3]Lượng khách quốc tế của nhiều công ty giảm tới 50% Kết quả của bước tiền xử lý này sẽ là đầu vào cho bước xử lý từ tiếp theo. Riêng đối với chương trình phiên bản 1, bộ tách từ sẽ không được sử dụng mà việc phân tách các từ sẽ căn cứ vào dấu trắng giữa các âm tiết (tức là coi mỗi âm tiết như là một từ đơn). Danh sách các câu sẽ được người thực hiện các bản tóm tắt đối sánh sử dụng để chọn ra các câu. 3.3 Xử lý từ Pha này có đầu vào là tập tin văn bản đã được thêm dấu phân tách từ ở bước trên và có nhiệm vụ xác định các câu. Ranh giới để phân định các câu là các dấu kết 23 thúc câu bao gồm: dấu chấm câu (.), dấu hỏi chấm (?), dấu chấm than (!) và dấu ba chấm (...). Đồng thời, chương trình có nhiệm vụ xác định các từ, ranh giới để xác định là dấu “|”. Thuật toán dưới đây thể hiện việc chọn ra các từ, các câu, các từ đồng nghĩa và loại bỏ các từ dừng. Chúng tôi dùng từ điển các từ dừng do website xulyngongu.com cung cấp để loại bỏ bớt các từ không có giá trị trong việc so sánh nội dung giữa 2 câu. Từ điển đồng nghĩa được sử dụng là của [3]. Thuật toán 1 Input: Tập tin văn bản đã tách từ. Output: Tập các từ T, Tập các câu Sent. 1. Mở tập tin văn bản ST=Nội dung file 2. {Tách ra các câu} n=0; {đếm số lượng câu} k=1; while k<len(st) begin if ST(k)=Dấu kết thúc câu then begin n=n+1; sent(i)=Câu kết thúc tại vị trí k; end; Tăng k; end; 3. {Tách ra các từ} k=1; while k<len(st) begin if ST(k)= “|” then begin word=Chọn ra từ kết thúc tại k; Chuẩn hoá word; {Loại bỏ dấu cách, các kí hiệu vô ích, chuyển về chữ thường} if word có trong từ điển từ dừng then word=”” else if word có trong từ điển đồng nghĩa then Đưa word và các từ đồng nghĩa vào Tập từ Term; 24 Else Đưa word vào Tập từ T; Tăng k; end; 4. return T, Sent; Thuật toán này được sử dụng cho phiên bản 3, trong phiên bản 2 thuật toán cũng được sử dụng, tuy nhiên không có phần loại bỏ từ dừng và tìm kiếm từ trong từ điển đồng nghĩa. Với phiên bản 1, việc xác định các câu cũng tương tự như trên, tuy nhiên ranh giới các từ được xác định bằng khoảng trắng. 3.4 Xây dựng đồ thị liên kết Pha này có nhiệm vụ xây dựng đồ thị liên kết giữa các câu trong văn bản với đầu vào là danh sách các câu và các từ đã được xử lý ở pha trước đó. Ta thực hiện vector hoá các câu trong văn bản và thực hiện tính toán độ tương đồng giữa 2 câu bất kì trong văn bản. Trong mô hình không gian vector, ta coi mỗi văn bản như một vector (hay một điểm) trong không gian Euclide nhiều chiều, trong đó mỗi chiều là từ. Có 3 cách để biểu diễn vector [20] tuỳ thuộc vào kiểu của các thành phần trong vector: nhị phân, tần số từ tf, và tần số từ−tần số tài liệu ngược tf-idf. Giả sử văn bản cần tóm tắt có n câu được đánh số là nsentsentsent ,...,, 21 và m từ mttt ,...,, 21 gọi ijn là số lần xuất hiện của từ it trong câu jsent . Trong phương pháp này, chúng tôi sử dụng cách biểu diễn tf-idf để biểu diễn các vector văn bản. Mỗi thành phần thứ i của vector văn bản jsent được tính bằng: )(),( iji i j tIDFsenttTFsent  (1) Trong đó: - mi ,1 , nj ,1 - Giá trị ),( ji senttTF được tính bằng nhiều cách: + Tính bằng tổng số lần xuất hiện của các từ trong tài liệu:            0n if 0n if 0 ),( ij 1 ij m k kj ij ji n n senttTF (2) + Tính bằng số lần xuất hiện lớn nhất của các từ: 25         0n if max 0n if 0 ),( ij ij kjk ijji n nsenttTF (3) + Tính bằng ln số lần xuất hiện số từ (sử dụng trong hệ thống Cornell SMART):       0n if )nln ln(1 1 0n if 0 ),( ijij ij ji senttTF (4) Trong cài đặt thử nghiệm, công thức (4) được sử dụng để tính giá trị ),( ji senttTF . - Với mỗi từ it giá trị )( itIDF được tính bằng tỉ lệ thức của các câu mà xuất hiện từ it với tổng số câu có được. Gọi S là tập hợp các câu và itS là tập các câu có chứa từ it .  n jsentS 1  (5a)  0|  ijjt nsentS i (5b) Giá trị )( itIDF có thể tính theo một số cách: + Tính bằng thương số của S và itS : it i S S tIDF )( (6) + Tính bằng hàm logarit: it i S S tIDF   1 log)( (7) Trong cả 3 phiên bản thì công thức (7) được sử dụng để tính toán giá trị )( itIDF . Sau khi vector hoá các câu trong văn bản, ta tính độ tương quan giữa từng cặp câu với nhau theo công thức tính độ tương đồng Cosine đã nêu ở trên. Khi đó, độ tương đồng giữa 2 câu isent và jsent bất kì được tính bằng: 26     m l l j m k k i m lk l j k i ji sentsent sentsent sentsentsim 1 1,),( (8) Tiếp đó, ta xây dựng đồ thị liên kết giữa các câu trong văn bản. Đồ thị được biểu diễn bằng một ma trận D như sau:       thresholdsentsentsimfsentsentsim thresholdsentsentsimif sentsentD jiji ji ji ),( i ),( ),( 0 ),( (9) Trong đó: threshold là một ngưỡng được cho trước và được tính toán bằng thực nghiệm đối với các loại văn bản. Trong thử nghiệm này của chúng tôi, ngưỡng threshold = 0,2. Thuật toán 2. Xây dựng đồ thị liên kết Input: Tập từ T, số lượng từ m, tập các câu Sent, số lượng câu n, ngưỡng threshold. Output: Đồ thị liên kết các câu njmijiDis ..1,..1),,(  1. {Sắp xếp tập từ T} HeapSort(T,m); 2. {Tính tf-idf} for i = 1 to m for j = 1 to n if T(i)=T(j) then N(i,j) = N(i,j) + 1; {Tính tf} for i = 1 to m for j = 1 to n begin tf(i,j) = 0; if N(i,j) > 0 then tf(i,j) = 1 + ln(1+ln(N(i,j))) end; {Tính idf} for i = 1 to m begin count = 0; 27 for j = 1 to n if N(i,j) > 0 then count = count + 1; idf(i) = ln((1+n)/count) end; 3. {Tính toán độ tương đồng} for i = 1 to m for j = 1 to n begin sim = cos(senti, sentj) if sim > threshold then Dis(i,j) = sim; 4. return Dis(i,j) Hình 4 Đồ thị liên kết của văn bản Text(1).txt 1 2 3 4 5 6 7 8 10 11 12 13 14 16 17 19 20 23 26 27 34 28 3.5 Sinh văn bản tóm tắt Giả sử văn bản cần tóm tắt có độ dài là p% độ dài của văn bản gốc. Chúng tôi xây dựng thủ tục duyệt đồ thị để chọn ra những câu quan trọng theo 3 phương pháp: a) Phương pháp 1. Dựa vào bậc của các nút trên đồ thị Bước 1: Tính bậc của mỗi nút trong đồ thị (bậc được tính bằng số liên kết của nút với các nút khác). Bước 2: Sắp xếp các nút theo thứ tự bậc giảm dần. Bước 3: Chọn ra các nút có bậc cao nhất, ngừng chọn khi số câu đủ yêu cầu. Thuật toán 3 Input: Đồ thị liên kết Dis(i,j), tỉ lệ nén p%, số câu n. Output: Tập các câu được chọn Selection. 1. {Tính số câu cần chọn} NumberOfSent = Round(n * p); 2. {Tính bậc của các nút} for i = 1 to n begin Degree(i) = 0; for j = 1 to n if Dis(i,j) 0 then Degree(i) = Degree(i) + 1; end; 3. Sắp xếp Degree(i), i = 1..n theo chiều giảm dần 4. {Chọn ra các câu} for i = 1 to NumberOfSent selection(i) = Số thứ tự của câu tương ứng; 5. Sắp xếp selection theo chiều tăng dần; 6. return selection; Ví dụ: Với văn bản Text(1).txt, tỉ lệ nén được chọn là 10%, số câu cần chọn ra là 4. Theo thuật toán 3, thứ tự của các nút được sắp xếp theo bậc giảm dần là (bỏ qua các nút có bậc bằng 0: 29 Nút Bậc Nút Bậc Nút Bậc 10 5 23 2 12 1 19 4 1 1 13 1 2 3 3 1 16 1 4 3 6 1 17 1 5 3 7 1 20 1 34 3 8 1 26 1 14 2 11 1 27 1 Bảng 1 Bậc của các nút sắp theo thứ tự giảm dần của văn bản Text(1).txt Kết quả các câu được chọn là 10, 19, 2, 4. Văn bản tóm tắt là: b) Phương pháp 2. Duyệt theo chiều sâu Bước 1: Chọn nút bắt đầu là nút đầu tiên (theo thứ tự xuất hiện trong văn bản). Bước 2: Duyệt đồ thị theo chiều sâu bắt đầu từ nút xuất phát, chọn các nút theo số bậc cao nhất. Quá trình duyệt dừng lại khi nút cuối cùng được chọn không liên kết với nút nào về sau. Bước 3: Nếu vẫn chưa đủ số câu cần thiết, thực hiện phương pháp 1 đối với các câu còn lại chưa được chọn. Thuật toán 4 [2]Tuần trước một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao. [4]Theo ông Đào Hồng Thương - Phó giám đốc Trung tâm Vietsky Travel suy thoái kinh tế thế giới khiến du khách giảm chi tiêu cộng với tỷ giá ngoại tệ trong nước thay đổi liên tục khiến giá tour tăng gây khó khăn cho nhiều đoàn khách châu Âu. [10]Theo nhận định của một số đơn vị lữ hành ngoài nguyên nhân suy thoái kinh tế thế giới giá dịch vụ trong nước tăng cao cũng khiến khách quốc tế sút giảm. [19]Ảnh hưởng của suy thoái kinh tế cũng khiến nhiều đoàn khách quốc tế cắt giảm chi tiêu ở Việt Nam. 30 Input: Đồ thị liên kết Dis(i,j), tỉ lệ nén p%, số câu n. Output: Tập các câu được chọn Selection. 1. Tính số câu cần chọn; 2. Tính bậc của các nút; 3. {Chọn nút đầu tiên} Count = 1; selected = 1; Selection(count) = selected; 4. {Tạo danh sách kề với nút được chọn} for i = 1 to n if (Dis(selected,i) > 0 then Đưa i vào danh sách kề; 5. {Chọn nút có bậc cao nhất trong danh sách kề} Selected = nút có bậc cao nhất trong danh sách kề; Count = Count + 1; Quay lại bước 4. 6. {Nếu chưa đủ số câu} If count < NumberOfSent then begin for i = 1 to n if sent(i) chưa được chọn then Đưa i vào Danh sách còn lại; Chọn (NumberOfSent – count) câu trong Danh sách còn lại; 7. Sắp xếp selection theo chiều tăng dần; 8. return selection; Với ví dụ trên, các câu được chọn lần lượt là: 10, 19, 4, 2. [2]Tuần trước một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao. [4]Theo ông Đào Hồng Thương - Phó giám đốc Trung tâm Vietsky Travel suy thoái kinh tế thế giới khiến du khách giảm chi tiêu cộng với tỷ giá ngoại tệ trong nước thay đổi liên tục khiến giá tour tăng gây khó khăn cho nhiều đoàn khách châu Âu. [10]Theo nhận định của một số đơn vị lữ hành ngoài nguyên nhân suy thoái kinh tế thế giới giá dịch vụ trong nước tăng cao cũng khiến khách quốc tế sút giảm. [19]Ảnh hưởng của suy thoái kinh tế cũng khiến nhiều đoàn khách quốc tế cắt giảm chi tiêu ở Việt Nam. 31 c) Phương pháp 3. Phân đoạn văn bản Bước 1: Tách văn bản thành những phân đoạn, căn cứ vào độ dài của văn bản và tỉ lệ nén p. Bước 2: Áp dụng phương pháp 1 đối với từng phân đoạn, ở mỗi phân đoạn chọn ít nhất một câu. Các câu còn lại được chọn là các nút có bậc cao trong các phân đoạn. Quá trình chọn sẽ dừng lại khi đạt đủ số câu cần thiết. Thuật toán 5 Input: Đồ thị liên kết Dis(i,j), tỉ lệ nén p%, số câu n. Output: Tập các câu được chọn Selection. 1. Tính số câu cần chọn; 2. Tính bậc của các nút; 3. {Tính toán số đoạn, số câu chọn mỗi đoạn} SentPerSeg = 1; NumberOfSent = n/SentPerSeg; while NumberOfSeg > NumberOfSent begin SentPerSeg = SentPerSeg + 1 NumberOfSeg = n/SentPerSeg end; SelectSentPerSeg = NumberOfSent / NumberOfSeg 4. {Chọn ra các câu trong từng đoạn} First = 1; Last = SentPerSeg; while last < n begin Sắp xếp bậc của các nút trong đoạn [First, Last]; for i = 1 to SelectSentPerSeg chọn câu có bậc lớn nhất; First = Last + 1; Last = Last + SentPerSeg; end; 5. Sắp xếp selection theo chiều tăng dần; 6. return selection; Cùng với ví dụ văn bản Text(1), văn bản được chia thành 4 phần, mỗi phần 8 câu, phương pháp 3 sẽ chọn ra các câu: 2, 10, 19, 34 32 Văn bản kết quả là: Như vậy, với 3 phương pháp lựa chọn các câu để sinh văn bản tóm tắt như trên thì mỗi văn bản đầu vào sẽ có 3 văn bản tóm tắt. Các văn bản tóm tắt được đánh giá nhằm kiểm tra năng lực của từng phương pháp, để từ đó chọn lựa ra phương pháp thích hợp. Trong chương này, chúng tôi đã giới thiệu mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc và trình bày chi tiết về việc xây dựng chương trình tóm tắt văn bản. Nhằm mục đích kiểm nghiệm tác dụng của bộ tách từ tiếng Việt, từ điển đồng nghĩa, chúng tôi đã cài đặt 3 phiên bản cho ứng dụng này. Trong chương tiếp theo, chúng tôi sẽ trình bày những kết quả thực nghiệm thu được trên các phiên bản này. [2]Tuần trước một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao. [10]Theo nhận định của một số đơn vị lữ hành ngoài nguyên nhân suy thoái kinh tế thế giới giá dịch vụ trong nước tăng cao cũng khiến khách quốc tế sút giảm. [19]Ảnh hưởng của suy thoái kinh tế cũng khiến nhiều đoàn khách quốc tế cắt giảm chi tiêu ở Việt Nam. [34] Năm nay nước này dự kiến tăng khoảng 20% nhưng 9 tháng đầu năm chỉ tăng 6% Singapore năm ngoái đón 10 triệu lượt khách tăng 6,7% thì 9 tháng đầu năm nay chỉ tăng 0,1%. 33 Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương này trình bày về những kết quả thu được sau quá trình thử ngiệm chương trình đồng thời đưa ra những đánh giá, nhận xét để từ đó có thể nâng cao được độ chính xác của hệ thống. 4.1 Môi trường thử nghiệm Chương trình được xây dựng và thử nghiệm trên máy tính cá nhân có cấu hình và các phần mềm cần thiết như sau: - Vi xử lý: Intel Dual Core T2390 1.86GHz - Bộ nhớ: 2GB - Hệ điều hành: Windows 7. - Phần mềm phát triển: Microsoft Visual Basic 2008. - Phần mềm WordSegForTV [12] nhằm thực hiện tách từ trong văn bản. 4.2 Dữ liệu thử nghiệm a) Tập văn bản thử nghiệm Gồm 50 văn bản có nội dung với nhiều lĩnh vực khác nhau, phần lớn được lấy từ website vnexpress và một số bài báo khoa học khác. Trong đó, có 19 bài viết thuộc lĩnh vực Giáo dục, 16 bài về Xã hội, 6 bài viết về Khoa học thường thức, 4 bài Tâm sự và 4 bài báo khoa học. Mỗi văn bản được lưu trong một tập tin được đặt tên theo thứ tự từ Text(1).txt đến Text(50).txt. Văn bản có kích thước lớn nhất là 27KB với 179 câu, văn bản có kích thước nhỏ nhất là 1,45KB với 9 câu. b) Từ điển - Từ điển từ dừng [10]: gồm 807 từ do website xulyngonngu.com cung cấp. - Từ điển đồng nghĩa [3]: gồm 603 mục từ với tổng cộng 2867 từ đồng nghĩa. 4.3 Phương pháp đánh giá Như trên đã trình bày, có nhiều phương pháp khác nhau để đánh giá kết quả của một hệ thống tóm tắt. Trong đó, phương pháp so sánh văn bản của hệ thống tóm tắt với văn bản do con người thực hiện được sử dụng nhiều. Trong thử nghiệm của chúng tôi, phương pháp này cũng được sử dụng để đánh giá độ chính xác của hệ thống tóm tắt. Gọi hệ thống tóm tắt cần đánh giá là S, hệ thống tóm tắt đối sánh là GS thì ta có bảng đánh giá mức độ liên quan của S và GS như sau: 34 Hệ thống S Hệ thống GS Số câu S chọn Số câu S không chọn Số câu GS chọn A B Số câu GS không chọn C D Bảng 2 Đánh giá sự liên quan của văn bản tóm tắt và văn bản GS Trong đó: A là tổng số câu được cả 2 hệ thống tóm tắt chọn; B là tổng số câu S không chọn nhưng GS chọn; C là tổng số câu S chọn nhưng GS không chọn; D là tổng số câu mà cả 2 hệ thống đều không chọn. Khi đó, độ chính xác Precision (P) được tính bằng: CA AP   (10) Độ chính xác P cho biết tỉ lệ giữa các câu S chọn ra chính xác so với tổng số những câu có trong văn bản tóm tắt do S thực hiện. Độ bao phủ Recall (R) được tính bằng: BA AR   (11) Độ bao phủ R cho biết tỉ lệ giữa các S chọn ra chính xác so với tổng số câu trong văn bản do GS thực hiện. Độ đo F: là tiêu chí đánh giá chung cho kết quả tóm tắt của hệ thống, độ đo này là hàm điều hoà của độ chính xác và độ hồi quy và được tính bằng: RP PRF   2 (12) Như trên đã trình bày, tỉ lệ nén của văn bản tóm tắt là tỉ lệ giữa tổng số câu do hệ thống tóm tắt lựa chọn so với tổng số câu của văn bản ban đầu. Chúng tôi thử nghiệm hệ thống tóm tắt với 3 mức độ nén: 10%, 20% và 30%. Tập văn bản thử nghiệm trên được tóm tắt bởi con người, mỗi văn bản được tóm tắt thành 3 văn bản với mức độ nén lần lượt là 10%, 20% và 30%. Các văn bản được chuyển cho hai người tóm tắt để chọn ra các câu có ý nghĩa quan trọng. Việc lựa chọn các câu sẽ là chọn ra số thứ tự của câu đó trong văn bản gốc. Mỗi câu được chọn sẽ được ghi trên một dòng. 35 Chẳng hạn, với văn bản Text(1).txt trong tập văn bản thử nghiệm, văn bản này có 35 câu. Giả sử, với tỉ lệ nén là 10% thì người tóm tắt sẽ thực hiện chọn ra 4 câu, các câu được chọn được ghi trong một tập tin văn bản viết theo dạng: Hình 5 Bản tóm tắt của Text(1).txt thực hiện bởi con người, tỉ lệ nén 10% Văn bản tóm tắt của Text(1).txt Đồng thời, để so sánh kết quả tóm tắt của hệ thống với các hệ thống khác, chúng tôi lựa chọn Microsoft Office Word 2003 làm hệ tóm tắt đối sánh. Khi có được các câu do chức năng AutoSummarize lựa chọn, căn cứ vào danh sách các câu có được ở bước tiền xử lý, danh sách các câu được chọn sẽ được lưu vào trong một file có định dạng giống như trên. Các tập tin này được lưu trong cùng thư mục theo từng tỉ lệ nén, các tập tin tóm tắt theo cùng mức độ nén thì được lưu trong cùng một thư mục. [4]Theo ông Đào Hồng Thương - Phó giám đốc Trung tâm Vietsky Travel suy thoái kinh tế thế giới khiến du khách giảm chi tiêu cộng với tỷ giá ngoại tệ trong nước thay đổi liên tục khiến giá tour tăng gây khó khăn cho nhiều đoàn khách châu Âu. [10]Theo nhận định của một số đơn vị lữ hành ngoài nguyên nhân suy thoái kinh tế thế giới giá dịch vụ trong nước tăng cao cũng khiến khách quốc tế sút giảm. [19]Ảnh hưởng của suy thoái kinh tế cũng khiến nhiều đoàn khách quốc tế cắt giảm chi tiêu ở Việt Nam. [35] Trong thời điểm khó khăn này chiến lược của ngành du lịch là thu hút khách ở thị trường gần như Hong Kong, Đài Loan, Nhật Bản, Hàn Quốc, Thái Lan và những tỉnh ven biển Trung Quốc như Quảng Đông, Quảng Tây, Vân Nam - người đứng đầu ngành du lịch Việt Nam nói. 36 4.4 Kết quả thực nghiệm 4.4.1 Thử nghiệm xác định ngưỡng Ngưỡng là giá trị dùng để quyết định xem 2 câu của văn bản có được đưa vào đồ thị liên kết hay không? Nếu độ tương tự giữa hai câu đạt đến ngưỡng thì 2 câu đó được đưa vào đồ thị. Chúng tôi đã tiến hành thử nghiệm các phiên bản với những ngưỡng khác nhau để chọn ra một ngưỡng phù hợp. Bảng dưới đây miêu tả kết quả tóm tắt của các phiên bản với các ngưỡng. Phiên bản 1 Phiên bản 2 Phiên bản 3 Ngưỡng Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà 0,05 45,44 42 43,65 46,89 42,56 44,62 46,44 42,11 44,17 0,1 45,22 41,89 43,49 46,67 42,44 44,45 46,22 42 44,01 0,2 43,33 40,67 41,92 47,11 43 44,89 47,22 43,22 45,09 0,3 43,11 40,11 41,56 44,33 40,67 42,42 41,22 38 39,54 0,4 37,78 35 36,33 41,33 38,22 39,71 40,89 37,44 39,09 Bảng 3 Kết quả thử nghiệm với các ngưỡng khác nhau Đồ thị dưới đây mô tả giá trị hàm điều hoà trong việc thử nghiệm các ngưỡng đối với từng phiên bản. 35 37 39 41 43 45 47 0,05 0,1 0,2 0,3 0,4 Ti lệ p hầ n tr ăm Phiên bản 1 Phiên bản 2 Phiên bản 3 Hình 6 Đồ thị kết quả tóm tắt với các ngưỡng 37 Qua kết quả này, ta có thể nhận thấy, với ngưỡng 0,05; 0,1 và 0,2 thì chương trình tóm tắt cho kết quả khả quan nhất. Khi ngưỡng tăng dần thì giá trị hàm điều hoà lại giảm rất nhanh do khi độ tương tự giữa hai câu không đạt đến ngưỡng đó thì hai câu đó không thể được đưa vào đồ thị liên kết, từ đó hai câu này sẽ không được chọn vào văn bản tóm tắt (mà rất có thể hai câu này chứa nội dung chính và sẽ được chọn). Việc xác định ngưỡng có một vị trí quan trọng trong chương trình tóm tắt. Bởi lẽ ngưỡng còn phụ thuộc vào từng loại văn bản, một ngưỡng này có thể là tốt với loại văn bản nhưng có thể lại không tốt với loại văn bản khác. Trong thử nghiệm kết quả tóm tắt đối với từng văn bản dưới đây chúng tôi sử dụng ngưỡng 0,2 để đánh giá. 4.4.2 Kết quả thử nghiệm đối với từng phiên bản a) Đánh giá chất lượng tóm tắt của Microsoft Word Bảng dưới đây là kết quả đối sánh của các bản tóm tắt do Microsoft Word thực hiện. Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà 10% 34 28 30,71 20% 36 30 32,73 30% 44 41 42,45 Trung bình 38 33 35,32 Bảng 4 Chất lượng của văn bản tóm tắt bởi Microsoft Word b) Phiên bản 1 Trong phiên bản này, chúng tôi không sử dụng bộ tách từ mà chỉ sử dụng dấu trắng làm dấu hiệu phân tách từ. Ngưỡng threshold được chọn đối với cả 3 phiên bản để đưa 2 câu vào đồ thị liên kết được chọn là 0,2. Dưới đây là kết quả đánh giá độ chính xác và độ bao phủ trung bình của phương pháp được sử dụng trong phiên bản này theo từng mức độ nén khi so sánh với văn bản tóm tắt “lý tưởng” do con người thực hiện. Chúng tôi cũng đưa ra độ chính xác trung bình chung cho cả 3 mức độ nén. 38 Đơn vị: % Phương pháp 1 Phương pháp 2 Phương pháp 3 Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà 10% 51 42 46,06 46 44 44,98 32 28 29,87 20% 46 44 44,98 47 45 45,98 41 38 39,44 30% 40 40 40 41 40 40,49 46 45 45,49 Trung bình 45,67 42 43,76 44,67 43 43,82 39,67 37 38,29 Bảng 5 Kết quả thử nghiệm với phiên bản 1 Trong đó, phương pháp 1, phương pháp 2, phương pháp 3 lần lượt là các cách chọn câu như đã trình bày ở 3.5. Độ chính xác trung bình với cả 3 phương pháp chọn câu mà phiên bản này đạt được là 43,33%, còn độ bao phủ là 40,67%. Giá trị hàm điều hoà là 41,92%. c) Phiên bản 2 Trong phiên bản này, bộ tách từ tiếng Việt được sử dụng để tách ra các từ. Kết quả thử nghiệm với phiên bản này được cho trong bảng dưới. Đơn vị: % Phương pháp 1 Phương pháp 2 Phương pháp 3 Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ chính xác Hàm điều hoà Độ bao phủ Độ chính xác Hàm điều hoà 10% 55 43 48,27 65 55 59,58 34 29 31,3 20% 45 43 43,98 51 49 49,98 43 40 41,45 30% 41 40 40,49 45 44 44,49 45 44 44,49 Trung bình 47 42 44,25 53,67 49,33 51,35 40,67 37,67 39,08 Bảng 6 Kết quả thử nghiệm với phiên bản 2 Độ chính xác trung bình mà phiên bản này đạt được là 47,22% và độ bao phủ trung bình là 43,22%, hàm điều hoà là 44,89%. Dễ nhận thấy là với việc sử dụng bộ tách từ, độ chính xác đã tăng lên đáng kể. 39 d) Phiên bản 3 Phiên bản này sử dụng đồng thời cả bộ tách từ tiếng Việt và các từ điển từ dừng, từ đồng nghĩa. Kết quả trung bình của phiên bản này như dưới đây. Đơn vị: % Phương pháp 1 Phương pháp 2 Phương pháp 3 Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ chính xác Hàm điều hoà Độ bao phủ Độ chính xác Hàm điều hoà 10% 53 43 47,48 65 56 60,17 36 31 33,31 20% 44 41 42,45 52 49 50,46 42 39 40,44 30% 42 41 41,49 47 46 46,49 44 43 43,49 Trung bình 46,33 41,67 43,88 54,67 50,33 52,41 40,67 37,67 39,11 Bảng 7 Kết quả thử nghiệm với phiên bản 3 Độ chính xác trung bình mà phiên bản này đạt được là 47,22% và độ bao phủ trung bình là 43,22%, độ đo F là 45,09%. Hàm điều hoà trung bình tương đương với phiên bản 1. Tuy nhiên, phương pháp 2 lại tỏ ra có hiệu quả cao với độ chính xác trung bình là 54,67% và đạt cao nhất là 65%, giá trị hàm điều hoà đạt cao nhất là 52,41%. Như vậy, phiên bản này tỏ ra có hiệu quả ưu thế hơn các phiên bản trước. Dưới đây là kết quả tổng hợp so sánh các phiên bản với nhau và với phần mềm Microsoft Office Word 2003. Đơn vị: % MS Word Phiên bản 1 Phiên bản 2 Phiên bản 3 Tỉ lệ Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà 10% 34 28 30,71 43 38 40,35 51,33 42,33 46,4 51,33 43,33 46,99 20% 36 30 32,73 44,67 42,33 43,47 46 43,33 44,63 46 43 44,45 30% 44 41 42,45 42,33 41,67 42 44,33 43 43,65 44,33 43,33 43,82 Bảng 8 So sánh kết quả các phiên bản và MS Word Đồ thị dưới đây minh hoạ kết quả tóm tắt (thể hiện bằng giá trị hàm điều hoà) trên cả 3 phiên bản. 40 30 32 34 36 38 40 42 44 46 48 MS Word Phiên bản 1 Phiên bản 2 Phiên bản 3 T ỉ l ệ ph ần tr ăm 10% 20% 30% Hình 7 So sánh kết quả tóm tắt của các phiên bản và MS Word Như vậy, phiên bản 3 với phương pháp chọn câu duyệt theo chiều sâu (phương pháp 2) cho kết quả tóm tắt tốt nhất với giá trị ngưỡng được chọn là 0,2. Ngoài ra, chúng tôi thực hiện so sánh mức độ giống nhau giữa các bản tóm tắt được thực hiện bởi con người, chúng tôi so sánh các văn bản được tóm tắt bởi người thứ nhất với các văn bản tóm tắt bởi người thứ hai theo phương pháp so sánh ở trên, kết quả trong bảng dưới đây: Đơn vị: % Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà 10% 75 77 75,99 20% 83 83 83 30% 81 81 81 Trung bình 79,67 80,33 80 Bảng 9 So sánh các văn bản tóm tắt được thực hiện bởi 2 người Theo bảng kết quả này, trung bình các văn bản của hai người tóm tắt có mức độ giống nhau 80% (theo hàm điều hoà). Trong chương này chúng tôi đã trình bày kết quả thử nghiệm của các phiên bản, đồng thời so sánh với chức năng AutoSummarize của Microsoft Office Word. Kết quả cho thấy, việc sử dụng bộ tách từ đã cho kết quả thấy rõ và việc sử dụng thêm từ điển đồng nghĩa cũng góp phần cải thiện độ chính xác của phương pháp tóm tắt. Đồng thời, qua kết quả này chúng tôi cũng nhận thấy, phương pháp 2 (phương pháp duyệt đồ thị theo chiều sâu) cho kết quả tốt nhất với giá trị hàm điều hoà đạt 52,41%. Tuy nhiên, kết quả tóm tắt còn phụ thuộc vào dạng của văn bản 41 tóm tắt, phương pháp này có thể là tốt với dạng văn bản này nhưng cũng có thể không tốt với dạng văn bản khác. Bảng phụ lục bên dưới cho thấy kết quả tóm tắt với từng văn bản trong tập văn bản thử nghiệm: Có văn bản được tóm tắt với độ đo F rất cao (76,63%) nhưng có văn bản thì độ đo F chỉ đạt xấp xỉ 22%. Do vậy cũng cần có những nghiên cứu tiếp theo để cải tiến và đưa ra được phương pháp cho kết quả tốt hơn với nhiều dạng văn bản. 42 KẾT LUẬN Tóm tắt văn bản là một lĩnh vực khó của xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt có thể ứng dụng vào nhiều lĩnh vực: từ hỗ trợ việc đọc và khai thác thông tin cho đến hỗ trợ các hệ thống tìm kiếm. Có nhiều hướng tiếp cận để tóm tắt văn bản: từ các phương pháp thống kê, học máy đến ứng dụng các kĩ thuật xử lý ngôn ngữ phức tạp. Tóm tắt văn bản có thể có nhiều dạng, tuỳ theo từng tiêu chí phân loại và mục đích, yêu cầu của người sử dụng. Luận văn đã trình bày những vấn đề tổng quan về tóm tắt văn bản, giới thiệu các hướng tiếp cận chính với các phương pháp tóm tắt văn bản tiêu biểu đã và đang được sử dụng trong các hệ thống tóm tắt văn bản tiếng Anh và đều đã thu được những kết quả rất khả quan. Chúng tôi đã trình bày về việc áp dụng, cải tiến phương pháp sử dụng cấu trúc văn bản để tóm tắt văn bản. Trong phương pháp này, chúng tôi đã sử dụng một số kĩ thuật để xử lý áp dụng cho tiếng Việt (bộ tách từ, từ điển từ dừng, từ điển đồng nghĩa…). Chúng tôi đã tiến hành cài đặt thử nghiệm và đánh giá các bản tóm tắt của hệ thống với các bản tóm tắt do con người thực hiện. Kết quả thử nghiệm cho thấy, hệ thống có khả năng nhận diện ra những câu quan trọng, tuy nhiên, tính mạch lạc và độ chính xác còn chưa cao. Do hạn chế về mặt thời gian, kĩ thuật và đặc biệt chưa có dữ liệu về tiếng Việt đầy đủ: như từ điển từ đồng nghĩa, trái nghĩa, từ dừng… nên cần có nhiều thời gian và công sức để xây dựng và cải tiến phương pháp tóm tắt văn bản tiếng Việt để có được hệ thống tóm tắt văn bản hiệu quả. Phương pháp chúng tôi sử dụng thực nghiệm trong đề tài này mới chỉ thuộc dạng trích chọn các câu trong văn bản. Tương lai, chúng tôi sẽ tiếp tục nghiên cứu để cải tiến phương pháp này và các phương pháp khác để có thể xây dựng được chương trình tóm tắt với khả năng sinh tự động văn bản tóm tắt theo một số hướng: - Thử nghiệm với nhiều dạng văn bản khác nhau: bài báo khoa học, báo điện tử… để có thể đưa ra được các tham số cho phù hợp (như ngưỡng khi đánh giá độ tương tự, độ dài của phân đoạn văn bản…) kết hợp với phương pháp tìm các cụm từ dấu hiệu để xác định những câu quan trọng. - Sử dụng phương pháp phân tích cú pháp, biến đổi từ và một số kĩ thuật xử lý khác để tăng tính mạch lạc cho văn bản tóm tắt. - Nghiên cứu các phương pháp sinh tóm tắt văn bản (tóm tắt dạng abstract) để xây dựng chương trình tóm tắt với khả năng “viết” ra bản tóm tắt chứ không đơn thuần là trích chọn các câu trong văn bản. 43 Vì thời gian và trình độ còn hạn chế nên chắc chắn đề tài không thể tránh khỏi những thiếu sót, rất mong nhận được ý kiến đóng góp của các thầy cô và các bạn để đề tài được hoàn thiện hơn. Xin chân thành cảm ơn! 44 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Diệp Quang Ban (2008), Ngữ pháp tiếng Việt - tập 1, 2, NXB Giáo dục, Hà Nội. [2] Nguyễn Việt Cường (2007), “Xây dựng mục lục cho văn bản”, Luận văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội, Hà Nội. [3] Trần Trọng Dương, Nguyễn Quốc Khánh, Bùi Hồng Quế, Nguyễn Đình Phúc, Nguyễn Minh Châu (2008), Từ điển đồng nghĩa và trái nghĩa tiếng Việt dành cho học sinh, Nhà xuất bản từ điển bách khoa, Hà Nội, tr. 9-323. [4] Vũ Xuân Lương (2002), “Tiếng Việt giàu nhưng có còn đẹp trên mạng thông tin toàn cầu”, Tạp chí ngôn ngữ & đời sống, Hà Nội. [5] Đỗ Phúc, Hoàng Kiếm (2006), “Rút ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung”, Tạp chí công nghệ thông tin và truyền thông, Hà Nội. [6] Nguyễn Trọng Phúc, Lê Thanh Hương (2008), “Tóm tắt văn bản sử dụng cấu trúc diễn ngôn”, Đại học Bách Khoa Hà Nội, Hà Nội. [7] Nguyễn Hồng Thái (2008), “Tóm tắt văn bản tiếng Việt theo chủ đề”, Đồ án tốt nghiệp cao học, Đại học Bách khoa Hà Nội. [8] Vương Toàn (2007), “Thử đề xuất quy trình tự động tóm tắt văn bản khoa học”, Bản tin thư viện – Công nghệ thông tin, tr.14-17. [9] Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội. [10] Website xulyngonngu.com Tiếng Anh [11] Dipanjan Das, Andre F.T. Martins (2007), “A Survey on Automatic Text Summarization”, Language Technologies Institute, Carnegie Mellon Univerisity. [12] Dang Duc Pham, Giang Chan Binh, Son Bao Pham (2009), “ ”, International Conference on Knowledge and Systems Engineering, pp.154-161. [13]Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word Segmentation”, National University of HCM City [14] Edmundson (1969), “New methods in automatic extracting”, Journal of the ACM, 16(2), pp.264-285. 45 [15] Jezek, K. and Steinberger, J. (2008) "Automatic Text Summarization (The state of the art 2007 and new challenges)", Znalosti, FIIT STU Bratislava, Slovakia, pp.1-12. [16] Partha Lal (2002), Text Summarization, Doctor thesis, University of Sheffield. [17] H.P. Luhn (1958), “The Automatic Creation of Literature Abstracts”, IBM Journal of Research and Development, volume 2, pp. 159-165. [18] Inderjeet Mani (2001), “Summarization Evaluation: An Overview”, In: Proceedings of the North American chapter of the Association for Computational Linguistics (NAACL), Workshop on Automatic Summarization, USA. [19] Inderjeet Mani and Mark T. Maybury, (1999), Advances in Automatic Text Summarization, The MIT Press Cambridge, Massachusetts London, England, pp. ix-x. [20] Zdravko Markov and Daniel T.Larose (2007), Data mining the web – Uncovering patterns in Web content, structure, and usage, John Wiley & Sons Inc. Publication, New Jersey, USA. [21] Joel Larocca Neto, Alex A. Freitas, Celso A.A. Kaestner (2002), “Automatic Text Summarization using a Machine Learning Approach”, Springer Verlag Berlin Heidelberg , pp. 205-215 [22] Dragomir R. Radev, Kathleen McKeown (2002), “Introduction to the Special Issue on Summarization”, Computational Linguistics, Volume 28 (4), pp. 399-408. [23] Gerard Salton, Chris Buckley and Jame Allan (1992), “Automatic structuring of text files”, Electronic Publishing, Vol. 5(1), pp. 1-17. [24] Gerard Salton, Am1t Singha, Mandar Mitra And Chris Buckley (1997), “Automatic Text Structuring and Summarization”, Advances in Automatic Text Summarization, The MIT Press Cambridge, Massachusetts London, England, pp. 341-355. [25] Chih-Hao Tsai (2000), “A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”, Web publication at 46 PHỤ LỤC Văn bản Text(1) đã được tách thành các câu: [1]Du lịch Việt Nam suy thoái theo kinh tế thế giới [2]Tuần trước một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao [3] Lượng khách quốc tế của nhiều công ty giảm tới 50% [4]Theo ông Đào Hồng Thương - Phó giám đốc Trung tâm Vietsky Travel suy thoái kinh tế thế giới khiến du khách giảm chi tiêu cộng với tỷ giá ngoại tệ trong nước thay đổi liên tục khiến giá tour tăng gây khó khăn cho nhiều đoàn khách châu Âu [5] Một đoàn khách Czech khác cũng cho biết sẽ hủy hợp đồng vì không muốn mua vé máy bay giá cao không chấp nhận giá tour tăng [6]Ông Phùng Quang Thắng - Giám đốc Công ty Du lịch Hanoitourist cũng cho hay khách nước ngoài vào du lịch tại VN qua đơn vị này đã giảm tới 50% so với năm trước đặc biệt là Thái Lan [7] Mỗi năm công ty đón khoảng 7.000 du khách Thái thì nay chỉ được một nửa [8]Nhiều đơn vị lữ hành tên tuổi khác cũng đều bị sút giảm khách quốc tế như Vietran tour giảm 30% Vietravel giảm 10% [9] Theo đại diện của Vietran tour khách du lịch Malaysia, Trung Quốc mọi năm vào Việt Nam khá ồ ạt song nay thì cầm chừng [10]Theo nhận định của một số đơn vị lữ hành ngoài nguyên nhân suy thoái kinh tế thế giới giá dịch vụ trong nước tăng cao cũng khiến khách quốc tế sút giảm [11] Năm nay giá tour tăng 20% cao nhất trong nhiều năm [12] Nguyên nhân là giá dịch vụ đầu vào tăng như hàng không khách sạn ăn uống [13]Theo ông Đào Hồng Thương thông thường các hợp đồng đón khách đã được ký từ năm trước nên doanh nghiệp du lịch khá điêu đứng khi giá dịch vụ trong nước tăng ào ạt [14] Một đoàn khách Pháp mới hủy hợp đồng vì đơn vị báo lại giá tour tăng thêm 100 USD một khách [15]Chúng tôi phải cố gắng đàm phán với đối tác để chia sẻ rủi ro 47 [16] Có nơi thông cảm chấp nhận ký lại hợp đồng song họ đều không thoải mái một số khác thì không chấp nhận nên rất khó cộng tác tiếp với họ - ông Thương phàn nàn [17]Hiện giá tour trong nước vẫn chưa có dấu hiệu giảm nên các hợp đồng ký cho năm tới khá nhỏ giọt [18] Tuy nhiên ông Phùng Quang Thắng - Giám đốc Hanoitourist tin tưởng năm sau giá tour có thể giảm do giá xăng dầu giảm giá vé máy bay cũng sẽ xuống thấp hơn [19]Ảnh hưởng của suy thoái kinh tế cũng khiến nhiều đoàn khách quốc tế cắt giảm chi tiêu ở Việt Nam [20] Nhiều khách sạn 5 sao trở nên vắng vẻ hơn thay vào đó khách sạn 3 sao lại lên ngôi [21] Theo chị Đào Việt Nga đại diện khách sạn Melia thời điểm này các năm trước công suất phòng tại khách sạn Melia thường đạt tới 90% song nay chỉ gần 80% [22] Một số khách hàng truyền thống cho biết họ chuyển sang đặt phòng khách sạn ít sao hơn để giảm chi phí [23]Suy thoái kinh tế thế giới khiến khách quốc tế cắt giảm chi tiêu tình hình khó khăn có thể kéo dài hết năm 2009, chị Nga nhận định [24]Theo nghiên cứu của Công ty TNHH CB Richard Ellis Việt Nam các khách sạn 5 sao trong quý 3 có hiệu suất sử dụng chỉ đạt 59% giảm 19% so với thời gian cùng kỳ năm ngoái và giá thuê trung bình 148,5 USD một đêm [25] Nhiều khách sạn cao cấp đã phải giảm giá để thích ứng với điều kiện của thị trường [26] Trong khi đó khách sạn 3 sao lại tăng công suất lên đến 80% [27]Theo thống kê của Tổng cục Du lịch khách du lịch quốc tế 9 tháng là 3,3 triệu khách chỉ tăng 5,9 % so với cùng kỳ năm trước [28] Các thị trường giảm mạnh nhất là Nhật Bản, Hàn Quốc, châu Âu [29]Trao đổi với VnExpress [30] Ông Hoàng Tuấn Anh - Bộ trưởng Văn hóa Thể thao và Du lịch nhận xét tình hình kinh tế thế giới khủng hoảng đã ảnh hưởng lớn đến du lịch [31] Một thời gian dài giá xăng dầu tăng giá vé máy bay đến Việt Nam tăng gấp đôi [32] Mục tiêu đón 4,8 - 5 triệu khách quốc tế sẽ khó thành hiện thực 48 [33]Theo ông Tuấn Anh năm ngoái Malaysia thu hút 21 triệu khách tăng 16% [34] Năm nay nước này dự kiến tăng khoảng 20% nhưng 9 tháng đầu năm chỉ tăng 6% Singapore năm ngoái đón 10 triệu lượt khách tăng 6,7% thì 9 tháng đầu năm nay chỉ tăng 0,1% [35] Trong thời điểm khó khăn này chiến lược của ngành du lịch là thu hút khách ở thị trường gần như Hong Kong, Đài Loan, Nhật Bản, Hàn Quốc, Thái Lan và những tỉnh ven biển Trung Quốc như Quảng Đông, Quảng Tây, Vân Nam - người đứng đầu ngành du lịch Việt Nam nói 49 Bảng đánh giá kết quả chi tiết của phiên bản 3, lấy trung bình cộng của cả 3 mức nén (10%, 20% và 30%) Đơn vị: % Tên file Tiêu đề Lĩnh vực Độ chính xác Độ bao phủ Hàm điều hoà Text(1).txt Du lịch Việt Nam… Du lịch 58,33 56,67 57,49 Text(2).txt Học phí phổ thông… Giáo dục 75 60,33 66,87 Text(3).txt Khi yêu thương… Xã hội 29,67 28,33 28,98 Text(4).txt Tôi đã cố đổ lỗi… Tâm sự 47 45,67 46,33 Text(5).txt Thi tốt nghiệp… Giáo dục 75,67 59 66,3 Text(6).txt Tôi sống cô đơn… Tâm sự 23,67 25,67 24,63 Text(7).txt Hơn 100000 học… Giáo dục 61 49,67 54,76 Text(8).txt Ngày 5-11… Giáo dục 75 52,67 61,88 Text(9).txt Độc chiêu tỏ tình… Xã hội 42,67 38,67 40,57 Text(10).txt Sinh viên… Xã hội 50,33 45,67 47,89 Text(11).txt Vũ công nhí trên sàn Xã hội 53,67 47 50,11 Text(12).txt Giáo viên… Giáo dục 53,33 53,33 53,33 Text(13).txt Thú xăm… Xã hội 36 36,33 36,16 Text(14).txt Tân sinh viên… Giáo dục 34 32,33 33,14 Text(15).txt Tình yêu thời mũ… Xã hội 25,67 24,67 25,16 Text(16).txt Hỗ trợ 400 USD… Giáo dục 76 65 70,07 Text(17).txt Xì tin trang trí mũ… Xã hội 50 43 46,24 Text(18).txt Hàng loạt gian lận… Giáo dục 46,33 40,67 43,32 Text(19).txt Cậu bé mồ côi… Giáo dục 60,33 56,67 58,44 Text(20).txt Ước mơ của cô bé… Xã hội 31 31 31 Text(21).txt Cha quyết định… Xã hội 36 32 33,88 Text(22).txt Nhiều thày cô… Giáo dục 27,67 27,67 27,67 Text(23).txt Bài tập làm văn… Tâm sự 36 34,33 35,15 Text(24).txt Đại học trực tuyến… Giáo dục 38,33 38,33 38,33 Text(25).txt Tôi từng muốn… Tâm sự 34 34 34 Text(26).txt 10 phút thực hiện… Xã hội 29,67 29,67 29,67 Text(27).txt Tuyển sinh thạc sĩ… Giáo dục 67,67 67,67 67,67 Text(28).txt Bộ trưởng… Giáo dục 75 63,67 68,87 Text(29).txt Thời gian học… Giáo dục 23,67 23,67 23,67 Text(30).txt Nguy cơ rò rỉ… Khoa học 75 71,33 73,12 Text(31).txt Máy truy tìm dữ liệu Khoa học 23,33 23 23,16 Text(32).txt Xử lý ngôn ngữ… Khoa học 23,33 20,67 21,92 50 Text(33).txt Phát hiện phóng xạ… Khoa học 71,33 71,33 71,33 Text(34).txt Nhận dạng ký tự… Khoa học 28,67 28,67 28,67 Text(35).txt Ứng dụng xử lý... Bài báo khoa học 23,33 23,33 23,33 Text(36).txt Tại sao Apple… Khoa học 33 30,67 31,79 Text(37).txt Vua thổ cẩm… Xã hội 40 36,33 38,08 Text(38).txt Người mê thằn lằn Xã hội 49,67 47,67 48,65 Text(39).txt Cụ già sở hữu… Xã hội 31,67 30 30,81 Text(40).txt Xử lý ngôn ngữ Bài báo khoa học 33,67 32,67 33,16 Text(41).txt Tiếng Việt 'giàu'… Bài báo khoa học 24,33 25 24,66 Text(42).txt Lưu trữ thông tin… Khoa học 57,33 49,67 53,23 Text(43).txt Những người trẻ… Xã hội 38 38 38 Text(44).txt Mỗi ngày một triệu… Giáo dục 60,33 47,67 53,26 Text(45).txt Lắp camera… Giáo dục 75 64 69,06 Text(46).txt Thầy giáo… Xã hội 78,33 75 76,63 Text(47).txt Trường mầm non… Giáo dục 61 61 61 Text(48).txt Phụ huynh thu tiền… Giáo dục 56,33 56,33 56,33 Text(49).txt Giới trẻ mê nhảy… Xã hội 54,67 43,67 48,55 Text(50).txt Tâm sự thầy cô… Giáo dục 43 39,67 41,27

Các file đính kèm theo tài liệu này:

LUẬN VĂN- NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN.pdf