Luận văn Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt

Nghiên cứu các đặc điểm của tiếng Việt để xây dựng các luật ngữ nghĩa áp dụng vào pha mở rộng thực thể để có thể sử dụng được nội dung chính của các trang web, góp phần nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách.

pdf62 trang | Chia sẻ: lylyngoc | Lượt xem: 2466 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ọng số đó vào trọng số của câu trả lời có trọng số cao hơn. Cuối cùng, bộ lọc độ dài kết quả (Result Length Filter) loại bỏ các câu trả lời có trọng số thấp hơn một ngưỡng nào đó. Hệ thống hỏi đáp Ephyra được xây dựng từ các thành phần cơ bản của một hệ thống hỏi đáp, tích hợp nhiều hướng tiếp cận khác nhau để tạo truy vấn và trích chọn câu trả lời. Mỗi kĩ thuật riêng thường có các hạn chế đối với một số loại câu hỏi cụ thể, chính vì thế việc kết hợp các kĩ thuật giúp cho việc xây dựng một hệ thống bao quát rộng và hiệu quả. 2.2. Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách Một trong những mục tiêu khi xây dựng hệ thống hỏi đáp danh sách đó chính là khả năng trả về cho người dùng câu trả lời đầy đủ. Tuy nhiên với các phương pháp hiện nay, hầu hết chỉ trả về được danh sách chứa một số ít kết quả trả lời. Chính vì thế các nhà nghiên cứu tiếp tục tìm hiểu và đề xuất các phương pháp để nâng cao chất lượng cho hệ thống hỏi đáp danh sách. Richard C. Wang và cộng sự [28] đã nghiên cứu việc nâng cao chất lượng cho hệ thống hỏi đáp danh sách bằng cách sử dụng phương pháp mở rộng thực thể. Hệ thống 8 24 Mở rộng thực thể nhận đầu vào là một tập gồm một số thực thể thuộc cùng một lớp hoặc một tập hợp (có một hoặc một vài đặc điểm chung) và trả về là một danh sách đã được mở rộng bao gồm các thực thể mới thuộc cùng lớp đó hoặc tập hợp đó. Các câu trả lời của hệ thống hỏi đáp danh sách thường là các thực thể thuộc cùng một lớp hoặc một tập hợp có chung tính chất. Và thông thường việc tìm kiếm nhóm hay tập hợp đó lại là cách để có thể trả về cho người dùng một câu trả lời đầy đủ hơn. Từ những phân tích đó, ý tưởng áp dụng Mở rộng thực thể cho hệ hỏi đáp danh sách đã được đề xuất. Với việc thiết kế cẩn thận để tránh các đầu vào nhiễu, hệ thống Mở rộng thực thể có thể nhận đầu ra của hệ thống hỏi đáp danh sách làm đầu vào và mở rộng cho tập câu trả lời để có thể trả về cho người dùng một câu trả lời tốt hơn là khi chỉ sử dụng hệ hỏi đáp danh sách. Bài toán mở rộng thực thể vẫn còn là một bài toán mới, tuy nhiên, vì những tiềm năng lớn mà bài toán này hứa hẹn, cho nên hiện nay trên thế giới có nhiều nhóm nghiên cứu công bố các phương pháp khác nhau để giải quyết bài toán này. Một trong những hệ thống điển hình và nổi tiếng về mở rộng thực thể dựa trên nền web là Google Sets. Hệ thống này đã được sử dụng cho rất nhiều mục đích như thu nhận các đặc trưng cho nhận dạng thực thể (Named Entity Recognition) [4] và cho việc đánh giá các hệ thống trả lời câu hỏi [17]. Tuy nhiên, phương pháp của hệ thống này có thể được thay đổi bất cứ lúc nào, do đó kết quả nghiên cứu dựa trên Google Sets không thật sự được tin cậy [25]. R. C. Wang và W. W. Cohen đã công bố một hệ thống mở rộng thực thể dựa trên nền web là Set Expander for Any Language (SEAL); SEAL cho kết quả khá tốt. Theo đúng như tên gọi, SEAL không phụ thuộc vào ngôn ngữ của văn bản: cả ngôn ngữ viết (ví dụ, tiếng Việt) và ngôn ngữ đánh dấu (ví dụ, HTML). Hệ thống này mở rộng thực thể một cách tự động bằng cách sử dụng nguồn dữ liệu Web. Hệ thống SEAL thực hiện tốt ngay cả với một tập mồi nhỏ. Chỉ sử dụng tập mồi gồm ba đối tượng và một trăm văn bản web đầu tiên được trả về từ Google, SEAL đạt được độ chính xác trung bình là 93% (trung bình trên 36 tập dữ liệu từ ba ngôn ngữ: tiếng Anh, tiếng Trung Quốc và tiếng Nhật). Mặc dù SEAL làm việc tốt với tập mồi gồm ba hoặc bốn thực thể, nhưng lại bị hạn chế bởi số lượng thực thể trong tập mồi mà SEAL có thể xử lý được. Bảng 4 cho thấy kết quả thực thi của SEAL (tính theo Mean Average Precision – MAP và trên 36 tập dữ liệu), sử dụng 4 phương pháp đánh giá khác nhau với tập mồi gồm từ 2 cho đến 6 thực thể. Có thể thấy khi số lượng thực thể trong tập mồi nhiều hơn 5 thực thể thì kết quả thu được bắt đầu giảm 25 Để khắc phục hạn chế về số lượng thực thể trong tập mồi của SEAL, hệ thống SEAL lặp (iterative SEAL - iSEAL) đã được đề xuất. Về cơ bản, iSEAL gọi SEAL nhiều lần, mỗi lần gọi sử dụng 1 tập mồi nhỏ và thống kê được tổng hợp lại sau mỗi vòng lặp để thu được đánh giá cuối cùng. Richard. C. Wang đã đề xuất áp dụng bài toán mở rộng thực thể đối với các kết quả cho câu hỏi danh sách từ hệ thống hỏi đáp Ephyra và các hệ thống hỏi đáp khác tại TREC để có thể tìm thêm được các kết quả cho các câu trả lời của hệ thống hỏi đáp danh sách. Hệ thống Mở rộng thực thể được thiết kế để xử lý dữ liệu đầu vào là các thực thể mồi có cùng mối quan hệ với nhau (thuộc cùng một lớp hoặc một tập hợp). Để có thể xử lý được tập đầu vào gồm các câu trả lời có thể có cả nhiễu từ hệ thống hỏi đáp, R. Wang đã đề xuất ba sửa đổi đối với hệ thống SEAL [25]: (1) Aggressive Fetcher: thông thường, mỗi lần mở rộng, SEAL sẽ nối tất cả các thực thể trong tập mồi để tạo thành truy vấn tới máy tìm kiếm (Google, Yahoo). Tuy nhiên, khi tập mồi có nhiễu, nếu vẫn thực hiện theo cách này thì sẽ làm giảm khả năng thu thập được các tài liệu tốt (các tài liệu chứa các câu trả lời đúng). Để giải quyết vấn đề này, bộ aggressive fetcher (AF) sẽ sử dụng từng cặp hai thực thể trong tập seed để sinh câu truy vấn tới máy tìm kiếm. Ví dụ như với tập mồi có nhiễu: nokia, samsung, toyota (coi toyota là nhiễu), sử dụng AF để tạo truy vấn. Sẽ có truy vấn chỉ chứa các thực thể không phải nhiễu (bảng 6). Các tài liệu thu thập được sẽ được chuyển sang bước trích chọn để học các luật wrappers. Ranker \ #Seeds 2 3 4 5 6 Random Walk 77.1 83.9 84.5 83.7 78.9 Page Rank 74.1 82.6 83.4 83.0 78.5 Bayesian Sets 77.0 84.1 84.8 84.0 79.3 Wrapper Length 77.5 83.2 83.3 82.2 78.0 Average 76.4 83.5 84.0 83.2 78.7 Bảng 5. Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác nhau 26 Queries Quality -AF #1: nokia samsung toyota Low +AF #1: nokia samsung #2: nokia toyota #3: samsung toyota High Low Low (2) Lenient Extractor: SEAL yêu cầu một xâu dài nhất bao bọc ít nhất một thể hiện của tập mồi mới được coi là một wrapper. Tuy nhiên, đối với tập thực thể mồi có nhiễu, thông thường sẽ khó trích chọn được wrapper trong văn bản, hoặc wrapper đó quá ngắn và không có ích để trích chọn ra các thực thể tiềm năng. Để giải quyết vấn đề này, bộ trích chọn cải tiến Lenient Extractor (LE) đã được đề xuất, LE chỉ yêu cầu một ngữ cảnh bao lấy ít nhất một thể hiện của một tập tối thiểu hai thực thể mồi, thay vì tất cả các thực thể trong tập mồi. Việc này tăng khả năng tìm được các wrapper dài nhất bao các thực thể không phải là nhiễu. (3) Hinted Expander: hầu hết các hệ thống hỏi đáp đều sử dụng từ khóa từ câu hỏi để hỗ trợ cho việc thu thập tài liệu và tìm kiếm câu trả lời, và các từ khóa này cũng rất tốt để giúp hệ thống Mở rộng thực thể xác định được các kết quả mới tìm được thêm nào là đúng. Hinted Expander (HE) sử dụng các từ khóa trích chọn được trong câu hỏi và thêm vào cho tất cả các câu truy vấn. Như vậy sẽ tăng được khả năng thu thập được các tài liệu chứa câu trả lời cho câu hỏi. R. Wang đã tiến hành thử nghiệm áp dụng SEAL cho các câu trả lời từ hệ thống hỏi đáp Ephyra. Các câu trả lời tìm được bởi SEAL đều là từ các văn bản web thay vì từ tập ngữ liệu AQUAINT như theo cách đánh giá của TREC. Tuy nhiên các câu trả lời được tìm thấy sẽ bị loại bỏ nếu không tìm thấy trong AQUAINT. Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng 27 Ephyra Ephyra’s Top 4 Ans SEAL SEAL+LE SEAL+LE + AF SEAL+LE +AF+HE TREC 13 25.95% 21.39% 23.76% 31.43% 34.22% 35.26% TREC 14 14.45% 8.71% 14.47% 17.04% 16.58% 18.82% TREC 15 13.42% 9.02% 13.17% 16.87% 17.12% 18.95% Ephyra Ephyra’s Top 4 Ans SEAL SEAL+LE SEAL+LE + AF SEAL+LE +AF+HE TREC 13 35.74% 26.29% 30.53% 36.47% 40.08% 40.80% TREC 14 22.83% 14.05% 20.62% 22.81% 22.66% 24.88% TREC 15 22.42% 14.57% 19.88% 23.30% 24.04% 25.65% Bảng 7 và bảng 8 thể hiện kết quả đánh giá cho tất cả các kết quả trả lời của Ephyra, bốn kết quả trả lời đầu tiên và các cách thiết lập SEAL sử dụng bốn câu trả lời đầu tiên trả về từ Ephyra làm tập mồi. Bảng 7 là kết quả độ chính xác trung bình (Mean Average Precision – MAP) khi sử dụng mỗi bộ dữ liệu (TREC 13, 14 và 15). Bảng 8 là kết quả độ đo F1 trung bình khi sử dụng các ngưỡng tối ưu cho từng câu hỏi. Kết quả cho thấy SEAL đạt kết quả tốt nhất khi được thiết lập với tất cả các giải pháp mở rộng. Tóm tắt chương 2: Trong chương 2, khóa luận đã trình bày về các nghiên cứu liên quan trên thế giới cũng như tại Việt Nam về thống hỏi đáp danh sách, các phương pháp được áp dụng trong hai hệ thống hỏi đáp danh sách tiêu biểu là hệ thống hỏi đáp danh sách FADA và hệ thống hỏi đáp Ephyra. Đồng thời giới thiệu về nghiên cứu liên quan đến việc nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách. Phần tiếp theo, khóa luận trình bày mô hình nâng cao chất lượng kết quả câu trả lời cho hệ thống hỏi đáp danh sách. Mô hình gồm hai pha chính: (1) pha hỏi đáp danh sách và (2) pha mở rộng thực thể để nâng cao chất lượng cho kết quả trả lời của pha 1 (mở rộng tập kết quả trả lời). Bảng 7. Độ chính xác trung bình (MAP) của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL khác nhau. Trong đó LE là Lenient Extractor, AF là Aggressive Fetcher và HE là Hinted Expander Bảng 8. Độ đo trung bình F1 của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL khi sử dụng một ngưỡng tối ưu cho mỗi câu hỏi 28 Chương 3: Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt 3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt Một trong những vấn đề khó khăn và quan trọng khi xây dựng hệ thống hỏi đáp danh sách chính là tính đầy đủ của câu trả lời (Mục 1.2.3). Nhằm giải quyết vấn đề này, nghiên cứu trong khóa luận đề xuất một phương pháp nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách. Qua quá trình khảo sát các phương pháp được áp dụng trong nhiều hệ thống hỏi đáp, đặc biệt là các phương pháp được áp dụng trong các hệ thống hỏi đáp danh sách, cũng như tìm hiểu các phương pháp mở rộng thực thể và dựa vào những phân tích của R. Wang khi áp dụng bài toán mở rộng thực thể để nâng cao chất lượng của hệ thống hỏi đáp danh sách, đồng thời xem xét những đặc điểm của ngôn ngữ tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng hỏi đáp danh sách gồm hai pha chính: (1) pha hỏi đáp danh sách và (2) pha mở rộng thực thể. Khóa luận tập trung vào việc nâng cao chất lượng cho hệ thống hỏi đáp danh sách và xây dựng một hệ hỏi đáp danh sách đơn giản để thử nghiệm. Thay vì câu hỏi dưới dạng ngôn ngữ tự nhiên, pha 1 sẽ nhận đầu vào là từ khóa của câu hỏi (Mục 1.2.3), đầu ra tương ứng là một danh sách các kết quả đã được sắp xếp theo trọng số của chúng. Pha 2 nhận đầu vào là một số các kết quả có trọng số cao nhất có được ở đầu ra của pha 1, pha này có nhiệm vụ tìm thêm các thực thể để bổ sung vào cho danh sách câu trả lời. Hình 4 mô tả mô hình chung của hệ thống sử dụng trong khóa luận. Chi tiết hoạt động của từng pha sẽ được trình bày ở các phần tiếp theo. Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong hệ thống hỏi đáp danh sách tiếng Việt Pha 1: HỎI ĐÁP DANH SÁCH Pha 2: MỞ RỘNG THỰC THỂ Câu trả lời Câu trả lời sau khi đã được mở rộng Từ khóa 29 3.2. Pha 1: Hỏi đáp danh sách tiếng Việt 3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh Khái niệm quan hệ thượng hạ danh: quan hệ thượng hạ danh (hyponym) là quan hệ giữa hai từ, trong đó một từ luôn bao gồm nghĩa của từ kia nhưng không ngược lại [30]. Hình 5 là một ví dụ về quan hệ thượng hạ danh: “Hoa” bao gồm “hoa hồng”, “hoa hướng dương”, “hoa cúc”, …. Thông thường các thực thể trong cùng một tập hợp sẽ có một hoặc một vài điểm chung. Hay nói cách khác, ta có thể gán cho tập hợp một cái tên. Ví dụ như một tập gồm “khỉ”, “mèo”, “gà” ta có thể gán đây là tập “động vật”, đây cũng chính là đặc điểm chung của tập hợp này. Như đã phân tích trong phần “Xác định từ khóa câu trả lời” (1.2.3): các từ khóa trong câu hỏi của hệ thống hỏi đáp danh sách sẽ chỉ ra đặc điểm chung của tập kết quả trả lời mong đợi. Các thực thể này thường xuất hiện gần với cụm từ mô tả đặc điểm chung của chúng, ví dụ như “Một số động vật như bò, lợn gà, …”, do đó có thể sử dụng các luật để trích chọn ra các thực thể, trong ví dụ này là “bò”, “lợn”, “gà”. Như vậy, một phương pháp để tìm được câu trả lời cho hệ thống hỏi đáp danh sách dựa vào quan hệ thượng hạ danh của từ khóa trong câu hỏi. Giả sử đã có từ khóa của câu hỏi, hệ thống sẽ xây dựng các câu truy vấn dựa vào từ khóa đó và các mẫu luật thượng hạ danh đã được xây dựng từ trước. Các câu truy vấn sẽ được đưa vào máy tìm kiếm để thu thập các tài liệu văn bản web tương ứng, thông thường sẽ thu thập 100 trang web được trả về đầu tiên bởi máy tìm kiếm. Sau đó bằng các kỹ thuật so khớp mẫu và xử lý xâu chuỗi, ta có thể trích chọn ra được các thực thể tiềm năng. Bằng cách sử dụng phương pháp xếp hạng dựa vào tần suất xuất Hình 5. Ví dụ về quan hệ thượng hạ danh. là là là Hoa Hoa hồng Hoa hướng dương Hoa cúc 30 hiện của thực thể để đánh trọng số cho các thực thể, sắp xếp các thực thể tiềm năng trích chọn được theo trọng số của chúng. Bằng việc lựa chọn các thực thể có trọng số lớn hơn một ngưỡng xác định trước, ta thu được một danh sách các thực thể, là danh sách câu trả lời cho câu hỏi tương ứng. Bảng 9 liệt kê một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt tương ứng. Các mẫu trong tiếng Việt được xây dựng dựa trên việc tham khảo các mẫu thể hiện quan hệ thượng hạ danh trong tiếng Anh mà Hearst [20] đã đề xuất và dựa vào việc tìm hiểu miền dữ liệu tiếng Việt. Trong đó thể hiện vị trí của tên lớp, tên tập hợp (từ khóa) và thể hiện vị trí của các thực thể trong quan hệ thượng hạ danh của các đó. Tiếng Anh Tiếng Việt such as một số như such as các như i.e. nghĩa là e.g. ví dụ như include bao gồm including and other và các khác or other hoặc các khác 3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt Thu thập tài liệu Trích chọn câu trả lời Từ khóa Các mẫu hyponym Các trang web Câu trả lời Các thực thể được trích chọn Xếp hạng Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt. 31 Hình 6 mô tả mô hình pha 1, hệ thống hỏi đáp danh sách tiếng Việt gồm 3 bước chính đó là: (1) thu thập tài liệu, (2) trích chọn các thực thể tiềm năng và (3) xếp hạng các thực thể trích chọn được. Đầu vào: từ khóa của câu hỏi. Đầu ra: danh sách các kết quả đã được sắp xếp theo trọng số của chúng. Phương pháp giải quyết: pha hỏi đáp danh sách tiếng Việt dựa vào việc sử dụng các mẫu luật quan hệ thượng hạ danh để tìm ra câu trả lời (Mục 3.2.1). (1) Thu thập tài liệu:  Đầu vào: từ khóa của câu hỏi và các mẫu quan hệ thượng hạ danh trong tiếng Việt đã được xây dựng từ trước.  Đầu ra: tập các trang văn bản web phục vụ cho bước trích chọn câu trả lời.  Các bước tiến hành: o Tạo truy vấn: với mỗi mẫu quan hệ thượng hạ danh, kết hợp với từ khóa để tạo câu truy vấn. Ví dụ từ khóa của câu hỏi là “động vật” và với một số mẫu như trong bảng 9, ta xây dựng được các câu truy vấn như: “Một số động vật như”, hay “các động vật như”, … o Thu thập tài liệu: với mỗi câu truy vấn được sinh ra ở bước trên, truy vấn tới máy tìm kiếm (Google), thu thập n trang web được trả về đầu tiên bởi máy tìm kiếm (n = 100). (2) Trích chọn các thực thể tiềm năng:  Đầu vào: tập văn bản đã được thu thập ở (1) và các mẫu luật thượng hạ danh.  Đầu ra: Các câu trả lời tiềm năng (các thực thể trích chọn được).  Phương pháp giải quyết: o Tiền xử lý dữ liệu: Các trang web sau khi được thu thập về sẽ được qua bước tiền xử lý dữ liệu: Loại nhiễu, loại bỏ html, lấy nội dung chính của trang web, tách câu: sử dụng công cụ jvntextpro. 32 o Sau bước tiền xử lý dữ liệu sẽ thu được các câu. So khớp các mẫu luật dựa vào tập luật quan hệ thượng hạ danh và trích chọn ra các thực thể là câu trả lời tiềm năng. Ví dụ với từ khóa “động vật” và trong văn bản web có câu “Một số động vật như chó, mèo, lợn thường được nuôi trong nhà”, ta sẽ thu được các thực thể là câu trả lời tiềm năng bằng cách lấy các chuỗi được liệt kê trong câu đó: “chó”, “mèo”, “lợn thường được nuôi trong nhà”. Nhưng “lợn thường được nuôi trong nhà” sẽ bị loại bỏ vì khi trích chọn, hệ thống cũng xét ngưỡng độ dài cho các thực thể. Như vậy thu được “chó”, “mèo”. (3) Xếp hạng các thực thể trích chọn được:  Đầu vào: Tập các thực thể là các câu trả lời tiềm năng được trích chọn sau bước (2).  Đầu ra: Danh sách các câu trả lời đã được xếp hạng.  Phương pháp giải quyết: pha hỏi đáp danh sách sử dụng phương pháp xếp hạng đơn giản, dựa vào tần suất xuất hiện của thực thể để đánh trọng số cho các thực thể, sắp xếp các thực thể tiềm năng trích chọn được theo trọng số của chúng. Lựa chọn các thực thể có trọng số lớn hơn một ngưỡng nào đó, hoặc là trả về danh sách gồm toàn bộ các thực thể đã trích chọn được và được sắp xếp theo trọng số tương ứng. Sau khi qua hệ thống, thu được một tập danh sách câu trả lời đã được xếp hạng, n thực thể có trọng số cao nhất trong danh sách sẽ được chọn làm đầu vào cho pha 2, pha Mở rộng thực thể (n được chọn qua quá trình thực nghiệm). 3.3. Pha 2: Mở rộng thực thể Pha 2 nhận đầu vào là n kết quả có trọng số cao nhất trong danh sách các kết quả được trả về từ pha 1, pha hỏi đáp danh sách. Pha 2 có nhiệm vụ tìm thêm các thực thể tương đương với các thực thể đầu vào để bổ sung vào cho danh sách câu trả lời, đây chính là nội dung của bài toán Mở rộng thực thể. Giới thiệu bài toán Mở rộng thực thể: Mở rộng thực thể nghĩa là từ một tập mồi gồm một số lượng ít các thực thể, tìm ra được một tập thực thể cùng loại lớn hơn và hoàn chỉnh hơn. Các thực thể “cùng loại” ở đây được hiểu là các thực thể có chung một hoặc một vài đặc điểm với nhau. Đầu vào của hệ thống mở rộng thực thể là một 33 tập mồi gồm một số thực thể. Từ tập thực thể mồi, hệ thống tạo ra các câu truy vấn cho các máy tìm kiếm để nhận được tập các trang web; tập trang web này được hệ thống xử lý để tìm ra các thực thể mới. Quá trình xử lý cho ra một tập thực thể mới, cùng loại với các thực thể mồi được bổ sung vào tập thực thể ban đầu. Việc giải quyết bài toán này có thể được xem xét bao gồm 3 pha chính: 1. Fetcher: Sử dụng máy tìm kiếm để lấy về một số lượng trang web nhất định nào đó (theo yêu cầu và khả năng của hệ thống), trong đó mỗi trang phải chứa tất cả các thực thể có trong tập mồi. 2. Extractor: Xây dựng các mẫu để trích chọn ra các thực thể tiềm năng. 3. Ranker: sử dụng một số các giải thuật xếp hạng để đánh giá các từ, cụm từ “có tiềm năng” đã tìm được ở bước trên theo độ tương đồng với tập thực thể mồi ban đầu. Phần 3.3.1 và 3.3.2 sẽ trình bày về cơ sở lý thuyết xây dựng pha 2, pha Mở rộng thực thể. 3.3.1. Xây dựng các luật Wrapper Đối với các văn bản web, thông thường các thực thể “cùng loại” sẽ xuất hiện dưới cùng ngữ cảnh như trong cùng một danh sách hay trong cùng một cột, một hàng của một bảng. Ý tưởng sử dụng các luật wrapper để trích chọn ra các thực thể tương đồng đã được đề xuất dựa vào nhận xét trên và dựa vào đặc điểm bán cấu trúc của văn bản web. Hình 7 là một ví dụ về cấu trúc web thể hiện việc các thực thể “cùng loại” thường xuất hiện trong cùng ngữ cảnh. Hình 7. Ví dụ cấu trúc web 34 Wrapper được định nghĩa là một chuỗi kí tự trong văn bản mà bao bọc các thực thể [25]. Một wrapper được xác định bởi hai chuỗi kí tự trái và phải. Đối với bài toán mở rộng thực thể, có thể xem xét hai cách để xác định các wrapper:  Cách 1: wrapper sẽ bao tất cả các thực thể trong tập mồi mà xuất hiện trong văn bản. Các wrapper loại 1 rất ít trong các văn bản web. Do đó cách xác định wrapper khác đã được đề xuất.  Cách 2: wrapper được xác định theo cách 2 là xâu dài nhất bao ít nhất một thể hiện của tập mồi. Nghĩa là mỗi thực thể trong tập mồi được wrapper đó bao ít nhất một lần. Việc trích chọn các thực thể tiềm năng sử dụng wrapper dựa trên việc tìm các wrapper đã được sinh ra trong văn bản và trích chọn ra các từ, cụm từ được bao bởi wrapper đó. Phương pháp sử dụng luật wrapper không phụ thuộc vào ngôn ngữ (cả ngôn ngữ viết lẫn ngôn ngữ lập trình web). Và các wrapper được sinh ra từ trang web nào sẽ chỉ được sử dụng để tìm ra các thực thể tương đồng trong văn bản đó. Hình 8.Ví dụ văn bản bán cấu trúc Ví dụ với đoạn html ở hình 8, với tập seed gồm “ford”, “nissan”, “toyota”, ta có thể tìm được 1 wrapper W: SLSR là (SL: chuỗi kí tự bao bên trái; SR: chuỗi kí tự bao bên phải): SL = ; SR = Sau đó sử dụng W để tìm ra được honda và acura (do “honda” và “acura” được bao bởi W). 35 3.3.2. Các phương pháp xếp hạng được sử dụng 3.3.2.1. Phương pháp xếp hạng dựa vào độ dài wrapper Quan sát các thực nghiệm mở rộng các tập thực thể khi áp dụng luật wrapper cho thấy các thực thể được trích chọn từ các luật wrapper dài hơn thì tốt hơn. Chính vì thế, một thuật toán xếp hạng dựa vào độ dài luật wrapper trích chọn ra thực thể đã được đề xuất (Wrapper Length): log ݏܿ݋ݎ݁(ݔ) = ෍ log(݈݁݊݃ݐℎ(ݓ௝)) ௝௘௫௧௥௔௖௧௦ ௫ Trong đó:  wj: wrapper wj  Hàm length: trả về tổng độ dài của wrapper wj 3.3.3.2. Phương pháp xếp hạng dựa vào tần suất Phương pháp xếp hạng này dựa vào số lần một thực thể được trích chọn trong quá trình mở rộng thực thể. Mỗi khi trích chọn được thực thể mới (bằng phương pháp sử dụng luật wrapper hoặc luật ngữ nghĩa), hệ thống kiểm tra, nếu thực thể này đã được trích chọn trước đó thì cập nhật biến đếm tăng lên 1, nếu đây là thực thể mới thì gán cho thực thể này biến đếm với giá trị khởi tạo là 1. Như vậy, đối với phương pháp xếp hạng dựa vào tần suất, một thực thể sẽ có trọng số cao hơn nếu như trong cùng một lần mở rộng, thực thể đó được trích chọn ra nhiều lần hơn. 3.3.3. Mô hình pha 2: mở rộng thực thể Dựa vào những cơ sở lý thuyết đã trình bày ở trên, mô hình cho pha 2, pha mở rộng thực thể được cho như ở hình 9. 36 Pha mở rộng thực thể gồm 4 pha con chính:  Pha 1: Pha tương tác với máy tìm kiếm 1 (Fetcher) Pha 1 có nhiệm vụ thu thập các trang web với các tập thực thể mồi (seed) tương ứng.  Đầu vào: tập gồm 2 đến 3 thực thể  Đầu ra: các trang web tương ứng với tập seed đầu vào  Xử lý: o Tạo câu truy vấn tới máy tìm kiếm: ví dụ với tập mồi {“mèo”, “gà”, “lợn”} ta sẽ thu được câu truy vấn “mèo” + “gà” + “lợn”. o Chọn m liên kết đầu tiên được trả về bởi máy tìm kiếm (m=100) o Thu thập các trang web tương ứng với các liên kết đã được chọn  Pha 2: Pha trích chọn các thực thể dựa vào phương pháp sử dụng luật wrapper (Extractor)  Đầu vào: Các trang web thu thập được ở pha 1 và bộ thực thể mồi.  Đầu ra: Các thực thể “tiềm năng” có khả năng tương đương với các thực thể trong tập thực thể mồi.  Xử lý: gồm 2 bước chính Hình 9. Mô hình pha 2 - Mở rộng thực thể Entities Choosing 4.Entities Choosing New Entities 3. Ranker Ranked Candidates Rank 1. Fetcher 2. Extractor Candidates Seeds Seach Engine Module 1 WebPage s Wrapper Learner Wrappers Wrapper-based Candidates extractor 37 o Trích chọn ra các wrapper: Với đầu vào là các trang web đã download được và tập thực thể mồi. Áp dụng phương pháp trích chọn luật wrapper, sử dụng cách 2 để trích chọn các wrapper như đã nêu ở mục 3.3.1. Hệ thống sẽ tìm ra được các luật wrapper. o Trích chọn thực thể tiềm năng: Sau khi đã tìm được các luật wrapper, sử dụng các kĩ thuật so khớp mẫu luật và xử lý xâu chuỗi, từ đó thu được các thực thể tiềm năng. Luật wrapper được sinh ra từ trang web nào sẽ được áp dụng vào chính trang web đó để trích chọn ra các thực thể tiềm năng.  Pha 3: Xếp hạng các thực thể tiềm năng (Ranker)  Đầu vào: Các thực thể tiềm năng tìm được ở pha 2.  Đầu ra: danh sách các thực thể tiềm năng đã được sắp xếp theo hạng của từng thực thể tiềm năng.  Xử lý: Sử dụng các thuật toán xếp hạng đã được nêu ở mục 3.3.2, áp dụng đối với các thực thể tìm được để tính hạng cho từng thực thể. Thuật toán được sử dụng: o Word Frequency: dựa vào số lần thực thể đó xuất hiện trong quá trình trích chọn. o Wrapper length: Các thực thể nào được trích chọn bởi wrapper có độ dài lớn hơn thì được coi là có độ chính xác hơn là các thực thể được trích chọn bởi wrapper có độ dài nhỏ hơn.  Pha 4: Lựa chọn thực thể mới (Entities Choosing)  Đầu vào: tập các thực thể tiềm năng đã được sắp xếp theo hạng của từng thực thể tiềm năng.  Đầu ra: Tập thực thể mới tương đương các thực thể mồi  Xử lý: o Với tập thực thể “tiềm năng” đã được sắp xếp theo hạng, lựa chọn k thực thể đầu tiên có hạng cao nhất. o k được chọn qua quá trình thực nghiệm. Qua pha mở rộng thực thể sẽ thu được một tập các thực thể tương đương với các thực thể đầu vào của pha này, các kết quả trả lời tìm được bởi pha hỏi đáp danh sách. 38 Cập nhật các thực thể mới tìm được vào danh sách câu trả lời ở pha 1, ta thu được danh sách câu trả lời đầy đủ hơn. Tóm tắt chương 3: Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ thống hỏi đáp danh sách tiếng Việt gồm 2 pha chính là pha hỏi đáp danh sách và pha mở rộng thực thể, các cơ sở lý thuyết xây dựng mô hình và chi tiết hai pha chính trong mô hình. Phần tiếp theo trình bày về quá trình tiến hành thực nghiệm, kết quả và đánh giá kết quả mô hình. 39 Chương 4. Thực nghiệm và đánh giá Dựa cơ sở lý thuyết và mô hình đề xuất ở chương 3, khóa luận xây dựng và tiến hành thực nghiệm hai pha trong mô hình nâng cao chất lượng kết quả trả lời trong hệ thống hỏi đáp danh sách tiếng Việt: pha 1 – pha hỏi đáp danh sách, pha 2 – pha mở rộng thực thể.  Cấu hình máy thực nghiệm: o Chip: Intel(R) Celeron(R) M CPU 520 @ 1.60GHz o Ram: 1.00 GB o Hệ điều hành: Microsoft Windows 7  Công cụ lập trình: Java Eclipse SDK 3.4.0  Công cụ phần mềm sử dụng: o JvnTextpro – Tác giả Nguyễn Cẩm Tú. o GoogleCrawler – Tác giả Trần Mai Vũ. 4.1. Thực nghiệm pha hỏi đáp danh sách 4.1.1. Dữ liệu thực nghiệm Thực nghiệm đánh giá độ chính xác câu trả lời đưa ra bởi pha hỏi đáp danh sách. Tiến hành thực nghiệm trên một tập gồm 200 từ khóa tương ứng với 200 câu hỏi danh sách. Bảng 10 liệt kê 10 ví dụ về câu hỏi danh sách và từ khóa tương ứng. Câu hỏi Từ khóa Hãy cho tôi biết tên một số loài động vật? động vật Có những loại nhạc cụ nào? nhạc cụ Việt Nam có các thành phố nào? thành phố của Việt Nam Kể cho tôi tên các ca sĩ? ca sĩ Việt Nam có những nhạc sĩ nào? nhạc sĩ Việt Nam Hãy cho tôi biết tên một số thủ đô trên thế giới? thủ đô Trên thế giới có những trường đại học nào? trường đại học Bảng 10. Ví dụ về câu hỏi danh sách và từ khóa tương ứng 40 Hãy cho tôi biết tên các bảo tàng? bảo tàng Có những bệnh viện nào? bệnh viện 4.1.2. Kết quả thực nghiệm Với tập gồm 200 bộ từ khóa, tiến hành thực nghiệm riêng pha hỏi đáp danh sách. Khóa luận tiến hành thống kê và đánh giá với số lượng kết quả lần lượt là: 2, 3, 4, 5, 10, 15, 20. Bảng 11 cho biết số lượng từ khóa được đáp ứng và độ chính xác tương ứng với số lượng kết quả. Các kết quả được lựa chọn theo trọng số từ cao đến thấp trong câu trả lời trả về bởi pha hỏi đáp danh sách. Gọi a là số lượng kết quả trả lời đúng, b là số lượng kết quả được xét, độ chính xác P được tính theo công thức: P = ୟ ୠ . Số kết quả 2 3 4 5 10 15 20 Số lượng từ khóa được đáp ứng 200 200 191 176 153 129 97 Độ chính xác (%) 93.84 89.48 86.84 82.11 78.16 73.23 67.10 Biểu đồ 2 mô tả số lượng từ khóa được đáp ứng với các số lượng khác nhau của tập kết quả trong câu trả lời được trả về bởi pha hỏi đáp danh sách. Pha hỏi đáp danh 0 50 100 150 200 250 2 3 4 5 10 15 20 Số lượng từ khóa được đáp ứng Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kết quả 41 sách luôn cho được ít nhất 3 kết quả với mọi từ khóa trong tập dữ liệu thực nghiệm. Khi yêu cầu số lượng các kết quả nhiều hơn thì số lượng từ khóa được đáp ứng giảm đi, lần lượt là 191 khi yêu cầu 4 kết quả, 176 khi yêu cầu 5 kết quả và chỉ còn 97 từ khóa được đáp ứng khi yêu cầu 20 kết quả. Điều này là do việc xây dựng các mẫu luật thượng hạ danh đối với miền dữ liệu tiếng Việt chưa được đầy đủ, nên số lượng các kết quả trích chọn được cho một số câu trả lời là chưa nhiều. Biểu đồ 3 mô tả độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp danh sách tiếng Việt, tương ứng với số lượng kết quả yêu cầu khác nhau. Độ chính xác P được tính theo công thức: P = ୟ ୠ , trong đó a là số lượng kết quả trả lời đúng, b là số lượng kết quả được xét. Biểu đồ này cho thấy độ chính xác của câu trả lời tỉ lệ nghịch với số lượng kết quả được xét, độ chính xác giảm dần khi số lượng kết quả được xét nhiều lên. Độ chính xác đạt cao nhất khi chỉ xét 2 kết quả đầu tiên trong câu trả lời, là 93.84%. Khi xét đến 20 kết quả thì độ chính xác giảm chỉ còn 67.10%. Điều này là do các luật thượng hạ danh được xây dựng chưa đầy đủ nên chưa đáp ứng được số lượng kết quả lớn. Phần tiếp theo, khóa luận trình bày thực nghiệm bổ sung pha mở rộng thực thể để nâng cao kết quả câu trả lời đã có được sau pha hỏi đáp nói trên. Qua kết quả thực nghiệm, đưa ra đánh giá khả năng nâng cao chất lượng câu trả lời của mô hình. 0 10 20 30 40 50 60 70 80 90 100 2 3 4 5 10 15 20 Độ chính xác Biểu đồ 3. Độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp danh sách tiếng Việt 42 4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng việt Đầu vào của pha hỏi đáp danh sách là từ khóa của câu hỏi, đầu ra của pha này chính là câu trả lời được trả về dưới dạng danh sách các kết quả, được sắp xếp theo trọng số của chúng. Qua quá trình tiến hành và khảo sát thực nghiệm riêng đối với pha hỏi đáp danh sách, nhận thấy trong danh sách các kết quả trả lời, tỉ lệ nhiễu bắt đầu tăng từ kết quả thứ 5 trở đi. Pha mở rộng thực thể nhận đầu vào là n thực thể có trọng số cao nhất trong danh sách câu trả lời và có nhiệm vụ bổ sung các kết quả cho câu trả lời. Với đầu vào có tỉ lệ nhiễu cao thì kết quả mở rộng sẽ không được khả quan. Chính vì thế, khóa luận tiến hành thực nghiệm với n = 2, n=3 và n=4. Chúng tôi tiến hành pha mở rộng thực thể với các số lượng đầu vào như trên và thống kê kết quả mở rộng. Với mỗi thực nghiệm, xét các số lượng kết quả tương ứng là 5, 10, 15, 20, trong đó, có n thực thể là kết quả của pha hỏi đáp danh sách đã được dùng làm thực thể mồi, còn lại các các thực thể được sinh ra bởi pha nâng cao chất lượng câu trả lời. Đồng thời, thống kê số lượng các từ khóa được đáp ứng đủ số lượng kết quả. Trong các bảng dưới đây, độ chính xác với số kết quả tương ứng cho bởi pha 1 được nhắc lại để tiện so sánh. Số kết quả 5 10 15 20 Độ chính xác của pha 1 (%) 82.11 78.16 73.23 67.10 Độ chính xác của hệ thống (%) 87.5 81.17 78.3 74.27 Số lượng từ khóa được pha 1 đáp ứng 176 153 129 97 Số lượng từ khóa được hệ thống đáp ứng 187 165 132 116 Bảng 12 là kết quả thực nghiệm mô hình nâng cao với đầu vào cho pha mở rộng là 2 kết quả có trọng số cao nhất của pha hỏi đáp danh sách (n = 2). Qua đó cho thấy Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi 43 hệ thống khi sử dụng kết hợp hai pha cho kết quả tốt hơn khi chỉ sử dụng pha hỏi đáp danh sách với yêu cầu về số lượng kết quả từ 5 đến 20. Với số lượng kết quả là 5, độ chính xác tăng 5.39%. Với số lượng kết quả là 20, độ chính xác tăng 7.17%. Cùng với đó, số lượng từ khóa được đáp ứng cũng nhiều hơn, tuy nhiên, do đầu vào pha mở rộng thực thể chỉ là 2 thực thể nên số lượng các thực thể được mở rộng còn ít, nên vẫn còn trường hợp từ khóa không được đáp ứng đủ số lượng kết quả yêu cầu. Số kết quả 5 10 15 20 Độ chính xác của pha 1 (%) 82.11 78.16 73.23 67.10 Độ chính xác của hệ thống (%) 93.87 89.64 82.1 77.31 Số lượng từ khóa được pha 1 đáp ứng 176 153 129 97 Số lượng từ khóa được hệ thống đáp ứng 193 179 163 152 Bảng 13 là kết quả khi thực nghiệm với đầu vào cho pha mở rộng là 3 kết quả có trọng số cao nhất của pha hỏi đáp danh sách (n = 3). Tỉ lệ cải thiện kết quả là không đều. Với số lượng kết quả là 5, độ chính xác tăng 11.76%. Với số lượng kết quả là 20, độ chính xác tăng 4.72%, điều này là vì 20 kết quả cho bởi pha 1 sẽ có nhiều nhiễu do chỉ sử dụng luật thượng hạ danh, việc sử dụng pha mở rộng thực thể sẽ hạn chế được điều này. Pha mở rộng thực thể trong trường hợp sử dụng 3 thực thể làm đầu vào trích chọn được nhiều hơn các thực thể so với trường hợp chỉ sử dụng 2 thực thể đầu vào. Do đó, giúp hệ thống có thể đáp ứng được nhiều hơn số kết quả cho các câu hỏi. Bảng 14 là kết quả thực nghiệm với 4 kết quả từ pha hỏi đáp danh sách làm đầu vào cho pha mở rộng thực thể. Độ chính xác trong thực nghiệm với n = 4 cao hơn so với thực nghiệm với n = 2 và thấp hơn so với thực nghiệm với n = 3. Tuy nhiên số lượng các tập mở rộng đáp ứng cho việc lựa chọn kết quả trả lời lại là cao nhất trong 3 thực nghiệm do số lượng đầu vào cho pha mở rộng là cao nhất trong 3 thực nghiệm. Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi 44 Tuy nhiên, số lượng các thực thể đầu vào cho pha 2 tăng thì khả năng nhiễu trong tập thực thể đầu vào cho pha này cũng tăng, chính vì thế độ chính xác của các thực thể được trích chọn được bởi pha 2 là không cao, dẫn đến việc nâng cao độ chính xác cho toàn bộ hệ thống là không nhiều. Số kết quả 5 10 15 20 Độ chính xác của pha 1 (%) 82.11 78.16 73.23 67.10 Độ chính xác của hệ thống (%) 91.15 83.27 81.53 76.2 Số lượng từ khóa được pha 1 đáp ứng 176 153 129 97 Số lượng từ khóa được đáp ứng 196 184 179 163 Biểu đồ 4 mô tả trực quan độ chính xác của câu trả lời với số lượng các kết quả khác nhau trong thực nghiệm. Kết quả tốt mà hệ thống đạt được là khi kết hợp 2 pha, 0 10 20 30 40 50 60 70 80 90 100 5 10 15 20 Pha hỏi đáp danh sách Kết hợp hai pha với n = 2 Kết hợp hai pha với n = 3 Kết hợp hai pha với n = 4 Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào Biểu đồ 4. So sánh độ chính xác câu trả lời 45 trong đó sử dụng 3 kết quả của pha hỏi đáp danh sách làm thực thể mồi cho pha mở rộng thực thể. Nhìn chung, độ chính xác của câu trả lời giảm dần khi tăng yêu cầu về số lượng kết quả, trường hợp sử dụng 3 kết quả của pha hỏi đáp danh sách làm thực thể mồi cho pha mở rộng thực thể, độ chính xác tương ứng là: 93.87% với 5 kết quả đầu tiên, 89.64% với 10 kết quả đầu và 77.31% với 20 kết quả. Bên cạnh đó, mức tăng của độ chính xác là không đều, phụ thuộc vào chất lượng các luật thượng hạ danh cũng như pha mở rộng thực thể. Biểu đồ 5 thể hiện khả năng đáp ứng từ khóa của hệ thống trong các trường hợp:  Chỉ áp dụng pha hỏi đáp danh sách  Kết hợp hai pha sử dụng 2 kết quả của pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể.  Kết hợp hai pha sử dụng 3 kết quả của pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể.  Kết hợp hai pha sử dụng 4 kết quả của pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể. Có thế thấy khả năng đáp ứng của hệ thống khi sử dụng kết hợp 2 pha tốt hơn khi chỉ sử dụng pha hỏi đáp danh sách. Trong đó khả năng đáp ứng là tốt nhất trong trường 0 50 100 150 200 250 5 10 15 20 Pha hỏi đáp danh sách Kết hợp hai pha với n = 2 Kết hợp hai pha với n = 3 Kết hợp hai pha với n = 4 Biểu đồ 5.Khả năng đáp ứng từ khóa của hệ thống trong các trường hợp 46 hợp sử dụng 4 kết quả của pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể, đáp ứng được 196 từ khóa trong trường hợp yêu cầu 5 kết quả, khả năng đáp ứng giảm dần khi số lượng các kết quả yêu cầu tăng, còn 163 từ khóa được áp ứng khi số lượng kết quả yêu cầu lên đến 20. Qua các kết quả thực nghiệm kết hợp hai pha hỏi đáp danh sách và mở rộng thực thể trong mô hình nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt nhận thấy mô hình kết hợp cho kết quả tốt hơn khi chỉ sử dụng pha hỏi đáp danh sách. Hệ thống kết hợp cho kết quả trả lời khá tốt với độ chính xác là 93.87% với 5 kết quả trong câu trả lời khi đầu vào cho pha mở rộng thực thể là 3 kết quả có trọng số cao nhất trả về bởi pha hỏi đáp danh sách. Số các từ khóa được đáp ứng với số lượng các kết quả khác nhau cũng tăng nhờ pha mở rộng thực thể tìm được thêm các thực thể mới. Tuy nhiên trong các thực thể mới đó còn các trường hợp chưa chính xác, điều này là do nhiều nguyên nhân khác nhau, trong đó có nguyên nhân do các thực thể đầu vào của pha mở rộng bị nhiễu, dẫn đến việc mở rộng không đạt được hiệu quả như mong muốn. Hoặc do trong các dữ liệu được xét, có ít các thực thể cần tìm nằm cùng ngữ cảnh với các thực thể mồi, dẫn đến các thực thể được mở rộng là không nhiều. Đây cũng chính là những vấn đề cần tiếp tục giải quyết để đạt được kết quả nâng cao tốt hơn cho hệ thống hỏi đáp danh sách tiếng Việt. 47 Kết luận Cùng với nhu cầu khai thác các nguồn thông tin trên dữ liệu web một cách dễ dàng và hiệu quả hơn, hệ thống hỏi đáp danh sách đang là một hướng nghiên cứu mới thu hút được nhiều sự quan tâm của các nhà nghiên cứu trên thế giới cũng như tại Việt Nam. Trong khuôn khổ một khóa luận tốt nghiệp đại học, nội dung nghiên cứu tập trung tìm hiểu phương pháp nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt bằng cách tìm kiếm, trích chọn bổ sung các kết quả cho câu trả lời trong hệ thống. Các công việc đã thực hiện được trong khóa luận:  Về lý thuyết: o Hệ thống hoá một số vấn đề lý thuyết về hệ thống hỏi đáp cũng như hệ thống hỏi đáp danh sách. o Chỉ ra ý nghĩa và vai trò của việc nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách và khảo sát một số phương pháp đã được áp dụng trong các nghiên cứu trước đây. o Tìm hiểu các cơ sở lý thuyết về mở rộng thực thể cũng như các kiến thức liên quan như thuật toán xếp hạng.  Về thực nghiệm Dựa trên cơ sở lý thuyết đã tìm hiểu được, khóa luận tiến hành thực nghiệm và đạt được một số kết quả như sau: o Đề xuất mô hình nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách tiếng Việt. Mô hình gồm 2 pha, pha 1 là hệ thống hỏi đáp đơn giản sử dụng các luật thượng hạ danh, pha 2 là pha bổ sung kết quả cho câu trả lời sử dụng phương pháp mở rộng thực thể. o Thực nghiệm và đánh giá mô hình đã đề xuất. Mô hình kết hợp đạt độ chính xác cho câu trả lời chứa 5 kết quả là 93.87% so với 82.11% khi chỉ sử dụng pha hỏi đáp danh sách. Đây là một kết quả khá khả quan, đáp ứng được tốt yêu cầu đặt ra ban đầu của đề tài và đặt nền tảng cho các nghiên cứu tiếp theo. Do còn những hạn chế về thời gian và kiến thức, khoá luận còn một số vấn đề cần tiếp tục hoàn thiện và phát triển: 48  Pha hỏi đáp danh sách còn thô sơ, mới chỉ sử dụng luật thượng hạ danh (hyponym), do đó, nhiều câu trả lời chứa rất ít kết quả hoặc chứa nhiều kết quả không chính xác (nhiễu) làm ảnh hưởng tới pha mở rộng thực thể.  Pha mở rộng kết quả trả lời mới chỉ tận dụng được đặc điểm dữ liệu bán cấu trúc của các văn bản web, cụ thể là dựa vào các bảng, các danh sách, … mà chưa sử dụng được thành phần chứa nhiều thông tin đó chính là nội dung chính của các trang web. Nhận thấy các nhược điểm còn tồn tại nói trên, trong thời gian sắp tới, chúng tôi sẽ tiến hành cải tiến theo các phương án sau:  Nghiên cứu các đặc điểm của tiếng Việt để xây dựng các luật ngữ nghĩa áp dụng vào pha mở rộng thực thể để có thể sử dụng được nội dung chính của các trang web, góp phần nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách.  Hoàn thiện hơn pha hỏi đáp danh sách: bổ sung các luật thượng hạ danh, tìm hiểu các quan hệ khác có thể áp dụng cho bài toán tìm kiếm câu trả lời trong hệ thống hỏi đáp danh sách, …  Nghiên cứu, cải tiến các thuật toán xếp hạng để có thể đánh giá tốt hơn các thực thể trích chọn được, giúp lựa chọn các thực thể đầu vào cho pha mở rộng tốt hơn và lựa chọn các kết quả cho câu trả lời cuối cùng cũng tốt hơn.  Cuối cùng, tiếp tục hoàn thiện, tiến tới xây dựng thành công cụ thực tế để đóng góp cho cộng đồng nghiên cứu cũng như hỗ trợ người dùng khai thác thông tin trên Internet một cách hiệu quả hơn. 49 Phụ lục Một số kết quả trong quá trình thực nghiệm, trường hợp đầu vào của pha mở rộng thực thể là 3 kết quả trả lời. Bao gồm cả kết quả trả lời đúng và kết quả chưa chính xác. Trường hợp không thu được thêm kết quả nào thì để trống. STT Từ khóa Một số kết quả của pha hỏi đáp danh sách Một số kết quả thu được thêm sau khi mở rộng 1. Bảo tàng bảo tàng lịch sử, bảo tàng công binh, hải dương, hưng yên, thanh hóa, khoáng sản, thực vật, động vật, bảo tàng ngân hàng, bảo tàng tiền, bảo tàng hàng không, bảo tàng y dược học, bảo tàng bưu điện, bảo tàng dầu khí, bảo tàng dệt may, bảo tàng giáo dục, bảo tàng giao thông, bảo tàng kiến trúc, bảo tàng tem, bảo tàng mỹ thuật, hiện vật khối gốc. bảo tàng dân tộc học, bảo tàng cách mạng, bảo tàng tranh sơn mài, sơn dầu, lụa. 2. Hãng hàng không lufthansa, korean air, singapore airlines, united airlines, air france (pháp), virgin atlantic, new zealand, indochina airlines, british airways, châu á, vietnam airlines, pacific airlines, indochina airline, thai ways, brussels airlines, austrian airlines, air canada, united airlines, lot polish airlines, star alliance, lufthansa cityline, luxair, air france, air new zealand, british airways, jetblue airways, south african airways, tap portugal, turkish airlines, us airways, eurowings, lufthansa cargo, croatia airlines, adria airways, view this template, discuss this template, edit this template, aer lingus, air berlin, air china, air india. 3. Bệnh sốt vi-rút, viêm phế quản, viêm phổi, sốt xuất huyết, dịch tả, tiêu chảy, tụ huyết trùng, lở mồm long móng, bệnh sán lá, bệnh ghẻ lở, ghẻ lở, bệnh phổi, bệnh phù nề, chữa viêm viêm não, viêm họng, cúm, sốt phát ban, viêm bàng quang, viêm màng não, dãn 50 gan, béo phì, suy nhược thần kinh, cao huyết áp, cảm cúm, thông manh, mắt đỏ, nhức đầu, đại tiện táo kết, cao áp huyết. phế quản, bệnh lỵ, thấp tim 4. Chòm sao đại hùng, tiểu hùng, thiên hậu, lộc báo, tiên vương, mục phu, felis, quadrans muralis, cetus, pegasus, hercules. thiên nga, phượng hoàng, la bàn, nhân mã, tam giác, mỏ chim, bảo bình, thiên ưng, mục phu, điêu cụ, đại khuyển, kình ngư, nam miện, … 5. Động vật Dê, hươu xạ, cá voi, cá heo đã tiến hóa, hoẵng, nai, hươu, sóc, khỉ đuôi dài, cò, vạc, nông, bống, tôm, trai, kiến, cá, loài có vú, chó, mèo, dơi, ngựa, chuột Bò, heo, cừu 6. Bệnh viện điều trị bệnh, bệnh viện sanh pon, bệnh viện mắt-rhm, bệnh viện tây đô, bệnh viện hoàn mỹ, bệnh phổi cần thơ, bệnh viện tâm thần, bạch mai, viện k trung ương, việt đức, phụ sản, bệnh viện k, viện mắt trung ương 7. Ngân hàng Techcombank, eximbank, acb, công thương, abbank, seabank, đông á, abc, sacombank, ngân hàng quốc tế, lienvietbank, tienphongbank, nam á bank Bidv, sacombank, vp bank, vietcombank, scb, ngoài quốc doanh, maritime bank, habeco. 8. Nhạc cụ Guitar, trống, kèn, đàn nhị, đàn bầu, piano, khèn của người mông, kèn đồng, đàn dương cầm Sáo, keyboard, chuông, chiêng, sitar, mandolin, bangio 9. Nhạc sĩ lam phương, cầm phong, lê thương, hùng lân, trầm tử thiêng, nguyễn cường, giáng son, phan kiên, duy quang, ngô minh khánh, trần quang hải, hồ đình phương, niệm khúc cuối hoàng giác, thẩm oánh, đức huy, trần quang hải, tô vũ, hoàng thi thơ, lưu hữu phước, văn cao, trịnh công sơn, trúc phương 10. Thủ đô Bangkok, london (anh), berlin (đức), tokyo (nhật bản), viên chăn (lào), hà nội hiện tại Bắc kinh (trung quốc), paris (pháp) 51 Tài liệu tham khảo Tiếng Việt [1] Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn. Nhận biết một số thực thể đặc trưng cho dữ liệu y tế tiếng việt tiếp cận học bán giám sát, Báo cáo NCKH năm 2009, Trường Đại học Công nghệ, ĐHQGHN. [2] Nguyễn Thanh Sơn, Nguyễn Tiến Tùng, Chu Thị Thủy. Mở rộng tập thực thể định danh dựa vào luật wrapper và luật ngữ nghĩa cho miền dữ liệu tiếng việt. Báo cáo NCKH, trường Đại học Công nghệ, ĐHQGHN, 2010. Tiếng Anh [3] Alejandro Figueroa, Gunter Neumann. Finding distinct answers in web snippets. Deutsches Forschungszentrum fur Kunstliche Intelligenz - DFKI, Stuhlsatzenhausweg 3, D - 66123, Saarbrucken, Germany figueroa@dfki.de, neumann@dfki.de, 2008. [4] B. Settles. Biomedical named entity recognition using conditional random fields and rich feature sets. In COLING 2004 International Joint workshop on NLPBA/BioNLP [5] Bernardo Magnini. Open Domain Question Answering: Techniques, Resources and Systems. RANLP 2005 [6] Boris Katz, Gregory Marton, Sue Felshin, Daniel Loreto, Ben Lu, Federico Mora, Ozlem Uzuner, Michael McGraw-Herdeg, Natalie Cheung, Yuan Luo, Alexey Radul, Yuan Shen, Gabriel Zaccak. Question Answering Experiments and Resources. MIT Computer Science and Artificial Intelligence Laboratory Cambridge, MA 02139. [7] Burger, John; Cardie, Claire; Chaudhri, Vinay; Gaizauskas, Robert; Harabagiu, Sanda; Israel, David; Jacquemin, Christian; Lin, Chin-Yew; Maiorano, Steve; Miller, George; Moldovan, Dan; Ogden, Bill; Prager, John; Riloff, Ellen; Singhal, Amit; Shrihari, Rohini; Strzalkowski, Tomek; Voorhees, Ellen; Weischedel, Ralph (2002). “Issues, Tasks and Program Structure to Roadmap Research in Question & Answering(Q&A)” paper_v2.doc 52 [8] David Nadeau. Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision, PhD Thesis, University of Ottawa, 2007. [9] E. Hovy, L. Gerber, U. Hermjakob, M. Junk, and C-Y Lin (2000). Question Answering in Webclopedia, Proceedings of the TREC-9 Conference. NIST, Gaithersbur MD [10] Ellen M. Voorhees. Overview of the TREC 2003 Question Answering Track. National Institute of Standards and Technology Gaithersburg, MD 20899 [11] George A. Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and Katherine Miller. Introduction to WordNet: An On-line Lexical Database. 1998 [12] H.T. Dang, D. Kelly, and J. Lin. Overview of the TREC 2007 Question Answering Track. Proceedings of the Sixteenth Text REtrieval Conference, 2007. [13] H.T. Dang, J. Lin, and D. Kelly. Overview of the TREC 2006 Question Answering Track. Proceedings of the Fifteenth Text REtrieval Conference, 2006. [14] Hui Yang, Tat-Seng Chua. Web-Based List Question Answering. School of Computing National University of Singapore 3 Science Drive 2, 117543. [15] J. Ko, L. Si, and E. Nyberg. A Probabilistic Framework for Answer Selection in Question Answering. Proceedings of NAACL-HLT, 2007. [16] J. Lin Jimmy, Boris Katz, Sue Felshin. The START Multimedia Information System: Current Technology and Future Directions. MIT Artificial Intelligence Laboratory. [17] J. M. Prager, J. Chu-Carroll, and K. Czuba. Question answering using constraint satisfaction: Qa-by-dossier-withcontraints, ACL04: 574–581, 2004. [18] John D. Prange. Extracting Rich Knowledge from Text, [19] Majid Razmara. Answering list and other questions. A thesis in The Department of Computer Science and Software Engineering, Canada, 2008. [20] Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora. In In Proceedings of the 14th International Conference on Computational Linguistics, 1992. 53 [21] N. Schlaefer, G. Sautter, J. Ko, J. Betteridge, M. Pathak, and E. Nyberg. Semantic extensions of the Ephyra QA system in TREC 2007. Proceedings of the Sixteenth Text REtrieval Conference, 2007. [22] N. Schlaefer, P. Gieselmann, and G. Sautter. The Ephyra QA System at TREC 2006. Proceedings of the Fifteenth Text REtrieval Conference, 2006 [23] N.F. Noy and McGuinness, D.L. Ontology Development 101: A Guide to Creating Your First Ontology SMI. Technical report SMI-2001-0880 , Stanford University, 2001. [24] Oren Etzioni, Michael J. Cafarella, Doug Downey, Ana-Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S. Weld, and Alexander Yates. Unsupervised named-entity extraction from the web: An experimental study. Department of Computer Science and Engineering University of Washington Seattle, 2005 [25] Richard C. Wang and William W. Cohen. Language-Independent Set Expansion of Named Entities using the Web. Language Technologies Institute Carnegie Mellon University Pittsburgh, PA 15213 USA, 2007. [26] Richard C. Wang, William W. Cohen. Automatic Set Instance Extraction using the Web. In Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, 2009. [27] Richard C. Wang. Language-Independent Class Instance Extraction Using the Web. Language Technologies Institute School of Computer Science Carnegie Mellon University. 5000 Forbes Ave., Pittsburgh, PA 15213 [28] Richard C.Wang, Nico Schlaefer,WilliamW. Cohen, and Eric Nyberg. Automatic Set Expansion for List Question Answering. Language Technologies Institute Carnegie Mellon University 5000 Forbes Avenue Pittsburgh PA 15213. 2008. [29] Vu Tran Mai, Vinh Nguyen Duc, Uyen Pham Thu, Oanh Tran Thi and Thuy Quang Ha (2009). An Experimental Study of Vietnamese Question Answering System. International Conference on Asian Language Processing (IALP 2009), Singapore. 2009. [30]

Các file đính kèm theo tài liệu này:

  • pdfLUẬN VĂN- PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT.pdf