Nghiên cứu các đặc điểm của tiếng Việt để xây dựng các luật ngữ nghĩa áp
dụng vào pha mở rộng thực thể để có thể sử dụng được nội dung chính của
các trang web, góp phần nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách.
62 trang |
Chia sẻ: lylyngoc | Lượt xem: 2466 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ọng số đó vào trọng số của câu trả lời có trọng số cao
hơn. Cuối cùng, bộ lọc độ dài kết quả (Result Length Filter) loại bỏ các câu
trả lời có trọng số thấp hơn một ngưỡng nào đó.
Hệ thống hỏi đáp Ephyra được xây dựng từ các thành phần cơ bản của một hệ
thống hỏi đáp, tích hợp nhiều hướng tiếp cận khác nhau để tạo truy vấn và trích chọn
câu trả lời. Mỗi kĩ thuật riêng thường có các hạn chế đối với một số loại câu hỏi cụ thể,
chính vì thế việc kết hợp các kĩ thuật giúp cho việc xây dựng một hệ thống bao quát
rộng và hiệu quả.
2.2. Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách
Một trong những mục tiêu khi xây dựng hệ thống hỏi đáp danh sách đó chính là
khả năng trả về cho người dùng câu trả lời đầy đủ. Tuy nhiên với các phương pháp
hiện nay, hầu hết chỉ trả về được danh sách chứa một số ít kết quả trả lời. Chính vì thế
các nhà nghiên cứu tiếp tục tìm hiểu và đề xuất các phương pháp để nâng cao chất
lượng cho hệ thống hỏi đáp danh sách.
Richard C. Wang và cộng sự [28] đã nghiên cứu việc nâng cao chất lượng cho hệ
thống hỏi đáp danh sách bằng cách sử dụng phương pháp mở rộng thực thể. Hệ thống
8
24
Mở rộng thực thể nhận đầu vào là một tập gồm một số thực thể thuộc cùng một lớp
hoặc một tập hợp (có một hoặc một vài đặc điểm chung) và trả về là một danh sách đã
được mở rộng bao gồm các thực thể mới thuộc cùng lớp đó hoặc tập hợp đó. Các câu
trả lời của hệ thống hỏi đáp danh sách thường là các thực thể thuộc cùng một lớp hoặc
một tập hợp có chung tính chất. Và thông thường việc tìm kiếm nhóm hay tập hợp đó
lại là cách để có thể trả về cho người dùng một câu trả lời đầy đủ hơn. Từ những phân
tích đó, ý tưởng áp dụng Mở rộng thực thể cho hệ hỏi đáp danh sách đã được đề xuất.
Với việc thiết kế cẩn thận để tránh các đầu vào nhiễu, hệ thống Mở rộng thực thể có
thể nhận đầu ra của hệ thống hỏi đáp danh sách làm đầu vào và mở rộng cho tập câu
trả lời để có thể trả về cho người dùng một câu trả lời tốt hơn là khi chỉ sử dụng hệ hỏi
đáp danh sách.
Bài toán mở rộng thực thể vẫn còn là một bài toán mới, tuy nhiên, vì những tiềm
năng lớn mà bài toán này hứa hẹn, cho nên hiện nay trên thế giới có nhiều nhóm
nghiên cứu công bố các phương pháp khác nhau để giải quyết bài toán này. Một trong
những hệ thống điển hình và nổi tiếng về mở rộng thực thể dựa trên nền web là Google
Sets. Hệ thống này đã được sử dụng cho rất nhiều mục đích như thu nhận các đặc
trưng cho nhận dạng thực thể (Named Entity Recognition) [4] và cho việc đánh giá các
hệ thống trả lời câu hỏi [17]. Tuy nhiên, phương pháp của hệ thống này có thể được
thay đổi bất cứ lúc nào, do đó kết quả nghiên cứu dựa trên Google Sets không thật sự
được tin cậy [25].
R. C. Wang và W. W. Cohen đã công bố một hệ thống mở rộng thực thể dựa trên
nền web là Set Expander for Any Language (SEAL); SEAL cho kết quả khá tốt. Theo
đúng như tên gọi, SEAL không phụ thuộc vào ngôn ngữ của văn bản: cả ngôn ngữ viết
(ví dụ, tiếng Việt) và ngôn ngữ đánh dấu (ví dụ, HTML). Hệ thống này mở rộng thực
thể một cách tự động bằng cách sử dụng nguồn dữ liệu Web. Hệ thống SEAL thực
hiện tốt ngay cả với một tập mồi nhỏ. Chỉ sử dụng tập mồi gồm ba đối tượng và một
trăm văn bản web đầu tiên được trả về từ Google, SEAL đạt được độ chính xác trung
bình là 93% (trung bình trên 36 tập dữ liệu từ ba ngôn ngữ: tiếng Anh, tiếng Trung
Quốc và tiếng Nhật). Mặc dù SEAL làm việc tốt với tập mồi gồm ba hoặc bốn thực
thể, nhưng lại bị hạn chế bởi số lượng thực thể trong tập mồi mà SEAL có thể xử lý
được. Bảng 4 cho thấy kết quả thực thi của SEAL (tính theo Mean Average Precision
– MAP và trên 36 tập dữ liệu), sử dụng 4 phương pháp đánh giá khác nhau với tập mồi
gồm từ 2 cho đến 6 thực thể. Có thể thấy khi số lượng thực thể trong tập mồi nhiều
hơn 5 thực thể thì kết quả thu được bắt đầu giảm
25
Để khắc phục hạn chế về số lượng thực thể trong tập mồi của SEAL, hệ thống
SEAL lặp (iterative SEAL - iSEAL) đã được đề xuất. Về cơ bản, iSEAL gọi SEAL
nhiều lần, mỗi lần gọi sử dụng 1 tập mồi nhỏ và thống kê được tổng hợp lại sau mỗi
vòng lặp để thu được đánh giá cuối cùng.
Richard. C. Wang đã đề xuất áp dụng bài toán mở rộng thực thể đối với các kết
quả cho câu hỏi danh sách từ hệ thống hỏi đáp Ephyra và các hệ thống hỏi đáp khác tại
TREC để có thể tìm thêm được các kết quả cho các câu trả lời của hệ thống hỏi đáp
danh sách. Hệ thống Mở rộng thực thể được thiết kế để xử lý dữ liệu đầu vào là các
thực thể mồi có cùng mối quan hệ với nhau (thuộc cùng một lớp hoặc một tập hợp).
Để có thể xử lý được tập đầu vào gồm các câu trả lời có thể có cả nhiễu từ hệ thống
hỏi đáp, R. Wang đã đề xuất ba sửa đổi đối với hệ thống SEAL [25]:
(1) Aggressive Fetcher: thông thường, mỗi lần mở rộng, SEAL sẽ nối tất cả các
thực thể trong tập mồi để tạo thành truy vấn tới máy tìm kiếm (Google,
Yahoo). Tuy nhiên, khi tập mồi có nhiễu, nếu vẫn thực hiện theo cách này thì
sẽ làm giảm khả năng thu thập được các tài liệu tốt (các tài liệu chứa các câu
trả lời đúng). Để giải quyết vấn đề này, bộ aggressive fetcher (AF) sẽ sử dụng
từng cặp hai thực thể trong tập seed để sinh câu truy vấn tới máy tìm kiếm. Ví
dụ như với tập mồi có nhiễu: nokia, samsung, toyota (coi toyota là nhiễu), sử
dụng AF để tạo truy vấn. Sẽ có truy vấn chỉ chứa các thực thể không phải
nhiễu (bảng 6). Các tài liệu thu thập được sẽ được chuyển sang bước trích
chọn để học các luật wrappers.
Ranker \ #Seeds 2 3 4 5 6
Random Walk 77.1 83.9 84.5 83.7 78.9
Page Rank 74.1 82.6 83.4 83.0 78.5
Bayesian Sets 77.0 84.1 84.8 84.0 79.3
Wrapper Length 77.5 83.2 83.3 82.2 78.0
Average 76.4 83.5 84.0 83.2 78.7
Bảng 5. Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác nhau
26
Queries Quality
-AF #1: nokia samsung toyota Low
+AF
#1: nokia samsung
#2: nokia toyota
#3: samsung toyota
High
Low
Low
(2) Lenient Extractor: SEAL yêu cầu một xâu dài nhất bao bọc ít nhất một thể
hiện của tập mồi mới được coi là một wrapper. Tuy nhiên, đối với tập thực
thể mồi có nhiễu, thông thường sẽ khó trích chọn được wrapper trong văn
bản, hoặc wrapper đó quá ngắn và không có ích để trích chọn ra các thực thể
tiềm năng. Để giải quyết vấn đề này, bộ trích chọn cải tiến Lenient Extractor
(LE) đã được đề xuất, LE chỉ yêu cầu một ngữ cảnh bao lấy ít nhất một thể
hiện của một tập tối thiểu hai thực thể mồi, thay vì tất cả các thực thể trong
tập mồi. Việc này tăng khả năng tìm được các wrapper dài nhất bao các thực
thể không phải là nhiễu.
(3) Hinted Expander: hầu hết các hệ thống hỏi đáp đều sử dụng từ khóa từ câu
hỏi để hỗ trợ cho việc thu thập tài liệu và tìm kiếm câu trả lời, và các từ khóa
này cũng rất tốt để giúp hệ thống Mở rộng thực thể xác định được các kết quả
mới tìm được thêm nào là đúng. Hinted Expander (HE) sử dụng các từ khóa
trích chọn được trong câu hỏi và thêm vào cho tất cả các câu truy vấn. Như
vậy sẽ tăng được khả năng thu thập được các tài liệu chứa câu trả lời cho câu
hỏi.
R. Wang đã tiến hành thử nghiệm áp dụng SEAL cho các câu trả lời từ hệ thống
hỏi đáp Ephyra. Các câu trả lời tìm được bởi SEAL đều là từ các văn bản web thay vì
từ tập ngữ liệu AQUAINT như theo cách đánh giá của TREC. Tuy nhiên các câu trả
lời được tìm thấy sẽ bị loại bỏ nếu không tìm thấy trong AQUAINT.
Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng
27
Ephyra Ephyra’s
Top 4 Ans
SEAL SEAL+LE SEAL+LE
+ AF
SEAL+LE
+AF+HE
TREC 13 25.95% 21.39% 23.76% 31.43% 34.22% 35.26%
TREC 14 14.45% 8.71% 14.47% 17.04% 16.58% 18.82%
TREC 15 13.42% 9.02% 13.17% 16.87% 17.12% 18.95%
Ephyra Ephyra’s
Top 4 Ans
SEAL SEAL+LE SEAL+LE
+ AF
SEAL+LE
+AF+HE
TREC 13 35.74% 26.29% 30.53% 36.47% 40.08% 40.80%
TREC 14 22.83% 14.05% 20.62% 22.81% 22.66% 24.88%
TREC 15 22.42% 14.57% 19.88% 23.30% 24.04% 25.65%
Bảng 7 và bảng 8 thể hiện kết quả đánh giá cho tất cả các kết quả trả lời của
Ephyra, bốn kết quả trả lời đầu tiên và các cách thiết lập SEAL sử dụng bốn câu trả lời
đầu tiên trả về từ Ephyra làm tập mồi. Bảng 7 là kết quả độ chính xác trung bình
(Mean Average Precision – MAP) khi sử dụng mỗi bộ dữ liệu (TREC 13, 14 và 15).
Bảng 8 là kết quả độ đo F1 trung bình khi sử dụng các ngưỡng tối ưu cho từng câu hỏi.
Kết quả cho thấy SEAL đạt kết quả tốt nhất khi được thiết lập với tất cả các giải pháp
mở rộng.
Tóm tắt chương 2: Trong chương 2, khóa luận đã trình bày về các nghiên cứu
liên quan trên thế giới cũng như tại Việt Nam về thống hỏi đáp danh sách, các phương
pháp được áp dụng trong hai hệ thống hỏi đáp danh sách tiêu biểu là hệ thống hỏi đáp
danh sách FADA và hệ thống hỏi đáp Ephyra. Đồng thời giới thiệu về nghiên cứu liên
quan đến việc nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách. Phần
tiếp theo, khóa luận trình bày mô hình nâng cao chất lượng kết quả câu trả lời cho hệ
thống hỏi đáp danh sách. Mô hình gồm hai pha chính: (1) pha hỏi đáp danh sách và (2)
pha mở rộng thực thể để nâng cao chất lượng cho kết quả trả lời của pha 1 (mở rộng
tập kết quả trả lời).
Bảng 7. Độ chính xác trung bình (MAP) của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL
khác nhau. Trong đó LE là Lenient Extractor, AF là Aggressive Fetcher và HE là Hinted Expander
Bảng 8. Độ đo trung bình F1 của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL khi
sử dụng một ngưỡng tối ưu cho mỗi câu hỏi
28
Chương 3: Đề xuất mô hình nâng cao chất lượng câu
trả lời cho hệ thống hỏi đáp danh sách tiếng Việt
3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh
sách tiếng Việt
Một trong những vấn đề khó khăn và quan trọng khi xây dựng hệ thống hỏi đáp
danh sách chính là tính đầy đủ của câu trả lời (Mục 1.2.3). Nhằm giải quyết vấn đề
này, nghiên cứu trong khóa luận đề xuất một phương pháp nâng cao chất lượng câu trả
lời cho hệ thống hỏi đáp danh sách. Qua quá trình khảo sát các phương pháp được áp
dụng trong nhiều hệ thống hỏi đáp, đặc biệt là các phương pháp được áp dụng trong
các hệ thống hỏi đáp danh sách, cũng như tìm hiểu các phương pháp mở rộng thực thể
và dựa vào những phân tích của R. Wang khi áp dụng bài toán mở rộng thực thể để
nâng cao chất lượng của hệ thống hỏi đáp danh sách, đồng thời xem xét những đặc
điểm của ngôn ngữ tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng hỏi đáp
danh sách gồm hai pha chính: (1) pha hỏi đáp danh sách và (2) pha mở rộng thực thể.
Khóa luận tập trung vào việc nâng cao chất lượng cho hệ thống hỏi đáp danh
sách và xây dựng một hệ hỏi đáp danh sách đơn giản để thử nghiệm. Thay vì câu hỏi
dưới dạng ngôn ngữ tự nhiên, pha 1 sẽ nhận đầu vào là từ khóa của câu hỏi (Mục
1.2.3), đầu ra tương ứng là một danh sách các kết quả đã được sắp xếp theo trọng số
của chúng. Pha 2 nhận đầu vào là một số các kết quả có trọng số cao nhất có được ở
đầu ra của pha 1, pha này có nhiệm vụ tìm thêm các thực thể để bổ sung vào cho danh
sách câu trả lời. Hình 4 mô tả mô hình chung của hệ thống sử dụng trong khóa luận.
Chi tiết hoạt động của từng pha sẽ được trình bày ở các phần tiếp theo.
Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong
hệ thống hỏi đáp danh sách tiếng Việt
Pha 1:
HỎI ĐÁP
DANH SÁCH
Pha 2:
MỞ RỘNG
THỰC THỂ
Câu trả lời
Câu trả lời
sau khi đã
được mở
rộng
Từ khóa
29
3.2. Pha 1: Hỏi đáp danh sách tiếng Việt
3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh
Khái niệm quan hệ thượng hạ danh: quan hệ thượng hạ danh (hyponym) là
quan hệ giữa hai từ, trong đó một từ luôn bao gồm nghĩa của từ kia nhưng không
ngược lại [30].
Hình 5 là một ví dụ về quan hệ thượng hạ danh: “Hoa” bao gồm “hoa hồng”,
“hoa hướng dương”, “hoa cúc”, ….
Thông thường các thực thể trong cùng một tập hợp sẽ có một hoặc một vài điểm
chung. Hay nói cách khác, ta có thể gán cho tập hợp một cái tên. Ví dụ như một tập
gồm “khỉ”, “mèo”, “gà” ta có thể gán đây là tập “động vật”, đây cũng chính là đặc
điểm chung của tập hợp này. Như đã phân tích trong phần “Xác định từ khóa câu trả
lời” (1.2.3): các từ khóa trong câu hỏi của hệ thống hỏi đáp danh sách sẽ chỉ ra đặc
điểm chung của tập kết quả trả lời mong đợi. Các thực thể này thường xuất hiện gần
với cụm từ mô tả đặc điểm chung của chúng, ví dụ như “Một số động vật như bò, lợn
gà, …”, do đó có thể sử dụng các luật để trích chọn ra các thực thể, trong ví dụ này là
“bò”, “lợn”, “gà”. Như vậy, một phương pháp để tìm được câu trả lời cho hệ thống hỏi
đáp danh sách dựa vào quan hệ thượng hạ danh của từ khóa trong câu hỏi.
Giả sử đã có từ khóa của câu hỏi, hệ thống sẽ xây dựng các câu truy vấn dựa vào
từ khóa đó và các mẫu luật thượng hạ danh đã được xây dựng từ trước. Các câu truy
vấn sẽ được đưa vào máy tìm kiếm để thu thập các tài liệu văn bản web tương ứng,
thông thường sẽ thu thập 100 trang web được trả về đầu tiên bởi máy tìm kiếm. Sau đó
bằng các kỹ thuật so khớp mẫu và xử lý xâu chuỗi, ta có thể trích chọn ra được các
thực thể tiềm năng. Bằng cách sử dụng phương pháp xếp hạng dựa vào tần suất xuất
Hình 5. Ví dụ về quan hệ thượng hạ danh.
là
là
là
Hoa
Hoa hồng
Hoa hướng dương
Hoa cúc
30
hiện của thực thể để đánh trọng số cho các thực thể, sắp xếp các thực thể tiềm năng
trích chọn được theo trọng số của chúng. Bằng việc lựa chọn các thực thể có trọng số
lớn hơn một ngưỡng xác định trước, ta thu được một danh sách các thực thể, là danh
sách câu trả lời cho câu hỏi tương ứng.
Bảng 9 liệt kê một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt
tương ứng. Các mẫu trong tiếng Việt được xây dựng dựa trên việc tham khảo các mẫu
thể hiện quan hệ thượng hạ danh trong tiếng Anh mà Hearst [20] đã đề xuất và dựa vào
việc tìm hiểu miền dữ liệu tiếng Việt. Trong đó thể hiện vị trí của tên lớp, tên tập
hợp (từ khóa) và thể hiện vị trí của các thực thể trong quan hệ thượng hạ danh của
các đó.
Tiếng Anh Tiếng Việt
such as một số như
such as các như
i.e. nghĩa là
e.g. ví dụ như
include
bao gồm
including
and other và các khác
or other hoặc các khác
3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách
Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt
Thu thập
tài liệu
Trích chọn
câu trả lời
Từ khóa
Các mẫu
hyponym
Các trang
web Câu trả lời
Các thực
thể được
trích chọn
Xếp hạng
Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt.
31
Hình 6 mô tả mô hình pha 1, hệ thống hỏi đáp danh sách tiếng Việt gồm 3 bước
chính đó là: (1) thu thập tài liệu, (2) trích chọn các thực thể tiềm năng và (3) xếp hạng
các thực thể trích chọn được.
Đầu vào: từ khóa của câu hỏi.
Đầu ra: danh sách các kết quả đã được sắp xếp theo trọng số của chúng.
Phương pháp giải quyết: pha hỏi đáp danh sách tiếng Việt dựa vào việc sử dụng
các mẫu luật quan hệ thượng hạ danh để tìm ra câu trả lời (Mục 3.2.1).
(1) Thu thập tài liệu:
Đầu vào: từ khóa của câu hỏi và các mẫu quan hệ thượng hạ danh
trong tiếng Việt đã được xây dựng từ trước.
Đầu ra: tập các trang văn bản web phục vụ cho bước trích chọn câu
trả lời.
Các bước tiến hành:
o Tạo truy vấn: với mỗi mẫu quan hệ thượng hạ danh, kết hợp với
từ khóa để tạo câu truy vấn. Ví dụ từ khóa của câu hỏi là “động
vật” và với một số mẫu như trong bảng 9, ta xây dựng được các
câu truy vấn như: “Một số động vật như”, hay “các động vật như”,
…
o Thu thập tài liệu: với mỗi câu truy vấn được sinh ra ở bước trên,
truy vấn tới máy tìm kiếm (Google), thu thập n trang web được trả
về đầu tiên bởi máy tìm kiếm (n = 100).
(2) Trích chọn các thực thể tiềm năng:
Đầu vào: tập văn bản đã được thu thập ở (1) và các mẫu luật thượng
hạ danh.
Đầu ra: Các câu trả lời tiềm năng (các thực thể trích chọn được).
Phương pháp giải quyết:
o Tiền xử lý dữ liệu: Các trang web sau khi được thu thập về sẽ
được qua bước tiền xử lý dữ liệu: Loại nhiễu, loại bỏ html, lấy
nội dung chính của trang web, tách câu: sử dụng công cụ
jvntextpro.
32
o Sau bước tiền xử lý dữ liệu sẽ thu được các câu. So khớp các
mẫu luật dựa vào tập luật quan hệ thượng hạ danh và trích chọn
ra các thực thể là câu trả lời tiềm năng. Ví dụ với từ khóa “động
vật” và trong văn bản web có câu “Một số động vật như chó,
mèo, lợn thường được nuôi trong nhà”, ta sẽ thu được các thực
thể là câu trả lời tiềm năng bằng cách lấy các chuỗi được liệt kê
trong câu đó: “chó”, “mèo”, “lợn thường được nuôi trong nhà”.
Nhưng “lợn thường được nuôi trong nhà” sẽ bị loại bỏ vì khi
trích chọn, hệ thống cũng xét ngưỡng độ dài cho các thực thể.
Như vậy thu được “chó”, “mèo”.
(3) Xếp hạng các thực thể trích chọn được:
Đầu vào: Tập các thực thể là các câu trả lời tiềm năng được trích chọn
sau bước (2).
Đầu ra: Danh sách các câu trả lời đã được xếp hạng.
Phương pháp giải quyết: pha hỏi đáp danh sách sử dụng phương
pháp xếp hạng đơn giản, dựa vào tần suất xuất hiện của thực thể để đánh
trọng số cho các thực thể, sắp xếp các thực thể tiềm năng trích chọn được
theo trọng số của chúng. Lựa chọn các thực thể có trọng số lớn hơn một
ngưỡng nào đó, hoặc là trả về danh sách gồm toàn bộ các thực thể đã
trích chọn được và được sắp xếp theo trọng số tương ứng.
Sau khi qua hệ thống, thu được một tập danh sách câu trả lời đã được xếp hạng,
n thực thể có trọng số cao nhất trong danh sách sẽ được chọn làm đầu vào cho pha 2,
pha Mở rộng thực thể (n được chọn qua quá trình thực nghiệm).
3.3. Pha 2: Mở rộng thực thể
Pha 2 nhận đầu vào là n kết quả có trọng số cao nhất trong danh sách các kết quả
được trả về từ pha 1, pha hỏi đáp danh sách. Pha 2 có nhiệm vụ tìm thêm các thực thể
tương đương với các thực thể đầu vào để bổ sung vào cho danh sách câu trả lời, đây
chính là nội dung của bài toán Mở rộng thực thể.
Giới thiệu bài toán Mở rộng thực thể: Mở rộng thực thể nghĩa là từ một tập
mồi gồm một số lượng ít các thực thể, tìm ra được một tập thực thể cùng loại lớn hơn
và hoàn chỉnh hơn. Các thực thể “cùng loại” ở đây được hiểu là các thực thể có chung
một hoặc một vài đặc điểm với nhau. Đầu vào của hệ thống mở rộng thực thể là một
33
tập mồi gồm một số thực thể. Từ tập thực thể mồi, hệ thống tạo ra các câu truy vấn cho
các máy tìm kiếm để nhận được tập các trang web; tập trang web này được hệ thống
xử lý để tìm ra các thực thể mới. Quá trình xử lý cho ra một tập thực thể mới, cùng
loại với các thực thể mồi được bổ sung vào tập thực thể ban đầu. Việc giải quyết bài
toán này có thể được xem xét bao gồm 3 pha chính:
1. Fetcher: Sử dụng máy tìm kiếm để lấy về một số lượng trang web nhất định
nào đó (theo yêu cầu và khả năng của hệ thống), trong đó mỗi trang phải
chứa tất cả các thực thể có trong tập mồi.
2. Extractor: Xây dựng các mẫu để trích chọn ra các thực thể tiềm năng.
3. Ranker: sử dụng một số các giải thuật xếp hạng để đánh giá các từ, cụm từ
“có tiềm năng” đã tìm được ở bước trên theo độ tương đồng với tập thực thể
mồi ban đầu.
Phần 3.3.1 và 3.3.2 sẽ trình bày về cơ sở lý thuyết xây dựng pha 2, pha Mở rộng
thực thể.
3.3.1. Xây dựng các luật Wrapper
Đối với các văn bản web, thông thường các thực thể “cùng loại” sẽ xuất hiện
dưới cùng ngữ cảnh như trong cùng một danh sách hay trong cùng một cột, một hàng
của một bảng. Ý tưởng sử dụng các luật wrapper để trích chọn ra các thực thể tương
đồng đã được đề xuất dựa vào nhận xét trên và dựa vào đặc điểm bán cấu trúc của văn
bản web. Hình 7 là một ví dụ về cấu trúc web thể hiện việc các thực thể “cùng loại”
thường xuất hiện trong cùng ngữ cảnh.
Hình 7. Ví dụ cấu trúc web
34
Wrapper được định nghĩa là một chuỗi kí tự trong văn bản mà bao bọc các thực
thể [25]. Một wrapper được xác định bởi hai chuỗi kí tự trái và phải. Đối với bài toán
mở rộng thực thể, có thể xem xét hai cách để xác định các wrapper:
Cách 1: wrapper sẽ bao tất cả các thực thể trong tập mồi mà xuất hiện
trong văn bản. Các wrapper loại 1 rất ít trong các văn bản web. Do đó cách
xác định wrapper khác đã được đề xuất.
Cách 2: wrapper được xác định theo cách 2 là xâu dài nhất bao ít nhất
một thể hiện của tập mồi. Nghĩa là mỗi thực thể trong tập mồi được wrapper
đó bao ít nhất một lần.
Việc trích chọn các thực thể tiềm năng sử dụng wrapper dựa trên việc tìm các
wrapper đã được sinh ra trong văn bản và trích chọn ra các từ, cụm từ được bao bởi
wrapper đó. Phương pháp sử dụng luật wrapper không phụ thuộc vào ngôn ngữ (cả
ngôn ngữ viết lẫn ngôn ngữ lập trình web). Và các wrapper được sinh ra từ trang web
nào sẽ chỉ được sử dụng để tìm ra các thực thể tương đồng trong văn bản đó.
Hình 8.Ví dụ văn bản bán cấu trúc
Ví dụ với đoạn html ở hình 8, với tập seed gồm “ford”, “nissan”, “toyota”, ta có
thể tìm được 1 wrapper W: SLSR là (SL: chuỗi kí tự bao bên trái; SR: chuỗi kí tự bao
bên phải): SL = ; SR =
Sau đó sử dụng W để tìm ra được honda và acura (do “honda” và “acura” được
bao bởi W).
35
3.3.2. Các phương pháp xếp hạng được sử dụng
3.3.2.1. Phương pháp xếp hạng dựa vào độ dài wrapper
Quan sát các thực nghiệm mở rộng các tập thực thể khi áp dụng luật wrapper cho
thấy các thực thể được trích chọn từ các luật wrapper dài hơn thì tốt hơn. Chính vì thế,
một thuật toán xếp hạng dựa vào độ dài luật wrapper trích chọn ra thực thể đã được đề
xuất (Wrapper Length): log ݏܿݎ݁(ݔ) = log(݈݁݊݃ݐℎ(ݓ))
௫௧௧௦ ௫
Trong đó:
wj: wrapper wj
Hàm length: trả về tổng độ dài của wrapper wj
3.3.3.2. Phương pháp xếp hạng dựa vào tần suất
Phương pháp xếp hạng này dựa vào số lần một thực thể được trích chọn trong
quá trình mở rộng thực thể. Mỗi khi trích chọn được thực thể mới (bằng phương pháp
sử dụng luật wrapper hoặc luật ngữ nghĩa), hệ thống kiểm tra, nếu thực thể này đã
được trích chọn trước đó thì cập nhật biến đếm tăng lên 1, nếu đây là thực thể mới thì
gán cho thực thể này biến đếm với giá trị khởi tạo là 1.
Như vậy, đối với phương pháp xếp hạng dựa vào tần suất, một thực thể sẽ có
trọng số cao hơn nếu như trong cùng một lần mở rộng, thực thể đó được trích chọn ra
nhiều lần hơn.
3.3.3. Mô hình pha 2: mở rộng thực thể
Dựa vào những cơ sở lý thuyết đã trình bày ở trên, mô hình cho pha 2, pha mở
rộng thực thể được cho như ở hình 9.
36
Pha mở rộng thực thể gồm 4 pha con chính:
Pha 1: Pha tương tác với máy tìm kiếm 1 (Fetcher)
Pha 1 có nhiệm vụ thu thập các trang web với các tập thực thể mồi (seed) tương
ứng.
Đầu vào: tập gồm 2 đến 3 thực thể
Đầu ra: các trang web tương ứng với tập seed đầu vào
Xử lý:
o Tạo câu truy vấn tới máy tìm kiếm: ví dụ với tập mồi {“mèo”,
“gà”, “lợn”} ta sẽ thu được câu truy vấn “mèo” + “gà” + “lợn”.
o Chọn m liên kết đầu tiên được trả về bởi máy tìm kiếm (m=100)
o Thu thập các trang web tương ứng với các liên kết đã được chọn
Pha 2: Pha trích chọn các thực thể dựa vào phương pháp sử dụng luật wrapper
(Extractor)
Đầu vào: Các trang web thu thập được ở pha 1 và bộ thực thể mồi.
Đầu ra: Các thực thể “tiềm năng” có khả năng tương đương với các thực
thể trong tập thực thể mồi.
Xử lý: gồm 2 bước chính
Hình 9. Mô hình pha 2 - Mở rộng thực thể
Entities
Choosing
4.Entities Choosing
New
Entities
3. Ranker
Ranked
Candidates Rank
1. Fetcher
2. Extractor
Candidates
Seeds Seach Engine
Module 1
WebPage
s
Wrapper
Learner
Wrappers
Wrapper-based
Candidates extractor
37
o Trích chọn ra các wrapper: Với đầu vào là các trang web đã
download được và tập thực thể mồi. Áp dụng phương pháp trích
chọn luật wrapper, sử dụng cách 2 để trích chọn các wrapper như
đã nêu ở mục 3.3.1. Hệ thống sẽ tìm ra được các luật wrapper.
o Trích chọn thực thể tiềm năng: Sau khi đã tìm được các luật
wrapper, sử dụng các kĩ thuật so khớp mẫu luật và xử lý xâu
chuỗi, từ đó thu được các thực thể tiềm năng. Luật wrapper được
sinh ra từ trang web nào sẽ được áp dụng vào chính trang web đó
để trích chọn ra các thực thể tiềm năng.
Pha 3: Xếp hạng các thực thể tiềm năng (Ranker)
Đầu vào: Các thực thể tiềm năng tìm được ở pha 2.
Đầu ra: danh sách các thực thể tiềm năng đã được sắp xếp theo hạng của
từng thực thể tiềm năng.
Xử lý: Sử dụng các thuật toán xếp hạng đã được nêu ở mục 3.3.2, áp
dụng đối với các thực thể tìm được để tính hạng cho từng thực thể. Thuật
toán được sử dụng:
o Word Frequency: dựa vào số lần thực thể đó xuất hiện trong quá
trình trích chọn.
o Wrapper length: Các thực thể nào được trích chọn bởi wrapper có
độ dài lớn hơn thì được coi là có độ chính xác hơn là các thực thể
được trích chọn bởi wrapper có độ dài nhỏ hơn.
Pha 4: Lựa chọn thực thể mới (Entities Choosing)
Đầu vào: tập các thực thể tiềm năng đã được sắp xếp theo hạng của từng
thực thể tiềm năng.
Đầu ra: Tập thực thể mới tương đương các thực thể mồi
Xử lý:
o Với tập thực thể “tiềm năng” đã được sắp xếp theo hạng, lựa chọn
k thực thể đầu tiên có hạng cao nhất.
o k được chọn qua quá trình thực nghiệm.
Qua pha mở rộng thực thể sẽ thu được một tập các thực thể tương đương với các
thực thể đầu vào của pha này, các kết quả trả lời tìm được bởi pha hỏi đáp danh sách.
38
Cập nhật các thực thể mới tìm được vào danh sách câu trả lời ở pha 1, ta thu được
danh sách câu trả lời đầy đủ hơn.
Tóm tắt chương 3: Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ
thống hỏi đáp danh sách tiếng Việt gồm 2 pha chính là pha hỏi đáp danh sách và pha
mở rộng thực thể, các cơ sở lý thuyết xây dựng mô hình và chi tiết hai pha chính trong
mô hình. Phần tiếp theo trình bày về quá trình tiến hành thực nghiệm, kết quả và đánh
giá kết quả mô hình.
39
Chương 4. Thực nghiệm và đánh giá
Dựa cơ sở lý thuyết và mô hình đề xuất ở chương 3, khóa luận xây dựng và tiến
hành thực nghiệm hai pha trong mô hình nâng cao chất lượng kết quả trả lời trong hệ
thống hỏi đáp danh sách tiếng Việt: pha 1 – pha hỏi đáp danh sách, pha 2 – pha mở
rộng thực thể.
Cấu hình máy thực nghiệm:
o Chip: Intel(R) Celeron(R) M CPU 520 @ 1.60GHz
o Ram: 1.00 GB
o Hệ điều hành: Microsoft Windows 7
Công cụ lập trình: Java Eclipse SDK 3.4.0
Công cụ phần mềm sử dụng:
o JvnTextpro – Tác giả Nguyễn Cẩm Tú.
o GoogleCrawler – Tác giả Trần Mai Vũ.
4.1. Thực nghiệm pha hỏi đáp danh sách
4.1.1. Dữ liệu thực nghiệm
Thực nghiệm đánh giá độ chính xác câu trả lời đưa ra bởi pha hỏi đáp danh sách.
Tiến hành thực nghiệm trên một tập gồm 200 từ khóa tương ứng với 200 câu hỏi danh
sách. Bảng 10 liệt kê 10 ví dụ về câu hỏi danh sách và từ khóa tương ứng.
Câu hỏi Từ khóa
Hãy cho tôi biết tên một số loài động vật? động vật
Có những loại nhạc cụ nào? nhạc cụ
Việt Nam có các thành phố nào? thành phố của Việt Nam
Kể cho tôi tên các ca sĩ? ca sĩ
Việt Nam có những nhạc sĩ nào? nhạc sĩ Việt Nam
Hãy cho tôi biết tên một số thủ đô trên thế giới? thủ đô
Trên thế giới có những trường đại học nào? trường đại học
Bảng 10. Ví dụ về câu hỏi danh sách và từ khóa tương ứng
40
Hãy cho tôi biết tên các bảo tàng? bảo tàng
Có những bệnh viện nào? bệnh viện
4.1.2. Kết quả thực nghiệm
Với tập gồm 200 bộ từ khóa, tiến hành thực nghiệm riêng pha hỏi đáp danh sách.
Khóa luận tiến hành thống kê và đánh giá với số lượng kết quả lần lượt là: 2, 3, 4, 5,
10, 15, 20. Bảng 11 cho biết số lượng từ khóa được đáp ứng và độ chính xác tương
ứng với số lượng kết quả. Các kết quả được lựa chọn theo trọng số từ cao đến thấp
trong câu trả lời trả về bởi pha hỏi đáp danh sách. Gọi a là số lượng kết quả trả lời
đúng, b là số lượng kết quả được xét, độ chính xác P được tính theo công thức: P = ୟ
ୠ
.
Số kết quả 2 3 4 5 10 15 20
Số lượng từ khóa
được đáp ứng
200 200 191 176 153 129 97
Độ chính xác (%) 93.84 89.48 86.84 82.11 78.16 73.23 67.10
Biểu đồ 2 mô tả số lượng từ khóa được đáp ứng với các số lượng khác nhau của
tập kết quả trong câu trả lời được trả về bởi pha hỏi đáp danh sách. Pha hỏi đáp danh
0
50
100
150
200
250
2 3 4 5 10 15 20
Số lượng từ khóa
được đáp ứng
Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt
Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kết quả
41
sách luôn cho được ít nhất 3 kết quả với mọi từ khóa trong tập dữ liệu thực nghiệm.
Khi yêu cầu số lượng các kết quả nhiều hơn thì số lượng từ khóa được đáp ứng giảm
đi, lần lượt là 191 khi yêu cầu 4 kết quả, 176 khi yêu cầu 5 kết quả và chỉ còn 97 từ
khóa được đáp ứng khi yêu cầu 20 kết quả. Điều này là do việc xây dựng các mẫu luật
thượng hạ danh đối với miền dữ liệu tiếng Việt chưa được đầy đủ, nên số lượng các
kết quả trích chọn được cho một số câu trả lời là chưa nhiều.
Biểu đồ 3 mô tả độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp
danh sách tiếng Việt, tương ứng với số lượng kết quả yêu cầu khác nhau. Độ chính xác
P được tính theo công thức: P = ୟ
ୠ
, trong đó a là số lượng kết quả trả lời đúng, b là số
lượng kết quả được xét. Biểu đồ này cho thấy độ chính xác của câu trả lời tỉ lệ nghịch
với số lượng kết quả được xét, độ chính xác giảm dần khi số lượng kết quả được xét
nhiều lên. Độ chính xác đạt cao nhất khi chỉ xét 2 kết quả đầu tiên trong câu trả lời, là
93.84%. Khi xét đến 20 kết quả thì độ chính xác giảm chỉ còn 67.10%. Điều này là do
các luật thượng hạ danh được xây dựng chưa đầy đủ nên chưa đáp ứng được số lượng
kết quả lớn.
Phần tiếp theo, khóa luận trình bày thực nghiệm bổ sung pha mở rộng thực thể để
nâng cao kết quả câu trả lời đã có được sau pha hỏi đáp nói trên. Qua kết quả thực
nghiệm, đưa ra đánh giá khả năng nâng cao chất lượng câu trả lời của mô hình.
0
10
20
30
40
50
60
70
80
90
100
2 3 4 5 10 15 20
Độ chính xác
Biểu đồ 3. Độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp danh sách tiếng Việt
42
4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời
cho hệ thống hỏi đáp danh sách tiếng việt
Đầu vào của pha hỏi đáp danh sách là từ khóa của câu hỏi, đầu ra của pha này
chính là câu trả lời được trả về dưới dạng danh sách các kết quả, được sắp xếp theo
trọng số của chúng. Qua quá trình tiến hành và khảo sát thực nghiệm riêng đối với pha
hỏi đáp danh sách, nhận thấy trong danh sách các kết quả trả lời, tỉ lệ nhiễu bắt đầu
tăng từ kết quả thứ 5 trở đi. Pha mở rộng thực thể nhận đầu vào là n thực thể có trọng
số cao nhất trong danh sách câu trả lời và có nhiệm vụ bổ sung các kết quả cho câu trả
lời. Với đầu vào có tỉ lệ nhiễu cao thì kết quả mở rộng sẽ không được khả quan. Chính
vì thế, khóa luận tiến hành thực nghiệm với n = 2, n=3 và n=4.
Chúng tôi tiến hành pha mở rộng thực thể với các số lượng đầu vào như trên và
thống kê kết quả mở rộng. Với mỗi thực nghiệm, xét các số lượng kết quả tương ứng
là 5, 10, 15, 20, trong đó, có n thực thể là kết quả của pha hỏi đáp danh sách đã được
dùng làm thực thể mồi, còn lại các các thực thể được sinh ra bởi pha nâng cao chất
lượng câu trả lời. Đồng thời, thống kê số lượng các từ khóa được đáp ứng đủ số lượng
kết quả. Trong các bảng dưới đây, độ chính xác với số kết quả tương ứng cho bởi pha
1 được nhắc lại để tiện so sánh.
Số kết quả 5 10 15 20
Độ chính xác của pha 1 (%) 82.11 78.16 73.23 67.10
Độ chính xác của hệ thống
(%) 87.5 81.17 78.3 74.27
Số lượng từ khóa được pha
1 đáp ứng
176 153 129 97
Số lượng từ khóa được hệ
thống đáp ứng
187 165 132 116
Bảng 12 là kết quả thực nghiệm mô hình nâng cao với đầu vào cho pha mở rộng
là 2 kết quả có trọng số cao nhất của pha hỏi đáp danh sách (n = 2). Qua đó cho thấy
Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi
43
hệ thống khi sử dụng kết hợp hai pha cho kết quả tốt hơn khi chỉ sử dụng pha hỏi đáp
danh sách với yêu cầu về số lượng kết quả từ 5 đến 20. Với số lượng kết quả là 5, độ
chính xác tăng 5.39%. Với số lượng kết quả là 20, độ chính xác tăng 7.17%. Cùng với
đó, số lượng từ khóa được đáp ứng cũng nhiều hơn, tuy nhiên, do đầu vào pha mở
rộng thực thể chỉ là 2 thực thể nên số lượng các thực thể được mở rộng còn ít, nên vẫn
còn trường hợp từ khóa không được đáp ứng đủ số lượng kết quả yêu cầu.
Số kết quả 5 10 15 20
Độ chính xác của pha 1 (%) 82.11 78.16 73.23 67.10
Độ chính xác của hệ thống
(%)
93.87 89.64 82.1 77.31
Số lượng từ khóa được pha
1 đáp ứng
176 153 129 97
Số lượng từ khóa được hệ
thống đáp ứng
193 179 163 152
Bảng 13 là kết quả khi thực nghiệm với đầu vào cho pha mở rộng là 3 kết quả có
trọng số cao nhất của pha hỏi đáp danh sách (n = 3). Tỉ lệ cải thiện kết quả là không
đều. Với số lượng kết quả là 5, độ chính xác tăng 11.76%. Với số lượng kết quả là 20,
độ chính xác tăng 4.72%, điều này là vì 20 kết quả cho bởi pha 1 sẽ có nhiều nhiễu do
chỉ sử dụng luật thượng hạ danh, việc sử dụng pha mở rộng thực thể sẽ hạn chế được
điều này. Pha mở rộng thực thể trong trường hợp sử dụng 3 thực thể làm đầu vào trích
chọn được nhiều hơn các thực thể so với trường hợp chỉ sử dụng 2 thực thể đầu vào.
Do đó, giúp hệ thống có thể đáp ứng được nhiều hơn số kết quả cho các câu hỏi.
Bảng 14 là kết quả thực nghiệm với 4 kết quả từ pha hỏi đáp danh sách làm đầu
vào cho pha mở rộng thực thể. Độ chính xác trong thực nghiệm với n = 4 cao hơn so
với thực nghiệm với n = 2 và thấp hơn so với thực nghiệm với n = 3. Tuy nhiên số
lượng các tập mở rộng đáp ứng cho việc lựa chọn kết quả trả lời lại là cao nhất trong 3
thực nghiệm do số lượng đầu vào cho pha mở rộng là cao nhất trong 3 thực nghiệm.
Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi
44
Tuy nhiên, số lượng các thực thể đầu vào cho pha 2 tăng thì khả năng nhiễu trong tập
thực thể đầu vào cho pha này cũng tăng, chính vì thế độ chính xác của các thực thể
được trích chọn được bởi pha 2 là không cao, dẫn đến việc nâng cao độ chính xác cho
toàn bộ hệ thống là không nhiều.
Số kết quả 5 10 15 20
Độ chính xác của pha 1
(%) 82.11 78.16 73.23 67.10
Độ chính xác của hệ thống
(%) 91.15 83.27 81.53 76.2
Số lượng từ khóa được pha
1 đáp ứng 176 153 129 97
Số lượng từ khóa được đáp
ứng 196 184 179 163
Biểu đồ 4 mô tả trực quan độ chính xác của câu trả lời với số lượng các kết quả
khác nhau trong thực nghiệm. Kết quả tốt mà hệ thống đạt được là khi kết hợp 2 pha,
0
10
20
30
40
50
60
70
80
90
100
5 10 15 20
Pha hỏi đáp danh sách
Kết hợp hai pha với n = 2
Kết hợp hai pha với n = 3
Kết hợp hai pha với n = 4
Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào
Biểu đồ 4. So sánh độ chính xác câu trả lời
45
trong đó sử dụng 3 kết quả của pha hỏi đáp danh sách làm thực thể mồi cho pha mở
rộng thực thể. Nhìn chung, độ chính xác của câu trả lời giảm dần khi tăng yêu cầu về
số lượng kết quả, trường hợp sử dụng 3 kết quả của pha hỏi đáp danh sách làm thực
thể mồi cho pha mở rộng thực thể, độ chính xác tương ứng là: 93.87% với 5 kết quả
đầu tiên, 89.64% với 10 kết quả đầu và 77.31% với 20 kết quả. Bên cạnh đó, mức tăng
của độ chính xác là không đều, phụ thuộc vào chất lượng các luật thượng hạ danh cũng
như pha mở rộng thực thể.
Biểu đồ 5 thể hiện khả năng đáp ứng từ khóa của hệ thống trong các trường hợp:
Chỉ áp dụng pha hỏi đáp danh sách
Kết hợp hai pha sử dụng 2 kết quả của pha hỏi đáp danh sách làm mồi cho
pha mở rộng thực thể.
Kết hợp hai pha sử dụng 3 kết quả của pha hỏi đáp danh sách làm mồi cho
pha mở rộng thực thể.
Kết hợp hai pha sử dụng 4 kết quả của pha hỏi đáp danh sách làm mồi cho
pha mở rộng thực thể.
Có thế thấy khả năng đáp ứng của hệ thống khi sử dụng kết hợp 2 pha tốt hơn khi
chỉ sử dụng pha hỏi đáp danh sách. Trong đó khả năng đáp ứng là tốt nhất trong trường
0
50
100
150
200
250
5 10 15 20
Pha hỏi đáp danh sách
Kết hợp hai pha với n = 2
Kết hợp hai pha với n = 3
Kết hợp hai pha với n = 4
Biểu đồ 5.Khả năng đáp ứng từ khóa của hệ thống trong các trường hợp
46
hợp sử dụng 4 kết quả của pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể,
đáp ứng được 196 từ khóa trong trường hợp yêu cầu 5 kết quả, khả năng đáp ứng giảm
dần khi số lượng các kết quả yêu cầu tăng, còn 163 từ khóa được áp ứng khi số lượng
kết quả yêu cầu lên đến 20.
Qua các kết quả thực nghiệm kết hợp hai pha hỏi đáp danh sách và mở rộng thực
thể trong mô hình nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách
tiếng Việt nhận thấy mô hình kết hợp cho kết quả tốt hơn khi chỉ sử dụng pha hỏi đáp
danh sách. Hệ thống kết hợp cho kết quả trả lời khá tốt với độ chính xác là 93.87% với
5 kết quả trong câu trả lời khi đầu vào cho pha mở rộng thực thể là 3 kết quả có trọng
số cao nhất trả về bởi pha hỏi đáp danh sách. Số các từ khóa được đáp ứng với số
lượng các kết quả khác nhau cũng tăng nhờ pha mở rộng thực thể tìm được thêm các
thực thể mới. Tuy nhiên trong các thực thể mới đó còn các trường hợp chưa chính xác,
điều này là do nhiều nguyên nhân khác nhau, trong đó có nguyên nhân do các thực thể
đầu vào của pha mở rộng bị nhiễu, dẫn đến việc mở rộng không đạt được hiệu quả như
mong muốn. Hoặc do trong các dữ liệu được xét, có ít các thực thể cần tìm nằm cùng
ngữ cảnh với các thực thể mồi, dẫn đến các thực thể được mở rộng là không nhiều.
Đây cũng chính là những vấn đề cần tiếp tục giải quyết để đạt được kết quả nâng cao
tốt hơn cho hệ thống hỏi đáp danh sách tiếng Việt.
47
Kết luận
Cùng với nhu cầu khai thác các nguồn thông tin trên dữ liệu web một cách dễ
dàng và hiệu quả hơn, hệ thống hỏi đáp danh sách đang là một hướng nghiên cứu mới
thu hút được nhiều sự quan tâm của các nhà nghiên cứu trên thế giới cũng như tại Việt
Nam. Trong khuôn khổ một khóa luận tốt nghiệp đại học, nội dung nghiên cứu tập
trung tìm hiểu phương pháp nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh
sách tiếng Việt bằng cách tìm kiếm, trích chọn bổ sung các kết quả cho câu trả lời
trong hệ thống. Các công việc đã thực hiện được trong khóa luận:
Về lý thuyết:
o Hệ thống hoá một số vấn đề lý thuyết về hệ thống hỏi đáp cũng như hệ
thống hỏi đáp danh sách.
o Chỉ ra ý nghĩa và vai trò của việc nâng cao chất lượng câu trả lời cho
hệ thống hỏi đáp danh sách và khảo sát một số phương pháp đã được
áp dụng trong các nghiên cứu trước đây.
o Tìm hiểu các cơ sở lý thuyết về mở rộng thực thể cũng như các kiến
thức liên quan như thuật toán xếp hạng.
Về thực nghiệm
Dựa trên cơ sở lý thuyết đã tìm hiểu được, khóa luận tiến hành thực
nghiệm và đạt được một số kết quả như sau:
o Đề xuất mô hình nâng cao chất lượng trả lời cho hệ thống hỏi đáp
danh sách tiếng Việt. Mô hình gồm 2 pha, pha 1 là hệ thống hỏi đáp
đơn giản sử dụng các luật thượng hạ danh, pha 2 là pha bổ sung kết
quả cho câu trả lời sử dụng phương pháp mở rộng thực thể.
o Thực nghiệm và đánh giá mô hình đã đề xuất. Mô hình kết hợp đạt độ
chính xác cho câu trả lời chứa 5 kết quả là 93.87% so với 82.11% khi
chỉ sử dụng pha hỏi đáp danh sách. Đây là một kết quả khá khả quan,
đáp ứng được tốt yêu cầu đặt ra ban đầu của đề tài và đặt nền tảng cho
các nghiên cứu tiếp theo.
Do còn những hạn chế về thời gian và kiến thức, khoá luận còn một số vấn đề
cần tiếp tục hoàn thiện và phát triển:
48
Pha hỏi đáp danh sách còn thô sơ, mới chỉ sử dụng luật thượng hạ danh
(hyponym), do đó, nhiều câu trả lời chứa rất ít kết quả hoặc chứa nhiều kết
quả không chính xác (nhiễu) làm ảnh hưởng tới pha mở rộng thực thể.
Pha mở rộng kết quả trả lời mới chỉ tận dụng được đặc điểm dữ liệu bán cấu
trúc của các văn bản web, cụ thể là dựa vào các bảng, các danh sách, … mà
chưa sử dụng được thành phần chứa nhiều thông tin đó chính là nội dung
chính của các trang web.
Nhận thấy các nhược điểm còn tồn tại nói trên, trong thời gian sắp tới, chúng tôi
sẽ tiến hành cải tiến theo các phương án sau:
Nghiên cứu các đặc điểm của tiếng Việt để xây dựng các luật ngữ nghĩa áp
dụng vào pha mở rộng thực thể để có thể sử dụng được nội dung chính của
các trang web, góp phần nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách.
Hoàn thiện hơn pha hỏi đáp danh sách: bổ sung các luật thượng hạ danh, tìm
hiểu các quan hệ khác có thể áp dụng cho bài toán tìm kiếm câu trả lời trong
hệ thống hỏi đáp danh sách, …
Nghiên cứu, cải tiến các thuật toán xếp hạng để có thể đánh giá tốt hơn các
thực thể trích chọn được, giúp lựa chọn các thực thể đầu vào cho pha mở
rộng tốt hơn và lựa chọn các kết quả cho câu trả lời cuối cùng cũng tốt hơn.
Cuối cùng, tiếp tục hoàn thiện, tiến tới xây dựng thành công cụ thực tế để
đóng góp cho cộng đồng nghiên cứu cũng như hỗ trợ người dùng khai thác
thông tin trên Internet một cách hiệu quả hơn.
49
Phụ lục
Một số kết quả trong quá trình thực nghiệm, trường hợp đầu vào của pha mở
rộng thực thể là 3 kết quả trả lời. Bao gồm cả kết quả trả lời đúng và kết quả chưa
chính xác. Trường hợp không thu được thêm kết quả nào thì để trống.
STT Từ
khóa
Một số kết quả của pha hỏi đáp danh sách
Một số kết quả thu được
thêm sau khi mở rộng
1.
Bảo
tàng
bảo tàng lịch sử, bảo tàng công binh, hải
dương, hưng yên, thanh hóa, khoáng sản,
thực vật, động vật, bảo tàng ngân hàng, bảo
tàng tiền, bảo tàng hàng không, bảo tàng y
dược học, bảo tàng bưu điện, bảo tàng dầu
khí, bảo tàng dệt may, bảo tàng giáo dục, bảo
tàng giao thông, bảo tàng kiến trúc, bảo tàng
tem, bảo tàng mỹ thuật, hiện vật khối gốc.
bảo tàng dân tộc học, bảo
tàng cách mạng, bảo tàng
tranh sơn mài, sơn dầu, lụa.
2.
Hãng
hàng
không
lufthansa, korean air, singapore airlines,
united airlines, air france (pháp), virgin
atlantic, new zealand, indochina airlines,
british airways, châu á, vietnam airlines,
pacific airlines, indochina airline, thai ways,
brussels airlines, austrian
airlines, air canada, united
airlines, lot polish airlines,
star alliance, lufthansa
cityline, luxair, air france, air
new zealand, british airways,
jetblue airways, south african
airways, tap portugal, turkish
airlines, us airways,
eurowings, lufthansa cargo,
croatia airlines, adria
airways, view this template,
discuss this template, edit
this template, aer lingus, air
berlin, air china, air india.
3. Bệnh
sốt vi-rút, viêm phế quản, viêm phổi, sốt xuất
huyết, dịch tả, tiêu chảy, tụ huyết trùng, lở
mồm long móng, bệnh sán lá, bệnh ghẻ lở,
ghẻ lở, bệnh phổi, bệnh phù nề, chữa viêm
viêm não, viêm họng, cúm,
sốt phát ban, viêm bàng
quang, viêm màng não, dãn
50
gan, béo phì, suy nhược thần kinh, cao huyết
áp, cảm cúm, thông manh, mắt đỏ, nhức đầu,
đại tiện táo kết, cao áp huyết.
phế quản, bệnh lỵ, thấp tim
4.
Chòm
sao
đại hùng, tiểu hùng, thiên hậu, lộc báo, tiên
vương, mục phu, felis, quadrans muralis,
cetus, pegasus, hercules.
thiên nga, phượng hoàng, la
bàn, nhân mã, tam giác, mỏ
chim, bảo bình, thiên ưng,
mục phu, điêu cụ, đại
khuyển, kình ngư, nam miện,
…
5.
Động
vật
Dê, hươu xạ, cá voi, cá heo đã tiến hóa,
hoẵng, nai, hươu, sóc, khỉ đuôi dài, cò, vạc,
nông, bống, tôm, trai, kiến, cá, loài có vú,
chó, mèo, dơi, ngựa, chuột
Bò, heo, cừu
6.
Bệnh
viện
điều trị bệnh, bệnh viện sanh pon, bệnh viện
mắt-rhm, bệnh viện tây đô, bệnh viện hoàn
mỹ, bệnh phổi cần thơ, bệnh viện tâm thần,
bạch mai, viện k trung ương, việt đức, phụ
sản, bệnh viện k, viện mắt trung ương
7.
Ngân
hàng
Techcombank, eximbank, acb, công thương,
abbank, seabank, đông á, abc, sacombank,
ngân hàng quốc tế, lienvietbank,
tienphongbank, nam á bank
Bidv, sacombank, vp bank,
vietcombank, scb, ngoài
quốc doanh, maritime bank,
habeco.
8.
Nhạc
cụ
Guitar, trống, kèn, đàn nhị, đàn bầu, piano,
khèn của người mông, kèn đồng, đàn dương
cầm
Sáo, keyboard, chuông,
chiêng, sitar, mandolin,
bangio
9.
Nhạc
sĩ
lam phương, cầm phong, lê thương, hùng lân,
trầm tử thiêng, nguyễn cường, giáng son,
phan kiên, duy quang, ngô minh khánh, trần
quang hải, hồ đình phương, niệm khúc cuối
hoàng giác, thẩm oánh, đức
huy, trần quang hải, tô vũ,
hoàng thi thơ, lưu hữu
phước, văn cao, trịnh công
sơn, trúc phương
10. Thủ đô
Bangkok, london (anh), berlin (đức), tokyo
(nhật bản), viên chăn (lào), hà nội hiện tại
Bắc kinh (trung quốc), paris
(pháp)
51
Tài liệu tham khảo
Tiếng Việt
[1] Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn. Nhận biết một số thực thể
đặc trưng cho dữ liệu y tế tiếng việt tiếp cận học bán giám sát, Báo cáo NCKH năm
2009, Trường Đại học Công nghệ, ĐHQGHN.
[2] Nguyễn Thanh Sơn, Nguyễn Tiến Tùng, Chu Thị Thủy. Mở rộng tập thực thể định
danh dựa vào luật wrapper và luật ngữ nghĩa cho miền dữ liệu tiếng việt. Báo cáo
NCKH, trường Đại học Công nghệ, ĐHQGHN, 2010.
Tiếng Anh
[3] Alejandro Figueroa, Gunter Neumann. Finding distinct answers in web snippets.
Deutsches Forschungszentrum fur Kunstliche Intelligenz - DFKI, Stuhlsatzenhausweg
3, D - 66123, Saarbrucken, Germany figueroa@dfki.de, neumann@dfki.de, 2008.
[4] B. Settles. Biomedical named entity recognition using conditional random fields
and rich feature sets. In COLING 2004 International Joint workshop on
NLPBA/BioNLP
[5] Bernardo Magnini. Open Domain Question Answering: Techniques, Resources and
Systems. RANLP 2005
[6] Boris Katz, Gregory Marton, Sue Felshin, Daniel Loreto, Ben Lu, Federico Mora,
Ozlem Uzuner, Michael McGraw-Herdeg, Natalie Cheung, Yuan Luo, Alexey Radul,
Yuan Shen, Gabriel Zaccak. Question Answering Experiments and Resources. MIT
Computer Science and Artificial Intelligence Laboratory Cambridge, MA 02139.
[7] Burger, John; Cardie, Claire; Chaudhri, Vinay; Gaizauskas, Robert; Harabagiu,
Sanda; Israel, David; Jacquemin, Christian; Lin, Chin-Yew; Maiorano, Steve; Miller,
George; Moldovan, Dan; Ogden, Bill; Prager, John; Riloff, Ellen; Singhal, Amit;
Shrihari, Rohini; Strzalkowski, Tomek; Voorhees, Ellen; Weischedel, Ralph (2002).
“Issues, Tasks and Program Structure to Roadmap Research in Question &
Answering(Q&A)”
paper_v2.doc
52
[8] David Nadeau. Semi-Supervised Named Entity Recognition: Learning to
Recognize 100 Entity Types with Little Supervision, PhD Thesis, University of
Ottawa, 2007.
[9] E. Hovy, L. Gerber, U. Hermjakob, M. Junk, and C-Y Lin (2000). Question
Answering in Webclopedia, Proceedings of the TREC-9 Conference. NIST,
Gaithersbur MD
[10] Ellen M. Voorhees. Overview of the TREC 2003 Question Answering Track.
National Institute of Standards and Technology Gaithersburg, MD 20899
[11] George A. Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and
Katherine Miller. Introduction to WordNet: An On-line Lexical Database. 1998
[12] H.T. Dang, D. Kelly, and J. Lin. Overview of the TREC 2007 Question
Answering Track. Proceedings of the Sixteenth Text REtrieval Conference, 2007.
[13] H.T. Dang, J. Lin, and D. Kelly. Overview of the TREC 2006 Question
Answering Track. Proceedings of the Fifteenth Text REtrieval Conference, 2006.
[14] Hui Yang, Tat-Seng Chua. Web-Based List Question Answering. School of
Computing National University of Singapore 3 Science Drive 2, 117543.
[15] J. Ko, L. Si, and E. Nyberg. A Probabilistic Framework for Answer Selection in
Question Answering. Proceedings of NAACL-HLT, 2007.
[16] J. Lin Jimmy, Boris Katz, Sue Felshin. The START Multimedia Information
System: Current Technology and Future Directions. MIT Artificial Intelligence
Laboratory.
[17] J. M. Prager, J. Chu-Carroll, and K. Czuba. Question answering using constraint
satisfaction: Qa-by-dossier-withcontraints, ACL04: 574–581, 2004.
[18] John D. Prange. Extracting Rich Knowledge from Text,
[19] Majid Razmara. Answering list and other questions. A thesis in The Department
of Computer Science and Software Engineering, Canada, 2008.
[20] Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora. In
In Proceedings of the 14th International Conference on Computational Linguistics,
1992.
53
[21] N. Schlaefer, G. Sautter, J. Ko, J. Betteridge, M. Pathak, and E. Nyberg. Semantic
extensions of the Ephyra QA system in TREC 2007. Proceedings of the Sixteenth Text
REtrieval Conference, 2007.
[22] N. Schlaefer, P. Gieselmann, and G. Sautter. The Ephyra QA System at TREC
2006. Proceedings of the Fifteenth Text REtrieval Conference, 2006
[23] N.F. Noy and McGuinness, D.L. Ontology Development 101: A Guide to
Creating Your First Ontology SMI. Technical report SMI-2001-0880 , Stanford
University, 2001.
[24] Oren Etzioni, Michael J. Cafarella, Doug Downey, Ana-Maria Popescu, Tal
Shaked, Stephen Soderland, Daniel S. Weld, and Alexander Yates. Unsupervised
named-entity extraction from the web: An experimental study. Department of
Computer Science and Engineering University of Washington Seattle, 2005
[25] Richard C. Wang and William W. Cohen. Language-Independent Set Expansion
of Named Entities using the Web. Language Technologies Institute Carnegie Mellon
University Pittsburgh, PA 15213 USA, 2007.
[26] Richard C. Wang, William W. Cohen. Automatic Set Instance Extraction using
the Web. In Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP
of the AFNLP, 2009.
[27] Richard C. Wang. Language-Independent Class Instance Extraction Using the
Web. Language Technologies Institute School of Computer Science Carnegie Mellon
University. 5000 Forbes Ave., Pittsburgh, PA 15213
[28] Richard C.Wang, Nico Schlaefer,WilliamW. Cohen, and Eric Nyberg. Automatic
Set Expansion for List Question Answering. Language Technologies Institute
Carnegie Mellon University 5000 Forbes Avenue Pittsburgh PA 15213. 2008.
[29] Vu Tran Mai, Vinh Nguyen Duc, Uyen Pham Thu, Oanh Tran Thi and Thuy
Quang Ha (2009). An Experimental Study of Vietnamese Question Answering
System. International Conference on Asian Language Processing (IALP 2009),
Singapore. 2009.
[30]
Các file đính kèm theo tài liệu này:
- LUẬN VĂN- PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT.pdf