Hệ thống áp dụng phương pháp phân tích này thực hiện tốt đối với những câu
hỏi có cấu tạo đơn giản. Trong khi ở những câu hỏi có cấu tạo phức tạp hơn thì khả
năng phân tích bị giảm đi. Những kết quả khả quan ban đầu (phân tích được chính xác
45 / 60 câu hỏi) đã góp phần tạo nên hệ thống hỏi đáp tiếng Việt dựa trên Ontology do
Nguyễn Quốc Đại [42] xây dựng và thử nghiệm.
104 trang |
Chia sẻ: lylyngoc | Lượt xem: 2537 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
các cụm từ mà tính từ được theo sau bởi từ “hơn” hoặc từ
“nhất”, chúng ta sẽ sử dụng kiểu chú giải TokenVn trên cụm từ dạng này, với đặc
trưng string là xâu biểu diễn cụm từ, category nhận giá trị la “Tusosanh”, type nhận
một trong hai giá trị “Tương đối” hoặc “Tuyệt đối” phụ thuộc vào từ đi sau tính từ là
từ “hơn” hay là từ “nhất”. Như vậy một từ đã đuợc tạo ra mang ý nghĩa so sánh thay
cho cụm từ ban đầu.
Trong câu hỏi “Sinh viên nào có điểm lớn hơn 7?”, chúng ta sẽ có “lớn hơn”
được chú giải bởi kiểu TokenVn với đặc trưng category là ―Tusosanh”. Và câu hỏi
này có hai từ “sinh viên” và “điểm” được chú giải bởi kiểu Cumdanhtu như được chỉ
ra ở hình 4-9 sau:
Hình 4-9: Từ mang ý nghĩa so sánh trong câu hỏi tiếng Việt
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
53
Song song với việc xác định cụm danh từ, chúng tôi tạo một kiểu chú giải là
Danhngu (trong hình 4-10) để khớp với thành phần trung tâm của cụm danh từ và tính
từ theo đằng sau (nếu có). Từ hoặc cụm từ được chú giải bởi kiểu Danhngu sẽ là một
thực thể hoặc là một khái niệm.
Hình 4-10: Một ví dụ về kiểu chú giải Danhngu
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
54
4.3.2. Mối quan hệ
Chúng tôi định nghĩa mối quan hệ là một cụm từ (thuộc tính) được dùng để liên kết
giữa các cụm danh từ chứa đựng khái niệm (lớp đối tượng) hoặc chứa đựng thực thể
(đối tượng), hoặc liên kết cụm danh từ với từ (hoặc cụm từ) dùng để hỏi.
Xét câu hỏi: “Những sinh viên có quê ở Hà Tây là ai?”. Module phân tích cú
pháp xác định được ―Những sinh viên‖, “quê”, “Hà Tây”, là cụm danh từ. Cụm từ
“có quê ở” liên kết hai cụm danh từ “Những sinh viên” và “Hà Tây”, do đó “có quê
ở” được coi là một mối quan hệ.
Với câu hỏi: “ai là sinh viên của lớp khoa học máy tính?”. Module phân tích cú
pháp sẽ xác định được mối quan hệ “là sinh viên của” liên kết cụm danh từ “lớp khoa
học máy tính” và từ để hỏi “ai”.
Với câu hỏi, “ai học ở lớp khoa học máy tính?”. Module phân tích cú pháp sẽ
xác định được mối quan hệ “học ở” liên kết cụm danh từ “lớp khoa học máy tính ” và
tử để hỏi “ai”.
Khi một mối quan hệ được xác định, nó sẽ được chú giải bởi kiểu Moiquanhe
với các đặc trưng type và category như hình 4-11 sau đây:
Hình 4-11: Ví dụ về “mối quan hệ”
Thông qua phân tích các câu hỏi, chúng tôi định nghĩa cấu trúc của một mối
quan hệ trong câu hỏi theo 4 dạng sau đây:
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
55
Dạng 1:
(Động_từ) + Cụm_danh_từ Giới_từ (Động_từ)?
Chúng ta cùng xem xét câu hỏi: “những sinh viên có quê ở Hà Tây là ai?” thì
“có quê ở” là một mối quan hệ, bởi vì cụm từ này bắt đầu bằng một động từ sau đó là
một cụm danh từ và cuối cùng là một giới từ. Nó liên kết cụm danh từ “những sinh
viên” và “Hà Tây”.
Dạng 2:
(Động_từ) + Giới_từ (Động_từ)?
Với câu hỏi: “ai học ở lớp khoa học máy tính?”, có mối quan hệ “học ở” bởi vì
có một động từ (“học”) được theo sau bởi một giới từ (“ở”). Nó liên kết cụm danh từ
“lớp khoa học máy tính” và từ để hỏi “ai”.
Dạng 3:
Chúng ta cùng xem xét câu hỏi: “Nguyễn Quốc Đạt và Nguyễn Quốc Đại có
quê ở Hà Tây phải không?”. Hình 4-12 đưa ra kết quả tách từ của câu hỏi. Chú giải
TokenVn tương ứng với mỗi từ được tạo ra.
Hình 4-12: Tách từ trong câu hỏi: “Nguyễn Quốc Đạt và Nguyễn Quốc Đại có quê ở Hà
Tây phải không?”
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
56
Bộ tách từ đưa ra kết quả: “có” là phụ từ khẳng định, phủ định, “quê” là một
tính từ. Trong khi đó, “có quê ở” liên kết cụm danh từ ―Nguyễn Quốc Đại‖ với ―Hà
Tây”. Bởi vậy, trong trường hợp này chúng ta có cấu trúc của mối quan hệ như sau:
(“có” | Động_từ) + Tính_từ Giới_từ (Động_từ)?
Điều này có nghĩa là: một cụm bắt đầu bởi một (hoặc nhiều) từ “có” hoặc một
(hoặc nhiều) động từ được theo sau bởi một tính từ, và tiếp theo là một giới từ sau đó
là một (hoặc không) động từ, thì cụm từ đó được coi là một mối quan hệ.
Nguyên nhân: bộ tách từ sử dụng gán nhãn từ loại phụ thuộc vào xác suất xuất
hiện của một từ trong ngữ cảnh. Trong ngữ cảnh này nó có thể có kiểu từ loại này,
trong ngữ cảnh khác thì có kiểu từ loại khác. Một từ trong ngữ cảnh này có thể là danh
từ, cùng một từ đó nhưng trong ngữ cảnh khác lại là tính từ.
Dạng 4: Cấu tạo mối quan hệ được mô tả như sau:
Một cụm bắt đầu bởi từ “có” được theo sau là một cụm danh từ hoặc tính từ và
cuối cùng là từ “là” được coi là một mối quan hệ.
Ví dụ, “những ai có quê là Hà Tây?” mối quan hệ “có quê là” liên kết cụm từ
để hỏi “những ai” và cụm danh từ “Hà Tây”.
Bất cứ cụm từ nào được khớp với một trong 4 dạng nêu trên thì đều được chú
giải bằng bởi kiểu Moiquanhe với hai đặc trưng type và category. Đặc trưng type được
gán giá trị là “Cụm danh từ”, đặc trưng string biểu diễn xâu tương ứng, đặc trưng
category của các cụm được khớp bởi dạng 2 nhận giá trị là “REL_Verb”, đối với các
dạng còn lại thì category có giá trị là “REL_Noun”. Hình 4-13 dưới đây là một ví dụ
về kiểu chú giải Moiquanhe.
―có‖ (Cụm_danh_từ | Tính_từ) ―là‖
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
57
Hình 4-13: Kiểu chú giải Moiquanhe
Chú ý rằng, các từ “là”, “có” và “tồn tại” sẽ không được chú giải bởi kiểu
Moiquanhe.
Với câu hỏi: “Nguyễn Quốc Đạt có mã sinh viên là gì?”, thì “có mã sinh viên
là” không được chú giải bởi kiểu Moiquanhe, vì ―là gì” đã được chú giải bằng kiểu
TokenVn trong bước tiền xử lý.
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
58
4.4. Phân tích ngữ nghĩa
Module phân tích ngữ nghĩa gồm có hai module con là: phân loại câu hỏi và so khớp
mẫu. Module này sử dụng các kết quả của các module trước là các chú giải có kiểu
TokenVn, Moiquanhe, Cumdanhtu, Danhngu. Module phân loại câu hỏi sẽ phân loại
một câu hỏi vào một lớp nhất định, trong khi module so khớp mẫu sẽ sinh ra một bộ
biểu diễn trung gian của câu hỏi và đó chính là đầu ra của quá trình xử lý câu hỏi.
4.4.1. Phân loại câu hỏi
Phân loại câu hỏi là nhiệm vụ ánh xạ một câu hỏi vào một trong các lớp cho trước.
Phân loại có ý nghĩa rất quan trọng trong một hệ thống trả lời câu hỏi. Đầu tiên nó
cung cấp những ràng buộc ngữ nghĩa về các loại câu trả lời mong muốn. Thứ hai nó
cung cấp thông tin để những xử lý tiếp xác định phương pháp lựa chọn câu trả lời.
Trong khóa luận này, chúng tôi phân loại một câu hỏi tiếng Việt vào một trong 10
lớp: HowWhy, YesNo, What, When, Where, Who, Many, ManyClass, List, Entity. Phân loại
câu hỏi được lưu trữ trong các chú giải kiểu Tudehoi (trong hình 4-14) tại các đặc trưng
category. Ngoài ra, chú giải kiểu Tudehoi còn có đặc trưng type nhận giá trị là “QU”.
Hình 4-14: Một ví dụ về kiểu chú giải Tudehoi
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
59
HowWhy: một câu hỏi thuộc vào lớp HowWhy nếu chứa một từ (hoặc cụm từ) với
kiểu chú giải TokenVn có đặc trưng type nhận giá trị là “HowWhy”. Kiểu chú giải
Tudehoi được tạo ra trên từ (hoặc cụm từ) này có đặc trưng category nhận giá trị là
“QU HowWhy”. Những câu hỏi thuộc vào lớp này muốn một câu trả lời về nguyên
nhân hoặc là một sự giải thích nào đó.
Ví dụ: ―Hình vuông là hình như thế nào?‖ thì từ “như thế nào” được chú giải
bởi kiểu TokenVn có giá trị của đặc trưng type là “HowWhy”. Do đó từ “như thế
nào” cũng được chú giải bởi kiểu Tudehoi với đặc trưng category nhận giá trị
“QU HowWhy”.
YesNo: một câu hỏi thuộc vào lớp YesNo nếu chứa một từ với kiểu chú giải
TokenVn có đặc trưng type nhận giá trị là “YesNo”. Kiểu chú giải Tudehoi được
tạo ra trên từ này có đặc trưng category nhận giá trị là “QU YesNo”. Những câu
hỏi thuộc lớp YesNo mong muốn một câu trả lời Đúng hoặc Sai.
Hoàn toàn tương tự, một câu hỏi thuộc vào một trong các lớp lớp What, When,
Where, Many nếu câu hỏi chứa một từ với kiểu chú giải TokenVn có đặc trưng
type lần lượt nhận các giá trị tương ứng là “What”, “When”, “Many”, “Where”.
Kiểu chú giải Tudehoi được tạo ra với đặc trưng category tương ứng nhận một
trong các các giá trị “QU What”, “QU When”, “QU Where”, “QU Many” cho
mỗi từ được khớp.
Những câu hỏi thuộc lớp Where mong muốn một câu trả lời về địa điểm.
Những câu hỏi thuộc lớp When mong muốn một câu trả lời về thời gian như:
ngày, tháng,….
Những câu hỏi thuộc vào lớp What ít mang ý nghĩa xác định hỏi về cái gì.
Những câu hỏi thuộc vào lớp Many muốn một câu trả lời về số lượng chung
chung, chưa xác định chính là số lượng cái gì.
Một câu hỏi mà cần câu trả lời là một người thì thuộc vào lớp Who. Câu hỏi thuộc
vào lớp này nếu nó chứa môt từ có kiểu chú giải TokenVn với đặc trưng type nhận
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
60
giá trị là “Who”. Ngoài ra nếu câu hỏi chứa một cụm từ khớp với cấu trúc sau đây
thì cũng thuộc vào lớp Who:
1 ―là‖ {TokenVn.string == “là”}
2 Giới từ
{TokenVn.category == “Aa”} |
{TokenVn.category == “An”}
3
Từ có kiểu chú giải
TokenVn có ―type‖ nhận
giá trị ―Who‖
{TokenVn.type == “Who”}
Vị trí 1 hoặc 2 có thể có hoặc không.
Một kiểu chú giải Tudehoi được tạo ra trên các từ hoặc cụm từ được khớp với
đặc trưng category nhận giá trị là “QU Who”. Những câu hỏi hỏi về người thì
thuộc vào lớp này.
Một câu hỏi thuộc vào lớp ManyClass nếu có một cụm từ khớp với cấu trúc sau:
{TokenVn.type == “Many”} {Cumdanhtu.category == “Cụm danh từ”}
Cấu trúc trên sẽ khớp với các cụm như: số lượng sinh viên, bao nhiêu sinh viên,
số lượng môn học,…
Kiểu chú giải Tudehoi với đặc trưng category nhận giá trị là “QU ManyClass”
sẽ chú giải cho cụm từ được khớp.
Chúng ta có thể thấy rằng những câu hỏi thuộc lớp này thì có cụm từ để hỏi
chứa đựng một khái niệm chứ không phải là một thực thể. Do đó, các câu hỏi thuộc
vào lớp ManyClass mong muốn một câu trả lời về số lượng, nhưng là số lượng
chính xác về một cái gì đó (thực thể).
Một câu hỏi thuộc vào lớp List nếu có một cụm từ khớp với cấu trúc sau:
{TokenVn.type == “List”} {Cumdanhtu.category == “Cụm danh từ”}
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
61
Ví dụ: “chỉ ra tất cả những sinh viên của lớp khoa học máy tính?” sẽ thuộc vào
lớp này vì nó chứa cụm từ “chỉ ra tất cả những sinh viên”.
Kiểu chú giải Tudehoi với đặc trưng category nhận giá trị là “QU List” sẽ chú
giải cho cụm từ được khớp.
Như đã được lý giải trong phân lớp ManyClass, những câu hỏi thuộc lớp này
mong muốn một câu trả lời là một danh sách các thực thể.
Kiểu chú giải Tudehoi với đặc trưng category nhận giá trị là “QU Entity” được
dùng để chú giải cho một cụm từ trong câu hỏi thuộc lớp Entity nếu cụm từ đó có
cấu trúc như sau:
{Cumdanhtu.category == “Cụm danh từ”}
{TokenVn.string == “nào”} |
{TokenVn.string == “gì”}
Ví dụ: sinh viên nào, lớp nào, lớp gì,…
Trong câu hỏi ngôn ngữ tự nhiên, một cụm danh từ được theo sau bởi một từ
“nào” hoặc từ “gì” thì cụm danh từ đó bao giờ cũng chứa đựng một khái niệm.
Câu trả lời mong muốn sẽ là một thực thể tương ứng với khái niệm này. Điều này
tương tự như trường hợp các câu hỏi thuộc lớp ManyClass và List phía trên.
Chú ý rằng: “ngày nào” không khớp với mẫu trên, vì trong bước tiền xử lý
“ngày nào” đã được chú giải bởi kiểu TokenVn có đặc trưng category nhận giá trị
“When”.
Chúng ta có thể nhận thấy rằng, phân lớp câu hỏi dựa trên các cụm từ dùng để hỏi đưa
ra kết quả cao trong phân loại đối với những câu hỏi đơn giản (có một cụm từ dùng để
hỏi). Đối với câu hỏi mà có nhiều cụm từ để hỏi, độ chính xác trong phân loại giảm đi.
Ví dụ: “số lượng sinh viên học lớp khoa học máy tính là bao nhiêu?” kiểu chú
giải Tudehoi xuất hiện trong câu này cho trên cụm từ “số lượng sinh viên” và “là bao
nhiêu”, tuy nhiên với câu hỏi này thì dù được phân loại vào lớp Many hay là
ManyClass thì vẫn chấp nhận được.
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
62
Còn đối với câu hỏi: “số lượng sinh viên học lớp khoa học máy tính là 45 phải
không?” hoặc “danh sách sinh viên của lớp khoa học máy tính là gì?” sự phân loại
câu hỏi ở đây là không rõ ràng. Hiện tại hệ thống sẽ phân câu hỏi dạng này vào tất cả
các lớp có thể có. Nghĩa là, một câu hỏi có thể thuộc vào nhiều lớp.
Sử dụng module so khớp mẫu dưới đây, sự không rõ ràng trong các ví dụ trên
sẽ được giải quyết.
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
63
4.4.2. So khớp mẫu
Nhìn chung, mỗi câu hỏi ngôn ngữ tự nhiên đều sử dụng một cấu trúc ngữ nghĩa đặc
biệt. Mỗi vị trí trong câu hỏi được sử dụng với một mục đích nhất định, ví dụ lưu trữ
thực thể (đối tượng), một khái niệm (lớp đối tượng), một giá trị. Thông qua phân tích
một lượng lớn các câu hỏi, chúng tôi nhận thấy rằng mặc dù các câu hỏi có nhiều cách
biểu diễn khác nhau nhưng chúng luôn theo một nguyên tắc cấu tạo cụ thể.
Chúng tôi định nghĩa một số nguyên tắc cấu tạo (gọi là mẫu) câu hỏi. Mỗi một
câu hỏi đi vào quá trình so khớp mẫu. Nếu cấu tạo của câu hỏi khớp với một mẫu đã
được định nghĩa, quá trình so khớp mẫu sẽ sinh ra một bộ biểu diễn trung gian gồm có
gồm có: “Dạng cấu tạo câu hỏi” và một (hoặc nhiều) bộ biểu diễn con. Mỗi bộ biểu
diễn con có dạng:
(Dạng cấu tạo bộ biểu diễn, Lớp câu hỏi, Thuật ngữ 1, Mối quan hệ, Thuật ngữ
2, Thuật ngữ 3).
Trong đó “Thuật ngữ 1” là một khái niệm, ―Thuật ngữ 2‖ và “Thuật ngữ 3‖
(nếu có) là các thực thể. “Mối quan hệ” được dùng để liên kết các thuật ngữ.
Khi bộ biểu diễn trung gian có nhiều hơn một bộ con, điều này có nghĩa là câu
hỏi được tổng hợp từ ít nhất hai câu hỏi con. Và “Dạng cấu tạo bộ biểu diễn” trong
mỗi bộ con chính là “Dạng cấu tạo câu hỏi” của câu hỏi con tương ứng. Do đó, nếu
câu hỏi mà chỉ có một bộ biểu diễn con thì “Dạng cấu tạo bộ biểu diễn” là “Dạng cấu
tạo câu hỏi”. “Lớp câu hỏi” trong mỗi bộ con chính là lớp của câu hỏi con tương ứng.
Nếu chỉ có một phần câu hỏi được khớp với một mẫu nào đó, quá trình này sẽ
phân tích trên phần câu hỏi được khớp.
Ví dụ về bộ biểu diễn trung gian của câu hỏi được chỉ ra trong hình 4-15 sau đây:
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
64
Hình 4-15: Ví dụ về bộ biểu diễn trung gian của câu hỏi
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
65
4.4.2.1. Cấu tạo của câu hỏi
Cấu tạo của một câu hỏi đơn giản thường chứa đựng một mối quan hệ. Thông thường
những câu hỏi như vậy chứa đựng hai cụm danh từ và mối quan hệ sẽ liên kết hai cụm
danh từ đó, hoặc một mối quan hệ giữa một cụm danh từ và một cụm từ để hỏi có kiểu
chú giải Tudehoi được sinh ra từ module Phân loại câu hỏi với đặc trưng category là
―QU Entity‖ hoặc “QU List” hoặc “QU ManyClass”
Ví dụ như: “những sinh viên học lớp khoa học máy tính là ai?”, chúng ta sẽ
thấy rằng, với câu hỏi này, mối quan hệ “học” liên kết cụm danh từ “những sinh viên”
chứa đựng khái niệm trong nó và cụm danh từ “lớp khoa học máy tính” chứa đựng
thực thể trong nó.
Hay như câu hỏi: “môn học được học bởi Nguyễn Quốc Đạt là gì?” hoàn toàn
tương tự, mối quan hệ “được học bởi” liên kết cụm danh từ chứa khái niệm “môn
học” và cụm danh từ chứa thực thể “Nguyễn Quốc Đạt”.
Hoặc như câu hỏi “sinh viên nào có quê ở Hà Tây?” chứa đựng mối quan hệ
“có quê ở” liên kết cụm từ được chú giải bởi kiểu Tudehoi dùng để hỏi “sinh viên
nào” và cụm danh từ “Hà Tây”, nói một cách chính xác hơn “có quê ở” liên kết cụm
danh từ “sinh viên” và cụm danh từ “Hà Tây”.
Chúng ta cần chú ý một số câu hỏi dạng như “Quê của sinh viên nào ở Hà
Tây?”, mối quan hệ ở đây là “Quê” liên kết cụm từ được chú giải bởi kiểu Tudehoi
dùng để hỏi “sinh viên nào” và cụm danh từ “Hà Tây”.
Một các khái quát, chúng tôi quan niệm rằng: “A của B” và “B có A”, trong đó
A và B được chú giải bởi kiểu Cumdanhtu là tương đương nhau, và có nghĩa là mối
quan hệ A sẽ liên kết B với một cụm danh từ hoặc một cụm từ để hỏi nào đó.
Để tạo ra một biểu diễn chung cho các câu hỏi trong các ví dụ nêu trên, chúng
tôi định nghĩa một bộ biểu diễn thô cho một câu hỏi đơn giản là bộ:
(Cụm từ 1, mối quan hệ, Cụm từ 2, Cụm từ 3)
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
66
Trong đó, “Cụm từ 1”, “Cụm từ 2” và “Cụm từ 3” (nếu có) là cụm danh từ
hoặc cụm từ để hỏi có chứa cụm danh từ bên trong, chúng được liên kết với nhau
thông qua ―mối quan hệ”.
Thông qua cách nhìn nhận về cấu tạo câu hỏi, chúng ta có thể biết được bộ biểu
diễn thô của câu hỏi là như thế nào. Dựa vào bộ biểu diễn thô như trên, chúng tôi phân
chia cấu tạo của một câu hỏi vào một trong dạng dưới đây:
Normal: một câu hỏi có cấu tạo dạng Normal nếu như bộ biểu diễn thô cho câu hỏi
có dạng: (Cụm từ 1, mối quan hệ, Cụm từ 2, ?)
Ví dụ: “những sinh viên học lớp khoa học máy tính là ai?” có bộ biểu diễn thô là:
(những sinh viên, học, lớp khoa học máy tính, ?)
Unknterm (Unknown first Term): một câu hỏi có cấu tạo dạng UnknTerm nếu như
bộ biểu diễn thô có dạng:
(?, mối quan hệ, Cụm từ 2, ?)
Ví dụ: “ai là những sinh viên của lớp khoa học máy tính?” thì bộ biểu diễn thô sẽ là:
(?,là những sinh viên của, lớp khoa học máy tính)
Hoặc câu hỏi “mã sinh viên của Nguyễn Quốc Đạt là gì?” và câu hỏi “Nguyễn
Quốc Đạt có mã sinh viên là gì?”. Đây chính là dạng “A của B” và “B có A”
được chỉ ra ở trên, bộ biểu diễn thô của cả hai câu này là:
(?, mã sinh viên, Nguyễn Quốc Đạt, ?)
Unknrel (Unknown Relation): một câu hỏi có cấu tạo dạng UnknRel nếu như bộ
biểu diễn thô có dạng như sau:
(Cụm từ 1, ?, Cụm từ 2, ?)
Ví dụ: “danh sách sinh viên của lớp khoa học máy tính là gì?” có cụm từ “danh
sách sinh viên” (chứa khái niệm bên trong) được chú giải bởi kiểu Tudehoi và “lớp
khoa học máy tính” được chú giải bởi kiểu Cumdanhtu, bởi vậy bộ biểu diễn thô sẽ là:
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
67
(danh sách sinh viên, ? , lớp khoa học máy tính, ?)
Hoặc câu hỏi “số lượng sinh viên của lớp khoa học máy tính là bao nhiêu?” thì
có biểu diễn thô là:
(số lượng sinh viên, ?, lớp khoa học máy tính, ?)
Definition: một câu hỏi có cấu tạo thuộc vào dạng này nếu như bộ biểu diễn thô có
dạng:
(?, ?, Cụm từ 2, ?)
Câu hỏi có cấu tạo Definition cho phép “Cụm từ 2” chứa đựng khái niệm.
Ví dụ: “Nguyễn Quốc Đạt là ai?” có bộ biểu diễn thô sẽ là:
(?, ?, Nguyễn Quốc Đạt, ?)
Hoặc câu hỏi “cái gì là thẻ sinh viên?” sẽ có bộ biểu diễn thô là:
(?, ?, thẻ sinh viên, ?)
AffirmNeg (Affirmative Negative): một câu hỏi có cấu tạo dạng AffirmNeg nếu
câu hỏi đó được phân vào lớp YesNo đặc trưng type nhận giá trị là “YesNo” và có
một bộ biểu diễn thô thuộc vào một trong 3 dạng Normal, UnknRel, UnknTerm.
Câu hỏi có cấu tạo dạng AffirmNeg cho phép “Cụm từ 1” chứa đựng thực thể.
Ví dụ: “Nguyễn Quốc Đạt có quê ở Hà Tây phải không?” thì có bộ biểu diễn
thô là:
(Nguyễn Quốc Đạt, có quê ở, Hà Tây, ?)
Compare: câu hỏi có cấu tạo thuộc dạng này nếu như nó chứa đựng một từ có kiểu
chú giải TokenVn với đặc trưng category nhận giá trị là “Tusosanh”.
Ví dụ “sinh viên nào có điểm trung bình lớn hơn 7?” thì bộ biểu diễn thô là:
(sinh viên nào, điểm trung bình, 7, ?)
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
68
And: một câu hỏi có cấu tạo thuộc dạng này nếu câu hỏi có từ “và” hoặc “mà”.
Các câu thuộc dạng này có hai bộ biểu diễn thô tương ứng với hai câu hỏi con
thuộc vào một trong 3 dạng Normal, UnknRel, UnknTerm
Ví dụ như: “danh sách các sinh viên có quê ở Hà Tây mà học lớp khoa học máy
tính?”. Những câu hỏi có cấu tạo thuộc dạng này sẽ có 2 bộ biểu diễn thô tương
ứng biểu diễn cho hai câu hỏi con. Trong câu hỏi vừa nêu chúng ta sẽ có 2 bộ biểu
diễn thô là:
(danh sách các sinh viên, có quê ở, Hà Tây, ?) và
(danh sách các sinh viên, học, lớp khoa học máy tính, ?)
Or: tương tự như And, nhưng trong câu hỏi có từ “hoặc” thay vì từ “và” và “mà”.
Câu hỏi: “số lượng sinh viên có quê ở Hà Tây hoặc có quê ở Hà Nội là bao
nhiêu?” sẽ có 2 bộ biểu diễn thô là:
(số lượng sinh viên, có quê ở, Hà Tây, ?) và
(số lượng sinh viên, có quê ở, Hà Nội, ?)
Cấu tạo câu hỏi thuộc dạng And hoặc Or, thì kết quả mỗi câu hỏi con không
phụ thuộc vào nhau, nhưng kết quả của câu hỏi tổng hợp sẽ là giao hoặc hợp của
các câu hỏi con.
Clause: câu hỏi “Sinh viên có quê ở Hà Tây thì học lớp nào?” có 2 bộ biểu diễn
thô là:
(Sinh viên, có quê ở, Hà Tây, ?) và (lớp, học, ? , ?)
Kết quả của câu hỏi con thứ nhất làm đầu vào cho thành phần còn thiếu trong
bộ biểu diễn thô tương ứng với câu hỏi con thứ hai.
Combine: cấu tạo câu hỏi ở dạng kết hợp hai câu hỏi đơn giản. Câu hỏi dạng này
có hai bộ biểu diễn thô hoàn toàn không phụ thuộc vào nhau.
Ví dụ “ai có quê ở Hà Tây và sinh viên nào học lớp khoa học máy tính?” có 2
bộ biểu diễn thô là:
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
69
(?, có quê ở, Hà Tây, ?) và
(sinh viên nào, học, lớp khoa học máy tính, ?)
ThreeTerm: bộ biểu diễn thô của câu hỏi có dạng:
(?, mối quan hệ, Cụm từ 2, Cụm từ 3 ) hoặc (Cụm từ 1, ?, Cụm từ 2, Cụm từ 3)
hoặc (Cụm từ 1, mối quan hệ, Cụm từ 2, Cụm từ 3)
Ví dụ: “ai là những sinh viên của lớp khoa học máy tính của trường đại học
Công Nghệ?” sẽ có bộ biểu diễn thô là:
(?, là những sinh viên của, lớp khoa học máy tính, trường đại học Công Nghệ)
Hoặc ―danh sách sinh viên của lớp khoa học máy tính của trường đại học công
nghệ là gì?‖ có bộ biểu diễn thô là:
(danh sách sinh viên, ?, lớp khoa học máy tính, đại học Công Nghệ)
AffirmNeg_3Term: câu hỏi được phân vào lớp YesNo và có 1 bộ biểu diễn thô là:
(Cụm từ 1, ?, Cụm từ 2, Cụm từ 3) hoặc
(Cụm từ 1, mối quan hệ, Cụm từ 2, Cụm từ 3)
Câu hỏi có cấu tạo dạng AffirmNeg_3Term cho phép “Cụm từ 1” chứa đựng
thực thể.
Ví dụ “số lượng sinh viên của lớp khoa học máy tính là 45 phải không?” sẽ có
bộ biểu diễn thô là:
(số lượng sinh viên, ?, lớp khoa học máy tính, 45)
AffirmNeg_2Triple: được phân vào lớp YesNo và được biểu diễn bởi 2 bộ biểu
diễn thô.
Câu hỏi có cấu tạo dạng AffirmNeg_2Triple cho phép “Cụm từ 1” chứa đựng
thực thể.
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
70
Ví dụ: “Nguyễn Quốc Đạt có quê ở Hà Tây và học lớp khoa học máy tính phải
không?” có hai bộ biểu diễn thô là:
(Nguyễn Quốc Đạt, có quê ở, Hà Tây, ?) và
(Nguyễn Quốc Đạt, học, lớp khoa học máy tính, ?)
Hoặc câu hỏi “tồn tại sinh viên học lớp khoa học máy tính mà có quê ở Hà Tây
phải không?” sẽ có hai bộ biểu diễn thô là:
(sinh viên, học, lớp khoa học máy tính, ?) và (sinh viên, có quê ở, Hà Tây, ?)
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
71
4.4.2.2. Bộ biểu diễn trung gian của câu hỏi
Chúng tôi đã định nghĩa một bộ biểu diễn trung gian gồm có gồm có: “Dạng cấu tạo
câu hỏi” và một (hoặc nhiều) bộ biểu diễn con. Mỗi bộ biểu diễn con có dạng:
(Dạng cấu tạo bộ biểu diễn, Lớp câu hỏi, Thuật ngữ 1, Mối quan hệ, Thuật ngữ
2, Thuật ngữ 3).
Trong đó, “Dạng cấu tạo câu hỏi” là một trong các dạng đã nêu ở phần 4.4.2.1,
“Thuật ngữ 1” là một khái niệm, ―Thuật ngữ 2‖ và “Thuật ngữ 3‖ (nếu có) là các thực
thể. “Mối quan hệ” được dùng để liên kết các thuật ngữ.
Khi câu hỏi được tổng hợp từ ít nhất hai câu hỏi con. “Dạng cấu tạo bộ biểu
diễn” trong mỗi bộ con chính là “Dạng cấu tạo câu hỏi” của câu hỏi con tương ứng.
“Lớp câu hỏi” trong mỗi bộ con chính là lớp của câu hỏi con tương ứng.
Nếu dạng câu hỏi là AffirmNeg hoặc AffirmNeg_2Triple hoặc AffirmNeg_3Term
, nghĩa là câu hỏi được phân vào lớp YesNo, thì cho phép “Thuật ngữ 1” có thể là thực
thể. Nếu câu hỏi có dạng Definition thì cho phép “Thuật ngữ 2” có thể là khái niệm.
Chúng tôi có định nghĩa trước một số mẫu câu là cấu tạo của câu hỏi. Mỗi câu
hỏi đầu vào mà có cấu tạo khớp với một trong các mẫu định trước sẽ được chú giải bởi
kiểu Maucauhoi. Dựa trên cách nhìn nhận thông qua bộ biểu diễn thô và mẫu câu hỏi,
kiểu chú giải Maucauhoi sẽ có các đặc trưng type nhận giá trị là “QU Pattern”, đặc
trưng category nhận môt trong các giá trị là: “Normal”, “Unknterm”, “Unknrel”,
“Definition”, “And”, “Or”, “Compare”, “ThreeTerm”, “Clause”, “Combine”,
“AffirmNeg”, “AffirmNeg_3Term”, “AffirmNeg_2Triple”, và đặc trưng pattern là xâu
biểu diễn mẫu câu hỏi. Hình 4-16 sau đây mô tả một kiểu chú giải Maucauhoi khi câu
hỏi đầu vào khớp đúng mẫu định trước.
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
72
Hình 4-16: Một ví dụ về kiểu chú giải Maucauhoi
Chúng ta sẽ cùng xem xét các câu hỏi mà có cấu tạo thuộc vào một trong các
dạng Normal, UnknRel, UnknTerm, Definition, AffirmNeg trước.
Nếu một câu hỏi đầu vào được khớp với một trong các mẫu đã được định nghĩa.
Quá trình so khớp mẫu sẽ lấy ra sẽ lấy ra tập chứa các từ với kiểu chú giải TokenVn,
tập chứa các cụm từ (hoặc từ) với kiểu chú giải Cumdanhtu, tập chứa các cụm từ (hoặc
từ) với kiểu chú giải Danhngu, tập chứa các cụm từ (hoặc từ) với kiểu chú giải
Moiquanhe, tập chứa các cụm từ (hoặc từ) với kiểu chú giải Tudehoi.
Dựa trên đặc trưng category của kiểu chú giải Tudehoi, “lớp của câu hỏi” được
xác định, “dạng cấu tạo câu hỏi” và “dạng cấu tạo bộ biểu diễn” chính là giá trị
tương ứng với đặc trưng category của kiểu chú giải Maucauhoi.
Tiếp theo, module sẽ loại bỏ những sự trùng lặp. Đầu tiên, bất cứ từ nào với
kiểu chú giải TokenVn nằm trong một cụm từ được chú giải bởi một trong các kiểu
Cumdanhtu, Moiquanhe, Tudehoi thì sẽ bị loại bỏ khỏi tập các từ với kiểu chú giải
TokenVn. Thường thì, chúng ta không cần xử lý việc lấy ra tập các chú giải TokenVn
và thực hiện loại bỏ trùng lặp đối với các câu hỏi dạng Normal, UnknRel, UnknTerm,
Definition, AffirmNeg.
Hoàn toàn tương tự, nếu một cụm từ được chú giải bởi kiểu Cumdantu nằm
trong một cụm được chú giải bởi một trong các kiểu Moiquanhe, Tudehoi, thì cụm từ
đó sẽ bị loại bỏ khỏi tập chứa các cụm có kiểu chú giải Cumdanhtu.
Ví dụ: “ai là những sinh viên của lớp khoa học máy tính?”
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
73
Từ câu hỏi trên, tập các cụm danh từ là “những sinh viên”, “lớp khoa học máy
tính”, tập chứa một từ để hỏi là “ai”, tập chứa một mối quanh hệ là “là những sinh viên
của”. Vì “những sinh viên” được chú giải bởi kiểu chú giải Cumdanhtu có điểm bắt đầu
và điểm kết thúc nằm giữa điểm bắt đầu và điểm kết thúc của cụm “là những sinh viên
của” được chú giải bởi kiểu Moiquanhe. Do đó, “những sinh viên” sẽ bị loại bỏ ra khỏi
tập các cụm danh từ. Câu hỏi chỉ còn lại tập chứa một mối quan hệ “là những sinh viên
của”, tập chứa một từ để hỏi “ai”, tập chứa một cụm danh từ “lớp khoa học máy tính”.
Từ mẫu câu hỏi chúng ta có thể biết được bộ biểu diễn thô của câu hỏi là gì.
Trong ví dụ trên ta có bộ biểu diễn thô: (?, là những sinh viên của, lớp khoa học máy
tính, ?). Chú giải Danhngu được sử dụng để lấy ra thực thể hoặc khái niệm trong các
cụm từ được chú giải bởi kiểu Cumdanhtu hoặc Tudehoi. Những giới từ có trong ―mối
quan hệ‖ sẽ bị loại bỏ. Một biểu diễn trung gian của câu hỏi ví dụ được sinh ra giống
như hình 4-17 sau đây: (Unknterm, (QUWho, ?, là sinh viên, lớp khoa học máy tính)).
Hình 4-17: Đầu ra của một câu hỏi có cấu tạo dạng Unknterm
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
74
Chúng ta tiếp tục với những câu hỏi phức tạp hơn, ví dụ như:
“sinh viên của lớp khoa học máy tính mà có quê ở Hà Tây là ai?”.
“Dạng cấu tạo câu hỏi” là “And”, sau khi loại bỏ trùng lặp như đã trình bày ở
trên, dựa trên mẫu câu hỏi được khớp một biểu diễn trung gian gồm hai bộ con có dạng:
(Dạng cấu tạo bộ biểu diễn, Lớp câu hỏi, Thuật ngữ 1, Mối quan hệ, Thuật ngữ 2, ?)
Trong đó “Lớp câu hỏi”, “Thuật ngữ 1”, “Mối quan hệ”, “Thuật ngữ 2” hoàn
toàn được xác định chính xác. Giá trị “Dạng cấu tạo bộ biểu diễn” phụ thuộc vào bộ
biểu diễn. Nếu bộ biểu diễn có đầy đủ “Thuật ngữ 1”, “Mối quan hệ”, “Thuật ngữ 2”
thì “Dạng cấu tạo bộ biểu diễn” nhận giá trị là “Normal”, nếu thiếu “Thuật ngữ 1”
thì giá trị của “Dạng cấu tạo bộ biểu diễn” là ―Unkterm”, nếu không có ―mối quan
hệ‖ thì giá trị của “Dạng cấu tạo bộ biểu diễn” là “Unknrel”.
Hình 4-18: Đầu ra của một câu hỏi có cấu tạo dạng And
Chương 4. Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt
75
Nhập nhằng trong phân lớp câu hỏi trên sẽ được giải quyết ở phần này. Ví dụ:
“số lượng sinh viên học lớp khoa học máy tính là 45 phải không?”
Trong phần phân lớp câu hỏi, chúng ta có thể thấy rằng câu hỏi không biết
thuộc về lớp ManyClass hay là lớp YesNo. Trong quá trình phân tích mẫu của câu hỏi
(trong hình 4-19), câu hỏi này thuộc về lớp ManyClass có “Dạng cấu tạo câu hỏi” và
“Dạng cấu tạo bộ biểu diễn” nhận giá trị là “AffirmNeg_3Term” hoàn toàn có thể
chấp nhận được vì nó cũng mang ý nghĩa hỏi Đúng hoặc Sai.
Hình 4-19: Đầu ra của một câu hỏi có cấu tạo dạng AffirmNeg_3Term
Chương 5. Kết quả thực nghiệm Nguyễn Quốc Đạt
76
Chƣơng 5. Kết quả thực nghiệm
Chúng tôi thực hiện phương pháp của mình trên một tập dữ liệu gồm 60 câu hỏi (trong
phụ lục C). Các câu hỏi có cấu tạo cú pháp khác nhau liên quan đến một số khái niệm
trong miền tri thức trường đại học. Nguyên nhân chúng tôi lựa chọn các câu hỏi này là
do chúng thích hợp cho hệ thống hỏi đáp tiếng Việt dựa trên Ontology do Nguyễn
Quốc Đại [42] xây dựng và thử nghiệm.
Các tiêu chí sau được xác định như một độ đo để so sánh:
Tiêu chí 1: Số lượng câu hỏi mà nguyên tắc cấu tạo của nó nằm trong tập chứa các
mẫu cấu tạo đã được định nghĩa. Nghĩa là, số lượng câu hỏi khi vào module so
khớp mẫu sẽ được chú giải bởi kiểu Maucauhoi.
Tiêu chí 2: Số lượng câu hỏi thỏa mãn tiêu chí 1, kết quả phân tích là một bộ biểu
diễn trung gian gồm có: “Dạng cấu tạo câu hỏi” và một (hoặc nhiều) bộ biểu diễn
con. Mỗi bộ biểu diễn con có dạng:
(Dạng cấu tạo bộ biểu diễn, Lớp câu hỏi, Thuật ngữ 1, Mối quan hệ, Thuật ngữ 2,
Thuật ngữ 3).
Trong đó “Thuật ngữ 1” là một khái niệm (ngoại trừ một số trường hợp đặc biệt-
câu hỏi thuộc lớp YesNo), ―Thuật ngữ 2‖ (ngoại trừ trường hợp cấu tạo câu hỏi
dạng Definition) và “Thuật ngữ 3‖ (nếu có) là các thực thể. “Mối quan hệ” được
dùng để liên kết các thuật ngữ và luôn chứa đựng khái niệm trong nó.
Do vậy, các câu hỏi thỏa mãn tiêu chí 2 mà không thỏa mãn tiêu chí 1 là những câu
hỏi bị phân tích sai.
Tiêu chí 3: Số lượng câu hỏi mà chỉ có một phần nào đó của câu hỏi có nguyên tắc
cấu tạo thuộc vào tập chứa các mẫu cấu tạo đã định nghĩa. Nghĩa là, số lượng câu
Chương 5. Kết quả thực nghiệm Nguyễn Quốc Đạt
77
hỏi mà chỉ có một phần nào đó được chú giải bởi kiểu Maucauhoi. Kết quả phân
tích có thể chấp nhận được, cho phép thực hiện trong phần còn lại của hệ thống.
Hình 5-1 dưới đây là một ví dụ về một phần nào đó của câu hỏi khớp được với một
mẫu đã định nghĩa:
Hình 5-1: Ví dụ về một phần câu hỏi đƣợc khớp mẫu
Tiêu chí 4: Giống như tiêu chí 3 nhưng kết quả phân tích thiếu thông tin để có thể
thực hiện trong phần còn lại của hệ thống.
Số lượng câu hỏi thỏa mãn tiêu chí 2 được coi là kết quả đánh giá độ chính xác của
quá trình phân tích câu hỏi. Bảng 5-1 dưới đây đưa ra kết quả đánh giá:
Bảng 5-1: Kết quả đánh giá
Các câu hỏi thỏa mãn tiêu chí 1 được sắp xếp theo thứ tự từ câu hỏi số 1 48
trong phụ lục C. Trong khi đó các câu hỏi thỏa mãn tiêu chí 2 được sắp xếp theo thứ tự
từ 1 45. Các câu hỏi thỏa mãn tiêu chí 3 được xắp xếp theo thứ tự từ 49 51 trong
khi các câu hỏi thỏa mãn tiêu chí 4 được xắp xếp theo thứ tự từ vị trí 52 55 trong
phụ lục C.
Các câu hỏi còn lại không thỏa mãn bất cứ tiêu chí nào được nêu ra. Hướng giải
quyết trong thời gian tới là cập nhật thêm nguyên tắc cấu tạo của các câu hỏi này cũng
như nguyên tắc cấu tạo của các câu hỏi thỏa mãn tiêu chí 4 vào tập chứa mẫu cấu tạo.
Tiêu chí 1 Tiêu chí 2 Tiêu chí 3 Tiêu chí 4
Số lượng câu hỏi 48 45 3 4
Chương 5. Kết quả thực nghiệm Nguyễn Quốc Đạt
78
Câu hỏi: ―“sinh viên nào học ở lớp khoa học máy tính của trường đại học Công
Nghệ?” thỏa mãn tiêu chí 2 như hình 5-2 dưới đây:
Hình 5-2: Kết quả phân tích đúng - câu hỏi thỏa mãn tiêu chí 2
Câu hỏi: “Hãy cho biết số lượng sinh viên của lớp khoa học máy tính?”
Thỏa mãn tiêu chí 3 như hình 5-3 sau đây, kết quả đưa ra hoàn toàn có thể chấp
nhận được:
Hình 5-3: Ví dụ về câu hỏi thỏa mãn tiêu chí 3
Chương 5. Kết quả thực nghiệm Nguyễn Quốc Đạt
79
Nhưng với câu hỏi:
“sinh viên nào học lớp khoa học máy tính của trường đại học Công Nghệ?”
thỏa mãn tiêu chí 1 nhưng không thỏa mãn tiêu chí 2, do đó kết quả phân tích là
sai. Nguyên nhân là vì bộ biểu diễn chứa đựng “Mối quan hệ” nhận giá trị là “học lớp
khoa học máy tính của” không thỏa mãn yêu cầu. Hình 5-4 sau đây đưa ra kết quả
phân tích câu hỏi này:
Hình 5-4: Một ví dụ về phân tích sai – câu hỏi thỏa mãn tiêu chí 1 nhƣng không thỏa
mãn tiêu chí 2
Chương 6. Kết luận và hướng phát triển Nguyễn Quốc Đạt
80
Chƣơng 6. Kết luận và hƣớng phát triển
Phân tích câu hỏi là một bài toán cơ bản trong xử lý ngôn ngữ tự nhiên. Đối với tiếng
Việt bài toán này trở nên khó khăn hơn vì tính phức tạp của cấu trúc câu hỏi cũng như
những ràng buộc ngữ nghĩa trong câu hỏi, ví dụ như: từ để hỏi có thể xuất hiện ở nhiều
vị trí.
Trong khóa luận này, chúng tôi đã giới thiệu phương pháp phân tích câu hỏi
tiếng Việt của mình. Phương pháp của chúng tôi dựa trên các chú giải ngữ nghĩa thông
qua văn phạm JAPE [45]. Với mỗi câu hỏi đầu vào, thông qua các quá trình tiền xử lý,
phân tích cú pháp, phân tích ngữ nghĩa, phân loại câu hỏi, hệ thống phân tích sinh ra
một bộ biểu diễn trung gian gồm có: “Dạng cấu tạo câu hỏi” và một (hoặc nhiều) bộ
biểu diễn con. Mỗi bộ biểu diễn con có dạng:
(Dạng cấu tạo bộ biểu diễn, Lớp câu hỏi, Thuật ngữ 1, Mối quan hệ, Thuật ngữ 2,
Thuật ngữ 3).
Trong đó, “Dạng cấu tạo câu hỏi” là nguyên tắc (mẫu) cấu tạo của câu hỏi,
“Thuật ngữ 1” là một khái niệm, ―Thuật ngữ 2‖ và “Thuật ngữ 3‖ (nếu có) là các thực
thể. “Mối quan hệ” là ràng buộc ngữ nghĩa giữa các thuật ngữ và luôn chứa đựng khái
niệm bên trong nó.
Khi một câu hỏi được tổng hợp từ nhiều câu hỏi con, nghĩa là có nhiều bộ biểu
diễn con được sinh ra, thì “Dạng cấu tạo bộ biểu diễn” và “Lớp câu hỏi” trong mỗi
bộ biểu diễn con lần lượt là “Dạng cấu tạo câu hỏi” và lớp của câu hỏi con tương ứng.
Hệ thống áp dụng phương pháp phân tích này thực hiện tốt đối với những câu
hỏi có cấu tạo đơn giản. Trong khi ở những câu hỏi có cấu tạo phức tạp hơn thì khả
năng phân tích bị giảm đi. Những kết quả khả quan ban đầu (phân tích được chính xác
45 / 60 câu hỏi) đã góp phần tạo nên hệ thống hỏi đáp tiếng Việt dựa trên Ontology do
Nguyễn Quốc Đại [42] xây dựng và thử nghiệm.
Chương 6. Kết luận và hướng phát triển Nguyễn Quốc Đạt
81
Trong thời gian tới, chúng tôi sẽ tạo một tập chứa nhiều mẫu cấu tạo câu hỏi
hơn. Song song với việc cập nhật mẫu, chúng tôi sẽ cố gắng thực hiện hướng tiếp cận
nhằm giải quyết vấn đề xảy ra với các câu hỏi mà cấu tạo của các câu hỏi ấy không
khớp với mẫu cấu tạo nào có sẵn. Ý tưởng của hướng tiếp cận đó là sinh ra một số câu
hỏi dựa trên các chú giải ngữ nghĩa và các mẫu câu có sẵn, các câu hỏi này có ý nghĩa
tương tự với câu hỏi ban đầu để cho người sử dụng lựa chọn.
Phụ lục A Nguyễn Quốc Đạt
82
Phụ lục A. Chƣơng trình nhúng Java vào JAPE
Phase: EditYesnoAnno
Input: TokenVn Split
Options: control = appelt
Macro: YesNo
/*Macro YesNo dùng để khớp các cụm từ: phải không, đúng không, có
đúng là, có phải là, có đúng, có phải, Có đúng, Có phải, Có đúng là,
Có phải là*/
( (
({TokenVn.string == "phải"}|{TokenVn.string == "đúng"}) ?
{TokenVn.string == "không"}
) |
(
({TokenVn.string == "Có"} | {TokenVn.string == "có"})
({TokenVn.string == "đúng"} | {TokenVn.string == "phải"})
({TokenVn.string == "là"})?
)
)
Rule: editYesNoTerm
Priority: 50
(
YesNo
):YesNoSet
-->
{
//Đưa ra một tập chứa đựng các chú giải mà LHS khớp
gate.AnnotationSet YesNoSet =
(gate.AnnotationSet)bindings.get("YesNoSet");
//Đưa ra một danh sách
List listTerm = new ArrayList(YesNoSet);
//Đưa ra một biến lặp của chú giải
Iterator termIter = (Iterator)listTerm.iterator();
//Khai báo biến
gate.Annotation yesnoAnn;
gate.FeatureMap yesnoAnnFeatures;
Phụ lục A Nguyễn Quốc Đạt
83
String string = ""; //Xâu tương ứng với cụm từ được khớp
//Đưa ra ánh xạ đặc trưng
while(termIter.hasNext()){
yesnoAnn = (gate.Annotation)termIter.next();
yesnoAnnFeatures = (gate.FeatureMap)yesnoAnn.getFeatures();
string += (String)yesnoAnnFeatures.get("string") + " ";
}
//Tạo các đặc trưng
gate.FeatureMap features = Factory.newFeatureMap();
features.put("string", string.trim());
features.put("category", "Tudehoi");
features.put("type", "YesNo");
/*Loại bỏ tất cả các chú giải TokenVn đối với từng từ trong cụm từ
mà LHS của luật đã khớp*/
inputAS.removeAll(YesNoSet);
/*Đưa ra kiểu chú giải TokenVn cho các cụm từ mà LHS của luật khớp,
nghĩa là cụm từ đã được xác định lại là một từ để hỏi*/
outputAS.add(YesNoSet.firstNode(), YesNoSet.lastNode(), "TokenVn",
features);
}
Hình A-1: Chƣơng trình nhúng Java vào JAPE
Phụ lục B Nguyễn Quốc Đạt
84
Phụ lục B. Bảng nhãn từ loại tiếng Việt
Np danh từ riêng proper noun
Nc danh từ đơn thể countable noun
Ng danh từ tổng thể collective noun
Nt danh từ loại thể classifier noun
Nu danh từ chỉ đơn vị concrete noun
Na danh từ trừu tượng abstract noun
Nn danh từ số lượng numeral
Nl danh từ vị trí locative noun
Vt động từ ngoại động transitive verb
Vit động từ nội động intransitive verb
Vim động từ cảm nghĩ impression verb
Vo động từ chỉ hướng orientation verb
Vs động từ tồn tại state verb
Vb động từ biến hoá transformation verb
Vv động từ ý chí volotive verb
Va động từ tiếp thụ acceptation verb
Vc động từ so sánh comparative verb
Vm động từ chuyển động move verb
Vla động từ "là" ―là‖ verb
Vtim động từ ngoại động cảm nghĩ transitive-impression verb
Vta động từ ngoại động tiếp thụ transitive-acceptation verb
Vtc động từ ngoại động so sánh transitive-comparative verb
Vtb động từ ngoại động biến hoá transitive-transformation verb
Vto động từ ngoại động chỉ hướng transitive-orientation verb
Vts động từ ngoại động tồn tại transitive-state verb
Vtm động từ ngoại động chuyển động transitive-move verb
Vtv động từ ngoại động ý chí transitive-volotive verb
Phụ lục B Nguyễn Quốc Đạt
85
Vitim động từ nội động cảm nghĩ intransitive-impression verb
Vitb động từ nội động biến hoá intransitive-transformation verb
Vits động từ nội động tồn tại intransitive-state verb
Vitc động từ nội động so sánh intransitive-comparative verb
Vitm động từ nội động chuyển động intransitive-move verb
Aa tính từ hàm chất quality adjective
An tính từ hàm lượng quantity adjective
Pp đại từ xưng hô personal pronoun
Pd đại từ không gian, thời gian demonstrative pronoun
Pn đại từ số lượng quantity pronoun
Pa đại từ hoạt động, tính chất quality pronoun
Pi đại từ nghi vấn interrogative pronoun
Jt phụ từ chỉ thời gian time adjunct
Jd phụ từ chỉ mức độ degree adjunct
Jr phụ từ so sánh rapport adjunct
Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation
Ji phụ từ mệnh lệnh imperative adjunct
Cm giới từ major/minor conjunction
Cc liên từ combination conjunction
E cảm từ emotion word
I trợ từ introductory word
X không xác định
Hình B-1: Nhãn từ loại trong tiếng Việt đƣợc dùng trong bộ tách từ trong
Coltech.NLP.Tokenizer
Phụ lục C Nguyễn Quốc Đạt
86
Phụ lục C. Danh sách câu hỏi thực nghiệm
Danh sách 60 câu hỏi dùng để thực nghiệm:
1. Nguyễn Quốc Đạt là ai?
2. Cái gì là mã sinh viên?
3. Điểm trung bình là như thế nào?
4. Những sinh viên có quê ở Hà Tây là ai?
5. Ai là những sinh viên có quê ở Hà Tây?
6. Sinh viên nào có quê ở Hà Tây?
7. Môn học được học bởi Nguyễn Quốc Đạt là gì?
8. Quê của sinh viên nào ở Hà Tây?
9. Nguyễn Quốc Đạt học lớp nào?
10. Ai là sinh viên của lớp khoa học máy tính?
11. Hà Tây là quê của ai?
12. Ai có quê ở Hà Tây?
13. Quê của những người nào ở Hà Tây?
14. Nguyễn Quốc Đạt có mã sinh viên là gì?
15. Danh sách các sinh viên của lớp khoa học máy tính?
16. Lớp nào có sinh viên Nguyễn Quốc Đạt?
Phụ lục C Nguyễn Quốc Đạt
87
17. Số lượng sinh viên của lớp khoa học máy tính là bao nhiêu?
18. Tồn tại sinh viên có tên là Nguyễn Quốc Đạt phải không?
19. Nguyễn Quốc Đạt có quê ở Hà Tây phải không?
20. Tồn tại sinh viên là Nguyễn Quốc Đạt phải không?
21. Nguyễn Quốc Đạt là sinh viên phải không?
22. Quê quán của Nguyễn Quốc Đạt là Hà Tây phải không?
23. Những sinh viên có quê ở Hà Tây mà học lớp khoa học máy tính là ai?
24. Ai là những sinh viên có quê là Hà Tây và học lớp khoa học máy tính?
25. Sinh viên của lớp khoa học máy tính mà có quê ở Hà Tây là những ai?
26. Ai có quê ở Hà Tây và học lớp khoa học máy tính?
27. Có quê ở Hà Tây và học lớp khoa học máy tính là những ai?
28. Nguyễn Quốc Đạt có mã sinh viên là gì và có quê ở đâu?
29. Nguyễn Quốc Đạt có quê ở đâu và học lớp nào?
30. Sinh viên nào có quê là Hà Tây và học lớp khoa học máy tính?
31. Liệt kê các sinh viên học lớp khoa học máy tính và có quê ở Hà Tây?
32. Số lượng sinh viên của lớp khoa học máy tính mà có quê ở Hà Tây là bao nhiêu?
33. Những sinh viên có quê ở Hà Tây hoặc có quê ở Hà Nội là ai?
34. Số lượng sinh viên có quê ở Hà Tây hoặc có quê ở Hà Nộ là bao nhiêu?
35. Ai có quê ở Hà Tây hoặc có quê ở Hà Nội?
36. Có quê ở Hà Tây hoặc có quê ở Hà Nội là những ai?
37. Sinh viên nào có điểm trung bình lớn hơn 7?
Phụ lục C Nguyễn Quốc Đạt
88
38. Sinh viên nào có điểm trung bình cao nhất lớp khoa học máy tính?
39. Ai có quê ở Hà Tây và ai học lớp khoa học máy tính?
40. Sinh viên học lớp khoa học máy tính thì có mã sinh viên là gì?
41. Lớp khoa học máy tính có bao nhiêu sinh viên có quê ở Hà Tây?
42. Danh sách điểm trung bình của sinh viên của lớp khoa học máy tính?
43. Ai là sinh viên của lớp khoa học máy tính của trường đại học Công Nghệ?
44. Có phải Nguyễn Quốc Đạt của lớp khoa học máy tính của trường đại học công
nghệ?
45. Tồn tại sinh viên có quê ở Hà Tây và học lớp khoa học máy tính đúng không?
46. Lớp có sinh viên Nguyễn Quốc Đạt là lớp nào?
47. Sinh viên nào học lớp khoa học máy tính của trường đại học công nghệ?
48. Sinh viên lớp khoa học máy tính là những ai?
49. Cho biết số lượng các sinh viên học ở lớp khoa học máy tính?
50. Sinh viên nào học lớp nào?
51. Sinh viên nào học môn xử lý ảnh?
52. Số lượng sinh viên lớp khoa học máy tính là bao nhiêu?
53. Tồn tại sinh viên của lớp khoa học máy tính mà có quê ở Hà Tây phải không?
54. Nguyễn Quốc Đạt học lớp nào của trường đại học Công Nghệ?
Phụ lục C Nguyễn Quốc Đạt
89
55. Số lượng sinh viên của lớp nào là 45?
56. Lớp khoa học máy tính có 45 sinh viên phải không?
57. Lớp mà Nguyễn Quốc Đạt học là gì?
58. Môn học mà Nguyễn Quốc Đạt học là gì?
59. Học lớp khoa học máy tính là những sinh viên nào?
60. Lớp nào có số lượng sinh viên lớn hơn 45?
Tài liệu tham khảo Nguyễn Quốc Đạt
90
Tài liệu tham khảo
[1]. Androutsopoulos I., Ritchie G. D., Thanisch P. Natural Language Interfaces to
Databases - An Introduction. In Natural Language Engineering, vol 1, part 1,
pages 29—81, 1995.
[2]. Antonio C., Francesco F., Maria S., Ro T. PIQASso: Pisa question answering
system. In TREC 2001.
[3]. Bird S., Liberman M. A Formal Framework for Linguistic Annotation.
Technical Report MS-CIS-99-01, Department of Computer and Information
Science,University of Pennsylvania, 1999.
[4]. Clark S., Steedman M., Curran R. Object-Extraction and Question-Parsing
using CCG. Proceedings of the SIGDAT Conference on Empirical Methods in
Natural Language Processing, pp.111-118, 2004.
[5]. Damljanovic D., Tablan V., Bontcheva K. A text-based query interface to owl
ontologies. In 6th Language Resources and Evaluation Conference (LREC),
Marrakech, Morocco, ELRA, May, 2008.
[6]. Das S., Charkrabarti S. Issues in Question Answering. M.Tech. Seminar Report.
[7]. Filipe P.P., Mamede N.J. Databases and natural language interfaces. In JISBD
2000, pages 321–332, 2000.
[8]. Frumkina R. M., Mikhejev A. V. Meaning and Categorization. New York:
Nova Science Publishers, Inc, 1996.
[9]. Grishman R. TIPSTER Architecture Design Document Version 2.3. Technical
report, DARPA, 1997.
Tài liệu tham khảo Nguyễn Quốc Đạt
91
[10]. Harabagiu M., Moldovan I., Pasca M., Mihalcea R., Surdeanu M., Bunescu C.,
Girju R., Rus V., Morarescu P. FALCON: Boosting Knowledge for Answer
Engines. TREC 2000.
[11]. Harabagiu H., Maiorano J., Pasca A. Open-Domain Textual Question
Answering Techniques. Natural Language Engineering, 1(1):1-38, 2003.
[12]. Hirschman L., Gaizauskas R. Natural Language Question Answering: The View
from Here. Natural Language Engineering. 2001.
[13]. Jelinek F., Statistical Methods for Speech Recognition.
[14]. Katz B., Borchardt G., Felshin S. Natural Language Annotations for Question
Answering. Proceedings of the 19th International FLAIRS Conference
(FLAIRS 2006), May 2006.
[15]. Katz B., Borchardt G., Felshin S. Syntactic and Semantic Decomposition
Strategies for Question Answering from Multiple Resources. Proceedings of the
AAAI 2005 Workshop on Inference for Textual Question Answering, 35-41,
July 2005.
[16]. Kocik K. Question classification using maximum entropy models. Honours
thesis, University of Sydney, 2004.
[17]. Li W. Question Classification Using Language Modeling. In CIIR Technical
Report: University of Massachusetts, Amherst, 2002.
[18]. Li X., Roth D. Learning question classifiers: the role of semantic information.
Natural Language Engineering, v.12 n.3, p.229-249, 9- 2006.
[19]. Li X., Roth D. Learning Question Classifiers. In Proceedings of the 19th
International Conference on Computational Linguistics (COLING'02), 2002.
[20]. Lopez V., Uren V., Motta E., Pasin M. AquaLog: An ontology-driven question
answering system for organizational semantic intranets. Journal of Web
Semantics, 5, 2, pp.72-105, Elsevier, 2007.
[21]. Lopez V., Motta E. PowerAqua: An Ontology Question Answering System for
the Semantic Web. Workshop: Ontologias y Web Semantiica 2005.
Tài liệu tham khảo Nguyễn Quốc Đạt
92
[22]. Manning C., Schutze H., Schutze H. Foundations of Statistical Natural
Language Processing.
[23]. Manning D., Raghavan P., Schütze H. Introduction to Information Retrieval.
Cambridge University Press. 2008.
[24]. Mitchell T. Machine Learning. McGraw Hill. ISBN 0-07-042807-7.
[25]. Narayanan S., Harabagiu S. Question answering based on semantic structures.
Proceedings of the 20th international conference on Computational Linguistics,
p.693-es, August 23-27, 2004.
[26]. Nguyen K., Le H. Natural Language Interface Construction Using Semantic
Grammars. PRICAI 2008:728-739.
[27]. Nguyen M.L., Shimazu A., Nguyen T.T. Subtree mining for question
classification problem. Twentieth International Joint Conference on Artificial
Intelligence (IJCAI 2007) Hyderabad, India, January 6-12, 2007.
[28]. Nguyen T.T., Nguyen L.M., Shimazu A. Using Semi-supervised Learning for
Question Classification. Information and Media Technologies, Vol. 3, No. 1,
pp.112-130, 2008 .
[29]. Ogden W., Bernick T. Using natural language interfaces. In: M. Helander,
Editor, Handbook of Human–Computer Interaction, Elsevier, 1996.
[30]. Ryan J., Smith A. General Question Categorization for Question and Answer
Systems. (Unpublished report.).
[31]. Paggio P., Hansen D.H., Basili R., Pazienza M.T., Zanzotto F.M. Ontology-
based question analysis in a multilingual environment: the MOSES case study.
Proceedings of OntoLex 2004: Ontologies and Lexical Resources in Distributed
Environments s. 1-8. Lisboa 2004.
[32]. Popescu A., Etzioni O., Kautz H. Towards a theory of natural language
interfaces to databases. New York, NY, USA: ACM (2003).
Tài liệu tham khảo Nguyễn Quốc Đạt
93
[33]. Saxena A., Sambhu G., Kaushik S., Subramaniam L. IITD-IBMIRL System for
Question Answering Using Pattern Matching, Semantic Type and Semantic
Category Recognition. TREC 2007.
[34]. Templeton M., Burger J. Problems in Natural Language Interface to DBMS
with Examples from EUFID. In Proceedings of the 1st Conference on Applied
Natural Language Processing, Santa Monica, California, pages 3–16, 1983.
[35]. Woods W.A., Kaplan R.M., Webber B.N. The Lunar Sciences Natural
Language Information System: Final Report. BBN Report 2378, Bolt Beranek
and Newman Inc., Cambridge, Massachusetts, 1972.
[36]. Wu M., Zheng X., Duan M., Liu T., Strzalkowski T. Question answering by
pattern matching, web-proofing, semantic form proofing. TREC 2003.
[37]. Zhang D., Lee W. S. Question classification using support vector machines.
Proceedings of SIGIR2003, 2003.
[38]. Diệp Quan Ban, Hoàng Văn Thung. Ngữ pháp tiếng Việt. Nhà xuất bản giáo dục, 1999.
[39]. Đinh Điền. So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt.
[40]. Hồ Bảo Quốc, Hồ Tú Bảo, Đinh Điền. Nghiên cứu và đề xuất một kiến trúc
khung cho xử lý tài liệu tiếng Việt.
[41]. Nguyễn Minh Tuấn, Đặng Quang Vinh, Nguyễn Cẩm Tú. Phân lớp câu hỏi
tiếng Việt sử dụng nguyên lý Entropy cực đại. Báo cáo nghiên cứu khoa học
sinh viên 2008, Coltech.
[42]. Nguyễn Quốc Đại. Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên
Ontology. Khóa luận tốt nghiệp 2009, Coltech.
[43]. Nguyễn Bá Đạt. Nhận dạng thực thể trong văn bản tiếng Việt. Khóa luận tốt
nghiệp 2009, Coltech.
[44]. Phạm Đức Đăng. Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn từ
loại. Khóa luận tốt nghiệp 2009, Coltech.
[45].
Các file đính kèm theo tài liệu này:
- LUẬN VĂN- PHƯƠNG PHÁP PHÂN TÍCH CÂU HỎI CHO HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT.pdf