MỤC LỤC
CHƯƠNG 1 TỔNG QUAN 1
1.1 Giới thiệu. 1
1.2 Mục tiêu và phạm vi 3
1.3 Cấu trúc luận văn. 5
CHƯƠNG 2 6
CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN 6
2.1 Rút trích quan hệ. 6
2.2 Sơ lược về đồ thị ý niệm 7
2.2.1 Đồ thị ý niệm mở rộng. 9
2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm 10
CHƯƠNG 3 12
PHƯƠNG PHÁP TIẾP CẬN 12
3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many”. 12
3.2 Chuyển đổi câu truy vấn có tính từ. 14
3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất 16
3.4 Chuyển đổi câu truy vấn có liên từ luận lý. 17
CHƯƠNG 4 20
PHƯƠNG PHÁP BIÊN DỊCH 20
4.1 Các bước của giải thuật 20
4.1.1 Phân tách câu truy vấn. 22
4.1.2 Nhận biết thực thể có tên. 22
4.1.3 Nhận biết thực thể không tên. 22
4.1.4 Nhận biết tính từ. 23
4.1.5 Nhận biết từ quan hệ. 23
4.1.6 Xác định lớp của thực thể. 23
4.1.7 Gom các thực thể. 24
4.1.8 Xác định quan hệ ẩn. 25
4.1.9 Xác định loại quan hệ giữa các thực thể. 25
4.1.10 Xoá bỏ quan hệ không phù hợp. 28
4.1.11 Xác định quan hệ giữa tính từ và thực thể. 29
4.1.12 Xây dựng đồ thị ý niệm 32
4.2 Tập luật 32
4.2.1 Cấu trúc của hệ thống luật 33
4.2.2 Cấu trúc thành phần điều kiện của luật 34
4.2.3 Cấu trúc thành phần hành động của luật 34
4.2.4 Xây dựng một số luật đặc biệt 35
4.2.5 Xây dựng từ điển luật 36
4.3 Kết quả thí nghiệm 38
CHƯƠNG 5 46
ĐỒ THỊ Ý NIỆM . 46
5.1 Lưu trữ đồ thị 46
5.2 Hiển thị đồ thị 47
CHƯƠNG 6 49
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 51
PHỤ LỤC A: TẬP CÂU MẪU TREC 2002. 55
PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY 60
PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY 70
CHƯƠNG 1TỔNG QUAN1.1Giới thiệuKể từ khi ra đời đến nay, World Wide Web (WWW) đã làm thay đổi rất nhiều cách con người trao đổi và tiếp cận với thông tin, tri thức. Và đối với nền kinh tế tri thức hiện nay, tầm quan trọng của WWW càng lớn hơn. Điều đó đặt ra yêu cầu là: phải làm sao để quá trình khai thác tri thức từ WWW đạt được hiệu suất tối ưu. Muốn vậy, một giải pháp là phải tự động hóa được quá trình đó; nói cách khác, máy móc phải có khả năng khai thác thông tin trên WWW với một độ chính xác cao.
Hiện nay, đã có những công cụ phần mềm nhắm đến mục tiêu đó. Nổi bật nhất có lẽ là các động cơ tìm kiếm dựa trên từ khóa (keyword – based search engine), như động cơ tìm kiếm của Google, Yahoo, . Tuy đã đạt được những thành công nhất định, nhưng các hệ thống này còn có những khuyết điểm làm cho người sử dụng chưa được hài lòng. Có thể nêu ra như:
Kết quả trả về cho một truy vấn là nhiều, nhưng độ chính xác lại thấp. Người dùng phải tốn nhiều thời gian với những kết quả không thích hợp.Kết quả trả về hoàn toàn phụ thuộc vào từ khóa được cung cấp. Trong khi, theo mong muốn của con người, thì các truy vấn tương tự nhau về mặt ngữ nghĩa phải dẫn đến những kết quả như nhau.
Do công cụ tìm kiếm chủ yếu chỉ so trùng, mà chưa “hiểu” được nội dung của thông tin chứa trên WWW và nội dung của câu truy vấn, nên dẫn đến những hạn chế trên.
Như vậy, để làm tăng hiệu quả của quá trình tìm kiếm tự động, một hướng tiếp cận là làm cho máy tính “hiểu” được nội dung của thông tin: thông tin được lưu trữ trên WWW và thông tin trong câu truy vấn của người dùng.
Đề tài này quan tâm đến khía cạnh giúp cho máy tính hiểu được nội dung của câu truy vấn dùng ngôn ngữ tự nhiên là tiếng Anh. Nhìn chung, việc hướng dẫn cho máy tính xử lý 1 câu truy vấn bằng ngôn ngữ tự nhiên (bất kỳ) nhằm hiểu được ý nghĩa là khá phức tạp, có thể liệt kê ra một số khó khăn:
Ngữ pháp của ngôn ngữ tự nhiên rất đa dạng, cách sử dụng rất linh hoạt. Và một câu có thể có nhiều ngữ pháp phù hợp (mặc dù đối với con người sẽ không có nghĩa). Dẫn đến không thể chỉ dựa vào cấu trúc của câu để xác định ngữ nghĩa.Cùng một từ nhưng có thể ứng với nhiều từ loại (danh từ, động từ, .). Muốn hiểu đúng phải xác định đúng loại từ. Lấy ví dụ: “Time flies like an arrow”. “Time” và “flies” có ít nhất 2 cách hiểu có ý nghĩa: “Time” làm danh từ và “flies” làm động từ, hay “Time” làm động từ và “flies” làm danh từ.Phải giải quyết sự đa hình của từ (morphology) nếu muốn nhận biết đầy đủ các thành phần của câu. Ví dụ như động từ “fly” có thể có dạng “flies”, “flying”, “flew”.Việc xác định quan hệ ngữ nghĩa giữa các đối tượng trong câu đòi hỏi phải có tri thức về các mối quan hệ phù hợp giữa các đối tượng. Và phải xem xét ngữ cảnh của câu để chọn ra quan hệ phù hợp nhất.Câu có thể hàm chứa những mối quan hệ ngầm giữa các đối tượng, mà không được biểu hiện ra bằng các từ ngữ biểu diễn quan hệ, vì các mối liên hệ này được con người ngầm thỏa thuận trên một nền tảng kiến thức chung.Một cách thường xuyên, câu truy vấn bằng ngôn ngữ tự nhiên không chặt về ngữ pháp, mà thường được dùng ở dạng thông dụng không “chuẩn” ngữ pháp.
Tuy có nhiều khó khăn như đã kể trên, nhưng hiện nay các nhóm nghiên cứu về lĩnh vực web ngữ nghĩa đã đạt được những tiến bộ đáng kể. Và việc xây dựng một động cơ tìm kiếm theo ngữ nghĩa là khả thi, có thể thành công với những câu truy vấn không quá phức tạp. Vì vậy, đề tài này sẽ ứng dụng các thành tựu đó để xây dựng một động cơ tìm kiếm cho phép người dùng truy vấn bằng ngôn ngữ tự nhiên, và trả về tài liệu chứa nội dung cần tìm.
1.2Mục tiêu và phạm viLiên quan đến mục tiêu tạo ra một công cụ tìm kiếm dựa trên nền tảng Web ngữ nghĩa, đã có nhiều nghiên cứu được biết đến. Các nghiên cứu này sử dụng nhiều hình thức khác nhau cho câu truy vấn đầu vào[tham khảo CDT], như:
Hình thức đồ thị: người sử dụng thao tác trực tiếp trên đồ thị để thực hiện truy vấn.Hình thức mẫu câu được dựng sẵn: người sử dụng sẽ lựa chọn trong số những mẫu câu truy vấn được xây dựng sẵn, lưu trong hệ thống, để thực hiện truy vấn.Từ khóa bằng ngôn ngữ tự nhiên.Hình thức câu đầy đủ: người sử dụng đưa và một câu ngôn ngữ tự nhiên bất kỳ để thực hiện truy vấn.
Các hình thức biễu diễn này, nếu càng gần với ngôn ngữ tự nhiên thì lại càng khó xử lý đối với máy tính. Tuy nhiên, nếu càng gần với ngôn ngữ tự nhiên thì càng dễ tiếp cận đối với người sử dụng. Hiển nhiên, người sử dụng mong muốn nhất là cho phép nhập vào một câu truy vấn dùng ngôn ngữ tự nhiên.
Về phương pháp biên dịch câu truy vấn ngôn ngữ tự nhiên, toát lên từ các nghiên cứu là 2 hướng tiếp cận:
Phân tích cú pháp: cách này dựa vào việc phân tích cú pháp của câu truy vấn để dịch ra ngôn ngữ khác mà máy tính hiểu được. Vì vậy phụ thuộc rất chặt vào cú pháp, bất kỳ lỗi cú pháp nào cũng dẫn đến biên dịch thất bại. Ngoài ra, sẽ khó khăn khi chuyển đổi, sử dụng ngôn ngữ đầu vào khác [tham khảo CDT].Dịch theo cách ít phụ thuộc vào cú pháp: linh động hơn khi có lỗi cú pháp hoặc khi phải chuyển đổi ngôn ngữ đầu vào. Ngoài ra, rút ngắn được thời gian xử lý [tham khảo CDT].
Từ cái nhìn trên, hệ thống tìm kiếm mà đề tài này xây dựng sẽ nhận dữ liệu đầu vào là một câu truy vấn bằng tiếng Anh, là ngôn ngữ sử dụng bởi quốc tế. Hệ thống, sau khi xử lý bằng phương pháp ít phụ thuộc vào cú pháp, sẽ trả về tài liệu chứa thông tin được tìm kiếm hoặc trả về số liệu được yêu cầu (lúc này không sử dụng chức năng tìm kiếm mà chỉ đưa ra số liệu trả lời). Đồng thời, để giúp người dùng kiểm tra liệu cách “hiểu” câu truy vấn của hệ thống có đúng hay không, hệ thống cũng vẽ ra đồ thị ý niệm tương ứng với câu truy vấn đã nhận vào.
Một hệ thống như vậy nếu xây dựng mới hoàn toàn sẽ đòi hỏi rất nhiều thời gian và công sức. Vì vậy, đề tài sẽ dựa trên hệ thống tìm kiếm ngữ nghĩa cho tiếng Việt (VN-KIM Search) có sẵn [tham khảo anh Dũng], tái sử dụng nhiều mô-đun không phụ thuộc vào ngôn ngữ, như mô-đun chú giả, đánh chỉ mục, gom cụm, truy xuất tài liệu, chỉ tập trung làm mới mô-đun xử lý câu truy vấn.
Hệ thống sẽ bảo đảm được khả năng xử lý những câu truy vấn tiếng Anh đơn giản, chỉ bao gồm danh từ, động từ, từ để hỏi và giới từ. Ví dụ như câu truy vấn: “What actress starred in “The Lion in Winter” ?”. Đây là khả năng mà hiện nay VN-KIM Search đã làm được cho tiếng Việt.
Luận văn không chỉ dừng lại ở những câu truy vấn đơn giản như ví dụ trên, mà còn nhắm đến mục tiêu trả lời được những câu truy vấn phức tạp hơn. Đó là câu truy vấn có liên từ luận lý, tính từ định tính, tính từ định lượng, tính từ so sánh nhất, và lượng từ. Lấy ví dụ như các câu truy vấn sau:
“Who was biographer and Samuel Johnsons's friend?” chứa liên từ luận lý.
“What famous model was married to Billy Joel?” chứa tính từ định tính.
“What is the oldest university in the US?” chứa tính từ định lượng.
“What is the highest dam in the U.S.?” và “What is the most common kind of skin cancer in the U.S.?” chứa tính từ so sánh nhất.
“How many films did Ingmar Bergman make?” chứa lượng từ.
Hiện đã có nghiên cứu của nhóm VN-KIM để biên dịch những câu truy vấn dạng này từ ngôn ngữ tự nhiên sang đồ thị ý niệm. Luận văn này sẽ ứng dụng thành quả nghiên cứu đó.
Hiện nay, mô-đun nhận biết thực thể của VN-KIM Search không thể dùng cho tiếng Anh. Nên, ở bước nhận biết thực thể, đề tài sẽ sử dụng công cụ sẵn có, và giả sử là quá trình này hoàn toàn chính xác. Đề tài cũng không giải quyết vấn đề về quan hệ 3 ngôi trong [HA], vì việc đó liên quan tới việc mở rộng, “làm mịn” Ontology, là một bài toán khác
87 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 3254 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Xử lý các câu truy vấn và tìm kiếm trên kho tài liệu có chú thích ngữ nghĩa bằng Tiếng Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ấn mà cho phép truy vấn vào kiểu quan hệ. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ có dạng như sau, trong đó tham chiếu nghi vấn (“?”) được đặt vào quan hệ Relation:
Hình 4.0.13: Ví dụ về biểu diễn câu truy vấn “Queried relation”.
Tiếp theo ta tiến hành phân tích lỗi “Adverb/Temporal query”, ta xét câu truy vấn sau: “At Christmas time, what is the traditional thing to do under the mistletoe?”. Đối với câu truy vấn này, ngữ cảnh của câu truy vấn sẽ bị giới hạn bởi nội dung của trạng từ “At Christmas time”. Để giải quyết được các lỗi “Adverb/Temporal query”, phương pháp đề nghị cần phải hỗ trợ được khả năng biểu diễn được trạng từ trong câu truy vấn, các ràng buộc về ngữ cảnh của câu truy vấn. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ có dạng như sau:
Hình 4.0.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”.
Ta xét câu truy vấn có quan hệ là một danh từ, mà không phải động từ như sau: “How many highway miles to the gallon can you get with the Ford Fiesta?”. Ta thấy trong câu truy vấn này, danh từ “gallon” trong câu là nhân tố để xác định được thuộc tính số mile mà thực thể Ford Fiesta đi được trong một gallon nguyên liệu. Như ta đã phân tích, phương pháp đề nghị trong luận văn này chỉ dùng các từ quan hệ (động từ, giới từ) làm chiếc cầu nối để xác định kiểu quan hệ trong câu truy vấn. Do đó để có thể giải quyết câu truy vấn lỗi thuộc loại này, phương pháp đề nghị cần phải mở rộng từ quan hệ bao hàm luôn cả các danh từ.
Đối với các lỗi về M-Error, nguyên nhân là do phương pháp không thể phân biệt được chính xác từ quan hệ và thực thể đối với một số từ vựng tiếng Anh. Thật vậy, ta xét câu truy vấn sau: “How many home runs did Babe Ruth hit in his lifetime?”. Trong câu truy vấn này, mô đun chú giải không thể phân biệt được “hit” là một động từ hay một danh từ, do đó dẫn đến chú giải sai: từ quan hệ trở thành thực thể hoặc ngược lại. Một giải pháp có thể để khắc phục lỗi này đó là ta có thể dùng thêm các mô đun nhận dạng từ loại (động từ, danh từ, tính từ,…), ví dụ như Wordnet, SynTag, để hỗ trợ thêm thông tin cho mô đun chú giải đưa ra chú giải chính xác hơn. Đối với ví dụ như trên, mô đun nhận dạng từ loại sẽ cho biết “hit” là một động từ, do đó mô đun chú giải có thể biết được trong trường hợp này “hit” cần được chú giải là từ quan hệ chứ không phải là một thực thể.
Theo kết quả trên, nếu không xét đến các lỗi O-Error và Q-Error, độ chính xác của phương pháp đã được cải thiện thêm 9.32% so với kết quả nghiên cứu của tác giả [18].
Ngoài ra, phương pháp đề nghị trong luận văn này tương thích và không gây nhiễu các kết quả đã đạt được từ nghiên cứu [18]. Điều này có nghĩa là cùng với 41 câu truy vấn đã được giải quyết như trong các bản báo cáo vừa nêu, tất cả 348 câu truy vấn đã được giải quyết bởi tác giả [18] vẫn giữ nguyên giá trị. Ta có tổng kết kết quả đạt được của phương pháp đề nghị đối với toàn bộ tập câu hỏi mẫu TREC 2002 được trình bày tại Bảng 4.6.
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
1
1
3
11
16
Tính từ
6
6
Tính từ so sánh nhất
21
14
35
Liên từ luận lý
1
1
Loại khác
3
2
20
357
382
Tổng cộng
0
4
3
44
389
440
(%)
0.00%
0.91%
0.68%
10.00%
88.41%
100.00%
Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002.
Bảng báo cáo 4.6 chỉ ra độ chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu được là 88.41%.
Phương pháp đề nghị trong đề tài cũng được áp dụng cho một tập mẫu khác, là tập TREC 2007. Tập câu truy vấn TREC 2007, bao gồm 173 câu hỏi What; 15 câu hỏi Which; 13 câu hỏi Where; 57 câu hỏi Who; 13 câu hỏi When; 56 câu hỏi How và 118 câu hỏi không bắt đầu bằng từ để hỏi. Bảng 4.7 là kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18] trên tập TREC 2007.
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
47
16
63
Tính từ
5
5
Tính từ so sánh nhất
6
16
22
Liên từ luận lý
7
1
8
Loại khác
2
3
70
75
Tổng cộng
0
2
68
103
0
173
(%)
0.00%
0.45%
15.28%
23.15%
0.00%
38.88%
Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị.
Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 14 thực thể có tên, 57 thực thể không tên, 17 từ quan hệ vào cơ sở tri thức, ta có kết quả như trình bày ở Bảng 4.8.
Cuối cùng, sau khi bổ sung thêm 64 lớp thực thể, 36 quan hệ còn thiếu vào Ontology, ta có kết quả như trình bày tại Bảng 4.9.
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
12
35
16
63
Tính từ
4
1
5
Tính từ so sánh nhất
19
3
22
Liên từ luận lý
3
2
3
8
Loại khác
3
67
5
75
Tổng cộng
0
3
15
127
28
173
(%)
0.00%
0.67%
3.37%
28.54%
6.29%
38.88%
Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị.
Trong 108 câu truy vấn không giải quyết được ta có 89 câu thuộc về lỗi O-Error, 15 câu thuộc về lỗi Q-Error và 3 câu thuộc về lỗi M-Error.
Trong 15 lỗi thuộc về Q-Error có 1 truy vấn “Queried relation”, 1 câu truy vấn “Adverb/Temporal query”, 2 truy vấn phụ thuộc vào ngữ cảnh, nghĩa là các đối tượng được truy vấn không xác định được tại câu truy vấn mà nó thuộc về một câu khác, chúng tôi tạm gọi là “Context query”, và 10 câu truy vấn phức tạp mà phương pháp không giải quyết được. Đối với các lỗi “Queried relation” và “Adverb/Temporal query”, ta đã phân tích ở kết quả thực nghiệm của TREC 2002, ta sẽ chỉ phân tích vào lỗi mới xuất hiện trên TREC 2007 đó là “Context query”.
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
12
16
35
63
Tính từ
1
4
5
Tính từ so sánh nhất
16
6
22
Liên từ luận lý
3
1
4
8
Loại khác
3
56
16
75
Tổng cộng
0
3
15
89
66
173
(%)
0.00%
0.67%
3.37%
20.00%
14.83%
38.88%
Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology.
Ta xét một câu truy vấn “Context query” như sau: “What was the previous world record time?”. Ta thấy câu truy vấn chỉ chứa một thực thể duy nhất là “word record time” và ta thiếu thông tin để biết thực thể “word record time” trong câu truy vấn đang nói về vấn đề gì. Để có đầy đủ thông tin cần thiết, yêu cầu phải cung cấp ngữ cảnh, trong trường hợp này là những câu hay đoạn văn có nội dung liên quan với câu hỏi. Vấn đề này đòi hỏi phương pháp phải có cơ chế để liên kết các thực thể trong câu truy vấn đối với các thực thể thích hợp trong ngữ cảnh. Đây là một vấn đề khó, cần phải có những nghiên cứu sâu hơn.
Những lỗi thuộc về M-Error cũng có cùng nguyên nhân do phương pháp không phân biệt được từ quan hệ và thực thể đối với một số từ vựng tiếng Anh như chúng tôi đã phân tích ở trường hợp kết quả thực nghiệm trên tập TREC 2002.
Theo kết quả thực nghiệm, nếu không xét đến các lỗi O-Error và Q-Error, độ chính xác của phương pháp đã được cải thiện thêm 14.61% so với kết quả nghiên cứu của tác giả [18].
Cũng như đối với tập câu hỏi mẫu TREC 2002, phương pháp đề nghị trong luận văn cũng tương thích và không gây nhiễu các kết quả đã đạt được từ nghiên cứu [18] khi thử nghiệm trên tập câu hỏi mẫu TREC 2007. Cùng với 66 câu truy vấn đã được giải quyết như trong các bản báo cáo vừa nêu, tất cả 272 câu truy vấn đã được giải quyết bởi tác giả [18] vẫn giữ nguyên giá trị. Bảng 4.10 là bảng tổng kết kết quả đạt được của phương pháp đề nghị đối với toàn bộ tập câu hỏi mẫu TREC 2007. Độ chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu được sẽ là 75.96%.
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
12
16
35
63
Tính từ
1
4
5
Tính từ so sánh nhất
16
6
22
Liên từ luận lý
3
1
4
8
Loại khác
3
56
289
348
Tổng cộng
0
3
15
89
338
446
(%)
0.00%
0.67%
3.37%
20.00%
75.96%
100%
Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007.
Sau khi xem xét tổng thể kết quả thực nghiệm trên hai tập mẫu TREC 2002, TREC 2007 ta thấy phương pháp đề nghị chỉ còn hạn chế chủ yếu đối với các truy vấn có quan hệ nhiều hơn 3 ngôi. Nguyên nhân của các lỗi này là do tính không đầy đủ của Ontology. Một trong những giải pháp có thể có để giải quyết cho vấn đề này đã được đề cập tại Mục 1.2, Chương 1 và chúng tôi đã nêu ra thành một bài toán khác mà trong phạm vi của đề tài chúng tôi sẽ không giải quyết.
HIỆN THỰC HỆ THỐNG
Các khối xử lý và giao diện các lớp quan trọng
Ứng dụng web phía Client
Ứng dụng web phía client được hiện thực dưới dạng JSP. Người dùng cung cấp đầu vào, gửi yêu cầu cho server và nhận trả lời từ server. Người dùng có thể sử dụng 1 trong 3 dịch vụ:
Câu truy vấn ngôn ngữ tự nhiên.
Tìm kiếm mở rộng.
Lựa chọn thực thể thỏa truy vấn để tìm tài liệu.
Ứng dụng client sử dụng các dịch vụ chính sau:
Kiểu trả về
Tên dịch vụ
Đặc tả
String
parse(String query)
Web service operation
Trả về đồ thị ý niệm từ câu truy vấn tiếng Việt
String
lucene(String query)
Web service operation
Trả về các thực thể thỏa truy vấn
String
getDocuments(String query)
Web service operation
Trả về các tài liệu thỏa truy vấn dựa trên API query của Semantic Lucene
Hệ thống xử lý trên server
Dưới đây trình bày giao diện của một số lớp chính trong các khối:
Khối nhận diện thực thể và từ quan hệ:
Lớp ENSearch
Kiểu trả về
Tên phương thức
Đặc tả
String
GetAnnotation (String query, QueryBuffer output)
Kết nối vào KIM để nhận diện thực thể có tên trong câu query, chèn vào bộ đệm output.
Dùng Gate để nhận diện thực thể không tên và từ quan hệ, tính từ, liện từ luận lý có trong câu query, chèn vào bộ đệm output
String
getNS (String classname)
Trả về namespace của lớp truyền vào dưới dạng chuỗi
String
runSeRQL (String query)
Kết nối vào KB của KIM, thực thi câu lệnh SeRQL để tìm các thực thể thỏa mãn truy vấn
Khối phân tách câu truy vấn nguyên tử:
Lớp QuerytoCG
Kiểu trả về
Tên phương thức
Đặc tả
void
splitQueryToAtomicQuery(String fullQuery, List query, List result, RelationType defaultRel)
Tách câu truy vấn có AND, OR, NOT (đã được nhận diện thành phần) thành danh sách các câu truy vấn nguyên tử. Danh sách này là tham số “result”
Khối xác định quan hệ đỉnh:
Lớp QuerytoCG
Kiểu trả về
Tên phương thức
Đặc tả
TopRelationType
identifyTopRel(QueryBuffer buf)
Nhận diện quan hê đỉnh là “COUNT”, “MAX”, “MIN”, “MOST”, hayt “AVERAGE”
Khối hiệu chỉnh tập thực thể và từ quan hệ:
Lớp ProcessingXML
Kiểu trả về
Tên phương thức
Đặc tả
void
FindClassofAgent(QueryBuffer buffer)
Xác định lớp của “What”
void
CombineEntitys(QueryBuffer buffer)
Gom các thực thể cùng ngữ nghĩa
void
AddRealtion(QueryBuffer buffer)
Thêm từ quan hệ giữa các thực thể
Khối xác định quan hệ ngữ nghĩa giữa thực thể và từ quan hệ:
Lớp ProcessingQuery
Kiểu trả về
Tên phương thức
Đặc tả
QueryTriple
ProcessQuery2Triple(QueryBuffer buffer)
Sử dụng các thực thể có tên, không tên, từ quan hệ đã nhận biết được để sinh ra các bộ ba quan hệ. Giá trị trả về là các tập các bộ ba quan hệ.
TripleType
CheckRE(ItemType subject, ItemType relation, ItemType object)
Tìm bộ 3 bằng cách kiểm tra tập luật
TripleType
InterRE(ItemType subject, ItemType relation, ItemType object)
Tìm bộ 3 bằng phương pháp giao
Khối xác định quan hệ ngữ nghĩa giữa tính từ và thực thể:
Lớp ProcessingQuery
Kiểu trả về
Tên phương thức
Đặc tả
void
processQuantitativeAdjective(QueryTriple tripleset, QueryBuffer buffer)
Sử dụng các tính từ định lượng (thường, so sánh nhất, so sánh hơn) đã nhận biết được để sinh ra các bộ ba quan hệ. Tập các bộ ba quan hệ kết quả là “tripleset”
void
processQuanlitativeAdjective(QueryTriple tripleset, QueryBuffer buffer)
Sử dụng các tính từ định lượng (thường, so sánh nhất) đã nhận biết được để sinh ra các bộ ba quan hệ. Tập các bộ ba quan hệ kết quả là “tripleset
Khối xây dựng đồ thị ý niệm:
Lớp QueryOutput
Kiểu trả về
Tên phương thức
Đặc tả
String
generatelistJsCG(ListCG lsCG)
Tạo đồ thị cho toàn bộ câu truy vấn dưới dạng JavaScript
String
generateJsCG(QueryBuffer buffer, int currentleft, int currentTop, boolean isCoverByBox)
Tạo đồ thị con dưới dạng JavaScript
Khối sinh câu truy vấn SeRQL
Lớp SeRQLMapping
Kiểu trả về
Tên phương thức
Đặc tả
String
getSeRQLQuery(QueryBuffer buffer)
Sinh ra câu SeRQL cho từng câu truy vấn nguyên tử. Trả về dưới dạng String.
Lớp QuerytoCG
Kiểu trả về
Tên phương thức
Đặc tả
String
appendWhereClauseForSQTA(String query, QueryBuffer buf, TopRelationType topRe)
Thêm các phần cần thiết vào câu SeRQL truyền vào để xử lý trường hợp có tính từ định lượng so sánh nhất. Trả về câu SeRQL đã được chỉnh sửa
String
appendOrderByClause(String query, QueryBuffer buf)
Thêm các phần cần thiết vào câu SeRQL truyền vào để xử lý trường hợp có tính từ định lượng ở dạng nguyên mẫu. Trả về câu SeRQL đã được chỉnh sửa
String
appendWhereClauseForCQTA(String query, QueryBuffer buf)
Thêm các phần cần thiết vào câu SeRQL truyền vào để xử lý trường hợp có tính từ định lượng so sánh hơn. Trả về câu SeRQL đã được chỉnh sửa
Hệ thống luật [tham khảo CDT]
Ta sẽ xây dựng tập luật theo định dạng XML.
Dạng chung của mỗi luật trong hệ thống luật như sau:
“Nếu [điều kiện] thì [hành động]”
Trong đó, vế điều kiện có những đặc điểm sau:
Có ràng buộc về tên lớp, giá trị chuỗi ban đầu và kiểu thực thể.
Có thể xét nhiều quan hệ đồng thời trong cùng một luật.
Phần hành động có những đặc tính sau:
Có thể thay đổi tên lớp, thay đổi định của danh thực thể và xác định loại quan hệ.
Xóa thực thể hoặc quan hệ khỏi buffer.
Các phần sau trình bày cấu trúc của tập luật dùng để ánh xạ bộ ba quan hệ thành quan hệ ngữ nghĩa.
Cấu trúc của hệ thống luật
Hệ thống luật được định nghĩa trong một tập tin XML, và mô tả theo định dạng DTD (Document Type Definition) như sau:
Thành phần gốc (root element) của tập tin là TransformRules, mỗi TransformRules chứa nhiều thành phần (element) rule.
<!ATTLIST rule
name CDATA #REQUIRED
priority CDATA #IMPLIED>
[hình tham khảo HA]
Trong ví dụ trên, từ khóa ELEMENT được dùng để khai báo cấu trúc của một thành phần; từ khóa ATTLIST được dùng để mô tả các thuộc tính của một thành phần; CDATA mô tả kiểu dữ liệu chuỗi cho thuộc tính; #REQUIRED dùng mô tả tính chất bắt buộc của thuộc tính; #IMPLIED dùng mô tả tính chất không bắt buộc của thuộc tính. DTD dùng các ký hiệu “*”, “+” và “?” dùng để chỉ số lượng của một thành phần con trong thành phần cha của nó. Ý nghĩa của mỗi ký hiệu như sau:
Dấu “*”: xuất hiện từ 0 đến n
Dấu “+”: xuất hiện từ 1 đến n
Dấu “?”: xuất hiện 0 hoặc 1
Theo định nghĩa trên, TransformRules có thể chứa nhiều thành phần rule, mỗi rule chứa hai thành phần là premiselist và consequentlist. Ngoài ra, thành phần rule còn có thuộc tính là name và priority, lần lượt để mô tả tên luật và độ ưu tiên của luật. Cấu trúc các thành phần con trong thành phần rule sẽ được mô tả rõ hơn theo sau đây.
Cấu trúc thành phần điều kiện của luật
Như đã được nhắc đến ở đầu chương này, mỗi luật bao gồm hai phần: điều kiện và hành động. Phần điều kiện của luật được mô tả bằng thành phần premiselist, là con của thành phần rule. Mỗi premiselist bao gồm một hay nhiều thành phần premise, hình dưới mô tả cấu trúc của một thành phần premise. Mỗi premise gồm có 3 thành phần con là subject, relation và object tương ứng với một bộ ba mà ta đã thảo luận ở phần trên. Ý nghĩa của các thuộc tính trong các thành phần này được thể hiện trong hình dưới:
<!ATTLIST subject
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED>
<!ATTLIST relation
var CDATA #REQUIRED
value CDATA #IMPLIED>
<!ATTLIST object
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED>
[hình tham khảo HA]
Tên thuộc tính
Đặc tả
var
Thuộc tính này dùng để đặt tên biến cho các thành phần, nhằm phân biệt các thành phần
value
Giá trị chuỗi ban đầu của thực thể. Ta có thể liệt kê tập các giá trị trong đó các thành phần cách nhau bằng dấu phẩy.
className
Thuộc tính ràng buộc tên lớp thực thể
classType
Thuộc tính dùng để ràng buộc kiểu thực thể như UE, IE
Cấu trúc thành phần hành động của luật
Nếu một bộ ba nào đó thỏa mãn thành phần điều kiện, thì phần hành động consequent sẽ được áp dụng cho bộ ba đó. Cấu trúc của thành phần hành động được mô tả như dưới.
Các thuộc tính của thành phần hành động cũng giống như phần tử điều kiện đã được mô tả trong bảng ở phần 5.2.2. Ngoài ra, thành phần hành động còn có hai thuộc tính mới là quantifier và delete, thuộc tính quantifier dùng để gán giá trị định danh cho lớp, thuộc tính delete dùng để yêu cầu xóa thành phần đó.
<!ATTLIST subject
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED
quantifier CDATA #IMPLIED
delete CDATA #IMPLIED>
<!ATTLIST relation
var CDATA #REQUIRED
value CDATA #IMPLIED
delete CDATA #IMPLIED>
<!ATTLIST object
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED
quantifier CDATA #IMPLIED
delete CDATA #IMPLIED>
[hình tham khảo HA]
Hình sau đây là ví dụ minh họa đặc tả một luật hoàn chỉnh:
[hình tham khảo HA]
Xây dựng một số luật đặc biệt
Ngoài ra, ta sẽ cần một số luật đặc biệt, các luật này được dùng cho bước gom các thực thể có cùng ngữ nghĩa trong câu truy vấn. Ví dụ câu truy vấn “Who was the president of Vichy France?”, các từ who và president đều biểu diễn cho thực thể không tên thuộc lớp PERSON, và chúng cách nhau bởi từ quan hệ was. Do đó who và president được gom lại thành một thực thể duy nhất. Luật đặc biệt cũng có cấu trúc như luật thường nhưng nó có độ ưu tiên là -1.
Lưu trữ đồ thị và hiển thị đồ thị [tham khảo HA]
Trước khi hiển thị kết quả ra màn hình, chương trình dùng cấu trúc dữ liệu như sau để lưu trữ đồ thị ý niệm trong bộ nhớ:
[hình tham khảo HA]
Cấu trúc dữ liệu trên sẽ gồm một mảng các phần tử. Mỗi phần tử có vùng lưu trữ Sub-CG chứa đựng thông tin để xây dựng đồ thị ý niệm nguyên tử (atomic conceptual graph), là đồ thị ý niệm mà không chứa liên từ luận lý trong câu truy vấn. “Các thông tin để xây dựng đồ thị ý niệm nguyên tử bao gồm thông tin về thực thể, kiểu quan hệ giữa các thực thể và chiều của quan hệ. Dữ liệu được lưu trong vùng lưu trữ Sub-CG sau đó sẽ được dùng để biểu diễn thành một đỉnh truy vấn con.”
Mỗi phần tử có thuộc tính Next relation lưu trữ kiểu quan hệ giữa hai đỉnh truy vấn con liền nhau. Các giá trị có thể có của Next relation chính là kiểu quan hệ có thể có giữa hai đỉnh truy vấn con trong câu truy vấn có liên từ luận lý, cụ thể là UNION, INTERSECT, MINUS.
“Thêm vào đó, cấu trúc dữ liệu có một thuộc tính Top relation để lưu trữ quan hệ gộp của câu truy vấn. Đó có thể là quan hệ COUNT đối với câu truy vấn có từ để hỏi là “How many”, hoặc quan hệ MIN, MAX đối với các truy vấn có tính từ so sánh nhất.”
Từ cấu trúc dữ liệu nêu trên. Đồ thị ý niệm được hiển thị ra màn hình có dạng tổng quát như hình sau:
[hình tham khảo HA]
“Trong đó, mỗi đỉnh truy vấn con được xây dựng từ vùng lưu trữ Sub-CG của mỗi thành phần trong cấu trúc lưu trữ. Quan hệ giữa các đỉnh truy vấn con (UNION, INTERSECT, MINUS) được xây dựng từ thuộc tính Next relation. Quan hệ gộp (COUNT, MAX, MIN) được xây dựng từ thuộc tính Top relation của cấu trúc lưu trữ. Đường liên kết nét đôi sẽ được nối từ quan hệ gộp vừa tạo tới thực thể câu truy vấn về số lượng trong trường hợp truy vấn “How many” hoặc nối tới biểu diễn tính từ nằm trong đỉnh truy vấn con tương ứng trong trường hợp câu truy vấn có chứa tính từ so sánh nhất.”
Lấy một ví dụ cho phương pháp lưu trữ và hiển thị như phân tích nêu trên: câu truy vấn “Who was biographer and Samuel Johnsons's friend?”, hệ thống sẽ kết xuất ra đồ thị ý niệm như ví dụ sau:
[hình tham khảo HA]
Xây dựng câu truy vấn SeRQL
Dù đồ thị ý niệm là một ngôn ngữ vừa dễ hiểu với con người, vừa khả xử lý với máy tính, nhưng đồ thị ý niệm mới chỉ mang tính chất tham khảo, để kiểm tra sự chính xác của quá trình xử lý câu truy vấn. Bởi vì, đồ thị ý niệm chưa được sử dụng làm ngôn ngữ truy vấn trên bất cứ cơ sở dữ liệu ngữ nghĩa nào, nên máy tính không thể trực tiếp dùng đồ thị để tìm thực thể hay tài liệu. Vì vậy, trong chương này sẽ trình bày phương pháp dịch đồ thị sang ngôn ngữ SeRQL, là ngôn ngữ truy vấn sử dụng bởi cơ sở tri thức ngữ nghĩa.
Một phần trong quá trình sinh câu SeRQL của hệ thống sẽ sử dụng lại giải thuật trước đây của VN-KIM Search [tham khảo Dũng], chỉ thêm vào những đoạn cần thiết để những câu truy vấn có tính từ.
Giải thuật đã có của VN-KIM Search như sau:
Generalize the query CG
For each relation in the generalized query CG do
{
Get all neighbour concepts of the current relation
//process each concept sequentially
For each concept do
{
if the concept is new //i.e. not processed before
{
if the concept referent is “?” or “*”
{
if the concept referent is “?”
{
Assign to it a variable starting with “x” //e.g x1, x2, x3,...
Assign to it a label variable starting with “z” //e.g z1, z2, z3,...
Append these variables to the SELECT clause
Append the “rdfs:label” statement for this concept to the FROM clause
}
if the concept referent is “*”
{
Assign to it a variable starting with “y” //e.g y1, y2, y3,...
}
Append the “rdf:type” statement for this concept to the FROM clause
Append the constrained property statements for this concept to the FROM clause
Assign to the constrained properties variables starting with “p” //e.g p1, p2, p3,...
Append the property constraints to the WHERE clause
} //end of “?” or “*”
if the concept referent is specific, assign to it its identifier as a dummy variable
Remember this concept having been processed
}
}//end of if new
Assign to the current relation its URI
Append the statement for the current relation with its neighbour concepts to the FROM clause
}
//process the disconnected concept nodes
For each concepts that has not been visited yet, process it as above
[hình tham khảo Dũng]
Giải thuật đề tài này thêm vào để xử lý tính từ sẽ nhận kết quả của giải thuật trên làm đầu vào, rồi thêm những bộ phận cần thiết:
Giải thuật cho tính từ bình thường (dạng nguyên mẫu): Truy vấn tất cả thực thể phù hợp và trả về theo một trật tự
//Function: append ORDER BY clause for normal adjective to the input SeRQL
Initialize new ORDER BY clause
For each semantic relation generated from normal adjective
{
Append the its object’ variable to SELECT clause
Identify the way of ordering //i.e DESC or ASC. Use a dictionary (XML file)
Append to ORDER BY clause the variable of the relation’s object, and the way it is ordered
}
Giải thuật cho tính từ so sánh nhất:
//Function: append WHERE clause for superlative adjective to the input SeRQL
Initialize the WHERE, nested SELECT and nested FROM clause
//select the value of all other entities which are also qualified, then use “>= ALL” or “<= ALL” to //find the entity that has the maximum and minimum value
Identify whether “>= ALL” or “<=ALL” from the Top relation. Call this OP.
Find the relation that is generated from superlative adjective
{
With its subject, create a new variable representing all others qualified entities. Call this the temporary subject. Then use the temporary subject to append all constraints on the subject to the nested FROM clause
With its object, create a new variable representing all others qualified entities’ values. Call this the temporary object. Append the temporary object to the nested SELECT clause.
Append the statement of this relation to the nested FROM clause. But use the temporary subject and temporary object as the 2 variables.
Append to WHERE clause the object’s variable and the OP identified before.
}
Giải thuật cho tính từ so sánh hơn:
//Function: append WHERE clause for comparative adjective to the input SeRQL
Initialize the WHERE clause
For every relation generated from comparative adjective
{
Append its subject’s variable to the WHERE clause
Identify the comparative operator //i.e. “>” or “<”. Use a dictionary (XML file)
Append comparative operator to the WHERE clause
if its object is a named entity, append its object’s variable to the WHERE clause
else if its object is a constant, append its object’s quantifier to the WHERE clause
}
KẾT LUẬN
Đề tài đã kế thừa những ưu điểm của phương pháp dịch câu truy vấn bằng ngôn ngữ tự nhiên sang đồ thị ý niệm với hướng tiếp cận ít phụ thuộc cú pháp mà chỉ dựa vào thực thể cùng các quan hệ giữa các thực thể này trên Ontology của tác giả [18]:
Không dựa vào văn phạm của câu truy vấn. Có thể dịch sang đồ thị ý niệm cho một câu truy vấn đầy đủ, các câu truy vấn có từ để hỏi, hoặc một đoạn câu. Thứ tự xuất hiện các thực thể và từ quan hệ trong câu là không quan trọng. Do đó phương pháp này cũng có thể dịch sang đồ thị ý niệm cho các câu sai văn phạm.
Dễ dàng thực hiện cho ngôn ngữ khác khi có Ontology tương ứng. Phương pháp này không dựa trên phân tích cú pháp của câu truy vấn. Do đó, để dịch sang đồ thị ý niệm cho các câu truy vấn bằng các ngôn ngữ khác chỉ cần xây dựng một Ontology tương ứng và xây dựng danh sách các thực thể không tên và danh sách các từ quan hệ tương ứng trên ngôn ngữ đó.
Phần tập luật và từ điển của hệ thống được hiện thực theo cấu trúc tổng quát định dạng XML, ta có thể dễ dàng mở rộng thêm luật cho hệ thống khi cần thiết mà không cần phải thay đổi hệ thống.
Đồ thị ý niệm được trình bày một cách trực quan dưới dạng đồ họa.
Bên cạnh đó, đề tài đã góp phần mở rộng giải quyết thêm những vấn đề còn hạn chế trong kết quả nghiên cứu của tác giả Cao Duy Trường [18] cho việc dịch các câu truy vấn hỏi về số lượng, các câu truy vấn có tính từ, tính từ so sánh nhất, liên từ luận lý.
Vấn đề chuyển đổi câu truy vấn sang đồ thị ý niệm là vấn đề phức tạp, do đó chắc chắn hệ thống cũng không tránh khỏi những khuyết điểm, vì vậy đề tài nêu ra những hạn chế đồng thời cũng là phương hướng phát triển tiếp theo:
Có một số quan hệ phức tạp, là các quan hệ có ba ngôi, bằng đồ thị ý niệm đơn giản không thể thể hiện được đầy đủ ý nghĩa của các quan hệ đó, do đó cần nghiên cứu phương pháp biểu diễn các quan hệ này trên Ontology cũng như dùng đồ thị ý niệm lồng nhau để biểu diễn các quan hệ này.
Đề tài còn hạn chế chưa giải quyết được những truy vấn hỏi vào kiểu quan hệ, những truy vấn có chứa trạng từ. Như đã được trình bày ở phần trên, mặc dù đề tài đã đề xuất hướng giải quyết cho những truy vấn loại này, tuy nhiên cần có những nghiên cứu thêm để giải quyết triệt để hơn.
Ngoài ra, đề tài mới chỉ dừng lại ở việc giải quyết liên từ luận lý NOT giữa các mệnh đề, nhưng chưa giải quyết triệt để khi liên từ luận lý NOT tác động vào tính từ, cần có những nghiên cứu thêm về vấn đề này.
TÀI LIỆU THAM KHẢO
[1]
Barriere, Caroline: From a children's first dictionary to a lexical knowledge base of conceptual graphs. Thesis (Ph.D.). Simon Fraser University (1997).
[2]
Bernstein, A., Kaufmann, E.: How Useful are Natural Language Interfaces to the Semantic Web for Casual End-Users. In: Proceedings of the 6th International Symantic Web Conference (ISWC 2007). Busan, Korea (2007).
[3]
Cimiano, P., Haase, P., Heizmann, J.: Porting Natural Language Interfaces between Domains -- An Experimental User Study with the ORAKEL System. In: Proceedings of the International Conference on Intelligent User Interfaces (2007) 180 – 189.
[4]
Frithjof Dau, Joachim Hereth Correia, Technische Universität Darmstadt, Fachbereich Mathematik: Nested Concept Graphs with Cuts: Mathematical Foundations. In: Proceedings of the 3rd International Conference (2004).
[5]
Hai H. Vo: Truy vấn tri thức bằng đồ thị khái niệm. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2006).
[6]
Hensman, S.: Construction of Conceptual Graph representation of texts. In: Preceedings of Student Research Workshop. HLT-NAACL, Boston (2004) 49 – 54.
[7]
Kaufmann, E., Bernstein, A., Fischer, L.: NLP-Reduce: A "Naïve” but Domain-Independent Natural Language Interface for Querying Ontologies. Demo-Paper at the 4th European Semantic Web Conference (2007) 1 – 2.
[8]
Miller S., Fox H., Ranshaw L., Weischedel R.: A novel use of statistical parsing to extract information from text. NAACL (2000).
[9]
Sowa, J. F.: Conceptual graphs for a database interface. IBM Journal of Research and Development, Vol.20, No.4 (1976) 336 – 357.
[10]
Steffen Staab, Udo Hahn: Conceptualizing adjectives. In: Proceedings of the 21st Annual German Conference. (1997).
[11]
Steffen Staab, Udo Hahn: “TALL”, “GOOD”, “HIGH”--- Compared to what? In: Proceedings of the 15th International Conference on Artificial Intelligence. Nagoya, Japan (1997).
[12]
Tablan, V., Damljanovic, D., Bontcheva, K: A Natural Language Query Interface to Structured Information. In: Proceedings of the 5th European Semantic Web Conference. Lecture Notes in Artificial Intelligence, Vol. 5021. Springer -Verlag (2008) 361 – 375.
[13]
Tim Berners-Lee: Conceptual Graphs and the Semantic Web. Available at: (2001).
[14]
Thang L. Tran: Dịch câu truy vấn bằng ngôn ngữ tự nhiên sang đồ thị khái niệm. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2007).
[15]
The Text REtrieval Conference website.
[16]
Tru H. Cao, Truong D. Cao, Thang L. Tran: A robust Ontology-Based Method for Translating Natural Language Queries to Conceptual Graphs. In: Proceedings of the 3rd Asian Semantic Web Conference (2008).
[17]
Tru H. Cao.: VN-KIM for VietNamese semantic Web. Faculty of Computer Science and Engineering, University of Technology. VietNam (2006).
[18]
Truong D. Cao: Dịch câu truy vấn tiếng Anh sang đồ thị khái niệm: cách tiếp cận ít phụ thuộc vào cú pháp. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2008).
[19]
Zelenko, D., Aone, C. and Richardella, A.: Kernel Methods for Relation Extraction, Journal of Machine Learning Research. (2003) 1083 – 1106.
[20]
Zhang, L., Yu, Y.: Learning to generate CGs from domain specific. In: Proceedings of the 9th International Conference on Conceptual Structures, LNAI 2120. Stanford, CA, USA (2001).
[21]
Zhou, G.D., Su, J., Zhang, J., Zhang M.: Exploring Various Knowledge in Relation Extraction. In: Proceedings of ACL (2005).
PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT
Thuật ngữ tiếng Việt
Thuật ngữ tiếng Anh
Viết tắt
Bộ ba
Triple
Dàn phân cấp
Hierarchy lattice
Định danh tài nguyên thống nhất
Uniform resource identifier
URI
Đồ thị phân đôi
Bipartile graph
Đồ thị ý niệm
Conceptual graph
CG
Đồ thị ý niệm thực
Real conceptual graph
Đồ thị ý niệm cú pháp
Syntactic conceptual graph
Đồng tham chiếu
Co-reference
Độ mịn
Granularity
Kiểu khái niệm
Conceptual type
Kiểu quan hệ
Relation type
Khái niệm
Concept
Quan hệ
Relation
Tham chiếu
Reference
Thuộc tính
Property
Văn phạm liên kết
Link grammar
PHỤ LỤC A: TẬP CÂU MẪU TREC 2002
What actor first portrayed James Bond?O
What actress starred in "The Lion in Winter"?
What American composer wrote the music for "West Side Story"?
What are Cushman and Wakefield known for?
What are John C. Calhoun and Henry Clay known as?
What are the names of Jacques Cousteau's two sons?O
What are the two houses of the Legislative branch?O
What body of water are the Canary Islands in?
What card company sells Christmas ornaments?
What caused the Lynmouth floods?
What city did the Flintstones live in?
What city in Florida is Sea World in?
What city is 94.5 KDGE Radio located in?
What city is Massachusetts General Hospital located in?
What city's newspaper is called "The Enquirer"?
What continent is Bolivia on?
What continent is Egypt on?
What country are Godiva chocolates from?
What country did Ponce de Leon come from?
What county is Modesto, California in?
What county is Phoenix, AZ in?
What Cruise Line does Kathie Lee Gifford advertise for?
What currency is used in Algeria?
What day and month did John Lennon die?
What day is known as the "national day of prayer"?
What did Delilah do to Samson's hair?O
What did Edward Binney and Howard Smith invent in 1903?O
What did Vasco da Gama discover?
What does "Sitting Shiva" mean?
What does caliente mean (in English)?O
What does CNN stand for?
What does CPR stand for?
What does EKG stand for?
What does Final Four refer to in the sports world?
What does Knight Ridder publish?
What does NAFTA stand for?.
What does NASA stand for?
What does Nicholas Cage do for a living?
What does SIDS stand for?
What famous model was married to Billy Joel?
What flower did Vincent Van Gogh paint?
What format was VHS's main competition?
What French province is cognac produced in?
What French ruler was defeated at the battle of Waterloo?
What hemisphere is the Philippines in?
What hockey team did Wayne Gretzky play for?
What imaginary line is halfway between the North and South Poles?
What instrument is Ray Charles best known for playing?O
What is Alice Cooper's real name?
What is another astronomic term for the Northern Lights?
What is another name for vitamin B1?
What is Australia's national flower?
What is Betsy Ross famous for?
What is Black Hills, South Dakota most famous for?
What is California's capital?
What is California's state tree?
What is “Chiricahua” the name of?
What is Dick Clark's birthday?
What is Dr. Ruth's last name?
What is Hawaii's state flower?
What is Martin Luther King Jr.'s real birthday?
What is one of the cities that the University of Minnesota is located in?
What is the abbreviation for Original Equipment Manufacturer?
What is the airport code for Los Angeles International?
What is the average speed of the horses at the Kentucky Derby?
What is the average weight of a Yellow Labrador?
What is the birthstone for June?
What is the capital of Burkina Faso?
What is the capital of Haiti?
What is the capital of Mongolia?
What is the capital of Yugoslavia?
What is the depth of the Nile river?
What is the distance in miles from the earth to the sun?
What is the electrical output in Madrid, Spain?
What is the exchange rate between England and the U.S.?
What is the highest dam in the U.S.?
What is the Islamic counterpart to the Red Cross?O
What is the length of the coastline of the state of Alaska?
What is the location of the Sea of Tranquility?
What is the longest suspension bridge in the U.S.?
What is the longest word in the English language?
What is the major fault line near Kentucky?
What is the mascot for Notre Dame University?
What is the most common kind of skin cancer in the U.S.?
What is the most frequently spoken language in the Netherlands?
What is the name of a Greek god?
What is the name of a Salt Lake City newspaper?
What is the name of Joan Jett's band?
What is the name of Neil Armstrong's wife?
What is the name of Roy Roger's dog?
What is the name of the chocolate company in San Francisco?
What is the name of the Jewish alphabet?
What is the name of the leader of Ireland?
What is the name of the Lion King's son in the movie, "The Lion King"?
What is the name of the longest ruling dynasty of Japan?
What is the name of the Michelangelo painting that shows two hands with fingers touching?M
What is the name of the satellite that the Soviet Union sent into space in 1957?
What is the nickname of Pennsylvania?
What is the normal resting heart rate of a healthy adult?
What is the Ohio state bird?
What is the oldest city in the United States?
What is the oldest university in the US?
What is the Pennsylvania state income tax rate?
What is the population of China?
What is the population of Japan?
What is the population of Kansas?
What is the population of Mexico?
What is the population of Mozambique?
What is the population of Nigeria?
What is the population of Ohio?
What is the population of Seattle?
What is the population of the Bahamas?
What is the population of the United States?
What is the primary language of the Philippines?
What is the real name of the singer, Madonna?
What is the salary of a U.S. Representative?
What is the sales tax in Minnesota?
What is the size of Argentina?
What is the state nickname of Mississippi?
What is the telephone number for the University of Kentucky?
What is the zip code for Fremont, CA?
What is the zip code for Parsippany, NJ?
What kind of a sports team is the Wisconsin Badgers?
What kind of animal was Winnie the Pooh?
What kind of sports team is the Buffalo Sabres?
What king was forced to agree to the Magna Carta?
What language is mostly spoken in Brazil?
What movie did Madilyn Kahn star in with Gene Wilder?
What nationality was Jackson Pollock?
What New York City structure is also known as the Twin Towers?
What ocean did the Titanic sink in?
What party was Winston Churchill a member of?
What peninsula is Spain part of?
What position did Willie Davis play in baseball?
What President became Chief Justice after his presidency?O
What province is Edmonton located in?
What province is Montreal in?
What radio station did Paul Harvey work for?
What river flows between Fargo, North Dakota and Moorhead, Minnesota?
What river in the US is known as the Big Muddy?
What sport do the Cleaveland Cavaliers play?
What state did the Battle of Bighorn take place in?
What state does Martha Stewart live in?
What state does MO stand for?
What state in the United States covers the largest area?
What state is Niagra Falls located in?
What state is the Filenes store located in?
What store does Martha Stewart advertise for?
What strait separates North America from Asia?
What task does the Bouvier breed of dog perform?
What tourist attractions are there in Reims?
What type of bridge is the Golden Gate Bridge?
What type of currency is used in Australia?
What type of horses appear on the Budweiser commercials?
What type of hunting are retrievers used for?
What U.S. Government agency registers trademarks?O
What U.S. state's motto is "Live free or Die"?
What university was Woodrow Wilson President of?
What was the ball game of ancient Mayans called?
What was the death toll at the eruption of Mount Pinatubo?
What was the last year that the Chicago Cubs won the World Series?O
What was the man's name who was killed in a duel with Aaron Burr?M
What was the name of Jacques Cousteau's ship?
What was the name of the famous battle in 1836 between Texas and Mexico?
What was the name of the first Russian astronaut to do a spacewalk?O
What was the name of the movie that starred Sharon Stone and Arnold Schwarzenegger?
What was the name of the sitcom that Alyssa Milano starred in with Tony Danza?
What was the name of the television show, staring Karl Malden, that had San Francisco in the title?M
What was the name of the Titanic's captain?
What was the purpose of the Manhattan project?
What was W.C. Fields' real name?
What were Christopher Columbus' three ships?
What were the names of the three ships used by Columbus?
What wrestling star became "The Incredible Hulk"?
What year did Canada join the United Nations?O
What year did Hitler die?
What year did Montana become a state?O
What year did the Milwaukee Braves become the Atlanta Braves?O
What year did the Titanic sink?
What year did the U.S. buy Alaska?O
What year did the United States abolish the draft?O
What year did the Vietnam War end?
What year did WWII begin?
What year was Desmond Mpilo Tutu awarded the Nobel Peace Prize?
What year was Janet Jackson's first album released?Q
What year was the Avery Dennison company founded?
What year was the Mona Lisa painted?
What's the formal name for Lou Gehrig's disease?
What's the most famous tourist attraction in Rome?
What's the name of a golf course in Myrtle Beach?
What's the name of a hotel in Indianapolis?
What's the name of Pittsburgh's baseball team?
What's the name of the actress who starred in the movie, "Silence of the Lambs"?
What's the name of the song Will Smith sings about parents?O
What's the name of the star of the cooking show, "Galloping Gourmet"?
What's the name of the Tampa newspaper?
What's the name of the tiger that advertises for Frosted Flakes cereal?
What's the name of the Tokyo Stock Exchange?
What's the population of Biloxi, Mississippi?
What's the population of Mississippi?
What's the tallest building in New York City?
Which comedian's signature line is "Can we talk"?
Which mountain range in North America stretches from Maine to Georgia?
Which U.S. President is buried in Washington, D.C.?
Where are the headquarters of Eli Lilly?
Where are the National Archives?
Where are the Rocky Mountains?
Where are the U.S. headquarters for Procter and Gamble?
Where did Bill Gates go to college?
Where did Hillary Clinton graduate college?
Where did Howard Hughes die?
Where did the Inuits live?
Where did the Maya people live?
Where did Wicca first develop?O
Where did Woodstock take place?
Where does Mother Angelica live?
Where is Amsterdam?
Where is Ayer's rock?
Where is Basque country located?
Where is Belize located?
Where is Burma?
Where is Glasgow?
Where is Guam?
Where is John Wayne airport?
Where is Kings Canyon?
Where is Las Vegas?
Where is Logan International located?
Where is McCarren Airport?
Where is Melbourne?
Where is Milan?
Where is Ocho Rios?
Where is Perth?
Where is Prince Edward Island?
Where is Rider College located?
Where is Romania located?
Where is Santa Lucia?
Where is the bridge over the river Kwai?
Where is the Danube?
Where is the Euphrates River?
Where is the Grand Canyon?
Where is the Holland Tunnel?
Where is the Isle of Man?
Where is the Kalahari desert?
Where is the location of the Orange Bowl?
Where is the Louvre?
Where is the Mall of the America?
Where is the Mayo Clinic?
Where is the Orinoco River?
Where is the Orinoco?
Where is the Shawnee National Forest?
Where is the Smithsonian Institute located?
Where is the Thomas Edison Museum?
Where is the Valley of the Kings?
Where is the volcano Mauna Loa?
Where is the volcano Olympus Mons located?
Where is Tornado Alley?
Where is Trinidad?
Where is Tufts University?
Where is Venezuela?
Where is Webster University?
Where is Windsor Castle?
Where was John Adams born?
Where was Poe born?
Where was Pythagoras born?
Where was Tesla born?
Where's Montenegro?
Who assassinated President McKinley?
Who coined the term "cyberspace" in his novel "Neuromancer"?
Who created "The Muppets"?
Who created the character James Bond?
Who created the character of Scrooge?
Who created the comic strip, "Garfield"?
Who developed the Macintosh computer?
Who discovered America?
Who found Hawaii?
Who invented the game Scrabble?
Who is a German philosopher?
Who is buried in the great pyramid of Giza?
Who is Secretary-General of the United Nations?
Who is the emperor of Japan?
Who is the founder of the Wal-Mart stores?
Who is the leader of India?
Who is the monarch of the United Kingdom?
Who is the president of Bolivia?
Who is the Prime Minister of Canada?
Who is the prophet of the religion of Islam?
Who killed Caesar?
Who killed Martin Luther King?
Who manufacturers Magic Chef applicances?
Who manufactures the software, "PhotoShop"?
Who owns CNN?
Who owns the St. Louis Rams?
Who painted Olympia?
Who played the teacher in Dead Poet's Society?
Who portrayed Jake in the television show, "Jake and the Fatman"?
Who provides telephone service in Orange County, California?
Who shot Billy the Kid?
Who started the Dominos Pizza chain?
Who was Charles Lindbergh's wife?
Who was Darth Vader's son?
Who was elected president of South Africa in 1994?
Who was Samuel Johnsons's friend and biographer?
Who was the 21st U.S. President?O
Who was the 23rd president of the United States?O
Who was the 33rd president of the United States?O
Who was the abolitionist who led the raid on Harper's Ferry in 1859?
Who was the architect of Central Park?
Who was the author of the book about computer hackers called "The Cuckoo's Egg: Tracking a Spy Through the Maze of Computer Espionage"?
Who was the first American to walk in space?O
Who was the first coach of the Cleveland Browns?O
Who was the first female United States Representative?O
Who was the first governor of Alaska?O
Who was the first king of England?O
Who was the first man to fly across the Pacific Ocean?O
Who was the first U.S. president ever to resign?O
Who was the founding member of the Pink Floyd band?
Who was the oldest U.S. president?
Who was the president of Vichy France?
Who was the tallest U.S. president?
Who won Ms. American in 1989?
Who won the nobel prize in literature in 1988?
Who won the rugby world cup in 1987?
Who won the Superbowl in 1982?
Who wrote "An Ideal Husband"?
Who wrote "The Pit and the Pendulum"?
Who wrote "The Scarlet Letter"?
Who wrote the book, "Huckleberry Finn"?
Who wrote the book, "Song of Solomon"?
Who wrote the book, "The Grinch Who Stole Christmas"?
Who wrote the hymn "Amazing Grace"?
Who wrote the song, "Boys of Summer"?
Who wrote the song, "Silent Night"?
Who's the lead singer of the Led Zeppelin band?
When did Aldous Huxley write, "Brave New World"?
When did Amtrak begin operations?O
When did Elvis Presley die?
When did Geraldine Ferraro run for vice president?O
When did Hawaii become a state?O
When did Idaho become a state?O
When did John F. Kennedy get elected as President?
When did Muhammad live?
When did Princess Diana and Prince Charles get married?O
When did the American Civil War end?
When did the California lottery begin?
When did the Carolingian period begin?
When did the Chernobyl nuclear accident occur?
When did the Dow first reach 2000?O
When did the Hindenberg crash?
When did the royal wedding of Prince Andrew and Fergie take place?
When did World War I start?
When is Bastille Day?
When is Boxing Day?
When is hurricane season in the Caribbean?
When is the Tulip Festival in Michigan?
When was "the Great Depression"?
When was Algeria colonized?
When was Babe Ruth born?
When was Beethoven born?
When was CNN's first broadcast?O
When was Hurricane Hugo?
When was John D. Rockefeller born?
When was Lyndon B. Johnson born?
When was Microsoft established?
When was Nostradamus born?
When was Rosa Parks born?
When was the Brandenburg Gate in Berlin built?
When was the De Beers company founded?
When was the first Barbie produced?O
When was the first railroad from the east coast to the west coast completed?O
When was the first Wall Street Journal published?O
When was the first Wal-Mart store opened?O
When was the Hoover Dam constructed?
When was the last major eruption of Mount St. Helens?O
When was the movie, Caligula, made?
When was the NFL established?
When was the San Francisco fire?
When was the Triangle Shirtwaist fire?
When were William Shakespeare's twins born?
How big is Australia?
How big is the Electoral College?
How did Bob Marley die?
How far away is the moon?
How far is it from Denver to Aspen?
How far is Pluto from the sun?
How fast can a Corvette go?
How hot is the core of the earth?
How large is Missouri's population?
How long did Rip Van Winkle sleep?
How long would it take for a $50 savings bond to mature?
How long would it take to get from Earth to Mars?
How many casinos are in Atlantic City, NJ?
How many counties are in Indiana?
How many films did Ingmar Bergman make?
How many Great Lakes are there?
How many highway miles to the gallon can you get with the Ford Fiesta?Q
How many home runs did Babe Ruth hit in his lifetime?M
How many home runs did Lou Gehrig have during his career?O
How many islands does Fiji have?
How many miles is it from London, England to Plymouth, England?
How many people die from snakebite poisoning in the U.S. per year?
How many people live in Chile?
How many people lived in Nebraska in the mid 1980s?
How many Stradivarius violins were ever made?
How many Superbowls have the 49ers won?
How many years ago did the ship Titanic sink?O
How many zip codes are there in the U.S.?
How much in miles is a ten K run?O
How much money does the Sultan of Brunei have?
How much was a ticket for the Titanic?
How old was Elvis Presley when he died?O
How tall is Kilimanjaro?
How tall is the Gateway Arch in St. Louis, MO?
How tall is the Sears Building?
How was Teddy Roosevelt related to FDR?Q
How wide is the Atlantic Ocean?
How wide is the Milky Way galaxy?
In Poland, where do most people live?
In the late 1700's British convicts were used to populate which colony?O
In what area of the world was the Six Day War fought?
In what book can I find the story of Aladdin?
Italy is the largest producer of what?
Mercury, what year was it discovered?
Name a ballet company Mikhail Baryshnikov has danced for?
Name a film in which Jude Law acted.
Name a Gaelic language
Name a movie that the actress, Sandra Bullock, had a role in.
Name a novel written by John Steinbeck.
Name a tiger that is extinct?
Name an American made motorcycle?
Name an American war plane?
Name an art gallery in New York.
Name one of the Seven Wonders of the Ancient World
Tell me what city the Kentucky Horse Park is near?
The U.S. Department of Treasury first issued paper currency for the U.S. during which war?O
About how many soldiers died in World War II?
At Christmas time, what is the traditional thing to do under the mistletoe?Q
At what speed does the Earth revolve around the sun?
Can you give me the name of a clock maker in London, England?
For what disease is the drug Sinemet used as a treatment?
George Bush purchased a small interest in which baseball team?
Ghi chú: O: O-Error; Q:Q-Error; M:M-Error
PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY
PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY
Các file đính kèm theo tài liệu này:
- Xử lý các câu truy vấn và tìm kiếm trên kho tài liệu có chú thích ngữ nghĩa bằng tiếng anh.doc