Từ định nghĩa về khái niệm hình thức, FCA xét mỗi khái niệm trong dàn là
một cặp (câu trả lời, truy vấn). Câu truy vấn tương ứng với intent, câu trả lời tương
ứng extent của khái niệm. Mở rộng, mối quan hệ giữa các truy vấn có thể xem như
mối quan hệ giữa các khái niệm trên dàn. Khi tìm kiếm, hệ thống sẽ phân tích câu
truy vấn, tìm ra các khái niệm hình thức (terms), duyệt dàn và so khớp với các khái
niệm thuộc dàn. Cốt lõi của việc duyệt dàn trên thực tế nằm ở hàm AddIntent. Có thể
nói AddIntent là hàm “xương sống” của hai tiến trình tạo dàn và tìm kiếm trên dàn.
Tư tưởng của giải thuật duyệt và tìm kiểm trên dàn (BR-Explorer [95]) như
sau: Sử dụng hàm AddIntent để đưa câu truy vấn (intent) vào dàn (nhằm thỏa quan
hệ thứ tự ≤). Tiến hành tìm khái niệm trụ (Locate_Pivot) ứng với intent của câu truy
vấn. Cuối cùng tập kết quả gồm các tài liệu trong khái niệm trụ và các tài liệu trong
các khái niệm cha của khái niệm trụ là tập kết quả cần tìm. Kết quả tìm được sẽ được
xếp hạng, những kết quả đầu chứa tất cả các thuật ngữ cần tìm, các kết quả phía sau
chứa một phần các thuật ngữ trong yêu cầu tìm kiếm, theo số lượng giảm dần.
117 trang |
Chia sẻ: tueminh09 | Ngày: 25/01/2022 | Lượt xem: 597 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ddIntent sẽ thêm
dần các tài liệu 1, 2, i, i+1, , N vào dàn Li, Li+1, L.
78
Thủ tục tạo dàn CreateLatticeIncrementall
Đầu vào:
- Tập dữ liệu mẫu (G, M, I);
Đầu ra:
- Dàn L;
Giải thuật:
Program CreateLatticeIncrementally_alg
01: CreateLatticeIncrementally(G, M, I)
02: BottomConcept := (Ø, M)
03: L := {BottomConcept}
04: For each g in G
05: ObjConcept = AddIntent(g’, BottomConcept, L)
06: Add g to the extent of ObjConcept and all concepts above
07: End For
End
Diễn giải giải thuật:
Thủ tục CreateLatticeIncrementally(G, M, I) nhận vào toàn bộ tập dữ liệu mẫu
(tập đối tượng G gồm các files, tập thuộc tính M gồm các terms trong files, và tương
quan I thuộc G, M). AddIntent là giải thuật theo hướng Bottom-Up, được khởi gán
bằng {0, M}. Nói cách khác, khái niệm BottomConcept chứa toàn bộ terms của dàn
L (dòng 02). Tiến trình bắt đầu với việc cập nhật khái niệm BottomConcept vào đáy
của dàn (dòng 03).
Với mỗi đối tượng g thuộc tập đối tượng G (với mỗi file thuộc tập files), thủ
tục gọi hàm AddIntent để thêm dần các khái niệm vào dàn khái niệm, truyền vào
AddIntent ba tham biến: g’ (intent, tập terms trong một file), khái niệm
BottomConcept (tập terms trong các files) và dàn L (dòng 04, 05). Trong thân thủ
tục, hàm AddIntent tạo khái niệm (và các nối kết ràng buộc với khái niệm khác), vòng
lặp For .. End For của thủ tục lần lượt lấy từng khái niệm của tập khái niệm được tạo
- để cập nhật vào Extent, dòng 06. Thủ tục kết thúc là dàn được tạo xong.
Độ phức tạp tính toán:
Thực tế, khi các concepts trong dàn tăng lên với tốc độ của hàm mũ, đòi hỏi
thời gian tính của CPU, các giải thuật tạo dàn đều cố gắng tiệm cận đến độ phức tạp
tính toán có thời gian đa thức. Với giải thuật AddIntent, thời gian của giải thuật được
79
tính toán trong trường hợp tốt nhất được đánh giá bằng O(|L||G|2max(|g’|)). Trong đó
L là dàn khái niệm, G là tập đối tượng của L, max(g’) là số thuộc tính lớn nhất của
một concept trong L.
Duyệt dàn
Từ định nghĩa về khái niệm hình thức, FCA xét mỗi khái niệm trong dàn là
một cặp (câu trả lời, truy vấn). Câu truy vấn tương ứng với intent, câu trả lời tương
ứng extent của khái niệm. Mở rộng, mối quan hệ giữa các truy vấn có thể xem như
mối quan hệ giữa các khái niệm trên dàn. Khi tìm kiếm, hệ thống sẽ phân tích câu
truy vấn, tìm ra các khái niệm hình thức (terms), duyệt dàn và so khớp với các khái
niệm thuộc dàn. Cốt lõi của việc duyệt dàn trên thực tế nằm ở hàm AddIntent. Có thể
nói AddIntent là hàm “xương sống” của hai tiến trình tạo dàn và tìm kiếm trên dàn.
Tư tưởng của giải thuật duyệt và tìm kiểm trên dàn (BR-Explorer [95]) như
sau: Sử dụng hàm AddIntent để đưa câu truy vấn (intent) vào dàn (nhằm thỏa quan
hệ thứ tự ≤). Tiến hành tìm khái niệm trụ (Locate_Pivot) ứng với intent của câu truy
vấn. Cuối cùng tập kết quả gồm các tài liệu trong khái niệm trụ và các tài liệu trong
các khái niệm cha của khái niệm trụ là tập kết quả cần tìm. Kết quả tìm được sẽ được
xếp hạng, những kết quả đầu chứa tất cả các thuật ngữ cần tìm, các kết quả phía sau
chứa một phần các thuật ngữ trong yêu cầu tìm kiếm, theo số lượng giảm dần.
Hàm BR-Explorer
01: Insert Q into B(G, M, I) via AddIntent function.
02: P = ({x}″,{x}′) := Locate Pivot(B(GQ,MQ,IQ),Q)
03: n := 1 /* n is the level in B(GQ,MQ,IQ) from P */
04: SUBSn-1 := {P}
05: rank := 1
06: if {x}″ ≠ {x}′ then
07: Rrank := {x}″ \ {x}′
08: Robjects := (rank,Rrank)
09: rank := rank + 1
10: end if
11: while SUBSn-1 ≠ Ø do
12: SUBSn := upper-covers(SUBSn-1)
13: Rrank := Ø
14: for all C = (A,B) ∈ SUBSn such that B ≠ Ø do
15: Rrank := Rrank ∪ A
16: end for
80
17: EmergingObjects := Rrank \ ({x}∪R1,R2,...,Rrank-1)
18: Robjects := Robjects ∪ (rank, EmergingObjects)
19: n := n + 1
20: rank := rank + 1
21: end while
Diễn giải giải thuật:
Dòng đầu tiên của giải thuật (dòng 01) thực hiện việc đưa truy vấn Q (yêu cầu
từ phía người dùng) vào dàn nhằm so khớp khái niệm. Dàn biến đổi thành “dàn mới”,
ký hiệu là B(GQ,MQ,IQ). Dàn này được tạo thành từ dàn ban đầu hợp thêm truy vấn
Q. Sau khi gọi hàm Locate_Pivot, kết quả trả về là một khái niệm, khái niệm này hoặc
thuộc tập phủ trên upper-covers (tìm thấy) hoặc thuộc BottomConcept (không tìm
thấy).
Nếu tìm thấy, giải thuật thực hiện phân hạng kết quả trả về, biến Robjects lưu
việc phân hạng (dòng 8-18). Việc phân hạng kết quả thực hiện xét tập SUBS, khởi
gán SUBS0={P} (dòng 4), Tại bước này nếu {x}″≠ {x}′ thì tập đối tượng trong
{x}″\{x}′ được thêm vào Robjects với thứ hạng tương ứng (dòng 6-10). Giải thuật thực
hiện vòng lặp các bước kế tiếp, SUBS1=upper-cover(SUBS0), SUBS2=upper-
cover(SUBS1), đến SUBSn. Tại bước thứ i, nếu khái niệm ⊤ xuất hiện trong SUBSi
và nếu intent của ⊤ là rỗng thì các đối tượng trong extent của ⊤ được bỏ qua. Trong
trong quá trình duyệt dàn và tìm tập phủ trên, cặp (rank, set of objects) được lưu vào
biến kết quả Robjects.
Trong giải thuật BR-Explorer, đoạn giả mã (hàm Locate_Pivot) xác định tập
phủ trên (tập chủ đề):
Hàm Locate_Pivot
Đầu vào:
- Dàn L; khái niệm biểu diễn cho truy vấn
Đầu ra:
- Locate_Pivot chứa các upper-cover
Giải thuật:
Program Locate_Pivot_alg
01: found := false
/* ⊥ is the BottomConcept in B(Gq,Mq,Iq) */
02: SUBS := {⊥}
03: while !found do
81
04: for each C = (A,B) ∈ SUBS do
05: if x’ = B then
06: Pivot P := C
07: found := true
08: break
09: else if x′ ⊂ B then
10: SUBS := upper-cover(SUBS)
11: break
12: end if
13: end for
14: end while
End
Diễn giải giải thuật:
Tương ứng với truy vấn q (câu truy vấn được đưa vào từ phía người dùng, hàm
Locate_Pivot sẽ:
Trả về BottomConcept nếu không tìm thấy.
Trả về một khái niệm (khái niệm này nằm trong tập phủ trên upper-cover của
các khái niệm có intent (tập terms) chứa hoặc bằng tập terms của truy vấn q
(dòng 04-13).
Quá trình duyệt dàn, tập phủ trên (biến upper cover của hàm Locate_Pivot) chứa
các nhãn, các nhãn này mô tả chủ đề các phân lớp thuộc tập kết quả tìm kiếm.
Độ phức tạp tính toán:
Thực chất, hàm BR-Explorer thực hiện duyệt, tìm kiếm trên dàn bằng cách hợp
câu truy vấn vào dàn, lúc này dàn biến đổi thành một dàn “mới”, 2 vòng lặp while và
for cho biết cận trên độ phức tạp tính toán của thủ tục duyệt dàn là O(n2).
e) Phân tích
Lĩnh vực khai phá dữ liệu đã có nhiều kỹ thuật được nghiên cứu và ứng dụng,
dàn khái niệm và FCA là một trong những kỹ thuật như vậy, áp dụng trong phân tích
dữ liệu văn bản. Phần đánh giá, thảo luận này trình bày ưu nhược điểm của dàn khái
niệm.
Ưu điểm:
Hình minh họa 3.11 cho thấy dàn khái niệm thích hợp với kỹ thuật gom cụm
(theo các chủ đề), phân lớp các khái niệm.
82
Mối quan hệ khái niệm cha - khái niệm con của cấu trúc dàn thỏa quan hệ thứ
tự ≺ , người tìm kiếm có thể khai thác thông tin tại các node lân cận thuộc dàn
mà không mất thời gian tìm kiếm lại trên toàn tập cơ sở dữ liệu văn bản lớn.
Nhược điểm:
Trong ứng dụng tìm kiếm thông tin, khi câu truy vấn được đưa vào dàn, phải
gọi lớp hàm như AddIntent. AddIntent thực hiện đệ qui, dẫn đến tăng đáng kể
thời gian tìm kiếm. Ngoài việc duyệt dàn để tìm ra các khái niệm, các hàm tìm
kiếm trên dàn như BR-Explorer có nhược điểm về thời gian tính, nội hàm gọi
các hàm khác (để tính toán lan truyền trên dàn) và phải đệ qui (khi thêm câu
truy vấn vào dàn thông qua AddIntent).
Trên thực tế, các áp dụng trong lĩnh vực tìm kiếm thông tin của dàn khái niệm
(
được biết đến và như chính các trang này nhìn nhận [92],
[93], là những ứng dụng Meta - Search Engine chỉ lấy về khoảng 10 trang đầu
kết quả của máy tìm kiếm khác (Yahoo, Bing. Google), những kết quả này là
những xâu ký tự, những đoạn trích sơ lược có chứa từ khóa (snippets). Dựa
trên tập kết quả sơ lược này, thực hiện dựng dàn và xuất lại kết quả theo định
dạng dàn. Các áp dụng này không hẳn là một Search Engine truyền thống và
toàn văn, có thể đáp ứng việc tìm kiếm.
Các khái niệm trên dàn mang theo tập thuộc tính intent (tập terms), trường hợp
tập dữ liệu mẫu là lớn dẫn đến tập khái niệm cũng rất lớn [94], [95], [97].
Trong một thực nghiệm khác, khi khảo sát giải thuật tạo dàn chỉ với 30 tài liệu,
mỗi tài liệu khoảng 20 Kbytes, thực nghiệm gặp 885541 concepts. Để giảm số
khái niệm, có thể dựng những dàn cục bộ thay vì dàn đầy đủ, tuy nhiên cách
thức này làm mất đi mối liên hệ giữa các khái niệm trong dàn, hay phải ứng
dụng trên một môi trường tính toán hiệu năng cao với nhiều nodes xử lý cấu
hình mạnh.
Khi cài đặt thực nghiệm trên dữ liệu mẫu là các tài liệu về chuyến bay [98],
[99], tập dữ liệu mẫu gồm 118 văn bản, mỗi tài liệu lấy 50 từ/cụm từ xuất hiện nhiều
nhất (loại bỏ từ dừng), tập khái niệm thu được xấp xỉ 250000 khái niệm. Việc xây
dựng dàn được tính toán offline, vì thế khi tìm kiếm sẽ không cần phải dựng lại dàn.
Việc dựng dàn được thực hiện không thường xuyên.
83
Hình 3.12: Tìm kiếm trên dàn.
Chương trình demo viết bằng C# trên nền ASP.NET, sử dụng hệ SQL Server
để lưu trữ cấu trúc dàn. Hình 3.12 minh họa việc duyệt và tìm kiếm trên dàn tương
ứng với câu truy vấn “Hãng hàng không (HK) nào bay đến US, Europe, Canada,
Mexico và Carribean ?”.
Trong thực nghiệm máy tìm kiếm hướng ngữ cảnh (một tập mẫu khác, mục
3.4.1), các thủ tục tạo dàn và duyệt dàn được áp dụng: Trên tập dữ liệu mẫu phụ thuộc
miền (hàng không), tên và các tag meta mô tả tài liệu được thu thập, thực nghiệm ứng
dụng phương pháp dàn khái niệm để phân lớp các kết quả tìm kiếm. Trên tập mẫu
khá nhỏ này, việc dựng dàn và duyệt dàn được thực hiện offline, mục đích nhận được
tập chứa các nhãn (biến upper cover), các nhãn này mô tả chủ đề các phân lớp của
các tài liệu chuyên ngành.
Dàn có một nền tảng toán học, các nguyên lý đa dạng, là một cấu trúc đẹp. Để
cung cấp một góc nhìn nghiên cứu, luận án trình bày về lý thuyết dàn: cách tạo, duyệt
và phân loại, hiển thị kết quả tìm kiếm trên dàn, phân tích ưu nhược điểm của cấu
trúc dàn. Tuy nhiên thực nghiệm cho thấy dàn thích hợp với khai phá, phân lớp và
gom cụm dữ liệu thuộc bước hậu xử lý của quá trình tìm kiếm, không hoàn toàn thích
hợp trong ứng dụng như một máy tìm kiếm hướng tổng quát hoặc chuyên sâu.
Ngoài ra, cấu trúc dàn thích hợp với các kỹ thuật làm mịn truy vấn (query
refinement) [92], [93]. Ở một cách tiếp cận, cấu trúc dàn có thể xếp hạng kết quả từ
84
cao xuống thấp theo độ tương thích. Do đó, ngoài khả năng phân lớp theo chủ đề tập
kết quả tìm kiếm khi kết hợp cấu trúc dàn với kỹ thuật hướng ngữ cảnh, có thể áp
dụng cấu trúc dàn trong các bài toán gợi ý, như gợi ý tài liệu.
Tóm lại, về gợi ý truy vấn, xoay quanh hạt nhân là Qlogs, mục các nghiên cứu
liên quan trong đã khái quát các kỹ thuật chủ yếu áp dụng trong Query Suggestion.
Lý thuyết liên quan đến Gợi ý truy vấn chia thành 2 lớp kỹ thuật chính: Session-based
và Cluster-based. Kỹ thuật dựa trên Session (Phiên tìm kiếm) khai phá chuỗi liên tục
các câu truy vấn để tìm các truy vấn luôn đồng hiện. Kỹ thuật dựa trên cluster nhằm
gom các truy vấn tương tự nhau (theo độ đo tương đồng), từ đó đưa ra gợi ý truy vấn.
Các kỹ thuật khác xoay quanh câu truy vấn có thể kể đến như: Kỹ thuật Mở rộng truy
vấn Query Expansion (vdụ: NY Times New York Times) sử dụng các phương
thức: thesaury, luật kết hợp, Query Relation Graph, .v.v.; Kỹ thuật Làm mịn/sàng lọc,
thay thế truy vấn, Viết lại truy vấn Query Refinement, Query Substitution, Rewriting
Query (vdụ: machin learn machine learning), thực hiện stemming, acronym, sử
dụng các phương thức: Maximum Entropy Model, .v.v. không đề cập trong khuôn
khổ Chương 3.
3.3. Kết quả thực nghiệm - Đánh giá
Hình 3.13: Mô hình hệ thống thực nghiệm kỹ thuật tìm kiếm hướng ngữ cảnh
85
Từ những phân tích trên, Chương 3 nghiên cứu và ứng dụng để xây dựng một
máy tìm kiếm hướng ngữ cảnh. Đồng thời nghiên cứu, tích hợp vào máy tìm kiếm
hướng ngữ cảnh các tùy chọn truy vấn và trả lời bằng tiếng nói để hình thành một
Voice search.
3.3.1. Data-set
Thế giới số là một không gian rất rộng, gần như không có bộ máy tìm kiếm
nào đủ phổ quát, vạn năng để đáp ứng mọi yêu cầu tìm kiếm. Vì vậy, thay vì xây
dựng máy tìm kiếm tổng quát, luận án hướng đến việc xây dựng máy tìm kiếm chuyên
sâu, khai phá sâu hơn về dữ liệu cũng như hành vi tìm kiếm của người dùng [76].
Ứng dụng máy tìm kiếm chuyên sâu khác với máy tìm kiếm tổng quát ở 3
điểm: Dữ liệu đầu vào là dữ liệu chuyên ngành, gợi ý truy vấn với các kỹ thuật riêng
(hệ công thức riêng) trên Query Logs đặc thù, cũng như phân nhóm kết quả trả về,
hình thành nên một máy tìm kiếm khác với các máy tìm kiếm tổng quát. Việc bổ sung
thêm nhận dạng, tổng hợp tiếng nói vào máy tìm kiếm hình thành nên một máy tìm
kiếm hướng ngữ cảnh có tương tác giọng nói [34], [76].
Tập dữ liệu mẫu áp dụng trong thử nghiệm được thực hiện trên một phần của
tập dữ liệu gốc với khoảng 20000 tài liệu lĩnh vực Hàng không, thuộc các định dạng
phổ biến: html, pdf, doc, xls, txt, .v.v, mỗi tài liệu có độ dài biến đổi từ 1 đến 4500
trang A4.
Trong khuôn khổ Chương 3, nghiên cứu trích chọn 50 truy vấn từ Query Logs
làm dữ liệu thử nghiệm (test cases), theo [73], [74], một bộ 50 truy vấn được coi là
đủ lớn để đánh giá một hệ thống truy xuất, tìm kiếm thông tin. Việc trích chọn nhằm
tránh những câu truy vấn quá phổ biến (không hữu ích) như “hàng không”, “máy
bay”, .v.v. Trích xuất ngẫu nhiên 400 phiên tìm kiếm làm dữ liệu huấn luyện - đây là
những phiên tìm kiếm từ người dùng thực trong hoạt động tác nghiệp hàng ngày.
3.3.2. Đánh giá, so sánh
Các phương pháp so sánh: Để đánh giá hiệu quả của phương pháp hướng
ngữ cảnh, luận án lập bảng đối sánh giữa máy tìm kiếm áp dụng hướng ngữ
cảnh và máy tìm kiếm thông dụng Lucene (Nutch), đồng thời so sánh kỹ thuật
gợi ý truy vấn với hai phương pháp baselines: Adjacency và N-Gram. Tiêu chí
so sánh dựa vào:
o Tính thích đáng (quality - độ đo chất lượng) và
86
o Tính đa dạng (coverage - độ phủ) của tập gợi ý truy vấn.
Bảng so sánh
Bảng 3.3: Bảng so sánh tìm kiếm hướng ngữ cảnh và Lucene-Nutch
Lucene - Nutch SE hướng ngữ cảnh
Tập dữ liệu mẫu Chung tập dữ liệu
Thời gian tìm kiếm milliseconds milliseconds, thực nghiệm sử dụng hàm
Datediff tính khoảng cách giữa 2 thời
điểm t1: câu truy vấn gửi đi và t2: SE trả
về tập kết quả)
Xếp hạng kết quả
(ranking)
Có Có
Tính thực tiễn Thông dụng Áp dụng trên mạng Hàng không VN
Khả năng gợi ý
nhanh
Không Có
Phân loại tập kết quả
trả về
Không Có
Gợi ý truy vấn Không Có
Tiêu chí so sánh
Độ đo chất lượng phản ánh đúng đắn nhu cầu thông tin đồng thời giúp người
sử dụng tìm được những gì họ quan tâm. Độ phủ phản ánh tính đa dạng, bao phủ
nhiều khía cạnh tìm kiếm khác nhau. Để thực hiện đánh giá, luận án so sánh kỹ thuật
gợi ý hướng ngữ cảnh với 2 phương pháp baselines: Adjacency và N-Gram.
Phương pháp Adjacency khái quát như sau: nhận vào chuỗi truy vấn q1, q2, ..,
qi - trên tất cả các phiên tìm kiếm - Adjacency xếp hạng theo tần suất xuất hiện các
truy vấn ngay sau một truy vấn qi. Sau đó kết xuất topN (N = 5) truy vấn có tần suất
xuất hiện cao nhất như danh sách gợi ý.
Tương tự, phương pháp N-Gram nhận đầu vào là chuỗi query sequence qs =
q1, q2, .., qi. Trên các phiên tìm kiếm, N-Gram thực hiện xếp hạng theo tần suất xuất
hiện các truy vấn ngay sau chuỗi qs, trả về topN truy vấn có tần suất xuất hiện cao
nhất như danh sách gợi ý.
87
Hình 3.14: (a): Độ đo tính đa dạng; (b): Độ đo tính thích đáng.
Độ phủ được đo bằng tỷ lệ số test cases có khả năng đưa ra gợi ý truy vấn trên
tổng số test cases. Hình a minh họa kết quả phép đo độ phủ của 3 phương pháp. Như
giả thiết đặt ra, khi nhận vào test case qs = q1, q2, .., qi, phương pháp N-Gram chỉ đưa
ra được danh sách gợi ý nếu tồn tại trong dữ liệu huấn luyện phiên tìm kiếm dạng
qs1= q1, q2, .., qi, qi+1, .., qj. Rõ ràng, phương pháp Adjacency có tỷ lệ đa dạng vượt
trội so với phương pháp N-gram, vì chỉ cần tồn tại chuỗi dạng qs2= .., qi, qi+1, .., qj
thuộc dữ liệu huấn luyện. Nói cách khác, qs1 là một trường hợp đặc biệt của qs2. Tuy
nhiên, xét theo trình tự thời gian trong một phiên tìm kiếm, phương pháp N-Gram có
ưu điểm - khi gợi ý, sẽ gợi ý thành chuỗi (cả chuỗi gợi ý). So với 2 phương pháp N-
Gram và Adjacency, trường hợp “vắng mặt” cả qs1 lẫn qs2, phương pháp hướng ngữ
cảnh chứng minh tính hiệu quả trội hơn 2 phương pháp trên, bởi chỉ cần chuỗi truy
vấn dạng qs2’= .., qi’, qi+1, .., qj mà qi và qi’ tương đồng (thuộc cùng một cụm), kỹ
thuật hướng ngữ cảnh vẫn thực hiện cung cấp danh sách gợi ý.
Độ đo chất lượng được tính điểm bằng cách lấy ý kiến chuyên gia (con người).
Đối chiếu với truy vấn hiện hành, nếu câu gợi ý trong danh sách được đánh giá là
thích đáng, phương pháp được cộng 1 điểm. Nếu danh sách gợi ý có hai hoặc nhiều
hơn các câu gợi ý gần trùng lặp, phương pháp chỉ được cộng 1 điểm. Nếu test case
không đưa ra được gợi ý, thử nghiệm không đếm test case này. Tổng điểm của một
phương pháp ứng với một test case cụ thể bằng tổng điểm cộng được chia cho tổng
số câu gợi ý truy vấn. Điểm trung bình của mỗi phương pháp bằng thương số giữa
tổng điểm và tổng số test cases đếm được.
Trên tất cả các mẫu thử nghiệm, trên cả 2 phép đo về tính thích đáng và tính
đa dạng, thang điểm đánh giá của 3 phương pháp được minh họa trong hình b, cho
0
10
20
30
40
50
60
Adjacency N-Gram Hướng ngữ
cảnh
0.7
0.8
0.9
1
Adjacency N-Gram Hướng ngữ
cảnh
88
thấy gợi ý hướng ngữ cảnh tối ưu so với 2 phương pháp baselines. Thay vì gợi ý ở
mức truy vấn đơn lẻ, phương pháp hướng ngữ cảnh xác định ý đồ tìm kiếm của người
sử dụng ở mức cụm (mức khái niệm).
3.3.3. Hệ thống thực nghiệm
Để diễn giải, Chương 3 nêu quá trình demo thực nghiệm như một dãy các
bước:
Bước 1: Truy cập máy tìm kiếm hướng ngữ cảnh có tương tác giọng nói.
Bước 2: Tìm kiếm bằng giọng nói là một tùy chọn của máy tìm kiếm. Thực
nghiệm sử dụng công nghệ Silverlight của Microsoft để có thể truy xuất, ghi
âm thanh trên máy client và thực hiện lưu file (định dạng .wav) về máy Server.
Hình 3.15: Silverlight đề nghị truy xuất camera, microphone trên máy client.
Bước 3 (chạy nền background): Server tìm kiếm hướng ngữ cảnh sử dụng
websocket kết nối đến ASR Server (Automatic Speech Recognition, máy chủ
phần mềm tự động nhận dạng giọng nói), chuyển file âm thanh dạng wav nói
trên cho ASR Server nhận dạng speech to text (chuyển lời nói thành văn bản
text).
Bước 4: Sử dụng kỹ thuật lập trình socket, ASR Server chuyển lại câu text đã
được nhận dạng cho Server máy tìm kiếm hướng ngữ cảnh.
89
Hình 3.16: ARS Server thực hiện speech to text.
Bước 5: Server máy tìm kiếm hướng ngữ cảnh nhận câu text này như một
query đầu vào, thực hiện tìm kiếm, thực hiện lưu câu truy vấn vào Query Logs,
áp dụng các kỹ thuật khai phá dữ liệu (hướng ngữ cảnh) để trả kết quả, phân
loại kết quả và kết xuất gợi ý truy vấn về người sử dụng.
Hình 3.17: Tìm kiếm hướng ngữ cảnh tương tác giọng nói.
Như hình minh họa: Khung trái được hiện thực bằng kỹ thuật phân lớp chủ đề
(áp dụng dàn khái niệm); Khung giữa màn hình là tập kết quả trả về của máy tìm
kiếm, biểu tượng micro và loa để thực hiện chức năng voice-search (Speech To Text
và Text To Speech); Khung phải thực hiện kỹ thuật context-aware hướng ngữ cảnh
để gợi ý truy vấn.
90
Gợi ý truy vấn: (gợi ý sau dấu Enter) - nhằm đưa ra các câu truy vấn "tốt"
hơn, đa dạng về chủ đề hơn và rõ nghĩa hơn khi người sử dụng còn mơ hồ với vấn đề
cần tìm kiếm, chưa biết diễn tả mong muốn tìm kiếm, khi người dùng muốn viết tắt,
gõ không dấu, .v.v.;
Hình 3.18: Gợi ý truy vấn (gõ không dấu).
Trên một môi trường thử nghiệm khác (không thuộc lĩnh vực hàng không), khi
được "học" với kho dữ liệu mẫu lớn (các websites tin tức), ngoài việc gợi ý truy vấn
như các kỹ thuật gợi ý nói trên, máy tìm kiếm chuyên sâu thu được nhiều kết quả khả
quan, như: tìm kiếm "du học" gợi ý: "học bổng du học"; tìm kiếm "thi khối B"
gợi ý: "bí quyết làm bài thi tốt nghiệp môn Sinh"; tìm kiếm "bóng đá" gợi ý "Lịch
thi đấu ngoại hạng Anh" hoặc "kết quả Champions League"; tìm kiếm "Elly Trần"
gợi ý "hot girl"; tìm kiếm "động đất" hoặc "điện hạt nhân" gợi ý "quan hệ ngoại
giao Việt Nam - Nhật Bản", .v.v.
Hình 3.19: Tìm kiếm áp dụng phương pháp hướng ngữ cảnh.
Thực hiện gợi ý nhanh: Gợi ý nhanh được thực hiện ngay khi người sử dụng
gõ các ký tự đầu tiên vào ô tìm kiếm (gợi ý trước dấu enter). Chức năng gợi ý nhanh
91
trong thực nghiệm sử dụng kỹ thuật AJAX (Asynchronous Javascript And XML) để
gửi, xử lý và nhận chuỗi ký tự trong tương tác client - server mà không cần tải lại
toàn trang. Để tiện lợi cho việc tìm kiếm, tiết kiệm thời gian cho người sử dụng, các
câu tìm kiếm (câu truy vấn) phổ biến nhất hoặc có tổ hợp trọng số cao nhất (highest
score) được gợi ý ngay khi người sử dụng gõ vào một phần câu truy vấn:
Hình 3.20: Gợi ý nhanh.
Phân loại kết quả (áp dụng dàn khái niệm): Sau câu truy vấn, các Máy tìm
kiếm (như Google, Bing, Yahoo! Search, Ask, .v.v.) thường trả về một danh sách dài
(hàng triệu kết quả) và đa chủ đề. Nếu người dùng muốn tìm kiếm chuyên sâu trong
một lĩnh vực cụ thể, người dùng sẽ phải tự xử lý lượng dữ liệu lớn để tìm ra thông tin
mà họ cần. Phân loại, gom tập tài liệu kết quả vào các lĩnh vực cụ thể sẽ hạn chế việc
thông tin bị vùi lấp bởi một danh sách quá dài, giúp người sử dụng dễ dàng quan sát
tập kết quả, đưa ra quyết định tài liệu nào thích hợp.
Hình 3.21: Phân loại kết quả.
92
Các máy tìm kiếm tổng quát nói trên thu thập dữ liệu từ không gian Internet -
nơi kho dữ liệu là khổng lồ, đa ngôn ngữ, nhiều lĩnh vực, đa cấu trúc, định dạng, .v.v.
Kỹ thuật phân loại kết quả sau tìm kiếm là một kỹ thuật online. Vì yếu tố thời gian -
phải trả kết quả tức thời cho người sử dụng - nên gần như không khả thi khi thực hiện
phân loại tài liệu trên những Máy tìm kiếm tổng quát. Một trở ngại khác, rất đáng kể
mà bài toán phân loại online phải vượt qua, đó là gán nhãn (đặt tiêu đề cho mỗi chủ
đề tương ứng). Tiêu đề phải mô tả đủ ngữ nghĩa và dễ hiểu để người dùng có thể lựa
chọn. Máy tìm kiếm của luận án thực hiện tìm kiếm chuyên sâu, trên một miền dữ
liệu cụ thể (dữ liệu tác nghiệp Hàng không, "vắng mặt" trên Internet), lượng tài liệu
là biết trước, áp dụng giải thuật dựng dàn được thực hiện off-line, kết hợp với việc
duyệt lại tập nhãn một cách thủ công (thêm yếu tố xử lý của con người), vì vậy thích
hợp cho kỹ thuật phân loại kết quả trước tìm kiếm.
3.4. Kết chương
Dưới góc nhìn lý thuyết, Chương 3 trình bày một cách tường minh về phương
pháp hướng ngữ cảnh: tư tưởng, nguyên lý, mô hình, các công thức và các thuật toán,
.v.v. cũng như nêu lên các đề xuất cải thiện kỹ thuật. Dưới góc nhìn thực nghiệm,
việc cài đặt (các biến, cấu trúc dữ liệu, thuật toán, đáp ứng tức thời gợi ý truy vấn, ...)
trở nên hoàn toàn khả thi. Kết quả của thực nghiệm đưa ra 3 dạng gợi ý: Gợi ý truy
vấn, gợi ý tài liệu và gợi ý chủ đề.
Đóng góp chính của chương 3 bao gồm:
1) Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên
sâu áp dụng hướng ngữ cảnh trong miền cơ sở tri thức riêng (dữ liệu hàng
không).
2) Đề xuất độ đo tương đồng tổ hợp trong bài toán gợi ý truy vấn theo
ngữ cảnh nhằm nâng cao chất lượng gợi ý.
Ngoài ra, chương 3 cũng có các đóng góp bổ sung trong thực nghiệm: i) Tích
hợp nhận dạng và tổng hợp tiếng nói tiếng Việt như một tùy chọn vào máy tìm kiếm
để tạo thành một hệ tìm kiếm có tương tác tiếng nói. ii) Áp dụng cấu trúc dàn khái
niệm để phân lớp tập kết quả trả về.
Phương pháp gợi ý truy vấn hướng ngữ cảnh là một nhánh trong bài toán về
máy tìm kiếm, tuy nhiên đây là một vấn đề thiết thực, thu hút sự quan tâm nghiên cứu
93
và rõ ràng là một bài toán khó. Nắm vững nguyên lý, cài đặt hiệu quả phương pháp
hướng ngữ cảnh, là một giải pháp tốt hỗ trợ người sử dụng trong quá trình tìm kiếm
thông tin. Máy tìm kiếm tiếng Việt áp dụng phương pháp hướng ngữ cảnh hứa hẹn
đem đến những kết quả đột biến, thú vị và hiệu quả trong lĩnh vực gợi ý truy vấn.
Việc phát hiện tri thức tiếp tục đặt ra nhiều vấn đề mới vì nội tại Query Logs còn
chứa nhiều tri thức tiềm ẩn, ví dụ như dữ liệu về {IP, query}: phản ánh lịch sử người
dùng (user’s history) có thể khai phá để tìm kiếm cá nhân hóa (personalized search)
hay gợi ý truy vấn cá nhân hóa (personalized query suggestion); Hay như khai phá
dữ liệu cặp {URL, title} để tìm các kết quả liên quan. Hoặc khai phá đồ thị 2 phía để
tìm ra mối quan hệ tài liệu – truy vấn dù tập tài liệu (tập đỉnh U), tập truy vấn (tập
đỉnh Q) không có terms chung: Nếu tập tài liệu D’ thường xuyên được click đọc bởi
tập queries Q’, thì các terms trong Q’ liên quan mạnh đến các terms trong D’. Cũng
như vậy, gợi ý truy vấn và phân loại tập kết quả thực chất là 2 tiến trình riêng biệt,
cần nghiên cứu áp dụng tính toán song song.
94
CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ
Trong phần kết luận, tác giả tóm lược lại các kết quả chính và những đóng góp
của luận án. Ngoài ra, tác giả trình bày một số hạn chế của luận án và thảo luận về
hướng phát triển của các nghiên cứu tiếp theo trong tương lai.
4.1. Kết luận
Áp dụng phân tích khái niệm hình thức (FCA – Formal Concept Analysis) và
cấu trúc dàn khái niệm để khai phá và tìm kiếm dữ liệu văn bản. Dàn là một cấu trúc
đẹp về mặt toán học, thích hợp với khai phá, phân tích và gom cụm dữ liệu, nhưng
dàn không hoàn toàn thích hợp trong lĩnh vực tìm kiếm. Do đó, luận án chuyên sâu
hai hướng nghiên cứu chính: i) Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa, nhằm
mô phỏng khả năng suy ra thông tin/tri thức chưa biết bằng suy diễn tương tự, như
một khả năng “tự nhiên” của con người; và ii) Gợi ý truy vấn hướng ngữ cảnh - xét
chuỗi truy vấn liền mạch nhằm nắm bắt ý định tìm kiếm, sau đó đưa ra xu hướng mà
tri thức số đông thường hỏi sau truy vấn hiện hành.
Đóng góp của luận án gồm:
Với phương pháp Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn, nhằm giải
quyết bài toán thứ nhất:
- Luận án nghiên cứu, xây dựng kỹ thuật tìm kiếm thực thể dựa
trên quan hệ ngữ nghĩa ẩn sử dụng phương pháp phân cụm nhằm nâng
cao hiệu quả tìm kiếm.
Với phương pháp Gợi ý truy vấn Hướng ngữ cảnh, mục đích giải quyết bài
toán thứ hai:
- Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm
chuyên sâu áp dụng hướng ngữ cảnh trong miền cơ sở tri thức riêng (dữ
liệu hàng không).
95
- Đề xuất độ đo tương đồng tổ hợp trong bài toán gợi ý truy vấn
theo ngữ cảnh nhằm nâng cao chất lượng gợi ý.
4.2. Kiến nghị
Với hướng nghiên cứu Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn, có
thể nhận thấy mô hình tìm kiếm bị cứng hóa bởi 3 thực thể đầu vào, đây là một nhược
điểm. Để khắc phục nhược điểm, một mặt - xét thêm các loại ánh xạ quan hệ, thêm
yếu tố thời gian để kết quả tìm kiếm được cập nhật và chính xác. Mặt khác, có thể
mở rộng tìm kiếm thực thể với truy vấn đầu vào chỉ gồm một thực thể, ví dụ: “Sông
nào dài nhất Trung Quốc?”, mô hình tìm kiếm thực thể dựa trên ngữ nghĩa ẩn sẽ đưa
ra được câu trả lời chính xác: “Trường Giang”, dù Corpus chỉ có câu gốc “Trường
Giang là sông lớn nhất Trung Quốc”.
Với hướng nghiên cứu Gợi ý truy vấn dựa trên kỹ thuật hướng ngữ cảnh, một
mặt, nghiên cứu này còn một vài thiếu sót thậm chí là khuyết điểm, như lọc nhiễu âm
thanh đầu vào để cải thiện chất lượng nhận dạng, áp dụng học máy để tối ưu các tham
số α, β, γ trong cách tính độ tương đồng tổ hợp của phương pháp tìm kiếm hướng ngữ
cảnh. Mặt khác, nghiên cứu các biến thể của tương đồng quan hệ RelSim (Relational
Similarity) [100], nghiên cứu các phương pháp kết hợp như Word2Vec, Doc2Vec,
Word embeddings [101] cho máy tìm kiếm. Hướng phát triển, luận án tập trung
vào nghiên cứu các áp dụng các thuật toán thích nghi, các mô hình thống kê, là thành
phần cốt lõi nhất của các hệ thống xử lý ngôn ngữ tự nhiên hiện nay.
96
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
1. Trần Lâm Quân - Vũ Tất Thắng. “Tìm kiếm thực thể dựa trên quan hệ ngữ
nghĩa ẩn”. Hội thảo Quốc gia lần thứ XXI: Một số vấn đề chọn lọc của Công
nghệ Thông tin và Truyền thông. (27-28/07.2018).
2. Trần Lâm Quân - Vũ Tất Thắng. “Search for entities based on the Implicit
Semantic Relations”. Tạp chí Tin học và Điều khiển 2019 (Volume 35,
Number 3. 2019).
3. Trần Lâm Quân - Đỗ Quốc Trường - Phan Đăng Hưng - Đinh Anh Tuấn - Phi
Tùng Lâm - Vũ Tất Thắng - Lương Chi Mai. “A study of applying Vietnamese
voice interaction for a context-based Aviation search engine”. The IEEE RIVF
2013 International Conference on Computing and Communication
Technologies. 10-13.11.2013.
4. Trần Lâm Quân – Vũ Tất Thắng. “Context-aware and voice interactive
search”. (the SoCPaR 2013 special issue). Journal of Network and Innovative
Computing. ISSN 2160-2174 Volume 2, pages 233-239, 2014.
5. Trần Lâm Quân - Phan Đăng Hưng - Vũ Tất Thắng. “Tìm kiếm bằng giọng
nói với kĩ thuật hướng ngữ cảnh”. Tạp chí Khoa học và Công nghệ - Viện Hàn
lâm Khoa học và Công nghệ Việt Nam. ISSN: 0886 768X. Số 52 (1B),
29.06.2014.
6. Trần Lâm Quân - Lê Đức Hiếu - Lê Ngọc Thế - Vũ Tất Thắng. “Một cách tiếp
cận sử dụng cấu trúc dàn khái niệm để khai phá và tìm kiếm dữ liệu văn bản”.
Hội thảo Quốc gia lần thứ XVII: Một số vấn đề chọn lọc của Công nghệ Thông
tin và Truyền thông. 30-31.10.2014.
97
TÀI LIỆU THAM KHẢO
[1]. Christoph Kofler, Martha Larson, Alan Hanjalic, User Intent in Multimedia
Search: A Survey of the State of the Art and Future Challenges. ACM Journals.
Computing Surveys, Vol. 49, No. 2, August 2016.
[2]. R. Song, Z. Luo, J.-Y. Nie, Y. Yu and H.-W. Hon, Identification of ambiguous
queries in web search. Information Processing & Management, 45(2), pages 216–
229, 2009.
[3]. W. Song, Y. Liu, L. Liu et al., Semantic composition of distributed
representations for query subtopic mining. Frontiers Inf Technol Electronic Eng 19,
2018.
[4]. J. Xu, F. Ye, Query Recommendation Using Hybrid Query Relevance. Future
Internet, 2018.
[5]. S. Gaou, A. Bekkari, The Optimization of Search Engines to Improve the Ranking
to Detect User’s Intent. In Advanced Information Technology, Services and Systems.
(AIT2S) 2017.
[6]. Dirk Lewandowski, Jessica Drechsler, Sonja von Mach, Deriving query intents
from web search engine queries. Journal of the American Society for Information
Science and Technology, September 2012.
[7]. Imrattanatrai, Wiradee & Kato, Makoto & Tanaka, Katsumi & Yoshikawa,
Masatoshi, Entity Ranking for Queries with Modifiers Based on Knowledge Bases
and Web Search Results. In IEICE Transactions on Information and Systems, 2018.
[8]. Li, Jing & Sun, Aixin & Han, Ray & Li, Chenliang, A Survey on Deep Learning
for Named Entity Recognition. In IEEE Transactions on Knowledge and Data
Engineering, 2020.
[9]. H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen and H. Li, Towards context-
aware search by learning a very large variable length hidden markov model from
search logs. In Proceedings of the 18th international conference on World wide web,
pages 191–200, April 2009.
[10]. H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen, E and H. Li, Context-aware
query suggestion by mining click-through and session data. In Proceedings of KDD,
pages 875-883, 2008.
98
[11]. Peter D. Turney, The latent relation mapping engine: Algorithm and
experiments. Journal of Artificial Intelligence Research (JAIR), 33, pages 615-655,
2008.
[12]. Dedre Gentner, Structure-mapping: A Theoretical Framework for Analogy.
Elsevier. Cognitive Science, Volume 7, Issue 2, pages 155-170, April–June 1983.
[13]. Peter D. Turney, M.L. Littman, Corpus-based Learning of Analogies and
Semantic Relations. Machine Learning, 60(1–3), pages 251–278, 2005.
[14]. Peter D. Turney, Distributional semantics beyond words: Supervised learning
of analogy and paraphrase. Transactions of the Association for Computational
Linguistics (TACL), 1, pages 353-366, 2013.
[15]. Peter D. Turney and P. Pantel, From frequency to meaning: Vector space models
of semantics. Journal of Artificial Intelligence Research (JAIR), 37, pages 141-188,
2010.
[16]. Peter D. Turney, Similarity of semantic relations. Computational Linguistics,
32(3), 2006.
[17]. Bollegala, Danushka & Matsuo, Yutaka & Ishizuka, Mitsuru, Measuring the
Similarity between Implicit Semantic Relations from the Web. Proceedings of WWW,
pages 651-660, 2009.
[18]. Duc, N., Bollegala et al., Cross-Language Latent Relational Search: Mapping
Knowledge across Languages. In Association for the Advancement of AI, 2011.
[19]. Kato et al., Query by analogical example: relational search using web search
engine indices. In Proceedings of the 18th ACM conference on Information and
knowledge management. ACM, 2009.
[20]. Y.J. Cao et al., Relational Similarity Measure: An Approach Combining
Wikipedia and WordNet. Journal of Applied Mechanics and Materials, 2011.
[21]. E. Agirre, E. Alfonseca, K. Hall, J. Kravalova, M. Pasca and A. Soroa, A study
on similarity and relatedness using distributional and wordnet-based approaches. In
NAACL ’09 Proceedings of Human Language Technologies: The 2009 Annual
Conference of the North American Chapter of the Association for Computational
Linguistics, pages 19–27, 2009.
[22]. Mikolov et al., Distributed Representations of Words and Phrases and their
Compositionality. In Advances in Neural Information Processing Systems 26 (NIPS),
99
2013.
[23]. Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov,
Enriching Word Vectors with Subword Information. Transactions of the Association
for Computational Linguistics, Vol. 5, pages 135-146, 2017.
[24]. Edouard Grave, Piotr Bojanowski, Prakhar Gupta, Armand Joulin, Tomas
Mikolov. Learning Word Vectors for 157 Languages. In LREC (Language Resources
and Evaluation). Feb 19, 2018.
[25]. Tomas Mikolov et al., Efficient Estimation of Word Representations in Vector
Space. In ICLR (Workshop Poster), 2013.
[26]. Kata Gábor, Haïfa Zargayouna, Isabelle Tellier, Davide Buscaldi, Thierry
Charnois, Exploring Vector Spaces for Semantic Relations. In Proceedings of the
2017 Conference on Empirical Methods in Natural Language Processing, pages
1814–1823, 2017.
[27]. Hugo Caselles-Dupré, Florian Lesaint, Jimena Royo-Letelier, Word2vec
applied to recommendation: hyperparameters matter. In Proceedings of the 12th
ACM Conference on Recommender Systems, pages 352–356, September 2018.
[28]. S. Yilmaz, S. Toklu, A deep learning analysis on question classification task
using Word2vec representations. Neural Comput & Applic 32, pages 2909–2928,
2020.
[29]. Prajakta Shinde, Pranjali Joshi, Survey of various query suggestion system,
International Journal of Engineering And Computer Science. ISSN:2319-7242;
Volume 3 Issue 12, pages 9576-9580, December 2014.
[30]. Susan Dumais, Personalized search: potential and pitfalls, In Proceedings of
the 25th ACM International on Conference on Information and Knowledge
Management, October 2016.
[31]. Jinyoung Kim, Jaime Teevan, Nick Craswell, Explicit In Situ User Feedback
for Web Search Results. SIGIR '16: Proceedings of the 39th International ACM
SIGIR conference on Research and Development in Information Retrieval, pages
829–832, July 2016.
[32]. Sørig, Esben; Collignon, Fiebrink and Kando, Evaluation of Rich and Explicit
Feedback for Exploratory Search. In Second Workshop on Evaluation of
Personalisation in Information Retrieval (WEPIR), March, 2019.
100
[33]. Thorsten Joachims et al., Accurately Interpreting Clickthrough Data as Implicit
Feedback. SIGIR, Volume 51, Issue 1, June 2017.
[34]. Edward Rolando Núñez-Valdéz et al., Implicit feedback techniques on
recommender systems applied to electronic books. Computers in Human Behavior.
Volume 28, Issue 4, ScienceDirect, 2012.
[35]. Gai Li and Qiang Che, Exploiting Explicit and Implicit Feedback for
Personalized Ranking. Hindawi Publishing Corporation - Mathematical Problems in
Engineering, Article ID 2535329, 11 pages, 2016.
[36]. Keping Bi, Choon Hui Teo, Yesh Dattatreya, Vijai Mohan, W. Bruce Croft.
Leverage Implicit Feedback for Context-aware Product Search. In SIGIR 2019
eCom, Paris, France, July 2019.
[37]. W. Chen, F. Cai, H. Chen, M. De Rijke, Personalized query suggestion
diversification. In Proceedings of the 40th International ACM SIGIR Conference on
Research and Development in Information Retrieval, pages 817–820, 2017.
[38]. W. Chen, F. Cai, H. Chen et al., Personalized query suggestion diversification
in information retrieval. Springer Link, Front. Comput. Sci. 14, 143602, 19
December 2019.
[39]. C. Bouhini, M. Géry and C. Largeron, Personalized information retrieval
models integrating the user's profile. IEEE Tenth International Conference on
Research Challenges in Information Science (RCIS), Grenoble, pages 1-9, 2016.
[40]. Hiteshwar Kumar Azad, Akshay Deepak, A new approach for query expansion
using Wikipedia and WordNet. Elsevier, Information Sciences. Volume 492, pages
147-163, August 2019.
[41]. Hiteshwar Kumar Azad, Akshay Deepak. Query expansion techniques for
information retrieval: A survey. Elsevier. Information Processing & Management.
Volume 56, Issue 5, pages 1698-1735, September 2019.
[42]. Claveau, Vincent, Kijak, Ewa, Distributional thesauri for information retrieval
and vice versa. In Language and Resource Conference, LREC, 2016.
[43]. Q. Chen, L. Yao and J. Yang, Short text classification based on LDA topic
model. International Conference on Audio, Language and Image Processing
(ICALIP), Shanghai, pages 749-753, 2016.
[44]. J. Xu, F. Ye, Query Recommendation Using Hybrid Query Relevance. Future
101
Internet Journals. Volume 10, Issue 11, 2018.
[45]. Wanyu Chen, Fei Cai, Honghui Chen, Maarten de Rijke, Personalized Query
Suggestion Diversification. In Proceedings of the 40th International ACM SIGIR
Conference on Research and Development in Information Retrieval, pages 817–820,
August 2017.
[46]. Choudhary, Durga & Chandra, Subhash, Adaptive Query Recommendation
Techniques for Log Files Mining to Analysis User’s Session Pattern. In International
Journal of Computer Applications, 2016.
[47]. J. Guo, X. Zhu, Y. Lan et al., Modeling users’ search sessions for high utility
query recommendation. Information Retrieval Journal 20, 2017.
[48]. Lingling Meng, A Survey on Query Suggestion. International Journal of Hybrid
Information Technology. Vol. 7, No. 6, 2014.
[49]. Bai, Lu, Jiafeng Guo, Xueqi Cheng, Xiubo Geng and Pan Du, Exploring the
Query-Flow Graph with a Mixture Model for Query Recommendation. SIGIR
Workshop on Query Representation and Understanding, July 2011.
[50]. P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis and S. Vigna, The query-
flow graph: model and applications. In Proceeding of the 17th ACM conference on
Information and knowledge management (CIKM’08), pages 609–618, 2008.
[51]. P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis and S. Vigna, Query
Suggestions Using Query-Flow Graphs. In Proceedings of the 2009 workshop on
Web Search Click Data (WSCD ’09), pages 56–63, Feb 9, 2009.
[52]. Xinbao Shao, Qingshan Li, Yishuai Lin, Boyu Zhou, A meta-search group
recommendation mechanism based on user intent identification. In Proceedings of
the 6th International Conference on Software and Computer Applications (ICSCA
'17), pages 102–106, February 2017.
[53]. E. Sadikov, J. Madhavan, L.Wang and A. Halevy, Clustering query refinements
by user intent. In Proceedings of the International World Wide Web Conference
(WWW’10), pages 841–850, 2010.
[54]. Saxena et al., A Review of Clustering Techniques and Developments. Article in
Neurocomputing, July 2017.
[55]. T. Sajana, C. M. Sheela Rani and K. V. Narayana, A Survey on Clustering
Techniques for Big Data Mining. Indian Journal of Science and Technology, Vol
102
9(3), January 2016.
[56]. Parth Ritin Saraiya et al., Study of Clustering Techniques in the Data Mining
Domain. In International Journal of Computer Science and Mobile Computing, Vol.7
Issue.11, pages 31-37, November 2018.
[57]. K. Sathiyakumari, G. Manimekalai, V. Preamsudha and M. P. Scholar, A survey
on various approaches in document clustering. Int. J. Comput. Technol, pages 1534–
1539, 2011.
[58]. Manpreet Kaur, Usvir Kaur, A Survey on Clustering Principles with K-means
Clustering Algorithm Using Different Methods in Detail. IJCSMC, Vol. 2, Issue. 5,
pages 327 – 331, May 2013.
[59]. Gursharan Saini, Harpreet Kaur, K-Mean Clustering and PSO: A Review.
International Journal of Engineering and Advanced Technology (IJEAT). ISSN: 2249
– 8958, Volume-3, Issue-5, June 2014.
[60]. Hamada M. Zahera, Gamal F. El Hady, F. Waiel, Abd El-Wahed, Query
Recommendation for Improving Search Engine Results. In Proceedings of the World
Congress on Engineering and Computer Science (WCECS), October 20-22, 2010.
[61]. Naeem, Arshia; Rehman, Mariam; Anjum, Maria; Asif, Muhammad,
Development of an efficient hierarchical clustering analysis using an agglomerative
clustering algorithm. Current Science (00113891), Vol. 117 Issue 6, pages 1045-
1053, 9/25/2019.
[62]. Dhiliphanrajkumar Thambidurai, Suruliandi Aandavar and Selvaperumal
Prakasam. Query Recommendation by Coupling Personalization with Clustering for
Search Engine. I.J. Information Technology and Computer Science, pages 82-91,
11/2016.
[63]. W. Wu, H. Li, and J. Xu, Learning query and document similarities from click-
through bipartite graph with metadata. In Proceedings of the Sixth ACM
International Conference on Web Search and Data Mining, 2013.
[64]. L. Noce, I. Gallo and Zamberletti, A. Query and Product Suggestion for Price
Comparison Search Engines based on Query-product Click-through Bipartite
Graphs. In Proceedings of the 12th International Conference on Web Information
Systems and Technologies (WEBIST 2016) - Volume 1, pages 17-24, 2016.
103
[65]. Sébastien Harispe, Sylvie Ranwez, Stefan Janaqi, and Jacky Montmain,
Semantic Similarity from Natural Language and Ontology Analysis. Synthesis
Lectures on Human Language Technologies, Vol. 8, No. 1. (Arxiv, 167 pages), May
2015.
[66]. Slimani, Thabet, Description and Evaluation of Semantic Similarity Measures
Approaches. International Journal of Computer Applications. Vol 80. 25-33.
10.5120/13897-1851, 2013.
[67]. Christoph Lofi, Measuring Semantic Similarity and Relatedness with
Distributional and Knowledge-based Approaches. Information and Media
Technologies, Volume 10, Issue 3. Online ISSN 1881-0896, pages 493-501,
September 15, 2015.
[68]. N. Craswell, Mean Reciprocal Rank. In Encyclopedia of Database Systems.
Springer, Boston, MA, 2009.
[69]. Yao, Yuan et al., DocRED: A Large-Scale Document-Level Relation Extraction
Dataset. ACL (Association for Computational Linguistics), 2019.
[70]. Michele Banko and Oren Etzioni, The Tradeoffs Between Open and Traditional
Relation Extraction. In Proceedings of the 46th Annual Meeting of the Association
for Computational Linguistics, ACL 2008, Columbus, Ohio, USA, pages 28-36,
2008.
[71]. Yun Liu, Mingxin Li, Hui Liu, Junjun Cheng, Yanping Fu, Research of
Unsupervised Entity Relation Extraction. Journal of Computers Vol. 30 No. 1, pages
31-41, 2019.
[72]. Bollegala et al., Relational Duality: Unsupervised Extraction of Semantic
Relations between Entities on the Web. In Proceedings of the 19th International
Conference on World Wide Web, WWW 2010, pages 151-160, Raleigh, North
Carolina, USA, 2010.
[73]. Parapar, Javier & Losada, David & Presedo-Quindimil, Manuel & Barreiro,
Alvaro. Using score distributions to compare statistical significance tests for
information retrieval evaluation. Journal of the Association for Information Science
and Technology. 71. (10.1002/asi.24203), 2019.
[74]. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze,
Introduction to Information Retrieval. Cambridge University Press, 2008.
104
[75]. W. Chen, F. Cai, H. Chen et al., Personalized query suggestion diversification
in information retrieval. Front. Comput. Sci. 14, 143602, 2020.
[76]. Trần Lâm Quân, Vũ Tất Thắng, Kỹ thuật gợi ý truy vấn hướng ngữ cảnh trong
bài toán tìm kiếm. Hội thảo Quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công
nghệ Thông tin và Truyền thông, 03-04.12.2012.
[77]. Z. Liao, D. Jiang, E. Chen, P. Pei, H. Cao, H. Li, Mining Concept Sequences
from Large-Scale Search Logs for Context-Aware Query Suggestion. ACM Trans.
Intell. Syst. Technol. 9, 4, Article 87, 40 pages, 2011.
[78]. T. Ruotsalo, G. Jacucci & S. Kaski, Interactive faceted query suggestion for
exploratory search: Whole-session effectiveness and interaction engagement. Journal
of the Association for Information Science and Technology, 2019.
[79]. Souvick Ghosh, Chirag Shah, Session-based Search Behavior in Naturalistic
Settings for Learning-related Tasks. In CIKM '19: Proceedings of the 28th ACM
International Conference on Information and Knowledge Management, pages 2449–
2452, November 2019.
[80]. Sowmya Yalamanchili (IBM), Log mining in Query recommendation.
International Journal of Information Technology & Systems, Vol. 4; No. 1: ISSN:
2277-9825, 2015.
[81]. X. Fei, S. Zheng, L. Yan and C. Fan, A improved sequential pattern mining
algorithm based on PrefixSpan. World Automation Congress (WAC), Rio Grande,
2016.
[82]. Zhengshen Jiang, Hongzhi Liu, Bin Fu, Zhonghai Wu, Tao Zhang,
Recommendation in Heterogeneous Information Networks based on Generalized
Random Walk Model and Bayesian Personalized Ranking. In Proceedings of the
Eleventh ACM International Conference on Web Search and Data Mining (WSDM
'18), pages 288–296, February 2018.
[83]. Gao, J., et al., Smoothing clickthrough data for web search ranking. SIGIR'09,
pages 355-362, 2009.
[84]. C Rasell and M. Szummer, Random walks on the click graph. In Proceedings of
the 30th annual international ACM SIGIR conference on Research and development
in information retrieval(SIGIR’07), pages 239-246, 2007.
[85]. M. Shajalal, M. Z. Ullah, A. N. Chy and M. Aono, Query subtopic
105
diversification based on cluster ranking and semantic features. International
Conference On Advanced Informatics: Concepts, Theory And Application
(ICAICTA), George Town, pages 1-6, 2016.
[86]. Xiaofei, Zhu., et al., A unified framework for recommending diverse and
relevant queries. In Proceedings of the 20th international conference on World wide
web (WWW '11), pages 37–46, March 2011.
[87]. Wanyu Chen, Fei Cai, Honghui Chen, Maarten de Rijke, Personalized Query
Suggestion Diversification. In Proceedings of the 40th International ACM SIGIR
Conference on Research and Development in Information Retrieval (SIGIR '17),
pages 817–820, August 2017.
[88]. Claudio Carpineto, Sergei O. Kuznetsov, Amedeo Napoli, Formal Concept
Analysis Meets Information Retrieval. Workshop co-located with the 35th European
Conference on Information Retrieval (ECIR), 2013.
[89]. Frano Škopljanac-Mačina, Bruno Blašković, Formal Concept Analysis –
Overview and Applications, ScienceDirect, 24th DAAAM International Symposium
on Intelligent Manufacturing and Automation, 2013.
[90]. Larry González, Aidan Hogan, Modelling Dynamics in Semantic Web
Knowledge Graphs with Formal Concept Analysis. In Proceedings of the 2018 World
Wide Web Conference (WWW '18), pages 1175–1184, April 2018.
[91]. A. Abid, M. Rouached & N. Messai, Semantic web service composition using
semantic similarity measures and formal concept analysis. Multimed Tools Appl 79,
6569–6597, Dec 2019.
[92]. Claudio Carpineto and Giovanni Romano, Using Concept Lattices for Text
Retrieval and Mining. In Formal Concept Analysis, pages 161-179, 2005.
[93]. Singh, Prem & Cherukuri, Aswani Kumar, Concept lattice reduction using
different subset of attributes as information granules. In Granular Computing.
Springer International Publishing Switzerland. 2016.
[94]. Bernhard Ganter, Sebastian Rudolph, Gerd Stumme, Explaining Data with
Formal Concept Analysis, Springer International Publishing, 2019.
[95]. Nizar Messai, Marie-Dominique Devignes, Amedeo Napoli, and Malika Smail-
Tabbone, BR-Explorer: An FCA-based algorithm for Information Retrieval. Fourth
International Conference, CLA, 2006.
106
[96]. Ganter, Wille, Formal Concept Analysis: Mathematical Foundations. Springer-
Verlag, Berlin Heidelberg New York, 1999.
[97]. D.G. Kourie, S. Obiedkov, B.W. Watson, D. Van der Merwe, An incremental
algorithm to construct a lattice of set intersections. Sci. Comput. Programm 74, pages
128–142, 2009.
[98]. Trần Lâm Quân, Tìm kiếm thế hệ mới: Tìm kiếm thông minh lai. Chuyên san
ngành Hàng không Việt Nam, 2011.
[99]. Trần Lâm Quân, Vũ Tất Thắng, An Approach Using Concept Lattice Structure
for Data Mining and Information Retrieval. Journal of Science and Technology: Issue
on Information and Communication Technology, Vol. 1, No.1, August 2015.
[100]. Wang, Chenguang et al., RelSim: Relation Similarity Search in Schema-Rich
Heterogeneous Information Networks. In Proceedings of the 2016 SIAM
International Conference on Data Mining (SDM), 2016.
[101]. Kata Gábor, Haïfa Zargayouna, Isabelle Tellier, Davide Buscaldi, Thierry
Charnois, Exploring Vector Spaces for Semantic Relations. In Proceedings of the
2017 Conference on Empirical Methods in Natural Language Processing, pages
1814–1823, September 7–11, 2017.