Luận án Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh

Từ định nghĩa về khái niệm hình thức, FCA xét mỗi khái niệm trong dàn là một cặp (câu trả lời, truy vấn). Câu truy vấn tương ứng với intent, câu trả lời tương ứng extent của khái niệm. Mở rộng, mối quan hệ giữa các truy vấn có thể xem như mối quan hệ giữa các khái niệm trên dàn. Khi tìm kiếm, hệ thống sẽ phân tích câu truy vấn, tìm ra các khái niệm hình thức (terms), duyệt dàn và so khớp với các khái niệm thuộc dàn. Cốt lõi của việc duyệt dàn trên thực tế nằm ở hàm AddIntent. Có thể nói AddIntent là hàm “xương sống” của hai tiến trình tạo dàn và tìm kiếm trên dàn. Tư tưởng của giải thuật duyệt và tìm kiểm trên dàn (BR-Explorer [95]) như sau: Sử dụng hàm AddIntent để đưa câu truy vấn (intent) vào dàn (nhằm thỏa quan hệ thứ tự ≤). Tiến hành tìm khái niệm trụ (Locate_Pivot) ứng với intent của câu truy vấn. Cuối cùng tập kết quả gồm các tài liệu trong khái niệm trụ và các tài liệu trong các khái niệm cha của khái niệm trụ là tập kết quả cần tìm. Kết quả tìm được sẽ được xếp hạng, những kết quả đầu chứa tất cả các thuật ngữ cần tìm, các kết quả phía sau chứa một phần các thuật ngữ trong yêu cầu tìm kiếm, theo số lượng giảm dần.

117 trang | Chia sẻ: tueminh09 | Ngày: 25/01/2022 | Lượt xem: 499 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ddIntent sẽ thêm dần các tài liệu 1, 2, i, i+1, , N vào dàn Li, Li+1, L. 78  Thủ tục tạo dàn CreateLatticeIncrementall Đầu vào: - Tập dữ liệu mẫu (G, M, I); Đầu ra: - Dàn L; Giải thuật: Program CreateLatticeIncrementally_alg 01: CreateLatticeIncrementally(G, M, I) 02: BottomConcept := (Ø, M) 03: L := {BottomConcept} 04: For each g in G 05: ObjConcept = AddIntent(g’, BottomConcept, L) 06: Add g to the extent of ObjConcept and all concepts above 07: End For End Diễn giải giải thuật: Thủ tục CreateLatticeIncrementally(G, M, I) nhận vào toàn bộ tập dữ liệu mẫu (tập đối tượng G gồm các files, tập thuộc tính M gồm các terms trong files, và tương quan I thuộc G, M). AddIntent là giải thuật theo hướng Bottom-Up, được khởi gán bằng {0, M}. Nói cách khác, khái niệm BottomConcept chứa toàn bộ terms của dàn L (dòng 02). Tiến trình bắt đầu với việc cập nhật khái niệm BottomConcept vào đáy của dàn (dòng 03). Với mỗi đối tượng g thuộc tập đối tượng G (với mỗi file thuộc tập files), thủ tục gọi hàm AddIntent để thêm dần các khái niệm vào dàn khái niệm, truyền vào AddIntent ba tham biến: g’ (intent, tập terms trong một file), khái niệm BottomConcept (tập terms trong các files) và dàn L (dòng 04, 05). Trong thân thủ tục, hàm AddIntent tạo khái niệm (và các nối kết ràng buộc với khái niệm khác), vòng lặp For .. End For của thủ tục lần lượt lấy từng khái niệm của tập khái niệm được tạo - để cập nhật vào Extent, dòng 06. Thủ tục kết thúc là dàn được tạo xong. Độ phức tạp tính toán: Thực tế, khi các concepts trong dàn tăng lên với tốc độ của hàm mũ, đòi hỏi thời gian tính của CPU, các giải thuật tạo dàn đều cố gắng tiệm cận đến độ phức tạp tính toán có thời gian đa thức. Với giải thuật AddIntent, thời gian của giải thuật được 79 tính toán trong trường hợp tốt nhất được đánh giá bằng O(|L||G|2max(|g’|)). Trong đó L là dàn khái niệm, G là tập đối tượng của L, max(g’) là số thuộc tính lớn nhất của một concept trong L.  Duyệt dàn Từ định nghĩa về khái niệm hình thức, FCA xét mỗi khái niệm trong dàn là một cặp (câu trả lời, truy vấn). Câu truy vấn tương ứng với intent, câu trả lời tương ứng extent của khái niệm. Mở rộng, mối quan hệ giữa các truy vấn có thể xem như mối quan hệ giữa các khái niệm trên dàn. Khi tìm kiếm, hệ thống sẽ phân tích câu truy vấn, tìm ra các khái niệm hình thức (terms), duyệt dàn và so khớp với các khái niệm thuộc dàn. Cốt lõi của việc duyệt dàn trên thực tế nằm ở hàm AddIntent. Có thể nói AddIntent là hàm “xương sống” của hai tiến trình tạo dàn và tìm kiếm trên dàn. Tư tưởng của giải thuật duyệt và tìm kiểm trên dàn (BR-Explorer [95]) như sau: Sử dụng hàm AddIntent để đưa câu truy vấn (intent) vào dàn (nhằm thỏa quan hệ thứ tự ≤). Tiến hành tìm khái niệm trụ (Locate_Pivot) ứng với intent của câu truy vấn. Cuối cùng tập kết quả gồm các tài liệu trong khái niệm trụ và các tài liệu trong các khái niệm cha của khái niệm trụ là tập kết quả cần tìm. Kết quả tìm được sẽ được xếp hạng, những kết quả đầu chứa tất cả các thuật ngữ cần tìm, các kết quả phía sau chứa một phần các thuật ngữ trong yêu cầu tìm kiếm, theo số lượng giảm dần.  Hàm BR-Explorer 01: Insert Q into B(G, M, I) via AddIntent function. 02: P = ({x}″,{x}′) := Locate Pivot(B(GQ,MQ,IQ),Q) 03: n := 1 /* n is the level in B(GQ,MQ,IQ) from P */ 04: SUBSn-1 := {P} 05: rank := 1 06: if {x}″ ≠ {x}′ then 07: Rrank := {x}″ \ {x}′ 08: Robjects := (rank,Rrank) 09: rank := rank + 1 10: end if 11: while SUBSn-1 ≠ Ø do 12: SUBSn := upper-covers(SUBSn-1) 13: Rrank := Ø 14: for all C = (A,B) ∈ SUBSn such that B ≠ Ø do 15: Rrank := Rrank ∪ A 16: end for 80 17: EmergingObjects := Rrank \ ({x}∪R1,R2,...,Rrank-1) 18: Robjects := Robjects ∪ (rank, EmergingObjects) 19: n := n + 1 20: rank := rank + 1 21: end while Diễn giải giải thuật: Dòng đầu tiên của giải thuật (dòng 01) thực hiện việc đưa truy vấn Q (yêu cầu từ phía người dùng) vào dàn nhằm so khớp khái niệm. Dàn biến đổi thành “dàn mới”, ký hiệu là B(GQ,MQ,IQ). Dàn này được tạo thành từ dàn ban đầu hợp thêm truy vấn Q. Sau khi gọi hàm Locate_Pivot, kết quả trả về là một khái niệm, khái niệm này hoặc thuộc tập phủ trên upper-covers (tìm thấy) hoặc thuộc BottomConcept (không tìm thấy). Nếu tìm thấy, giải thuật thực hiện phân hạng kết quả trả về, biến Robjects lưu việc phân hạng (dòng 8-18). Việc phân hạng kết quả thực hiện xét tập SUBS, khởi gán SUBS0={P} (dòng 4), Tại bước này nếu {x}″≠ {x}′ thì tập đối tượng trong {x}″\{x}′ được thêm vào Robjects với thứ hạng tương ứng (dòng 6-10). Giải thuật thực hiện vòng lặp các bước kế tiếp, SUBS1=upper-cover(SUBS0), SUBS2=upper- cover(SUBS1), đến SUBSn. Tại bước thứ i, nếu khái niệm ⊤ xuất hiện trong SUBSi và nếu intent của ⊤ là rỗng thì các đối tượng trong extent của ⊤ được bỏ qua. Trong trong quá trình duyệt dàn và tìm tập phủ trên, cặp (rank, set of objects) được lưu vào biến kết quả Robjects. Trong giải thuật BR-Explorer, đoạn giả mã (hàm Locate_Pivot) xác định tập phủ trên (tập chủ đề):  Hàm Locate_Pivot Đầu vào: - Dàn L; khái niệm biểu diễn cho truy vấn Đầu ra: - Locate_Pivot chứa các upper-cover Giải thuật: Program Locate_Pivot_alg 01: found := false /* ⊥ is the BottomConcept in B(Gq,Mq,Iq) */ 02: SUBS := {⊥} 03: while !found do 81 04: for each C = (A,B) ∈ SUBS do 05: if x’ = B then 06: Pivot P := C 07: found := true 08: break 09: else if x′ ⊂ B then 10: SUBS := upper-cover(SUBS) 11: break 12: end if 13: end for 14: end while End Diễn giải giải thuật: Tương ứng với truy vấn q (câu truy vấn được đưa vào từ phía người dùng, hàm Locate_Pivot sẽ:  Trả về BottomConcept nếu không tìm thấy.  Trả về một khái niệm (khái niệm này nằm trong tập phủ trên upper-cover của các khái niệm có intent (tập terms) chứa hoặc bằng tập terms của truy vấn q (dòng 04-13). Quá trình duyệt dàn, tập phủ trên (biến upper cover của hàm Locate_Pivot) chứa các nhãn, các nhãn này mô tả chủ đề các phân lớp thuộc tập kết quả tìm kiếm. Độ phức tạp tính toán: Thực chất, hàm BR-Explorer thực hiện duyệt, tìm kiếm trên dàn bằng cách hợp câu truy vấn vào dàn, lúc này dàn biến đổi thành một dàn “mới”, 2 vòng lặp while và for cho biết cận trên độ phức tạp tính toán của thủ tục duyệt dàn là O(n2). e) Phân tích Lĩnh vực khai phá dữ liệu đã có nhiều kỹ thuật được nghiên cứu và ứng dụng, dàn khái niệm và FCA là một trong những kỹ thuật như vậy, áp dụng trong phân tích dữ liệu văn bản. Phần đánh giá, thảo luận này trình bày ưu nhược điểm của dàn khái niệm. Ưu điểm:  Hình minh họa 3.11 cho thấy dàn khái niệm thích hợp với kỹ thuật gom cụm (theo các chủ đề), phân lớp các khái niệm. 82  Mối quan hệ khái niệm cha - khái niệm con của cấu trúc dàn thỏa quan hệ thứ tự ≺ , người tìm kiếm có thể khai thác thông tin tại các node lân cận thuộc dàn mà không mất thời gian tìm kiếm lại trên toàn tập cơ sở dữ liệu văn bản lớn. Nhược điểm:  Trong ứng dụng tìm kiếm thông tin, khi câu truy vấn được đưa vào dàn, phải gọi lớp hàm như AddIntent. AddIntent thực hiện đệ qui, dẫn đến tăng đáng kể thời gian tìm kiếm. Ngoài việc duyệt dàn để tìm ra các khái niệm, các hàm tìm kiếm trên dàn như BR-Explorer có nhược điểm về thời gian tính, nội hàm gọi các hàm khác (để tính toán lan truyền trên dàn) và phải đệ qui (khi thêm câu truy vấn vào dàn thông qua AddIntent).  Trên thực tế, các áp dụng trong lĩnh vực tìm kiếm thông tin của dàn khái niệm ( được biết đến và như chính các trang này nhìn nhận [92], [93], là những ứng dụng Meta - Search Engine chỉ lấy về khoảng 10 trang đầu kết quả của máy tìm kiếm khác (Yahoo, Bing. Google), những kết quả này là những xâu ký tự, những đoạn trích sơ lược có chứa từ khóa (snippets). Dựa trên tập kết quả sơ lược này, thực hiện dựng dàn và xuất lại kết quả theo định dạng dàn. Các áp dụng này không hẳn là một Search Engine truyền thống và toàn văn, có thể đáp ứng việc tìm kiếm.  Các khái niệm trên dàn mang theo tập thuộc tính intent (tập terms), trường hợp tập dữ liệu mẫu là lớn dẫn đến tập khái niệm cũng rất lớn [94], [95], [97]. Trong một thực nghiệm khác, khi khảo sát giải thuật tạo dàn chỉ với 30 tài liệu, mỗi tài liệu khoảng 20 Kbytes, thực nghiệm gặp 885541 concepts. Để giảm số khái niệm, có thể dựng những dàn cục bộ thay vì dàn đầy đủ, tuy nhiên cách thức này làm mất đi mối liên hệ giữa các khái niệm trong dàn, hay phải ứng dụng trên một môi trường tính toán hiệu năng cao với nhiều nodes xử lý cấu hình mạnh. Khi cài đặt thực nghiệm trên dữ liệu mẫu là các tài liệu về chuyến bay [98], [99], tập dữ liệu mẫu gồm 118 văn bản, mỗi tài liệu lấy 50 từ/cụm từ xuất hiện nhiều nhất (loại bỏ từ dừng), tập khái niệm thu được xấp xỉ 250000 khái niệm. Việc xây dựng dàn được tính toán offline, vì thế khi tìm kiếm sẽ không cần phải dựng lại dàn. Việc dựng dàn được thực hiện không thường xuyên. 83 Hình 3.12: Tìm kiếm trên dàn. Chương trình demo viết bằng C# trên nền ASP.NET, sử dụng hệ SQL Server để lưu trữ cấu trúc dàn. Hình 3.12 minh họa việc duyệt và tìm kiếm trên dàn tương ứng với câu truy vấn “Hãng hàng không (HK) nào bay đến US, Europe, Canada, Mexico và Carribean ?”. Trong thực nghiệm máy tìm kiếm hướng ngữ cảnh (một tập mẫu khác, mục 3.4.1), các thủ tục tạo dàn và duyệt dàn được áp dụng: Trên tập dữ liệu mẫu phụ thuộc miền (hàng không), tên và các tag meta mô tả tài liệu được thu thập, thực nghiệm ứng dụng phương pháp dàn khái niệm để phân lớp các kết quả tìm kiếm. Trên tập mẫu khá nhỏ này, việc dựng dàn và duyệt dàn được thực hiện offline, mục đích nhận được tập chứa các nhãn (biến upper cover), các nhãn này mô tả chủ đề các phân lớp của các tài liệu chuyên ngành. Dàn có một nền tảng toán học, các nguyên lý đa dạng, là một cấu trúc đẹp. Để cung cấp một góc nhìn nghiên cứu, luận án trình bày về lý thuyết dàn: cách tạo, duyệt và phân loại, hiển thị kết quả tìm kiếm trên dàn, phân tích ưu nhược điểm của cấu trúc dàn. Tuy nhiên thực nghiệm cho thấy dàn thích hợp với khai phá, phân lớp và gom cụm dữ liệu thuộc bước hậu xử lý của quá trình tìm kiếm, không hoàn toàn thích hợp trong ứng dụng như một máy tìm kiếm hướng tổng quát hoặc chuyên sâu. Ngoài ra, cấu trúc dàn thích hợp với các kỹ thuật làm mịn truy vấn (query refinement) [92], [93]. Ở một cách tiếp cận, cấu trúc dàn có thể xếp hạng kết quả từ 84 cao xuống thấp theo độ tương thích. Do đó, ngoài khả năng phân lớp theo chủ đề tập kết quả tìm kiếm khi kết hợp cấu trúc dàn với kỹ thuật hướng ngữ cảnh, có thể áp dụng cấu trúc dàn trong các bài toán gợi ý, như gợi ý tài liệu. Tóm lại, về gợi ý truy vấn, xoay quanh hạt nhân là Qlogs, mục các nghiên cứu liên quan trong đã khái quát các kỹ thuật chủ yếu áp dụng trong Query Suggestion. Lý thuyết liên quan đến Gợi ý truy vấn chia thành 2 lớp kỹ thuật chính: Session-based và Cluster-based. Kỹ thuật dựa trên Session (Phiên tìm kiếm) khai phá chuỗi liên tục các câu truy vấn để tìm các truy vấn luôn đồng hiện. Kỹ thuật dựa trên cluster nhằm gom các truy vấn tương tự nhau (theo độ đo tương đồng), từ đó đưa ra gợi ý truy vấn. Các kỹ thuật khác xoay quanh câu truy vấn có thể kể đến như: Kỹ thuật Mở rộng truy vấn Query Expansion (vdụ: NY Times  New York Times) sử dụng các phương thức: thesaury, luật kết hợp, Query Relation Graph, .v.v.; Kỹ thuật Làm mịn/sàng lọc, thay thế truy vấn, Viết lại truy vấn Query Refinement, Query Substitution, Rewriting Query (vdụ: machin learn  machine learning), thực hiện stemming, acronym, sử dụng các phương thức: Maximum Entropy Model, .v.v. không đề cập trong khuôn khổ Chương 3. 3.3. Kết quả thực nghiệm - Đánh giá Hình 3.13: Mô hình hệ thống thực nghiệm kỹ thuật tìm kiếm hướng ngữ cảnh 85 Từ những phân tích trên, Chương 3 nghiên cứu và ứng dụng để xây dựng một máy tìm kiếm hướng ngữ cảnh. Đồng thời nghiên cứu, tích hợp vào máy tìm kiếm hướng ngữ cảnh các tùy chọn truy vấn và trả lời bằng tiếng nói để hình thành một Voice search. 3.3.1. Data-set Thế giới số là một không gian rất rộng, gần như không có bộ máy tìm kiếm nào đủ phổ quát, vạn năng để đáp ứng mọi yêu cầu tìm kiếm. Vì vậy, thay vì xây dựng máy tìm kiếm tổng quát, luận án hướng đến việc xây dựng máy tìm kiếm chuyên sâu, khai phá sâu hơn về dữ liệu cũng như hành vi tìm kiếm của người dùng [76]. Ứng dụng máy tìm kiếm chuyên sâu khác với máy tìm kiếm tổng quát ở 3 điểm: Dữ liệu đầu vào là dữ liệu chuyên ngành, gợi ý truy vấn với các kỹ thuật riêng (hệ công thức riêng) trên Query Logs đặc thù, cũng như phân nhóm kết quả trả về, hình thành nên một máy tìm kiếm khác với các máy tìm kiếm tổng quát. Việc bổ sung thêm nhận dạng, tổng hợp tiếng nói vào máy tìm kiếm hình thành nên một máy tìm kiếm hướng ngữ cảnh có tương tác giọng nói [34], [76]. Tập dữ liệu mẫu áp dụng trong thử nghiệm được thực hiện trên một phần của tập dữ liệu gốc với khoảng 20000 tài liệu lĩnh vực Hàng không, thuộc các định dạng phổ biến: html, pdf, doc, xls, txt, .v.v, mỗi tài liệu có độ dài biến đổi từ 1 đến 4500 trang A4. Trong khuôn khổ Chương 3, nghiên cứu trích chọn 50 truy vấn từ Query Logs làm dữ liệu thử nghiệm (test cases), theo [73], [74], một bộ 50 truy vấn được coi là đủ lớn để đánh giá một hệ thống truy xuất, tìm kiếm thông tin. Việc trích chọn nhằm tránh những câu truy vấn quá phổ biến (không hữu ích) như “hàng không”, “máy bay”, .v.v. Trích xuất ngẫu nhiên 400 phiên tìm kiếm làm dữ liệu huấn luyện - đây là những phiên tìm kiếm từ người dùng thực trong hoạt động tác nghiệp hàng ngày. 3.3.2. Đánh giá, so sánh  Các phương pháp so sánh: Để đánh giá hiệu quả của phương pháp hướng ngữ cảnh, luận án lập bảng đối sánh giữa máy tìm kiếm áp dụng hướng ngữ cảnh và máy tìm kiếm thông dụng Lucene (Nutch), đồng thời so sánh kỹ thuật gợi ý truy vấn với hai phương pháp baselines: Adjacency và N-Gram. Tiêu chí so sánh dựa vào: o Tính thích đáng (quality - độ đo chất lượng) và 86 o Tính đa dạng (coverage - độ phủ) của tập gợi ý truy vấn.  Bảng so sánh Bảng 3.3: Bảng so sánh tìm kiếm hướng ngữ cảnh và Lucene-Nutch Lucene - Nutch SE hướng ngữ cảnh Tập dữ liệu mẫu Chung tập dữ liệu Thời gian tìm kiếm milliseconds milliseconds, thực nghiệm sử dụng hàm Datediff tính khoảng cách giữa 2 thời điểm t1: câu truy vấn gửi đi và t2: SE trả về tập kết quả) Xếp hạng kết quả (ranking) Có Có Tính thực tiễn Thông dụng Áp dụng trên mạng Hàng không VN Khả năng gợi ý nhanh Không Có Phân loại tập kết quả trả về Không Có Gợi ý truy vấn Không Có  Tiêu chí so sánh Độ đo chất lượng phản ánh đúng đắn nhu cầu thông tin đồng thời giúp người sử dụng tìm được những gì họ quan tâm. Độ phủ phản ánh tính đa dạng, bao phủ nhiều khía cạnh tìm kiếm khác nhau. Để thực hiện đánh giá, luận án so sánh kỹ thuật gợi ý hướng ngữ cảnh với 2 phương pháp baselines: Adjacency và N-Gram. Phương pháp Adjacency khái quát như sau: nhận vào chuỗi truy vấn q1, q2, .., qi - trên tất cả các phiên tìm kiếm - Adjacency xếp hạng theo tần suất xuất hiện các truy vấn ngay sau một truy vấn qi. Sau đó kết xuất topN (N = 5) truy vấn có tần suất xuất hiện cao nhất như danh sách gợi ý. Tương tự, phương pháp N-Gram nhận đầu vào là chuỗi query sequence qs = q1, q2, .., qi. Trên các phiên tìm kiếm, N-Gram thực hiện xếp hạng theo tần suất xuất hiện các truy vấn ngay sau chuỗi qs, trả về topN truy vấn có tần suất xuất hiện cao nhất như danh sách gợi ý. 87 Hình 3.14: (a): Độ đo tính đa dạng; (b): Độ đo tính thích đáng. Độ phủ được đo bằng tỷ lệ số test cases có khả năng đưa ra gợi ý truy vấn trên tổng số test cases. Hình a minh họa kết quả phép đo độ phủ của 3 phương pháp. Như giả thiết đặt ra, khi nhận vào test case qs = q1, q2, .., qi, phương pháp N-Gram chỉ đưa ra được danh sách gợi ý nếu tồn tại trong dữ liệu huấn luyện phiên tìm kiếm dạng qs1= q1, q2, .., qi, qi+1, .., qj. Rõ ràng, phương pháp Adjacency có tỷ lệ đa dạng vượt trội so với phương pháp N-gram, vì chỉ cần tồn tại chuỗi dạng qs2= .., qi, qi+1, .., qj thuộc dữ liệu huấn luyện. Nói cách khác, qs1 là một trường hợp đặc biệt của qs2. Tuy nhiên, xét theo trình tự thời gian trong một phiên tìm kiếm, phương pháp N-Gram có ưu điểm - khi gợi ý, sẽ gợi ý thành chuỗi (cả chuỗi gợi ý). So với 2 phương pháp N- Gram và Adjacency, trường hợp “vắng mặt” cả qs1 lẫn qs2, phương pháp hướng ngữ cảnh chứng minh tính hiệu quả trội hơn 2 phương pháp trên, bởi chỉ cần chuỗi truy vấn dạng qs2’= .., qi’, qi+1, .., qj mà qi và qi’ tương đồng (thuộc cùng một cụm), kỹ thuật hướng ngữ cảnh vẫn thực hiện cung cấp danh sách gợi ý. Độ đo chất lượng được tính điểm bằng cách lấy ý kiến chuyên gia (con người). Đối chiếu với truy vấn hiện hành, nếu câu gợi ý trong danh sách được đánh giá là thích đáng, phương pháp được cộng 1 điểm. Nếu danh sách gợi ý có hai hoặc nhiều hơn các câu gợi ý gần trùng lặp, phương pháp chỉ được cộng 1 điểm. Nếu test case không đưa ra được gợi ý, thử nghiệm không đếm test case này. Tổng điểm của một phương pháp ứng với một test case cụ thể bằng tổng điểm cộng được chia cho tổng số câu gợi ý truy vấn. Điểm trung bình của mỗi phương pháp bằng thương số giữa tổng điểm và tổng số test cases đếm được. Trên tất cả các mẫu thử nghiệm, trên cả 2 phép đo về tính thích đáng và tính đa dạng, thang điểm đánh giá của 3 phương pháp được minh họa trong hình b, cho 0 10 20 30 40 50 60 Adjacency N-Gram Hướng ngữ cảnh 0.7 0.8 0.9 1 Adjacency N-Gram Hướng ngữ cảnh 88 thấy gợi ý hướng ngữ cảnh tối ưu so với 2 phương pháp baselines. Thay vì gợi ý ở mức truy vấn đơn lẻ, phương pháp hướng ngữ cảnh xác định ý đồ tìm kiếm của người sử dụng ở mức cụm (mức khái niệm). 3.3.3. Hệ thống thực nghiệm Để diễn giải, Chương 3 nêu quá trình demo thực nghiệm như một dãy các bước:  Bước 1: Truy cập máy tìm kiếm hướng ngữ cảnh có tương tác giọng nói.  Bước 2: Tìm kiếm bằng giọng nói là một tùy chọn của máy tìm kiếm. Thực nghiệm sử dụng công nghệ Silverlight của Microsoft để có thể truy xuất, ghi âm thanh trên máy client và thực hiện lưu file (định dạng .wav) về máy Server. Hình 3.15: Silverlight đề nghị truy xuất camera, microphone trên máy client.  Bước 3 (chạy nền background): Server tìm kiếm hướng ngữ cảnh sử dụng websocket kết nối đến ASR Server (Automatic Speech Recognition, máy chủ phần mềm tự động nhận dạng giọng nói), chuyển file âm thanh dạng wav nói trên cho ASR Server nhận dạng speech to text (chuyển lời nói thành văn bản text).  Bước 4: Sử dụng kỹ thuật lập trình socket, ASR Server chuyển lại câu text đã được nhận dạng cho Server máy tìm kiếm hướng ngữ cảnh. 89 Hình 3.16: ARS Server thực hiện speech to text.  Bước 5: Server máy tìm kiếm hướng ngữ cảnh nhận câu text này như một query đầu vào, thực hiện tìm kiếm, thực hiện lưu câu truy vấn vào Query Logs, áp dụng các kỹ thuật khai phá dữ liệu (hướng ngữ cảnh) để trả kết quả, phân loại kết quả và kết xuất gợi ý truy vấn về người sử dụng. Hình 3.17: Tìm kiếm hướng ngữ cảnh tương tác giọng nói. Như hình minh họa: Khung trái được hiện thực bằng kỹ thuật phân lớp chủ đề (áp dụng dàn khái niệm); Khung giữa màn hình là tập kết quả trả về của máy tìm kiếm, biểu tượng micro và loa để thực hiện chức năng voice-search (Speech To Text và Text To Speech); Khung phải thực hiện kỹ thuật context-aware hướng ngữ cảnh để gợi ý truy vấn. 90 Gợi ý truy vấn: (gợi ý sau dấu Enter) - nhằm đưa ra các câu truy vấn "tốt" hơn, đa dạng về chủ đề hơn và rõ nghĩa hơn khi người sử dụng còn mơ hồ với vấn đề cần tìm kiếm, chưa biết diễn tả mong muốn tìm kiếm, khi người dùng muốn viết tắt, gõ không dấu, .v.v.; Hình 3.18: Gợi ý truy vấn (gõ không dấu). Trên một môi trường thử nghiệm khác (không thuộc lĩnh vực hàng không), khi được "học" với kho dữ liệu mẫu lớn (các websites tin tức), ngoài việc gợi ý truy vấn như các kỹ thuật gợi ý nói trên, máy tìm kiếm chuyên sâu thu được nhiều kết quả khả quan, như: tìm kiếm "du học"  gợi ý: "học bổng du học"; tìm kiếm "thi khối B"  gợi ý: "bí quyết làm bài thi tốt nghiệp môn Sinh"; tìm kiếm "bóng đá"  gợi ý "Lịch thi đấu ngoại hạng Anh" hoặc "kết quả Champions League"; tìm kiếm "Elly Trần"  gợi ý "hot girl"; tìm kiếm "động đất" hoặc "điện hạt nhân"  gợi ý "quan hệ ngoại giao Việt Nam - Nhật Bản", .v.v. Hình 3.19: Tìm kiếm áp dụng phương pháp hướng ngữ cảnh. Thực hiện gợi ý nhanh: Gợi ý nhanh được thực hiện ngay khi người sử dụng gõ các ký tự đầu tiên vào ô tìm kiếm (gợi ý trước dấu enter). Chức năng gợi ý nhanh 91 trong thực nghiệm sử dụng kỹ thuật AJAX (Asynchronous Javascript And XML) để gửi, xử lý và nhận chuỗi ký tự trong tương tác client - server mà không cần tải lại toàn trang. Để tiện lợi cho việc tìm kiếm, tiết kiệm thời gian cho người sử dụng, các câu tìm kiếm (câu truy vấn) phổ biến nhất hoặc có tổ hợp trọng số cao nhất (highest score) được gợi ý ngay khi người sử dụng gõ vào một phần câu truy vấn: Hình 3.20: Gợi ý nhanh. Phân loại kết quả (áp dụng dàn khái niệm): Sau câu truy vấn, các Máy tìm kiếm (như Google, Bing, Yahoo! Search, Ask, .v.v.) thường trả về một danh sách dài (hàng triệu kết quả) và đa chủ đề. Nếu người dùng muốn tìm kiếm chuyên sâu trong một lĩnh vực cụ thể, người dùng sẽ phải tự xử lý lượng dữ liệu lớn để tìm ra thông tin mà họ cần. Phân loại, gom tập tài liệu kết quả vào các lĩnh vực cụ thể sẽ hạn chế việc thông tin bị vùi lấp bởi một danh sách quá dài, giúp người sử dụng dễ dàng quan sát tập kết quả, đưa ra quyết định tài liệu nào thích hợp. Hình 3.21: Phân loại kết quả. 92 Các máy tìm kiếm tổng quát nói trên thu thập dữ liệu từ không gian Internet - nơi kho dữ liệu là khổng lồ, đa ngôn ngữ, nhiều lĩnh vực, đa cấu trúc, định dạng, .v.v. Kỹ thuật phân loại kết quả sau tìm kiếm là một kỹ thuật online. Vì yếu tố thời gian - phải trả kết quả tức thời cho người sử dụng - nên gần như không khả thi khi thực hiện phân loại tài liệu trên những Máy tìm kiếm tổng quát. Một trở ngại khác, rất đáng kể mà bài toán phân loại online phải vượt qua, đó là gán nhãn (đặt tiêu đề cho mỗi chủ đề tương ứng). Tiêu đề phải mô tả đủ ngữ nghĩa và dễ hiểu để người dùng có thể lựa chọn. Máy tìm kiếm của luận án thực hiện tìm kiếm chuyên sâu, trên một miền dữ liệu cụ thể (dữ liệu tác nghiệp Hàng không, "vắng mặt" trên Internet), lượng tài liệu là biết trước, áp dụng giải thuật dựng dàn được thực hiện off-line, kết hợp với việc duyệt lại tập nhãn một cách thủ công (thêm yếu tố xử lý của con người), vì vậy thích hợp cho kỹ thuật phân loại kết quả trước tìm kiếm. 3.4. Kết chương Dưới góc nhìn lý thuyết, Chương 3 trình bày một cách tường minh về phương pháp hướng ngữ cảnh: tư tưởng, nguyên lý, mô hình, các công thức và các thuật toán, .v.v. cũng như nêu lên các đề xuất cải thiện kỹ thuật. Dưới góc nhìn thực nghiệm, việc cài đặt (các biến, cấu trúc dữ liệu, thuật toán, đáp ứng tức thời gợi ý truy vấn, ...) trở nên hoàn toàn khả thi. Kết quả của thực nghiệm đưa ra 3 dạng gợi ý: Gợi ý truy vấn, gợi ý tài liệu và gợi ý chủ đề. Đóng góp chính của chương 3 bao gồm: 1) Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên sâu áp dụng hướng ngữ cảnh trong miền cơ sở tri thức riêng (dữ liệu hàng không). 2) Đề xuất độ đo tương đồng tổ hợp trong bài toán gợi ý truy vấn theo ngữ cảnh nhằm nâng cao chất lượng gợi ý. Ngoài ra, chương 3 cũng có các đóng góp bổ sung trong thực nghiệm: i) Tích hợp nhận dạng và tổng hợp tiếng nói tiếng Việt như một tùy chọn vào máy tìm kiếm để tạo thành một hệ tìm kiếm có tương tác tiếng nói. ii) Áp dụng cấu trúc dàn khái niệm để phân lớp tập kết quả trả về. Phương pháp gợi ý truy vấn hướng ngữ cảnh là một nhánh trong bài toán về máy tìm kiếm, tuy nhiên đây là một vấn đề thiết thực, thu hút sự quan tâm nghiên cứu 93 và rõ ràng là một bài toán khó. Nắm vững nguyên lý, cài đặt hiệu quả phương pháp hướng ngữ cảnh, là một giải pháp tốt hỗ trợ người sử dụng trong quá trình tìm kiếm thông tin. Máy tìm kiếm tiếng Việt áp dụng phương pháp hướng ngữ cảnh hứa hẹn đem đến những kết quả đột biến, thú vị và hiệu quả trong lĩnh vực gợi ý truy vấn. Việc phát hiện tri thức tiếp tục đặt ra nhiều vấn đề mới vì nội tại Query Logs còn chứa nhiều tri thức tiềm ẩn, ví dụ như dữ liệu về {IP, query}: phản ánh lịch sử người dùng (user’s history) có thể khai phá để tìm kiếm cá nhân hóa (personalized search) hay gợi ý truy vấn cá nhân hóa (personalized query suggestion); Hay như khai phá dữ liệu cặp {URL, title} để tìm các kết quả liên quan. Hoặc khai phá đồ thị 2 phía để tìm ra mối quan hệ tài liệu – truy vấn dù tập tài liệu (tập đỉnh U), tập truy vấn (tập đỉnh Q) không có terms chung: Nếu tập tài liệu D’ thường xuyên được click đọc bởi tập queries Q’, thì các terms trong Q’ liên quan mạnh đến các terms trong D’. Cũng như vậy, gợi ý truy vấn và phân loại tập kết quả thực chất là 2 tiến trình riêng biệt, cần nghiên cứu áp dụng tính toán song song. 94 CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ Trong phần kết luận, tác giả tóm lược lại các kết quả chính và những đóng góp của luận án. Ngoài ra, tác giả trình bày một số hạn chế của luận án và thảo luận về hướng phát triển của các nghiên cứu tiếp theo trong tương lai. 4.1. Kết luận Áp dụng phân tích khái niệm hình thức (FCA – Formal Concept Analysis) và cấu trúc dàn khái niệm để khai phá và tìm kiếm dữ liệu văn bản. Dàn là một cấu trúc đẹp về mặt toán học, thích hợp với khai phá, phân tích và gom cụm dữ liệu, nhưng dàn không hoàn toàn thích hợp trong lĩnh vực tìm kiếm. Do đó, luận án chuyên sâu hai hướng nghiên cứu chính: i) Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa, nhằm mô phỏng khả năng suy ra thông tin/tri thức chưa biết bằng suy diễn tương tự, như một khả năng “tự nhiên” của con người; và ii) Gợi ý truy vấn hướng ngữ cảnh - xét chuỗi truy vấn liền mạch nhằm nắm bắt ý định tìm kiếm, sau đó đưa ra xu hướng mà tri thức số đông thường hỏi sau truy vấn hiện hành. Đóng góp của luận án gồm: Với phương pháp Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn, nhằm giải quyết bài toán thứ nhất: - Luận án nghiên cứu, xây dựng kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn sử dụng phương pháp phân cụm nhằm nâng cao hiệu quả tìm kiếm. Với phương pháp Gợi ý truy vấn Hướng ngữ cảnh, mục đích giải quyết bài toán thứ hai: - Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên sâu áp dụng hướng ngữ cảnh trong miền cơ sở tri thức riêng (dữ liệu hàng không). 95 - Đề xuất độ đo tương đồng tổ hợp trong bài toán gợi ý truy vấn theo ngữ cảnh nhằm nâng cao chất lượng gợi ý. 4.2. Kiến nghị Với hướng nghiên cứu Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn, có thể nhận thấy mô hình tìm kiếm bị cứng hóa bởi 3 thực thể đầu vào, đây là một nhược điểm. Để khắc phục nhược điểm, một mặt - xét thêm các loại ánh xạ quan hệ, thêm yếu tố thời gian để kết quả tìm kiếm được cập nhật và chính xác. Mặt khác, có thể mở rộng tìm kiếm thực thể với truy vấn đầu vào chỉ gồm một thực thể, ví dụ: “Sông nào dài nhất Trung Quốc?”, mô hình tìm kiếm thực thể dựa trên ngữ nghĩa ẩn sẽ đưa ra được câu trả lời chính xác: “Trường Giang”, dù Corpus chỉ có câu gốc “Trường Giang là sông lớn nhất Trung Quốc”. Với hướng nghiên cứu Gợi ý truy vấn dựa trên kỹ thuật hướng ngữ cảnh, một mặt, nghiên cứu này còn một vài thiếu sót thậm chí là khuyết điểm, như lọc nhiễu âm thanh đầu vào để cải thiện chất lượng nhận dạng, áp dụng học máy để tối ưu các tham số α, β, γ trong cách tính độ tương đồng tổ hợp của phương pháp tìm kiếm hướng ngữ cảnh. Mặt khác, nghiên cứu các biến thể của tương đồng quan hệ RelSim (Relational Similarity) [100], nghiên cứu các phương pháp kết hợp như Word2Vec, Doc2Vec, Word embeddings [101] cho máy tìm kiếm. Hướng phát triển, luận án tập trung vào nghiên cứu các áp dụng các thuật toán thích nghi, các mô hình thống kê, là thành phần cốt lõi nhất của các hệ thống xử lý ngôn ngữ tự nhiên hiện nay. 96 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 1. Trần Lâm Quân - Vũ Tất Thắng. “Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn”. Hội thảo Quốc gia lần thứ XXI: Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông. (27-28/07.2018). 2. Trần Lâm Quân - Vũ Tất Thắng. “Search for entities based on the Implicit Semantic Relations”. Tạp chí Tin học và Điều khiển 2019 (Volume 35, Number 3. 2019). 3. Trần Lâm Quân - Đỗ Quốc Trường - Phan Đăng Hưng - Đinh Anh Tuấn - Phi Tùng Lâm - Vũ Tất Thắng - Lương Chi Mai. “A study of applying Vietnamese voice interaction for a context-based Aviation search engine”. The IEEE RIVF 2013 International Conference on Computing and Communication Technologies. 10-13.11.2013. 4. Trần Lâm Quân – Vũ Tất Thắng. “Context-aware and voice interactive search”. (the SoCPaR 2013 special issue). Journal of Network and Innovative Computing. ISSN 2160-2174 Volume 2, pages 233-239, 2014. 5. Trần Lâm Quân - Phan Đăng Hưng - Vũ Tất Thắng. “Tìm kiếm bằng giọng nói với kĩ thuật hướng ngữ cảnh”. Tạp chí Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam. ISSN: 0886 768X. Số 52 (1B), 29.06.2014. 6. Trần Lâm Quân - Lê Đức Hiếu - Lê Ngọc Thế - Vũ Tất Thắng. “Một cách tiếp cận sử dụng cấu trúc dàn khái niệm để khai phá và tìm kiếm dữ liệu văn bản”. Hội thảo Quốc gia lần thứ XVII: Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông. 30-31.10.2014. 97 TÀI LIỆU THAM KHẢO [1]. Christoph Kofler, Martha Larson, Alan Hanjalic, User Intent in Multimedia Search: A Survey of the State of the Art and Future Challenges. ACM Journals. Computing Surveys, Vol. 49, No. 2, August 2016. [2]. R. Song, Z. Luo, J.-Y. Nie, Y. Yu and H.-W. Hon, Identification of ambiguous queries in web search. Information Processing & Management, 45(2), pages 216– 229, 2009. [3]. W. Song, Y. Liu, L. Liu et al., Semantic composition of distributed representations for query subtopic mining. Frontiers Inf Technol Electronic Eng 19, 2018. [4]. J. Xu, F. Ye, Query Recommendation Using Hybrid Query Relevance. Future Internet, 2018. [5]. S. Gaou, A. Bekkari, The Optimization of Search Engines to Improve the Ranking to Detect User’s Intent. In Advanced Information Technology, Services and Systems. (AIT2S) 2017. [6]. Dirk Lewandowski, Jessica Drechsler, Sonja von Mach, Deriving query intents from web search engine queries. Journal of the American Society for Information Science and Technology, September 2012. [7]. Imrattanatrai, Wiradee & Kato, Makoto & Tanaka, Katsumi & Yoshikawa, Masatoshi, Entity Ranking for Queries with Modifiers Based on Knowledge Bases and Web Search Results. In IEICE Transactions on Information and Systems, 2018. [8]. Li, Jing & Sun, Aixin & Han, Ray & Li, Chenliang, A Survey on Deep Learning for Named Entity Recognition. In IEEE Transactions on Knowledge and Data Engineering, 2020. [9]. H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen and H. Li, Towards context- aware search by learning a very large variable length hidden markov model from search logs. In Proceedings of the 18th international conference on World wide web, pages 191–200, April 2009. [10]. H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen, E and H. Li, Context-aware query suggestion by mining click-through and session data. In Proceedings of KDD, pages 875-883, 2008. 98 [11]. Peter D. Turney, The latent relation mapping engine: Algorithm and experiments. Journal of Artificial Intelligence Research (JAIR), 33, pages 615-655, 2008. [12]. Dedre Gentner, Structure-mapping: A Theoretical Framework for Analogy. Elsevier. Cognitive Science, Volume 7, Issue 2, pages 155-170, April–June 1983. [13]. Peter D. Turney, M.L. Littman, Corpus-based Learning of Analogies and Semantic Relations. Machine Learning, 60(1–3), pages 251–278, 2005. [14]. Peter D. Turney, Distributional semantics beyond words: Supervised learning of analogy and paraphrase. Transactions of the Association for Computational Linguistics (TACL), 1, pages 353-366, 2013. [15]. Peter D. Turney and P. Pantel, From frequency to meaning: Vector space models of semantics. Journal of Artificial Intelligence Research (JAIR), 37, pages 141-188, 2010. [16]. Peter D. Turney, Similarity of semantic relations. Computational Linguistics, 32(3), 2006. [17]. Bollegala, Danushka & Matsuo, Yutaka & Ishizuka, Mitsuru, Measuring the Similarity between Implicit Semantic Relations from the Web. Proceedings of WWW, pages 651-660, 2009. [18]. Duc, N., Bollegala et al., Cross-Language Latent Relational Search: Mapping Knowledge across Languages. In Association for the Advancement of AI, 2011. [19]. Kato et al., Query by analogical example: relational search using web search engine indices. In Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009. [20]. Y.J. Cao et al., Relational Similarity Measure: An Approach Combining Wikipedia and WordNet. Journal of Applied Mechanics and Materials, 2011. [21]. E. Agirre, E. Alfonseca, K. Hall, J. Kravalova, M. Pasca and A. Soroa, A study on similarity and relatedness using distributional and wordnet-based approaches. In NAACL ’09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 19–27, 2009. [22]. Mikolov et al., Distributed Representations of Words and Phrases and their Compositionality. In Advances in Neural Information Processing Systems 26 (NIPS), 99 2013. [23]. Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov, Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, Vol. 5, pages 135-146, 2017. [24]. Edouard Grave, Piotr Bojanowski, Prakhar Gupta, Armand Joulin, Tomas Mikolov. Learning Word Vectors for 157 Languages. In LREC (Language Resources and Evaluation). Feb 19, 2018. [25]. Tomas Mikolov et al., Efficient Estimation of Word Representations in Vector Space. In ICLR (Workshop Poster), 2013. [26]. Kata Gábor, Haïfa Zargayouna, Isabelle Tellier, Davide Buscaldi, Thierry Charnois, Exploring Vector Spaces for Semantic Relations. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1814–1823, 2017. [27]. Hugo Caselles-Dupré, Florian Lesaint, Jimena Royo-Letelier, Word2vec applied to recommendation: hyperparameters matter. In Proceedings of the 12th ACM Conference on Recommender Systems, pages 352–356, September 2018. [28]. S. Yilmaz, S. Toklu, A deep learning analysis on question classification task using Word2vec representations. Neural Comput & Applic 32, pages 2909–2928, 2020. [29]. Prajakta Shinde, Pranjali Joshi, Survey of various query suggestion system, International Journal of Engineering And Computer Science. ISSN:2319-7242; Volume 3 Issue 12, pages 9576-9580, December 2014. [30]. Susan Dumais, Personalized search: potential and pitfalls, In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management, October 2016. [31]. Jinyoung Kim, Jaime Teevan, Nick Craswell, Explicit In Situ User Feedback for Web Search Results. SIGIR '16: Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval, pages 829–832, July 2016. [32]. Sørig, Esben; Collignon, Fiebrink and Kando, Evaluation of Rich and Explicit Feedback for Exploratory Search. In Second Workshop on Evaluation of Personalisation in Information Retrieval (WEPIR), March, 2019. 100 [33]. Thorsten Joachims et al., Accurately Interpreting Clickthrough Data as Implicit Feedback. SIGIR, Volume 51, Issue 1, June 2017. [34]. Edward Rolando Núñez-Valdéz et al., Implicit feedback techniques on recommender systems applied to electronic books. Computers in Human Behavior. Volume 28, Issue 4, ScienceDirect, 2012. [35]. Gai Li and Qiang Che, Exploiting Explicit and Implicit Feedback for Personalized Ranking. Hindawi Publishing Corporation - Mathematical Problems in Engineering, Article ID 2535329, 11 pages, 2016. [36]. Keping Bi, Choon Hui Teo, Yesh Dattatreya, Vijai Mohan, W. Bruce Croft. Leverage Implicit Feedback for Context-aware Product Search. In SIGIR 2019 eCom, Paris, France, July 2019. [37]. W. Chen, F. Cai, H. Chen, M. De Rijke, Personalized query suggestion diversification. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 817–820, 2017. [38]. W. Chen, F. Cai, H. Chen et al., Personalized query suggestion diversification in information retrieval. Springer Link, Front. Comput. Sci. 14, 143602, 19 December 2019. [39]. C. Bouhini, M. Géry and C. Largeron, Personalized information retrieval models integrating the user's profile. IEEE Tenth International Conference on Research Challenges in Information Science (RCIS), Grenoble, pages 1-9, 2016. [40]. Hiteshwar Kumar Azad, Akshay Deepak, A new approach for query expansion using Wikipedia and WordNet. Elsevier, Information Sciences. Volume 492, pages 147-163, August 2019. [41]. Hiteshwar Kumar Azad, Akshay Deepak. Query expansion techniques for information retrieval: A survey. Elsevier. Information Processing & Management. Volume 56, Issue 5, pages 1698-1735, September 2019. [42]. Claveau, Vincent, Kijak, Ewa, Distributional thesauri for information retrieval and vice versa. In Language and Resource Conference, LREC, 2016. [43]. Q. Chen, L. Yao and J. Yang, Short text classification based on LDA topic model. International Conference on Audio, Language and Image Processing (ICALIP), Shanghai, pages 749-753, 2016. [44]. J. Xu, F. Ye, Query Recommendation Using Hybrid Query Relevance. Future 101 Internet Journals. Volume 10, Issue 11, 2018. [45]. Wanyu Chen, Fei Cai, Honghui Chen, Maarten de Rijke, Personalized Query Suggestion Diversification. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 817–820, August 2017. [46]. Choudhary, Durga & Chandra, Subhash, Adaptive Query Recommendation Techniques for Log Files Mining to Analysis User’s Session Pattern. In International Journal of Computer Applications, 2016. [47]. J. Guo, X. Zhu, Y. Lan et al., Modeling users’ search sessions for high utility query recommendation. Information Retrieval Journal 20, 2017. [48]. Lingling Meng, A Survey on Query Suggestion. International Journal of Hybrid Information Technology. Vol. 7, No. 6, 2014. [49]. Bai, Lu, Jiafeng Guo, Xueqi Cheng, Xiubo Geng and Pan Du, Exploring the Query-Flow Graph with a Mixture Model for Query Recommendation. SIGIR Workshop on Query Representation and Understanding, July 2011. [50]. P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis and S. Vigna, The query- flow graph: model and applications. In Proceeding of the 17th ACM conference on Information and knowledge management (CIKM’08), pages 609–618, 2008. [51]. P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis and S. Vigna, Query Suggestions Using Query-Flow Graphs. In Proceedings of the 2009 workshop on Web Search Click Data (WSCD ’09), pages 56–63, Feb 9, 2009. [52]. Xinbao Shao, Qingshan Li, Yishuai Lin, Boyu Zhou, A meta-search group recommendation mechanism based on user intent identification. In Proceedings of the 6th International Conference on Software and Computer Applications (ICSCA '17), pages 102–106, February 2017. [53]. E. Sadikov, J. Madhavan, L.Wang and A. Halevy, Clustering query refinements by user intent. In Proceedings of the International World Wide Web Conference (WWW’10), pages 841–850, 2010. [54]. Saxena et al., A Review of Clustering Techniques and Developments. Article in Neurocomputing, July 2017. [55]. T. Sajana, C. M. Sheela Rani and K. V. Narayana, A Survey on Clustering Techniques for Big Data Mining. Indian Journal of Science and Technology, Vol 102 9(3), January 2016. [56]. Parth Ritin Saraiya et al., Study of Clustering Techniques in the Data Mining Domain. In International Journal of Computer Science and Mobile Computing, Vol.7 Issue.11, pages 31-37, November 2018. [57]. K. Sathiyakumari, G. Manimekalai, V. Preamsudha and M. P. Scholar, A survey on various approaches in document clustering. Int. J. Comput. Technol, pages 1534– 1539, 2011. [58]. Manpreet Kaur, Usvir Kaur, A Survey on Clustering Principles with K-means Clustering Algorithm Using Different Methods in Detail. IJCSMC, Vol. 2, Issue. 5, pages 327 – 331, May 2013. [59]. Gursharan Saini, Harpreet Kaur, K-Mean Clustering and PSO: A Review. International Journal of Engineering and Advanced Technology (IJEAT). ISSN: 2249 – 8958, Volume-3, Issue-5, June 2014. [60]. Hamada M. Zahera, Gamal F. El Hady, F. Waiel, Abd El-Wahed, Query Recommendation for Improving Search Engine Results. In Proceedings of the World Congress on Engineering and Computer Science (WCECS), October 20-22, 2010. [61]. Naeem, Arshia; Rehman, Mariam; Anjum, Maria; Asif, Muhammad, Development of an efficient hierarchical clustering analysis using an agglomerative clustering algorithm. Current Science (00113891), Vol. 117 Issue 6, pages 1045- 1053, 9/25/2019. [62]. Dhiliphanrajkumar Thambidurai, Suruliandi Aandavar and Selvaperumal Prakasam. Query Recommendation by Coupling Personalization with Clustering for Search Engine. I.J. Information Technology and Computer Science, pages 82-91, 11/2016. [63]. W. Wu, H. Li, and J. Xu, Learning query and document similarities from click- through bipartite graph with metadata. In Proceedings of the Sixth ACM International Conference on Web Search and Data Mining, 2013. [64]. L. Noce, I. Gallo and Zamberletti, A. Query and Product Suggestion for Price Comparison Search Engines based on Query-product Click-through Bipartite Graphs. In Proceedings of the 12th International Conference on Web Information Systems and Technologies (WEBIST 2016) - Volume 1, pages 17-24, 2016. 103 [65]. Sébastien Harispe, Sylvie Ranwez, Stefan Janaqi, and Jacky Montmain, Semantic Similarity from Natural Language and Ontology Analysis. Synthesis Lectures on Human Language Technologies, Vol. 8, No. 1. (Arxiv, 167 pages), May 2015. [66]. Slimani, Thabet, Description and Evaluation of Semantic Similarity Measures Approaches. International Journal of Computer Applications. Vol 80. 25-33. 10.5120/13897-1851, 2013. [67]. Christoph Lofi, Measuring Semantic Similarity and Relatedness with Distributional and Knowledge-based Approaches. Information and Media Technologies, Volume 10, Issue 3. Online ISSN 1881-0896, pages 493-501, September 15, 2015. [68]. N. Craswell, Mean Reciprocal Rank. In Encyclopedia of Database Systems. Springer, Boston, MA, 2009. [69]. Yao, Yuan et al., DocRED: A Large-Scale Document-Level Relation Extraction Dataset. ACL (Association for Computational Linguistics), 2019. [70]. Michele Banko and Oren Etzioni, The Tradeoffs Between Open and Traditional Relation Extraction. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, ACL 2008, Columbus, Ohio, USA, pages 28-36, 2008. [71]. Yun Liu, Mingxin Li, Hui Liu, Junjun Cheng, Yanping Fu, Research of Unsupervised Entity Relation Extraction. Journal of Computers Vol. 30 No. 1, pages 31-41, 2019. [72]. Bollegala et al., Relational Duality: Unsupervised Extraction of Semantic Relations between Entities on the Web. In Proceedings of the 19th International Conference on World Wide Web, WWW 2010, pages 151-160, Raleigh, North Carolina, USA, 2010. [73]. Parapar, Javier & Losada, David & Presedo-Quindimil, Manuel & Barreiro, Alvaro. Using score distributions to compare statistical significance tests for information retrieval evaluation. Journal of the Association for Information Science and Technology. 71. (10.1002/asi.24203), 2019. [74]. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze, Introduction to Information Retrieval. Cambridge University Press, 2008. 104 [75]. W. Chen, F. Cai, H. Chen et al., Personalized query suggestion diversification in information retrieval. Front. Comput. Sci. 14, 143602, 2020. [76]. Trần Lâm Quân, Vũ Tất Thắng, Kỹ thuật gợi ý truy vấn hướng ngữ cảnh trong bài toán tìm kiếm. Hội thảo Quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông, 03-04.12.2012. [77]. Z. Liao, D. Jiang, E. Chen, P. Pei, H. Cao, H. Li, Mining Concept Sequences from Large-Scale Search Logs for Context-Aware Query Suggestion. ACM Trans. Intell. Syst. Technol. 9, 4, Article 87, 40 pages, 2011. [78]. T. Ruotsalo, G. Jacucci & S. Kaski, Interactive faceted query suggestion for exploratory search: Whole-session effectiveness and interaction engagement. Journal of the Association for Information Science and Technology, 2019. [79]. Souvick Ghosh, Chirag Shah, Session-based Search Behavior in Naturalistic Settings for Learning-related Tasks. In CIKM '19: Proceedings of the 28th ACM International Conference on Information and Knowledge Management, pages 2449– 2452, November 2019. [80]. Sowmya Yalamanchili (IBM), Log mining in Query recommendation. International Journal of Information Technology & Systems, Vol. 4; No. 1: ISSN: 2277-9825, 2015. [81]. X. Fei, S. Zheng, L. Yan and C. Fan, A improved sequential pattern mining algorithm based on PrefixSpan. World Automation Congress (WAC), Rio Grande, 2016. [82]. Zhengshen Jiang, Hongzhi Liu, Bin Fu, Zhonghai Wu, Tao Zhang, Recommendation in Heterogeneous Information Networks based on Generalized Random Walk Model and Bayesian Personalized Ranking. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM '18), pages 288–296, February 2018. [83]. Gao, J., et al., Smoothing clickthrough data for web search ranking. SIGIR'09, pages 355-362, 2009. [84]. C Rasell and M. Szummer, Random walks on the click graph. In Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval(SIGIR’07), pages 239-246, 2007. [85]. M. Shajalal, M. Z. Ullah, A. N. Chy and M. Aono, Query subtopic 105 diversification based on cluster ranking and semantic features. International Conference On Advanced Informatics: Concepts, Theory And Application (ICAICTA), George Town, pages 1-6, 2016. [86]. Xiaofei, Zhu., et al., A unified framework for recommending diverse and relevant queries. In Proceedings of the 20th international conference on World wide web (WWW '11), pages 37–46, March 2011. [87]. Wanyu Chen, Fei Cai, Honghui Chen, Maarten de Rijke, Personalized Query Suggestion Diversification. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '17), pages 817–820, August 2017. [88]. Claudio Carpineto, Sergei O. Kuznetsov, Amedeo Napoli, Formal Concept Analysis Meets Information Retrieval. Workshop co-located with the 35th European Conference on Information Retrieval (ECIR), 2013. [89]. Frano Škopljanac-Mačina, Bruno Blašković, Formal Concept Analysis – Overview and Applications, ScienceDirect, 24th DAAAM International Symposium on Intelligent Manufacturing and Automation, 2013. [90]. Larry González, Aidan Hogan, Modelling Dynamics in Semantic Web Knowledge Graphs with Formal Concept Analysis. In Proceedings of the 2018 World Wide Web Conference (WWW '18), pages 1175–1184, April 2018. [91]. A. Abid, M. Rouached & N. Messai, Semantic web service composition using semantic similarity measures and formal concept analysis. Multimed Tools Appl 79, 6569–6597, Dec 2019. [92]. Claudio Carpineto and Giovanni Romano, Using Concept Lattices for Text Retrieval and Mining. In Formal Concept Analysis, pages 161-179, 2005. [93]. Singh, Prem & Cherukuri, Aswani Kumar, Concept lattice reduction using different subset of attributes as information granules. In Granular Computing. Springer International Publishing Switzerland. 2016. [94]. Bernhard Ganter, Sebastian Rudolph, Gerd Stumme, Explaining Data with Formal Concept Analysis, Springer International Publishing, 2019. [95]. Nizar Messai, Marie-Dominique Devignes, Amedeo Napoli, and Malika Smail- Tabbone, BR-Explorer: An FCA-based algorithm for Information Retrieval. Fourth International Conference, CLA, 2006. 106 [96]. Ganter, Wille, Formal Concept Analysis: Mathematical Foundations. Springer- Verlag, Berlin Heidelberg New York, 1999. [97]. D.G. Kourie, S. Obiedkov, B.W. Watson, D. Van der Merwe, An incremental algorithm to construct a lattice of set intersections. Sci. Comput. Programm 74, pages 128–142, 2009. [98]. Trần Lâm Quân, Tìm kiếm thế hệ mới: Tìm kiếm thông minh lai. Chuyên san ngành Hàng không Việt Nam, 2011. [99]. Trần Lâm Quân, Vũ Tất Thắng, An Approach Using Concept Lattice Structure for Data Mining and Information Retrieval. Journal of Science and Technology: Issue on Information and Communication Technology, Vol. 1, No.1, August 2015. [100]. Wang, Chenguang et al., RelSim: Relation Similarity Search in Schema-Rich Heterogeneous Information Networks. In Proceedings of the 2016 SIAM International Conference on Data Mining (SDM), 2016. [101]. Kata Gábor, Haïfa Zargayouna, Isabelle Tellier, Davide Buscaldi, Thierry Charnois, Exploring Vector Spaces for Semantic Relations. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1814–1823, September 7–11, 2017.

Các file đính kèm theo tài liệu này:

luan_an_mot_so_ky_thuat_tim_kiem_thuc_the_dua_tren_quan_he_n.pdf
QuanTL_Donggopmoi.doc
QuanTL_Donggopmoi.PDF
QuanTL_TomtatLuanan_English.pdf
QuanTL_TomtatLuanan_Viet.pdf
QuanTL_TrichyeuLuanan.docx
QuanTL_TrichyeuLuanan.pdf