Luận án Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng ontology và ứng dụng xây dựng hệ thống tra cứu, tìm kiếm văn bản mẫu bệnh

Không gian tìm kiếm ngữ nghĩa được xây dựng bằng cách lưu trữ các tài liệu theo tham chiếu định hướng xử lý nhập nhằng như ví dụ trong Hình 2.7. Mỗi tài liệu được đại diện bằng một vectơ đặc trưng. Sự giống nhau giữa vectơ đặc trưng của tài liệu và một vectơ đặc trưng ưng với một nghĩa cụ thể của từ hoặc cụm từ là trọng số liên quan giữa tài liệu với nghĩa cụ thể của từ tương ứng. Mức độ tương tự này sẽ được sử dụng để gán tài liệu thuộc về nghĩa nào của từ hoặc cụm từ.

115 trang | Chia sẻ: tueminh09 | Lượt xem: 915 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng ontology và ứng dụng xây dựng hệ thống tra cứu, tìm kiếm văn bản mẫu bệnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

i mở rộng. Cho hai tập triệu chứng X, Y. Nếu XÍY thì Supportext(Y)≤Supportext(X) Chứng minh: Xét giao dịch Ti bất kỳ trong CSDL D, nếu Ti hỗ trợ mở rộng tập Y thì Ti hỗ trợ mở rộng tập Y. Thật vậy: Ti hỗ trợ Y, tức là tồn tại một Y* là IsOf Y mà Y*ÍTi Từ Y* là IsOf Y và XÍY suy ra tồn tại X* thoả mãn X*ÍY*và X* là IsOf X. Như vậy, theo Định nghĩa 3.3 ta có Ti hỗ trợ mở rộng X (đpcm). Định nghĩa 3.6: Tập triệu chứng phổ biến. Một tập triệu chứng X được gọi là tập triệu chứng phổ biến nếu như Supportext(X)≥ min_sup. Định nghĩa 3.7: Luật kết hợp trên tập triệu chứng XÞY được gọi là luật kết hợp trên tập triệu chứng nếu như Supportext(X∪Y)≥ minSup và Confidenceext(X→Y)≥min_conf + Nguyên tắc 2: Ontology hàm chứa các luật kết hợp ngữ nghĩa thể hiện qua các mối quan hệ, ví dụ: trong Ontology bệnh có các mối quan hệ như trong Bảng 3.2 sau: Bảng 3.2. Các mối quan hệ trong Ontology bệnh STT Mối quan hệ 1 Phức_tạp_bởi (complicated_by), 2 Gồm (composed_of), 3 Có_nguồn_gốc_từ (derives_from), 4 Vật_gây_bệnh (has_material_basis_in), 5 Có_triệu_chứng (has_symptom), 6 Kế_thừa_từ (inheres_in), 7 Là_một (is_a), 8 Lưu_trú_tại (located_in), 9 Xảy_ra_với (occurs_with), 10 Một_phần_của (part_of), 11 Nhận_ra_bởi (realized_by), 12 Kết_quả_của (results_in), 13 Dẫn_đến_hình_thành (results_in_formation_of), 14 Bị_lây_truyền_bởi (transmitted_by) * Tư tưởng chính của thuật toán ASO-Apriori - Tìm tất cả các tập triệu chứng phổ biến từ CSDL D và tập I, trong đó CSDL D chứa các giao dịch tương ứng với các bệnh, mỗi giao dịch chứa một tập triệu chứng. Tập I chứa tất cả các triệu chứng và mỗi quan hệ: “more_specification”, “a_part_of” giữa các triệu chứng. - Sinh luật kết hợp từ tập triệu chứng phổ biến. - Sinh ra luật kết hợp ngữ nghĩa dựa trên các mối quan hệ trong Ontology bệnh. Thuật toán ASO-Apriori có 02 điểm mới sau đây: - ASO-Apriori sử dụng độ hỗ trợ mở rộng và độ tin cậy mở rộng để xác định tập triệu chứng phổ biến và luật kết hợp giữa các triệu chứng. - Khai phá luật kết hợp ngữ nghĩa dựa trên các mối quan hệ trong Ontology bệnh. * Thuật toán ASO-Apriori Giai đoạn 1: Sinh tập triệu chứng phổ biến - ASO-Apriori-GenFrequentSymptom 1. Duyệt CSDL, tính độ hỗ trợ mở rộng của tập chỉ gồm 1 triệu chứng phổ biến (frequent 1-symptom), so sánh với min_sup, để có được tập tất cả các tập 1 triệu chứng phổ biến ( gọi là L1). 2.1. Sử dụng Lk-1: Nối (join) các cặp Lk-1 để sinh ra các tập ứng viên k-triệu chứng, gọi là Ck. 2.2. Loại bỏ các ứng viên k-triệu chứng dựa trên mệnh đề 3.1. 2.3. Duyệt CSDL để xác định độ hỗ trợ mở rộng của mỗi candidate k-symptom, so sánh với min_sup để nhận được tập k-triệu chứng phổ biến frequent k–symptom (gọi là Lk). 3. Lặp lại từ bước 2 cho đến khi tập ứng viện k-triệu chứng Ck trống. 4. Trả về tập tất cả các tập triệu chứng phổ biến * Giả mã thuật toán ASO-Apriori-GenFrequentSymptom - Đầu vào: Tập giao dịch T, tập triệu chứng và mối quan hệ giữa chúng I, ngưỡng hỗ trợ tối thiểu e. - Đầu ra : Tập tất cả các tập triệu chứng phổ biến ASO-Apriori-GenFrequentSymptom (T, I, e) { L1¬ {large 1-symptom } k ¬ 2 while Lk-1¹ Ø { 1. Ck¬Gen_Cand (Lk−1) 2. for(transaction t ÎT) { 3. for(candidates c ÎCk) { 4. if (cÍ t) 5. count|c| = count|c| + 1 6. } 7. } 8. for (i=1 to |Ck|-1) 9. for (j=i+1 to |Ck|) 10. if (ci IsOf cj) 11. count|cj| += count|ci| 12. Lk¬ {c Î Ck | count|c| ³e } 13. k ¬ k +1 } return; } procedure Gen_Cand (Lk−1) { for (symptomset l1Î Lk−1) for (symptomset l2 Î Lk−1) if (l1[1] = l2[1] and l1[2] = l2[2] and and l1[k − 2] = l2[k − 2] and l1[k − 1] < l2[k − 1]) then { c = l1 join l2; if (has infrequent subset(c, Lk−1) then delete c; // cắt tỉa ứng viên theo mệnh đề 3.1 else add c to Ck; } return Ck; } * Độ phức tạp thuật toán ASO-Apriori-GenFrequentSymptom Thuật toán ASO-Apriori-GenFrequentSymptom có độ phức tạp tính toán tương tự như thuật toán Apriori. Cụ thể, với CSDL gồm n giao dịch (|T|=n), w là kích thước lớn nhất của các giao dịch và m là số lượng triệu chứng (|I|=m), độ phức tạp tính toán của thuật toán ASO-Apriori-GenFrequentSymptom là O(2m*n*w +k=2w22k) , trong đó, 2m*n*w là độ phức tạp của đoạn chương trình từ dòng 2 đến dòng lệnh 7; k=2w22k là độ phức tạp của đoạn chương trình từ dòng 8 đến dòng lệnh 11. Giai đoạn 2: - Sinh ra các luật kết hợp từ các tập triệu chứng phổ biến [64] Đầu vào: Tập tất cả các tập triệu chứng phổ biến Lk, ngưỡng minconf. Đầu ra: Tập luật ASO-Apriori_GenRules (Lk) { for (frequent symptomset lk ,k ³ 2) { call Genrules (lk, lk); } //a*Þ (lk - a*) Genrules(lk :frequent k-symptomset; am : frequent m-symptomset) { A={(m-l)-symptomset am-1 | am-1Ì am}; for( am-1Î A ) { conf =supportexxt (lk)/supportexxt (am-1); if (conf ³ minconf) { output the rule am-1Þ (lk –am-1), With confidence =conf and support=supportext (lk); if (m-1> l) { call Genrules(lk, am-1); } } - Sinh các luật kết hợp ngữ nghĩa theo Nguyên tắc 2: Đầu vào: Ontology O, bệnh d; Đầu ra: Tập các quan hệ R (subclasses, properties) của bệnh d trong O. ASO-Apriori_GenRulesFromOntology (O, d) { R=∅; for (quan hệ r Î (O,d) ) { // xét từng mối quan hệ của bệnh d trong O; R=RÈ r;// luật kết hợp dạng: d → r; } return R; } Ví dụ: d là Bệnh nhiễm khuẩn cấp tính, có các subclasses là các bệnh: Bệnh Brucellla, Bệnh bạch hầu, (xem Hình 3.7) sẽ được đưa ra để người dùng lựa chọn facet tương ứng. Hình 3.7. Quan hệ subclass trong Ontology bệnh 3.3. Đánh giá 3.3.1. Đánh giá độ chính xác và độ bao phủ Sử dụng phương pháp đánh giá trong truy hồi thông tin với tiêu chí đánh giá F là sự kết hợp của hai tiêu chí đánh giá độ chính xác (Precision) và độ bao phủ (Recall): + Độ chính xác (Precision): Precision=tptp+fp + Độ bao phủ (Recall): Recall=tptp+fn F=2*precision*recallprecision+recall trong đó: tp : là số bệnh phù hợp với các triệu chứng bệnh được xác định; fp : là số bệnh không phù hợp với các triệu chứng bệnh được xác định; fn : là số bệnh thỏa mãn các triệu chứng bệnh được xác định nhưng hệ thống không tìm thấy. 3.3.2. Kết quả * Với Ontology bệnh DO được thực nghiệm, có: - Tổng số khái niệm bệnh: 9.801 - Tổng số triệu chứng: 3.098 - Tổng số Transaction là: 1.798 Nếu xem mỗi bệnh là một transaction, ta có đến 9.801 transaction. Tuy nhiên ở đây luận án chỉ chọn ra 1.798 bởi vì đa phần các khái niệm bệnh khác không bao gồm các triệu chứng bệnh. Với min_support = 2 và Confidence = 1, tổng số luật kết hợp (Association rule) là 692. Luận án sử dụng 300 bệnh thường gặp, được trích rút để thực nghiệm hệ thống với cả hai giải thuật khác nhau: Apriori và ASO-Apriori. Hình 3.8. So sánh giữa Apriori và ASO-Apriori Từ kết quả thực nghiệm, máy tìm kiếm trên 300 bệnh thường gặp, kết quả thể hiện Hình 3.8. Nhận xét chung, kết quả tìm kiếm sử dụng luật kết hợp của ASO-Apriori có độ chính xác và độ bao phủ cao so với kết quả tìm kiếm sử dụng luật kết hợp của Apriori. Trong đó ứng dụng kết quả luật kết hợp từ phương pháp ASO-Apriori mang lại kết quả tốt hơn so với phương pháp truyền thống Apriori. Kết quả này có thể thấy được luật kết hợp có thể điều hướng luồng cho người dùng tìm thấy kết quả ngay cả khi chưa rõ các tiêu chuẩn tìm kiếm. Điều này mở ra một tiềm năng ứng dụng trong các hệ thống tìm kiếm, khi người dùng chưa xác định được các tính chất hay thông tin để tìm kiếm. Ngoài ra, với kết quả đạt được, phương pháp sử dụng luật kết hợp trong Ontology có thể ứng dụng trong các hệ thống khuyến nghị khác (recommender system). 3.4. Kết chương Chương 3 đã trình bày phương pháp sử dụng luật kết hợp trong tìm kiếm ngữ nghĩa thông tin bệnh và đề xuất phương pháp mới khai phá luật kết hợp trong Ontology bệnh được gọi là ASO-Apriori. Điểm mới của phương pháp này chính là đưa ra 02 độ đo mới: độ hỗ trợ mở rộng và độ tin cậy mở rộng nhằm khai thác các quan hệ giữa các triệu chứng trong Ontology bệnh. Sử dụng 02 độ đo mới này, luận án đã đề xuất thuật toán ASO-Apriori-GenFrequentSymptom sinh ra các tập triệu chứng phổ biến sử dụng nguyên lý Apriori mở rộng để cắt tỉa bớt tập ứng viên theo Mệnh đề 3.1. Thuật toán ASO-Apriori sinh ra các luật kết hợp giữa các triệu chứng, được sử dụng để gợi ý các triệu chứng tiếp theo cho người sử dụng và luật kết hợp ngữ nghĩa giữa các mối quan hệ trong Ontology bệnh, được sử dụng để gợi ý người sử dụng lựa chọn các facet tiếp theo. Kết quả thực nghiệm đã chứng tỏ hiệu quả của các luật kết hợp mở rộng trong định hướng tìm kiếm của người sử dụng. ******************** CHƯƠNG 4. XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM NGỮ NGHĨA THÔNG TIN BỆNH 4.1. Tổng quan hệ thống tìm kiếm ngữ nghĩa thông tin bệnh Hình 4.1 dưới đây mô tả các thành phần của Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh. Hình 4.1. Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh Chương này tập trung trình bày quá trình thu thập và xây dựng Ontology bệnh từ các nguồn dữ liệu chính thống, được cung cấp bởi các Sở Y tế, các cơ sở y tế, các thư viện của các trường đại học đào tạo chuyên ngành về y học và Ontology DO. Sử dụng Luật kết hợp giữa các triệu chứng để điều hướng luồng tìm kiếm, tương tác giữa người dùng với hệ thống sẽ được trình bày chi tiết với ontology bệnh cụ thể. 4.2. Xây dựng Ontology bệnh 4.2.1. Lựa chọn Disease Ontology Ontology bệnh cho phép tích hợp ngữ nghĩa các loại bệnh và từ vựng y tế trên cơ sở kết hợp các kho dữ liệu bệnh như: DO ( MeSH, ICD, từ điển đồng nghĩa NCI, SNOMED và OMIM [10-13]. DO được hình thành từ sự nỗ lực hợp tác của các nhà nghiên cứu tại Đại học Northwestern, Trung tâm Y học Di truyền và Đại học Y học Maryland School, Viện Khoa học Di truyền. Phiên bản DO đầu tiên được khởi tạo từ năm 2003 đến năm 2004 sử dụng ICD-9. Sau đó được cập nhật và sắp xếp lại dựa trên các khái niệm của hệ thống bệnh UMLS. Hiện nay, DO đang được tiếp tục phát triển và mở rộng với nhiều khái niệm bệnh mới. Mỗi loại bệnh tật được mô tả bởi các thông tin có liên quan (định nghĩa, khái niệm, dịch tễ, yếu tố nguy cơ, nguyên nhân, tiền căn, dấu hiệu nhận biết, triệu chứng). Với nhiều ưu điểm và sự tiện lợi của CSDL này, DO được Việt hoá để dùng làm thông tin tra cứu trong chương trình ứng dụng web tìm kiếm ngữ nghĩa có tương tác. Ontology bệnh được xem như là một cơ sở tiêu chuẩn cho việc tra cứu các bệnh của con người. Mục tiêu là cung cấp cho cộng đồng y sinh các đặc điểm miêu tả bệnh một cách nhất quán, có khả năng tái sử dụng và bền vững. Đồng thời cung cấp cho cộng đồng một CSDL để tra cứu bệnh tật khi chưa có điều kiện thăm khám bác sĩ. Hình 4.2 mô tả cấu trúc chung của DO, trong đó mỗi bệnh thuộc một nhóm bệnh cụ thể và có các thuộc tính tên bệnh (label), mã bệnh (id), định nghĩa (definition), has_obo_namespace, has_exact_synonym, database_cross_reference. Thuộc tính định nghĩa (definition) có các thuộc tính con: Phức_tạp_bởi (complicated_by), Gồm (composed_of), Có_nguồn_gốc_từ (derives_from), Vật_gây_bệnh (has_material_basis_in), Có_triệu_chứng (has_symptom), Kế_thừa_từ (inheres_in), Là_một (is_a), Lưu_trú_tại (located_in), Xảy_ra_với (occurs_with), Một_phần_của (part_of), Nhận_ra_bởi (realized_by), Kết_quả_của (results_in), Dẫn_đến_hình_thành (results_in_formation_of), Bị_lây_truyền_bởi (transmitted_by) Hình 4.2. Cấu trúc của DO 4.2.2. Dịch tự động Google Translation Dịch tự động bởi Google Translation cho phép cập nhật tự động do các phiên bản ontology luôn phát triển mới, có thêm nhiều khái niệm, nhờ vậy các khái niệm bệnh tật có thể được tinh chỉnh theo thời gian. Dữ liệu được trích rút từ Ontology sau đó được chuyển vào hàm Translate (Hình 4.3) để dịch tự động. Sau khi dịch xong, dữ liệu bệnh tiếng Việt sẽ được lưu vào MySQL cho quá trình phân tích sau này. Hình 4.3. Sử dụng Google Translate Các triệu chứng và bệnh đều là khái niệm chuyên ngành nên công cụ dịch tự động Google Translate cho ra kết quả ở mức tương đối chấp nhận đươc. Tuy nhiên, vẫn còn một số từ tiếng Anh mà Google Translate dịch chưa chính xác, như trường hợp hai từ “abdominal pain” và từ “stomach pain” có nghĩa khác nhau nhưng khi Google Translate dịch đều cho ra kết quả là “đau bụng” (Hình 4.4). Hình 4.4. Google Translate dịch chưa chính xác cụm từ “abdominal pain” và “stomach pain” 4.2.3. Tinh chỉnh bán tự động So khớp từ các tài liệu song ngữ chính thống Mục tiêu của giai đoạn này là tạo được cấu trúc cơ bản ban đầu cho Ontology bệnh dựa trên các tài liệu chuẩn như ICD, Ontology này sau đó sẽ được dùng để so khớp với DO thông qua mã ICD hoặc tên tiếng Anh nhằm chỉnh sửa lại các lỗi dịch tự động. Quy trình xây dựng ontology bệnh dựa trên ICD-10-CM được thể hiện ở Hình 4.5. Hình 4.5. Lưu đồ các bước xây dựng ontology bệnh phiên bản tiếng Việt - Đầu tiên, cấu trúc ICD-10 phiên bản tiếng Anh (ICD-CM) từ https://bioportal.bioontology.org/ontologies/ICD10 được sử dụng để xây dựng một Ontology phân loại bệnh ở mức khái niệm, gồm 12.451 bệnh được phân cấp. Phiên bản Ontology bệnh này chưa có các thuộc tính là triệu chứng bệnh, cũng chưa có định nghĩa về bệnh. - Bước tiếp theo dịch tự động Ontology này sang tiếng Việt. Thực hiện dịch từ ICD-10-CM phiên bản tiếng Anh sang tiếng Việt thông qua quá trình dịch so khớp với tài liệu ICD-10-CM phiên bản song ngữ Việt-Anh được cung cấp bởi Bộ Y tế (xem Hình 4.6), nhằm chuyển ICD-10-CM thành Ontology bệnh phiên bản tiếng Việt (ICD-OV). Hình 4.6. Tài liệu ICD-10 song ngữ Việt - Anh Khi đó, Ontology bệnh ở mức khái niệm đã được xây dựng. Vấn đề còn lại là phải xác định các triệu chứng bệnh cho mỗi bệnh. Điều này trong ICD-10-CM vẫn chưa đề cập đến. Một số Ontology bệnh dựa trên chuẩn ICD-10-CM phiên bản tiếng Anh cũng đã có đề cập đến các triệu chứng bệnh như HDO ( ontologies/DOID), tuy chưa đầy đủ. Ở bước này, so khớp với Ontology HDO để dịch lại các định nghĩa bệnh, các triệu chứng bệnh và đưa vào ontology bệnh tiếng Việt. Ngoài ra, các phương pháp khai phá dữ liệu được ứng dụng để xác định các triệu chứng bệnh, cũng như định nghĩa về bệnh từ các tài liệu chính thống (xem Hình 4.7). Hình 4.7. Một ví dụ về xác định triệu chứng bệnh Hình 4.8. Một phần Ontology bệnh Cuối cùng Ontology bệnh như Hình 4.8 được hình thành, có thể xem là tương đối hoàn chỉnh và chính xác do sử dụng ICD-10-CM phiên bản song ngữ Việt-Anh và các tài liệu chuẩn do Bộ Y tế cung cấp. Bước tiếp theo, luận án thực hiện đưa các thông tin bệnh vào dựa trên các tài liệu chính thống, việc đưa thông tin bệnh này được thể hiện qua ví dụ về bệnh “Lao kế”, được trình bày trong các hình ở phụ lục 1. Cuối cùng, Ontology được xây dựng từ ICD-10-CM và các tài liệu chính thống sẽ được trộn vào Ontology DO phiên bản tiếng Việt đã được tự động dịch trước đó để tinh chỉnh và hoàn thiện. Phụ lục 2 mô tả một ví dụ về bệnh “Bệnh nấm da chân” lấy từ DO phiên bản tiếng Việt đã được tinh chỉnh. 4.2.4. Chỉnh sửa công tác Ontology bệnh Đầu tiên Ontology bệnh phiên bản tiếng Việt được chuyên gia Y tế đánh giá độc lập, bảo đảm tính khách quan về mặt chuyên môn y khoa. Luận án đã dùng phương pháp thống kê với hai cách tiếp cận: tiếp cận dữ liệu và tiếp cận đồng thuận của Bác sĩ (phương pháp chuyên gia) trong xây dựng Ontology bệnh. Đầu tiên, tên của 6.000 bệnh sẽ được kiểm tra xem có tồn tại tên bệnh qua các hệ thống tìm kiếm. Các tên bệnh không tồn tại trong hệ thống tìm kiếm sẽ được các bác sĩ phiên dịch dựa trên đồng thuận. Điều này sẽ được trình bày cụ thể trong các mục sau. Tiếp cận dữ liệu Theo tiếp cận dữ liệu, có hai giả thuyết như sau: Tên bệnh được dịch chính xác là tên bệnh tồn tại, được người dùng thường hỏi đáp, chia sẻ trên các hệ thống Internet. Tên bệnh được dịch chính xác là tên bệnh tồn tại, được các chuyên gia hay tổ chức y tế đề cập trong các tài liệu trên mạng Internet. Điều này tương đương với việc có thể sử dụng công cụ tìm kiếm trên mạng Internet. Khí có kết quả tra cứu một bệnh trả về, tức là bệnh đó có khả năng dịch chính xác. Trên cơ sở đó cũng có thể xác định những bệnh mà hệ thống xác định chưa tồn tại hay những bệnh được dịch chưa chính xác. Cách thực hiện như sau: Với mỗi khái niệm bệnh trong số 6.000 bệnh trong ontology bệnh. Tìm kiếm trên Google Search sử dụng từ khoá chính là các khái niệm bệnh. Lấy kết quả trả về là số các tài liệu có đề cập đến khái niệm bệnh đã tìm thấy. Sắp xếp kết quả trả về theo thứ tự giảm dần. Chọn ra những bệnh có kết quả trả về thấp hoặc không có kết quả trả về và chuyển tới các chuyên gia để xem xét. Dịch lại theo hướng tiếp cận đồng thuận. Tiếp cận đồng thuận của bác sĩ Xây dựng nhóm cộng tác, gồm nhiều Bác sĩ ở Bệnh viện Trung Ương Huế. Ban đầu, các bác sĩ làm việc độc lập, bằng phương pháp thống kê hoặc kinh nghiệm có được, các bác sĩ đề xuất ra 300 bệnh thường gặp độc lập. Người điều phối sẽ tổng hợp lại theo một thống kê để tính toán sự đồng thuận của nhóm. Sau đó, trả kết quả về cho từng người, mỗi người tiếp tục chỉnh sửa kết quả của mình cho phù hợp với kết quả đạt được. Kết quả đạt được xem như một tham khảo nhất định. Quay lại bước 2, cho đến khi có sự đồng thuận giữa các bác sĩ tham gia dịch các bệnh chưa tồn tại trên các hệ thống tìm kiếm. Kết thúc quá trình cộng tác. 4.3. Thu thập dữ liệu Hơn 3.000 tài liệu về các bệnh được thu thập tại các thư viện uy tín và các trường đại học y danh tiếng trên địa bàn thành phố Hồ Chí Minh như Thư viện tổng hợp thành phố Hồ Chí Minh, Thư viện Đại học Y Dược, Thư viện Đại học Y Phạm Ngọc Thạch, ... Do đây là tài liệu bản in giấy và không có file mềm kèm theo nên các thông tin bệnh tật từ những tài liệu này được thu thập bằng cách sử dụng máy scan chất lượng cao để có thể đọc và chuyển đổi nội dung từ bản in giấy sang file mềm. Sau khi có file mềm, công việc rà soát các lỗi chính tả, lỗi cấu trúc, lỗi xuống dòng, xảy ra do quá trình scan được thực hiện. Các công việc này cần phải được làm thủ công một cách tỉ mỉ và chi tiết, vì một sai sót bất kỳ sẽ để lại lỗi trong CSDL, ảnh hưởng nhiều tới kết quả truy vấn sau này trên Ontology. Thời gian và công sức dành cho công việc này chiếm một khối lượng đáng kể trong quá trình thực hiện luận án. Trong CSDL hiện có hơn 6.000 khái niệm bệnh đã được Việt hóa. Đây là một CSDL rất quý giá cho việc xử lý các truy vấn và tìm kiếm các thông tin về các căn bệnh đang có. Các file mềm liệt kê danh sách các bệnh tật đã được nhóm nghiên cứu cập nhật và miêu tả trong CSDL có trong hồ sơ minh chứng (xem Hình 4.9, Hình 4.10). Hình 4.9. Miêu tả thông tin một số thuộc tính trong file exel dữ liệu Hình 4.10. Hơn 3.000 bệnh thu thập từ sở y tế Theo hệ thống phân loại ICD về bệnh, tuy ICD-10 đã có nhiều cải tiến và mở rộng nhiều so với ICD-9 nhưng nó vẫn không đủ linh động cũng như khả năng mở rộng cho những yêu cầu truy vấn phức tạp. Ví dụ, số lượng tập con mở rộng trong ICD-10 hạn chế, không thể mở rộng quá 200 tập con. Do đó, luận án quyết định sử dụng CSDL lấy từ trang để xây dựng hệ tri thức bệnh tật như đã trình bày ở phần trên. Ontology này cho phép chứa nhiều liên kết dẫn đến những nguồn thông tin tin cậy, cũng như chứa mã ICD của nhiều phiên bản khác nhau. Ví dụ bệnh “tăng thân nhiệt ác tính – tên tiếng Anh: malignant hyperthermia” có mã ICD-9 lẫn ICD-10, cũng như mã của một số hệ thống phân loại khác. Cơ chế lưu trữ trong Ontology khá linh động, điều đó giúp cho Ontology có thể dễ dàng quản lý và truy xuất các thông tin theo yêu cầu của người dùng. Do đó, việc lựa chọn thiết kế công cụ tìm kiếm ngữ nghĩa có tương tác dựa trên cấu trúc Ontology là một sự lựa chọn đúng đắn nhằm giúp công việc đạt hiệu quả hơn. 4.4. Xây dựng phương pháp tìm kiếm ngữ nghĩa có tương tác điều hướng luồng tìm kiếm Luận án thực hiện kỹ thuật tương tác giữa người dùng và hệ thống tìm kiếm, sau khi người dùng cung cấp các trạng thái cơ bản của đối tượng cần tìm, hệ thống sẽ đưa ra gợi ý các trạng thái ẩn mà người dùng chưa xác định được. Dựa vào phản hồi của người dùng, hệ thống sẽ điều hướng luồng tìm kiếm đến thông tin cần tìm một cách nhanh và chính xác so với cách tìm kiếm thông thường. Ví dụ, khi tìm kiếm bệnh như ở Hình 4.11, người dùng chỉ biết được các triệu chứng ban đầu mà họ gặp phải, hệ thống sẽ đưa ra các triệu chứng khác dựa trên các triệu chứng ban đầu. Để thực hiện được điều này cần phải sử dụng hệ tri thức đã được khai phá trước đó. Nhờ gợi ý các triệu chứng khác mà người dùng có thể gặp phải và dựa vào phản hồi của người dùng, hệ thống dần dần tìm được các tài liệu bệnh hay các cơ sở y tế liên quan tới bệnh mà người dùng đang gặp phải. Hình 4.11. Hệ thống gợi ý từ khóa * Điều hướng luồng tìm kiếm sử dụng luật kết hợp trên tập trệu chứng bệnh: Khi hệ thống chưa có nhiều người dùng, các tương tác giữa người dùng và hệ thống chưa nhiều, sử dụng luật kết hợp giữa các triệu chứng sẽ cho phép điều hướng luồng tìm kiếm, đưa ra gợi ý cho người dùng các triệu chứng bệnh tiếp theo dựa vào những triệu chứng ban đầu mà người dùng đã cung cấp. 4.5. Xây dựng hệ thống 4.5.1. Cấu trúc cơ sở dữ liệu (Disease Schema Cấu trúc CSDL bệnh được mô tả ở Hình 4.12 và Bảng 4.1 sau: Hình 4.12. Cấu trúc cơ sở dữ liệu bệnh Bảng 4.1. Thông tin cơ sở dữ liệu Bảng Mô tả Disease Chứa thông tin bệnh được trích xuất từ Disease Ontology, như: + Bệnh cha (DiseaseParentId) + Tên bệnh trong tiếng Anh (LabelEn) + Tên bệnh trong tiếng Việt (LabelVn) DiseasePropertyCaterogies Chứa những loại tính chất của bệnh, như: + Phức tạp do (complicated by). + Gồm (composed of). + Xuất phát từ (derives from). + Có cơ sở vật chất (has material basis in). + Có triệu chứng (has symptom). + Thuộc về (inheres in). + Là một (is a). + Nằm ở (located in). + Xảy ra với (occurs with). + Một phần của (part of). + Thực hiện bởi (realized by). + Thực hiện bởi loại bỏ với (realized by suppression with). + Kết quả trong (results in). + Kết quả trong sự hình thành của (results in formation of). + Truyền qua (transmitted by). DiseaseProperty Chứa những tính chất của bệnh, như: + Tính chất cha (DiseasePropertyId) + Tên tính chất bệnh trong tiếng Anh (LabelEn) + Tên tính chất bệnh trong tiếng Việt (LabelVn) DiseaseProperties Chứa mối quan hệ giữa bệnh và tính chất của bệnh. DiseasePropertyFrequentItemset Chứa thông tin những tính chất bệnh thường xuyên xuất hiện cùng nhau. DiseasePropertyFrequentAssociationRule Chứa thông tin của những luật quan hệ của những tính chất bệnh, như: + Độ hỗ trợ của luật (Support). + Độ tin cậy của luật (Confident). DiseasePropertyFrequentAssociationRuleItems + Có liên kết với bảng “DiseasePropertyFrequentAssociationRule” và thể hiện những tính chất bệnh trong từng luật. 4.5.2. Khung tìm kiếm a) Gợi ý từ khóa tìm kiếm Hình 4.13. Autocomplete trong khung tìm kiếm Chức năng Gợi ý từ khóa tìm kiếm cung cấp tính năng gợi ý, đề nghị làm tăng tính tương tác giữa người sử dụng và hệ thống, trong một số tình huống dưới đây: - Khi người sử dụng bắt đầu nhập một số ký tự vào hộp tìm kiếm, hệ thống sẽ đề nghị truy vấn bắt đầu với những ký tự này. Nó giúp người sử dụng nhập vào các truy vấn triệu chứng nhanh hơn bằng cách lựa chọn câu hỏi từ gợi ý, và sử dụng các tiêu chí tìm kiếm chính xác hơn bằng cách đưa ra gợi ý chính tả đầy đủ như Hình 4.13. - Trong trường hợp, người sử dụng chỉ cần nhớ một từ khóa của các truy vấn, và họ có thể nhập các từ khóa vào ô tìm kiếm, hệ thống sẽ đề xuất các truy vấn, có chứa các từ khóa này. Nó giúp người sử dụng lựa chọn các truy vấn phù hợp với ý định của họ mà không cần nhớ toàn bộ truy vấn. Ngoài ra, đề nghị gợi ý không chỉ giúp người dùng lựa chọn các truy vấn chính xác cho ý định của họ, mà còn giúp họ có các truy vấn thuộc vào từ điển của hệ thống. Do đó, sẽ giúp độ tin cậy của các truy vấn cao hơn và các kết quả tìm kiếm được chính xác hơn. b) Gợi ý từ khóa liên quan Hình 4.14. Gợi ý từ khóa liên quan trong khung tìm kiếm Chức năng Gợi ý từ khóa liên quan cũng cung cấp việc đề xuất tính năng giới thiệu các triệu chứng có liên quan hoặc thuộc bệnh khác. Ví dụ (Hình 4.14) khi người sử dụng lựa chọn một số từ khóa tìm kiếm là “sốt cao” (fever), “đau đầu” (headache), và họ dừng lại để suy nghĩ tìm từ khóa tiếp theo; Lúc này hệ thống sẽ giới thiệu các triệu chứng liên quan với các triệu chứng gợi ý là “co giật” (convulsions). Các triệu chứng liên quan được khám phá từ các quy tắc quan hệ của các triệu chứng và các triệu chứng liên quan được xếp thứ tự từ trên xuống dưới (cao đến thấp) theo độ tin cậy của các quy tắc đó. c) Tìm kiếm kết quả bệnh Khi người dùng thực hiện tìm kiếm , hệ thống sẽ tìm bệnh tương ứng với những thuộc tính bệnh mà người dùng đã nhập vào, với những lựa chọn kết quả tìm kiếm như sau: - Với dữ liệu bệnh có trong hệ thống thì hệ thống sẽ chọn ra dữ liệu bệnh có thuộc tính đang tìm kiếm, sau đó bệnh được sắp xếp theo số lượng đã xem và được đánh giá, cùng với hiển thị nội dung của những bệnh này (được cung cấp bởi những tài liệu trong hệ thống). - Với dữ liệu bệnh không có trong hệ thống (chưa được cập nhật CSDL bệnh), ứng với mỗi bệnh đó, hệ thống sẽ tìm kiếm trên Google với từ khóa là tên bệnh và lấy những kết quả thuộc top 3 (từ trên xuống theo kết quả trả về) để gợi ý người dùng. d) Hiển thị kết quả tìm kiếm Kết quả tìm kiếm sẽ hiển thị theo từng khối cho mỗi bệnh, và được sắp xếp từ trái sang phải, từ trên xuống dưới. Mỗi khối bệnh được hiển thị như Hình 4.15: Hình 4.15. Hiển thị kết quả tìm kiếm bệnh Phần trên hiển thị ảnh đại diện của bệnh. Phần giữa hiển thị tên bệnh, và số lượng người xem bệnh này. Phần cuối hiển thị đánh giá của người dùng về nội dung bệnh. 4.6. Kết chương Chương 4 trình bày Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh có hỗ trợ tương tác với người sử dụng bằng các gợi ý dựa trên tập luật khai thác được từ Ontology bệnh [CTLA1]. Trình bày chi tiết các bước xây dựng Ontology bệnh tiếng Việt xuất phát từ Bộ phân loại bệnh từ ICD-10-CM và thu thập hơn 3.000 tài liệu về các bệnh để làm giàu Ontology bệnh. Xây dựng phương pháp tìm kiếm ngữ nghĩa có tương tác điều hướng luồng tìm kiếm. Xây dựng hệ thống gồm: cơ sở dữ liệu và khung tìm kiếm ngữ nghĩa có tương tác thông tin bệnh. Kết quả thử nghiệm cho thấy Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh thực sự hữu ích trong thực tế. Hệ thống giúp người sử dụng dễ dàng lựa chọn các truy vấn phù hợp với ý định của họ mà không cần nhớ toàn bộ truy vấn. Các gợi ý trong quá trình tương tác không chỉ giúp người dùng lựa chọn các truy vấn chính xác cho ý định của họ, mà còn giúp họ có được các kết quả tìm kiếm chính xác hơn. KẾT LUẬN VÀ CÁC NGHIÊN CỨU TIẾP THEO 1. Kết luận Luận án đã nghiên cứu các phương pháp xây dựng một hệ thống tìm kiếm ngữ nghĩa và ứng dụng xây dựng Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh. Hệ thống này mang lại hiệu quả cho việc tìm kiếm thông tin về bệnh khi ban đầu chưa có đầy đủ thông tin đầu vào. Quá trình tương tác giữa người dùng và Hệ thống dựa trên luật kết hợp mang lại hiệu quả cao trong quá trình suy diễn hơn so với việc tìm kiếm dựa trên luật kết hợp truyền thống. Điều này cũng dễ dàng lý giải bởi bản thân Ontology bệnh đã hàm chứa các luật kết hợp bên trong nó – quan hệ giữa các khái niệm và các thuộc tính. Ngoài ra, Ontology bệnh giúp việc phân loại các tài liệu bệnh theo một phân cấp ngữ nghĩa, điều này dễ dàng cho việc tìm kiếm. Các kết quả chính của luận án gồm: (1) Đề xuất phương pháp trích rút bộ ba (triple) dựa trên mô hình cú pháp, trích rút các bộ ba từ dữ liệu văn bản phục vụ cho việc xây dựng đặc trưng của văn bản; (2) Đề xuất phương pháp tìm kiếm đa diện dữ liệu văn bản và cá nhân hoá tìm kiếm đa diện sử dụng dữ liệu định hướng xử lý nhập nhằng của Wikipedia Disambiguation; (3) Đề xuất phương pháp khai phá luật kết hợp trong Ontology bệnh (ASO-Apriori) dựa trên 02 độ đo mới: độ hỗ trợ mở rộng và độ tin cậy mở rộng và khai phá luật kết hợp ngữ nghĩa giữa các mối quan hệ trong Ontology bệnh; (4) Xây dựng Ontology bệnh tiếng Việt; (5) Đề xuất phương pháp và xây dựng Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh có hỗ trợ tương tác với người sử dụng bằng các gợi ý dựa trên tập luật kết hợp giữa các triệu chứng và luật kết hợp ngữ nghĩa từ các mối quan hệ trên Ontology bệnh. 2. Các nghiên cứu tiếp theo Việc khai phá luật kết hợp ngữ nghĩa trong Ontology và sử dụng luật kết hợp trong hệ thống tìm kiếm ngữ nghĩa thông tin bệnh chỉ là khởi đầu, hướng nghiên cứu này có thể mở rộng áp dụng vào các hệ thống khác trong tương lai. Vì vậy, cần tiếp tục nghiên các phương pháp trích rút thông tin văn bản, các phương pháp khai phá luật kết hợp trong ontology, xử lý nhập nhằng và điều hướng luồng tìm kiếm sử dụng ontology. ********************* DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN Nguyễn Hồng Sơn, Dương Trọng Hải, Hoa Tất Thắng, Hệ thống tương tác thông minh trong tra cứu, tìm kiếm thông tin bệnh, Tạp chí Nghiên cứu Khoa học và Công nghệ Quân sự, Số 53, 02/2018, trang 160-169, Viện Khoa học và Công nghệ Quân sự, Hà Nội. Hong Son Nguyen, Minh Hieu Le, Chan Quan Loi Lam, Trong Hai Duong, Smart interactive search for Vietnamese disease by using data mining-based ontology, Journal of Information and Telecommunication, volume 1 - issue 2, 2017, pages 176-191. Huỳnh Ái Loan, Nguyễn Hồng Sơn, Dương Trọng Hải, Triple Extraction Using Lexical Pattern-based Syntax Model, Advanced Computational Methods for Proceedings of the 4th International Conference on Computer Science, Applied Mathematics and Applications, ICCSAMA 2016, 2-3 May, 2016, Vienna, Austria, 2016, vol 453, pages 265-279. Nguyễn Hồng Sơn, Phạm Hồng Phúc, Dương Trọng Hải, Nguyễn Thị Phương Trang, Personalized Facets for Faceted Search Using Wikipedia Disambiguation and Social Network, Advanced Computational Methods for Knowledge Engineering: Proceedings of the 4th International Conference on Computer Science, Applied Mathematics and Applications, ICCSAMA 2016, 2-3 May, 2016, Vienna, Austria, 2016, vol 453, pages 229-241. Đặng Đức Bình, Nguyễn Hồng Sơn, Nguyễn Thanh Bình, Dương Trọng Hải, A framework of faceted search for unstructured documents using wiki disambiguation, Computational Collective Intelligence, ICCCI 2015, Springer International Publishing, 2015, pages 502-511. TÀI LIỆU THAM KHẢO 1. Tiếng Việt Cao Hoàng Trụ, VN-KIM cho Web Việt có ngữ nghĩa, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9 - Khoa Công Nghệ Thông Tin, Đại học Bách khoa TP.HCM, 2005. Đỗ Trung Tuấn, Tìm kiếm thông tin, NXB Đại học Quốc gia, Hà Nội, 2016. 2. Tiếng Anh Abdallaha, Z.S., M. Carmana, and G. Haffari, Multi-domain evaluation framework for named entity recognition tools. Computer Speech & Language, 2016. Arenas M., Gutierrez C., Pérez J., On the Semantics of SPARQL. In: de Virgilio R., Giunchiglia F., Tanca L. (eds) Semantic Web Information Management. Springer, Berlin, Heidelberg, 2010. Arenas, M., et al. SemFacet: semantic faceted search over yago. in Proceedings of the 23rd International Conference on World Wide Web, 2014, ACM. Arenas, M., et al., Faceted search over RDF-based knowledge graphs. Web Semantics: Science, Services and Agents on the World Wide Web, 2016. 37: p. 55-74. Arguello, J., Vector Space Model. Information Retrieval September, 2013. Armentano, M.G., et al., NLP-based faceted search: Experience in the development of a science and technology search engine. Expert Systems with Applications, 2014. 41(6): p. 2886-2896. Baker, K.S. and C.L. Chandler, Enabling long-term oceanographic research: Changing data practices, information management strategies and informatics. Deep Sea Research Part II: Topical Studies in Oceanography, 2008. 55(18): p. 2132-2142. Baker S., A. Korhonen, and S. Pyysalo, Cancer HallmarkText Classification Using Convolutional Neural Networks. BioTxtM 2016, 2016: p.1. Banko M., et al. Open Information Extraction from the Web. in IJCAI, 2007. Baohui J., W. Yuxin and Y. Zheng-qing. The research of data mining in ahm technology based on association rule. in 2011 Prognostics and System Health Managment Confernece, 2011, IEEE. Bast H. and E. Haussmann. Open information extraction via contextual sentence decomposition. in Semantic Computing (ICSC), 2013 IEEE Seventh International Conference on 2013, IEEE Benomrane S., M.B. Ayed, and A.M. Alimi. An agent-based knowledge discovery from databases applied in healthcare domain. in Advanced Logistics and Transport (ICALT), 2013 International Conference on 2013, IEEE. Berners-Lee T., Hendler J., Lassila O.,The Semantic Web, Scientific American, vol. 284, no.5, pp.35-43 (2001). Boldi P., et al.,The query-flow graph: model and applications. in Proceedings of the 17th ACM conference on Information and knowledge management, 2008, ACM. Beate Hampe, Transitive phrasal verbs in acquisition and use: A view from construction grammar, Lang. Value, Vol 4(2012). Castillo J.A.R., et al. Information extraction and integration from heterogeneous, distributed, autonomous information sources-a federated ontology-driven query-centric approach. in Information Reuse and Integration, 2003, IRI 2003. IEEE International Conference on 2003, IEEE. Chen, K. and N. Gorla, Information system project selection using fuzzy logic. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 1998. 28(6): p. 849-855. D. L. Mcguinness, R. Fikes, J. Hendler and L. A. Stein, DAML+OIL: an ontology language for the Semantic Web, in IEEE Intelligent Systems, vol. 17, no. 5, pp. 72-80, Sep / Oct 2002. doi: 10. 1109/MIS. 2002. 1039835. Darewych R.R., Dosyn, D.H., Lytvyn V.V., Nazarchuk Z.T.: Assessment of the similarity of text documents based on the weight of items using information knowledge base. Artif. Intell. Donetsk 3, 500–509 (2006). Dario Bonino, Fulvio Corno, Laura Farinetti, Alessio Bosca,Ontology Driven Semantic Search, WSEAS Transaction on Information Science and Application, Issue 6, Volume 1, December 2004, pp. 1597-1605. Dawson Christian W. and Robert Wilby. An artificial neural network approach to rainfall-runoff modelling. Hydrological Sciences Journal 43.1 (1998): 47-66. Deborah L. McGuinness and Frank van Harmelen, OWL Web Ontology Language Overview, W3C Recommendation, 2004. Del Corro, L. and R. Gemulla. Clausie: clause-based open information extraction. in Proceedings of the 22nd international conference on World Wide Web, 2013, ACM. Denil, M., et al., Modelling, visualising and summarising documents with a single convolutional neural network. arXiv preprint arXiv:1406.3830, 2014. Denlinger, R.P., et al., A Bayesian method to rank different model forecasts of the same volcanic ash cloud. Lagrangian Modeling of the Atmosphere, 2013: p. 299-310. Denman, S., et al., Searching for people using semantic soft biometric descriptions. Pattern Recognition Letters, 2015. 68: p. 306-315 Diem L.T.H., J.P. Chevallet, D.T.B. Thuy, Thesaurus-based query and document expansion in conceptual indexing with UMLS. RIVF, 2007. Etzioni, O., et al. Open Information Extraction: The Second Generation. in IJCAI, 2011. Figueroa, A. and G. Neumann, Category-specific models for ranking effective paraphrases in community question answering. Expert Systems with Applications, 2014. 41(10): p. 4730-4742 Figueroa, A. and G. Neumann, Context-aware semantic classification of search queries for browsing community question–answering archives. Knowledge-Based Systems, 2016. 96: p. 1-13. Figueroa, A. and G. Neumann. Learning to Rank Effective Paraphrases from Query Logs for Community Question Answering. in AAAI, 2013. Citeseer. Gayo-Avello, D., A survey on session detection methods in query logs and a proposal for future evaluation. Information Sciences, 2009. 179(12): p. 1822-1843 Graham Klyne and Jeremy J. Carroll, Resource Description Framework Concepts and Abstract Syntax, W3C Recommendation, 2004, Graham, J., et al., Federated or cached searches: Providing expected performance from multiple invasive species databases. Frontiers of Earth Science, 2011. 5(2): p. 111-119. Gruber, T.R. (1995), Toward principles for the design of ontologies used for knowledge sharing, International Journal of Human-Computer Studies, 43(5-6), p. 907-928. Gruber, T.R., A translation approach to portable ontology specifications. Knowledge acquisition, 1993. 5(2): p. 199-220. Guha, R., R. McCool, and E. Miller. Semantic search. in Proceedings of the 12th international conference on World Wide Web, 2003, ACM. Han, J., et al., Mining frequent patterns without candidate generation: A frequent-pattern tree approach. Data mining and knowledge discovery, 2004. 8(1): p. 53-87. Han, J., J. Pei, and M. Kamber, Data mining: concepts and techniques. 2011: Elsevier. Hannah Bast, Björn Buchhold, Elmar Haussmann,Semantic Search on Text and Knowledge Bases.Foundations and Trends in Information Retrieval, January 2016, 10(1):119-271. Henrik Bulskov Styltsvig, Ontology-based Information Retrieval, A dissertation Presented to the Faculties of Roskilde University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy, 2006. Henrik Eriksso, The semantic-document approach to combining documents and ontologies, International Journal of Human-Computer Studies Volume 65, Issue 7, July 2007, Pages 624-639. Henriksen, A.D. and A.J. Traynor, A practical R&D project-selection scoring tool. IEEE Transactions on Engineering Management, 1999. 46(2): p.158-170. Ho Chung Wu, Robert Wing Pong Luk, Kam Fai Wong, and Kui Lam Kwok. 2008. Interpreting TF-IDF term weights as making relevance decisions. ACM Trans. Inf. Syst. 26, 3, Article 13 (June 2008), 37 pages. DOI= Holsapple C.W. (2002), K.D. Joshi, Collaborative Approach in Ontology Design, Communications of the ACM, 45, 42 – 47. Homma, Y., et al., A Hierarchical Neural Network for Information Extraction of Product Attribute and Condition Sentences. OKBQA 2016, 2016: p. 21. Hung, C. and S. Wermter, Neural network based document clustering using wordnet ontologies. International Journal of Hybrid Intelligent Systems, 2004. 1(3, 4): p. 127-142. Huynh, A.L., H.S. Nguyen, and T.H. Duong, Triple Extraction Using Lexical Pattern-based Syntax Model, in Advanced Computational Methods for Knowledge Engineering. 2016, Springer. p. 265-279 Huynh, M.C., P.D.T. Le, and T.H. Duong, Improved Vector Space Model TF/IDF Using Lexical Relations. International Journal of Advanced Computer Research, 2015. 5(21): p. 334. Jacso, P., Columns and News-Internet Insights-Thoughts About Federated Searching-Peter Jacso discusses the consolidated retrieval of results in response to a query sent to several databases. Information Today, 2004. 21(9): p. 17-27. Jan Paralic and Ivan Kostial, Ontology-based Information Retrieval, Proc. of the 14th International Conference on Information and Intelligent systems, IIS 2003, p. 23-28. Jaynes, E.T., Bayesian methods: General background, 1986. Kalchbrenner, N., E. Grefenstette, and P. Blunsom, A convolutional neural network for modelling sentences. arXiv preprint arXiv:1404.2188, 2014. Karapiperis, S. and D. Apostolou, Consensus building in collaborative ontology engineering processes. Journal of Universal Knowledge Management, 2006. 1(3): p. 199-216. Kim, J.-T. and D.I. Moldovan,Acquisition of semantic patterns for information extraction from corpora. in Artificial Intelligence for Applications, 1993, Proceedings, Ninth Conference on 1993, IEEE. Konys Agnieszka. Ontology-Based Approaches to Big Data Analytics. International Multi-Conference on Advanced Computer Systems, ACS 2016, pp 355-365 Lamma E., F. Riguzzi, and S. Storari, Exploiting Association and Correlation Rules-Parameters for Improving the K2 Algorithm. in ECAI, 2004. Lawrence, Steve, et al,Face recognition: A convolutional neural-network approach. IEEE transactions on neural networks 8.1 (1997): 98-113. Leskovec, J., M. Grobelnik, and N. Milic-Frayling,Learning sub-structures of document semantic graphs for document summarization. in LinkKDD Workshop, 2004. Lin, C.-Y. Automatic question generation from queries. in Workshop on the question generation shared task, 2008. Loni, B., et al. Bayesian Personalized Ranking with Multi-Channel User Feedback. in Proceedings of the 10th ACM Conference on Recommender Systems, 2016. ACM. Lytvyn, V., et al., Classification Methods of Text Documents Using Ontology Based Approach, in Advances in Intelligent Systems and Computing. 2017, Springer. p. 229-240. M. A. Bramer, Knowledge Discovery and Data Mining, Institution of Electrical Engineers Stevenage, ISBN:0-85296-767-5, UK ©1999. Ma, J., et al., An ontology-based text-mining method to cluster proposals for research project selection. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2012. 42(3): p. 784-790. McDonald, G.C., Applications of subset selection procedures and Bayesian ranking methods in analysis of traffic fatality data. Wiley Interdisciplinary Reviews: Computational Statistics, 2016, 8(6): p.222-237. Michael C. Daconta, Leo J. Obrst and Kevin T. Smith (2003),The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management, John Wiley & Sons Inc. Milias-Argeitis, A., et al., Elucidation of Genetic Interactions in the Yeast GATA-Factor Network Using Bayesian Model Selection. PLoS Comput Biol, 2016. 12(3): p. e1004784. Mohammad Hossein Namaki, Yinghui Wu, Qi Song, Peng Lin, and Tingjian Ge. 2017. Discovering Graph Temporal Association Rules. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM '17). ACM, New York, NY, USA, 1697-1706. DOI: https://doi.org/10.1145/3132847.3133014 Nadeau, D. and S. Sekine, A survey of named entity recognition and classification. Lingvisticae Investigationes, 2007. 30(1): p. 3-26. Noy, N.F. and D.L. McGuinness, Ontology development 101: A guide to creating your first ontology. 2001, Stanford knowledge systems laboratory technical report KSL-01-05 and Stanford medical informatics technical report SMI-2001-0880, Stanford, CA. Ontology triệu chứng Pan, W., et al., Adaptive Bayesian personalized ranking for heterogeneous implicit feedbacks. Knowledge-Based Systems, 2015. 73: p. 173-180. Patil, N., A.S. Patil, and B. Pawar, Survey of Named Entity Recognition Systems with respect to Indian and Foreign Languages. International Journal of Computer Applications, 2016. 134(16). Ranga Chandra Gudivadaa, Xiaoyan A. Qua, Jing Chena, Anil G. Jeggab, Eric K. Neumannd, Bruce J. Aronow, Identifying disease-causal genes using Semantic Web-based representation of integrated genomic and phenomic knowledge, Journal of Biomedical Informatics, Volume 41, Issue 5, October 2008, Pages 717–729. Recknagel, Friedrich, et al. Artificial neural network approach for modelling and prediction of algal blooms. Ecological Modelling 96.1 (1997): 11-28. Ricardo Usbeck, Michael Röder, Peter Haase, Artem Kozlov, Muhammad Saleem, Axel-Cyrille, Ngonga Ngomo. Requirements to Modern Semantic Search Engine. International Conference on Knowledge Engineering and the Semantic Web KESW 2016: Knowledge Engineering and Semantic Web, pp 328-343 Riloff, E. Automatically generating extraction patterns from untagged text. in Proceedings of Thenational conference on AI, 1996. Rose, D.E. and D. Levinson. Understanding user goals in web search. in Proceedings of the 13th international conference on World Wide Web, 2004. ACM. Ruiz, P.P., B.K. Foguem, and B. Grabot, Generating knowledge in maintenance from Experience Feedback. Knowledge-Based Systems, 2014, 68: p.4-20 Salton, G. and C. Buckley, Term-weighting approaches in automatic text retrieval. Information processing & management, 1988, 24(5), p.513-523. Schmitz, M., et al. Open language learning for information extraction. in Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012. Association for Computational Linguistics. Sharma, Sujeet Kumar, et al. Predicting mobile banking adoption: A neural network approach. Journal of Enterprise Information Management 29.1, 2016. Soderland, S., Learning information extraction rules for semi-structured and free text. Machine learning, 1999. 34(1-3): p. 233-272. Suchanek, F.M., G. Kasneci, and G. Weikum. Yago: a core of semantic knowledge. in Proceedings of the 16th international conference on World Wide Web, 2007, ACM. Suresh Pokharel, Mohamed Ahmed Sherif,Jens Lehmann. Ontology Based Data Access and Integration for Improving the Effectiveness of Farming in Nepal. WI-IAT '14 Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT) – Vol.02, P.319-326. T.H. Duong, G. S. Jo, J.J. Jung, and N.T. Nguyen, Complexity Analysis of Ontology Integration Methodologies: A Comparative Study, Journal of Universal Computer Science, vol. 15, no. 4, 2009, pp.877-897. T.H. Duong, N.T. Nguyen, and G. S. Jo, A Hybrid Method for Integrating Multiple Ontologies, Cybernetics and Systems, vol. 40, no. 2, 2009, pp.123-145. T.H. Duong, Jo G.S, Collaborative Ontology Building by Reaching Consensus among Participants. Information-An International Interdisciplinary Journal, 2010, 1557-1569. T.H. Duong, Nguyen N.T., Jo G.S,Constructing and Mining: A Semantic-Based Academic Social Network. Journal of Intelligent & Fuzzy Systems21(3), 2010, 197-207. T.H. Duong, Jo G.S., Enhancing performance and accuracy of ontology integration by propagating priorly matchable concepts, Neurocomputing, 88(1), 2012, pp. 3-12. T.H. Duong, Ngoc Thanh Nguyen, Cuong Duc Nguyen, Thi Phuong Trang Nguyen, Ali Selamat: Trust-Based Consensus for Collaborative Ontology Building. Cybernetics and Systems 45(2), 2014, 146-164. Tang, D., B. Qin, and T. Liu. Document modeling with gated recurrent neural network for sentiment classification. in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015. Thomee, B. and M.S. Lew, Interactive search in image retrieval: a survey. International Journal of Multimedia Information Retrieval, 2012. 1(2): p. 71-86. Tian Q., et al., An organizational decision support system for effective R&D project selection. Decision Support Systems, 2005, 39(3): p. 403-413. Trappey AJ, Trappey CV, Chiang TA, Huang YH. Ontology-based neural network for patent knowledge management in design collaboration. International Journal of Production Research, 2013 Apr 1;51(7):1992-2005. Utama, R., J. Piekarewicz, and H. B. Prosper,Nuclear mass predictions for the crustal composition of neutron stars: A Bayesian neural network approach. Physical Review C 93.1: 014311, 2016. Vogrinčič S, Bosnić Z. Ontology-based multi-label classification of economic articles. Computer Science and Information Systems, 2011, 8(1):101-19. Wang, H. and W.H. Huang, Bayesian ranking responses in multipleresponse questions. Journal of the Royal Statistical Society: Series A (Statistics in Society), 2014. 177(1): p. 191-208 Wang, H., D. Dou, and D. Lowd. Ontology-Based Deep Restricted Boltzmann Machine. in International Conference on Database and Expert Systems Applications, 2016. Springer. Willner A, Giatili M, Grosso P, Papagianni C, Morsey M, Baldin I. Using Semantic Web Technologies to Query and Manage Information within Federated Cyber-Infrastructures. Data, 2017; 2(3):21. Xavier, C.C., V.L.S. de Lima, and M. Souza, Open information extraction based on lexical semantics. Journal of the Brazilian Computer Society, 2015. 21(1): p.1 Xiao, S., et al., Bayesian Networks-based Association Rules and Knowledge Reuse in Maintenance Decision-Making of Industrial Product-Service Systems. Procedia CIRP, 2016. 47: p. 198-203 Yan Guo, Minxi Wang, Xin Li, (2017),Application of an improved Apriori algorithm in a mobile e-commerce recommendation system, Industrial Management & Data Systems, Vol. 117 Issue: 2, pp.287-303, https://doi.org/10.1108/IMDS-03-2016-0094. Yang Chen, Xiaofeng Ren, Guo-Qiang Zhangz and Rong Xuz, Ontology-guided Approach to Retrieving Disease Manifestation Images for Health Image Base Construction, 2012 IEEE Second Conference on Healthcare Informatics, Imaging and Systems Biology. Yang, Z., et al. Hierarchical attention networks for document classification. in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016. Yun-tao, Z., Ling, G. & Yong-cheng, W. J. Zheijang. An improved TF-IDF approach for text classification. Journal of Zhejiang University-SCIENCE,. August 2005, Volume 6, Issue 1, pp 49–55. Zhang, C., et al. AdaWIRL: A Novel Bayesian Ranking Approach for Personal Big-Hit Paper Prediction. in International Conference on Web-Age Information Management. 2016. Springer. Zhang, N., et al., TapTell: Interactive visual search for mobile task recommendation. Journal of Visual Communication and Image Representation, 2015. 29: p. 114-124. Zhang, Q. and Y. Song, Moment Matching Based Conjugacy Approximation for Bayesian Ranking and Selection. arXiv preprint arXiv:1610.09400, 2016. Zhou, S., S. Zhang, and G. Karypis, Advanced Data Mining and Applications, 8th International Conference, ADMA 2012, Nanjing, China, December 15-18, 2012, Proceedings. Vol. 7713. 2012: Springer Science & Business Media. ******************** PHỤ LỤC CÁC HÌNH ẢNH CỦA HỆ THỐNG TƯƠNG TÁC NGỮ NGHĨA TRONG TRA CỨU/TÌM KIẾM THÔNG TIN BỆNH * Phụ lục 1:Ontology bệnh – Bệnh “Lao kế” Các hình sau (Hình PL1.1 đến Hình PL1.8) thể hiện một ví dụ về bệnh “Lao kế”. Hình PL1.1. Mô tả bệnh Giải phẫu của bệnh: Hình PL1.2. Giải phẩu bệnh Hình PL1.3. Dịch tễ học Hình PL1.4. Yếu tố nguy cơ Hình PL1.5. Bệnh sử Hình PL1.6. Lâm sàng - cận lâm sàng Hình PL1.7. Chuẩn đoán Hình PL1.8. Điều trị * Phụ lục 2:Ontology DO phiên bản tiếng Việt - Bệnh “Bệnh nấm da chân” từ DO phiên bản tiếng Việt đã được tinh chỉnh Bệnh “Bệnh nấm da chân” từ Ontology DO phiên bản tiếng Việt đã được tinh chỉnh (Hình PL2.1 đến Hình PL2.4). Hình PL2.1. Xét nghiệm Hình PL2.2. Khái niệm bệnh, trong đó có đầy đủ các thông tin như nguyên nhân, triệu chứng, lưu trú, vật gây bệnh. Hình PL2.3. Các cơ sở dữ liệu bệnh khác được tham chiếu Hình PL2.4. Tên bệnh tương đồng thường dùng

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_phuong_phap_tim_kiem_ngu_nghia_su_dung_on.docx
2. NguyenHongSon_LATScapHocvien_tomtat.docx
3. NguyenHongSon_LATScapHocvien_donggopmoi_tiengViet.docx
4. NguyenHongSon_LATScapHocvien_donggopmoi_tiengAnh.docx
5. NguyenHongSon_LATScapHocvien_trichyeu.docx