Luận án Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

Các kết quả chính của luận án Luận án đã trình bày một nghiên cứu có tính hệ thống về vấn đề nhận dạng thực thể, một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Luận án tập trung nghiên cứu, phát triển cả về lý thuyết và ứng dụng đối với bài toàn nhận dạng thực thể, đề xuất một số mô hình và giải pháp nhằm nâng cao hiệu quả nhận dạng thực thể cũng như đưa ra một số khung làm việc phục vụ cho quá trình nhận dạng thực thể. Kết quả nghiên cứu của luận án có thể được tóm tắt như sau: 1. Đề xuất mô hình kết hợp nhận dạng đồng thời thực thể và các thuộc tính liên quan đến thực thể, mô hình cho phép sử dụng nhiều loại đặc trưng khác nhau nhằm tăng cường tính ngữ nghĩa và hiệu quả của quá trình nhận dạng. Một tập dữ liệu với gần 10.000 câu đã được gán nhãn thực thể và thuộc tính cũng được xây dựng phục vụ cho việc huấn luyện và đánh giá. Kết quả của mô hình nhận dạng đạt 83,39 với độ đo F1. 2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mô hình nhận dạng thực thể và thuộc tính đã được đề xuất. Các bước phân tích câu hỏi và trả lời câu hỏi đều cho thấy tầm quan trọng của mô hình nhận dạng thực thể đối với mô hình hỏi đáp. Kết quả của mô hình tương đối khả quan với độ đo F1 đạt 65,5. 3. Góp phần mở rộng khung cấu trúc thực thể y sinh, thống nhất và tổng quát lại các định nghĩa về các thực thể y sinh có liên quan đến nhau như bệnh, hóa chất, gene, sinh vật, biểu hiện và bộ phân cơ thể. Đề xuất mô hình giải quyết bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan, đây là loại thực thể mới trong y sinh với các tính chất phức tạp về mặt ngữ nghĩa. Mô hình giải quyết đạt kết quả khả quan với tất các thực thể có trong lược đồ nhận dạng. 4. Đưa ra các so sánh, nhận định về vấn đề thích nghi miền dữ liệu đối với việc nhận dạng thực thể y sinh, các kết quả cho phép những nghiên cứu sau này về nhận dạng thực thể biểu hiện có một khung nhìn tổng quát trong quá trình chọn lựa dữ liệu huấn luyện và đánh giá.121 5. Nâng cao chất lượng nhận dạng thực thể biểu hiện và thực thể y sinh liên quan bằng kỹ thuật lai ghép, kết hợp nhiều mô hình nhận dạng khác nhau. Luận án đề xuất 3 phương pháp lai ghép, kết hợp và đưa ra các đánh giá, nhận xét về các phương pháp này. Các kết quả đã chỉ ra được tính hiệu quả của các phương pháp lai ghép so với mô hình đã có trong chương 3 khi làm tăng kết quả lên 1,5% với độ đo F.

pdf138 trang | Chia sẻ: yenxoi77 | Lượt xem: 579 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ong đó các bộ gán nhãn đưa ra các kết quả khác nhau cho cùng một chuỗi từ vựng. Trong trường hợp không nhập nhằng, hai nhãn được đề xuất cho cùng một chuỗi là PH cho cụm “XY” và GG cho cụm “WZ”, tuy nhiên không xảy ra xung đột nhãn, vì vậy kết quả nhãn cuối cùng cho chuỗi này theo ký pháp BIO sẽ là B-PH I-PH O B-GG I-GG. Trong trường hợp nhập nhằng, có nhiều xung đột nhãn xảy ra, ví dụ đối với từ vựng “A”, các bộ gán nhãn đưa ra các quyết định khác nhau là PH, GG, O và AN, trong trường hợp này sẽ cần dùng đến danh sách ưu tiên để đưa ra quyết định. 107 Hình 4.3. Mô hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả Hình 4.4. Nhập nhằng và không nhập nhằng (BNG: Bộ gán nhãn, X, Y, A-F là các từ vựng) Có thể thấy rằng danh sách ưu tiên được sử dụng để quyết định kết quả có một ưu điểm lớn về tính đơn giản và có vẻ nó bao phủ được khá nhiều các trường hợp thông dụng. Tuy nhiên, danh sách ưu tiên có một nhược điểm lớn ở tính kinh 108 nghiệm và thiếu tính mềm dẻo của nó, hơn nữa, do sự phức tạp của ngôn ngữ, trong dữ liệu thực tế không thể tránh khỏi những trường hợp vượt ra khỏi phạm vi của danh sách này. Trong các kỹ thuật lai ghép tiếp theo, luận án đề xuất sử dụng hai phương pháp khác áp dụng học máy thống kê để đưa ra được tập nhãn tối ưu khi kết hợp giữa các mô hình là phương pháp lai ghép sử dụng kỹ thuật học máy gán nhãn chuỗi và kỹ thuật học xếp hạng. 4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi Phương pháp sử dụng kỹ thuật học máy vào giải quyết nhập nhằng trong quá trình lai ghép được đề xuất trong luận án là sử dụng giải thuật gán nhãn chuỗi MEM+BS (Mô hình Entropy cực đại và giải mã bằng tìm kiếm chùm). Phương pháp này được mô tả như trong hình 4.5 dưới đây. Hình 4.5. Mô hình hệ thống sử dụng MEM + BS để quyết định kết quả 109 Một ưu điểm của phương pháp này là sử dụng lại cài đặt MEM + BS đã được dùng trong bộ gán nhãn học máy, vì vậy tái sử dụng nó sẽ hạn chế tính cồng kềnh của hệ thống. Trong phương án cải tiến này, kết quả của 7 bộ gán nhãn sẽ được sử dụng như các đặc trưng mới để huấn luyện và giải mã mô hình, tập đặc trưng đầy đủ được miêu tả trong Bảng 4.1. Tuy nhiên, phương pháp này lại có nhược điểm do MEM + BS xử lý dữ liệu dưới dạng gán nhãn chuỗi một lần nữa nên nó không xem xét có xảy ra trường hợp nhập nhằng hay không, tức là dù có hay không xảy ra xung đột nhãn, mô-đun quyết định kết quả bằng MEM + BS vẫn tiến hành gán lại toàn bộ chuỗi. Bảng 4.1. Các đặc trưng được MEM + BS sử dụng để quyết định kết quả STT Đặc trưng Ví dụ 1 Từ đang xét wi 2 Ngữ cảnh wi-2, wi-1, wi+1, wi+2, wi-2.wi-1 3 MEM+BS mli : B-GG, mli-1 : B-PH, mli+1 : I-PH, mli+2 : O 4 Đối sánh luật rulei : B-PH, rulei-1 : I-PH, rulei+1 : O 5 Đối sánh từ điển PH dm1i : B-PH, dm 1 i-1 : I-PH, dm 1 i+1 : O 6 Đối sánh từ điển DS dm2i : B-DS, dm 2 i-1 : I-DS, dm 2 i+1 : O 7 Đối sánh từ điển CD dm3i : B-CD, dm 3 i-1 : I-CD, dm 3 i+1 : O 8 Đối sánh từ điển AN dm4i : B-AN, dm 4 i-1 : I-AN, dm 4 i+1 : O 9 Đối sánh từ điển GG dm5i : B-GG, dm 5 i-1 : I-GG, dm 5 i+1 : O (Các đặc trưng 3-9 là nhãn đưa ra của bộ gán nhãn tương ứng) 4.2.3 Phương pháp lai ghép sử dụng học xếp hạng Mô hình hệ thống lai ghép sử dụng học xếp hạng để quyết định kết quả được mô tả trong Hình 4.6. Bước đầu tiên của học xếp hạng tương tự như phương pháp danh sách ưu tiên, các kết quả đầu ra từ các bộ gán nhãn cũng được duyệt qua mô- 110 đun xác định trường hợp nhập nhằng, nếu không xảy ra xung đột, kết quả sẽ được đưa ngay thành kết quả cuối cùng. Để xử lý các trường hợp nhập nhằng, một mô hình giải quyết nhập nhằng bằng học xếp hạng được sử dụng để lựa chọn ra nhãn có trọng số lớn nhất làm nhãn cuối cùng trong kết quả đầu ra. Hình 4.6. Mô hình hệ thống sử dụng SVM-LTR để quyết định kết quả Để sinh ra tập huấn luyện cho mô hình học xếp hạng, ba luật được sử dụng để tạo ra các danh sách xếp hạng (ranked lists) từ tập dữ liệu huấn luyện, thông qua bước trích chọn đặc trưng, các danh sách xếp hạng nói trên được sử dụng để huấn 111 luyện mô hình học xếp hạng. Ba luật được dùng để sinh tập dữ liệu huấn luyện cho học xếp hạng được mô tả như sau:  (1) Ứng viên (candidate) có cùng một nhãn với nhãn trong tập huấn luyện nhận được xếp hạng (rank) cao nhất. Trong số này, các ứng viên trùng khớp với nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên trùng khớp hơn về phía bên phải. Điều này là do chúng ta xử lý chuỗi theo thứ tự từ trái sang phải.  (2) Các ứng viên có một sự trùng lặp một phần với chuỗi trong tập huấn luyện nhận được xếp hạng thứ hai. Trong số đó, các ứng viên trùng khớp với nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên trùng khớp hơn về phía bên phải.  (3) Các ứng viên không có sự trùng lặp nào với chuỗi trong tập huấn luyện sẽ nhận xếp hạng thấp nhất. Luận án sử dụng phần mềm SVMrank22 của tác giả Thorsten Joachims để cài đặt giải thuật học xếp hạng SVM-LTR (SVM Learn to rank). 4.3. Thực nghiệm và đánh giá kết quả 4.3.1. Phương pháp đánh giá Các thực nghiệm đánh giá kết quả so sánh giữa các kỹ thuật lai ghép đều sử dụng độ đo chính xác (P), độ hồi tưởng, độ đo F1 và độ đo trung vi mô F1 với phương pháp kiểm thử chéo 10 lần. Tuy nhiên trong trường hợp kết quả giữa các phương pháp có sự khác biệt nhỏ, việc kiểm định tính tin cậy của việc so sánh giữa các phương pháp là một vấn đề quan trọng. Ở đây luận án đánh giá tính tin cậy dựa trên đô đo p-value. Kiểm định độ tin cậy (significant test) của kết quả dựa trên p-value. Dựa trên [USC10, DCX12], luận án so sánh hiệu năng giữa các hệ thống khác nhau sử dụng 22 SVMrank: 112 một cách tiếp cận xấp xỉ ngẫu nhiên để đánh giá độ tin cậy của chúng (significance test). Để tính toán độ tin cậy của hai hệ thống khác nhau (hệ thống A và hệ thống B) trên tập dữ liệu Phenominer A (với i câu), luận án thực hiện các bước sau: (1) Tính độ đo F1 theo micro-average sử dụng kiểm thử chéo 10 lần đối với mỗi hệ thống và ghi lại sự khác biệt trong hiệu năng f = fA - fB; (2) Tạo một tập S (với 2i câu) bằng cách lấy các kết quả đầu ra từ 10 lần kiểm thử chép trên hai hệ thống; (3) Sử dụng i câu lựa chọn ngẫu nhiên từ tập S để tạo tập Aj, phần còn lại của S là tập Bj (Aj được sử dụng cho hệ thống A và Bj được sử dụng cho hệ thống B); (4) Tính = − (trong đó và là các độ đo F1 micro-average sử dụng kiểm thử chéo 10 lần cho tập Aj và Bj tương ứng). Các bước từ 2 đến 4 được lặp lại n lần (thực nghiệm trong luận án thiết lập n = 1000 dựa trên [USC10]). Số lần mà fi - f ≤ 0 trong n vòng lặp chia cho n là giá trị p- value giữa hệ thống A và hệ thống B. 4.3.2 Thực nghiệm đánh giá hiệu quả của từng phương pháp lai ghép Thực nghiệm này sẽ so sánh kết quả của ba phương pháp lai ghép mô hình với kết quả của mô hình được đề xuất trong chương 3. Kết quả của thực nghiệm được đánh giá trên tập dữ liệu Phenominer A sẽ được thể hiện rõ ràng trên từng loại thực thể và trên toàn bộ mô hình. Bảng 4.2. Kết quả của mô hình trên tập dữ liệu Phenominer A khi sử dụng các phương pháp khác nhau để lai ghép kết quả Đơn mô hình MEM + BS Danh sách ưu tiên Ghép nối MEM + BS Học xếp hạng SVM-LTR P R F P R F P R F P R F PH 73,7 76,1 74,9 74,1 76,0 75,0 73,3 68,2 70,7 74,3 76,4 75,3 OR 72,8 78,1 75,4 79,1 80,5 79,8 82,4 80,6 81,5 80,2 82 81,1 AN 72,4 82,5 77,1 72,8 78,1 75,4 62,1 65,9 63,9 70,2 77,2 73,5 GG 82,5 81,5 82,0 82,6 81,7 82,1 79,3 75,4 77,3 82,5 81,9 82,2 CD 79,6 81,3 80,4 72,4 82,5 77,1 69,4 71,6 70,5 79,6 80,8 80,2 DS 75,8 72,9 74,3 75,9 73,0 74,4 71,9 70,4 71,1 75,7 73,2 74,4 113 ALL − − 78,4 − − 79,2 − − 74,9 − − 79,9 Hàng ALL đưa ra kết quả của toàn hệ thống sử dụng micro average F1 Kết quả khi sử dụng MEM+BS để quyết định kết quả là thấp nhất (F1 đạt 74,9%), sử dụng danh sách ưu tiên có F1 là 79,2% và sử dụng SVM-LTR đem lại kết quả tốt nhất (F1=79,9%). Như vậy việc sử dụng SVM-LTR đem lại kết quả chung tốt nhất của hệ thống, đồng thời, phương pháp này cũng thể hiện ưu điểm của nó với hầu hết các lớp thực thể nói riêng (PH, OR, GG và CD). Bảng 4.3. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng xấp xỉ ngẫu nhiên đối với các thực nghiệm loại bỏ lần lượt từng tài nguyên. (Nội dung trong một ô biểu diễn hai hệ thống có sự chênh lệch tin cậy (significantly diferent) về F1. AR: tất cả tài nguyên, J: JNLPBA và Genia tagger, U: UMLS và MetaMap, H: Human Phenotype Ontology, M: Mammalian Phenotype Ontology, G: Gene Dictionary của NCBI, L: Linnaeus, F: Foundation Model of Anatomy, P: Phenotypic Trait Ontology, C: từ điển Jochem, B: Brenda Tissue Ontology., −: không có sự khác biệt đáng tin cậy). J U H M G L F P C B AR GG PH,GG, DS PH PH,GG GG OR AN − CD − J PH,GG, AN, DS PH,GG PH,GG GG GG,OR AN,GG GG GG,CD GG U PH, DS PH,OR, GG,DS PH,OR, DS PH,OR, DS PH,AN PH PH PH H PH PH,GG PH, OR PH,OR, AN PH PH,CD − M PH,GG PH,OR PH,AN PH PH PH G OR,GG AN,GG − CD GG L OR,AN OR OR OR 114 F AN AN,CD AN P CD − C − 4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của các tài nguyên Luận án sử dụng cách tiếp cận ngẫu nhiên xấp xỉ để tính toán độ tin cậy cho các kết quả. Độ tin cậy được trình bày trong bảng 4.3 chỉ ra sự đóng góp của từng tài nguyên trong hệ thống. Các ký hiệu ở hàng và cột chỉ ra tài nguyên đó không được sử dụng trong hệ thống (ví dụ, J có nghĩa là hệ thống không sử dụng JNLPBA để huấn luyện mô hình MEM+BS), AR nghĩa là toàn bộ các tài nguyên đều được sử dụng. Nội dung trong một ô là các thực thể mà có giá trị độ tin cậy (significance test) cho sự chênh lệch hiệu năng giữa hai hệ thống với p ≤ 0,05. Ví dụ, ô tương ứng với hàng AR và cột H được đánh dấu PH, có nghĩa là có một giá trị độ tin cậy của thực thể PH cho sự chênh lệch hiệu năng khi so sánh hệ thống không sử dụng HPO (H) với hệ thống sử dụng toàn bộ tài nguyên (AR) với p ≤ 0,05. Dấu gạch ngang (-) viết tắt cho "không có độ tin cậy khác nhau", nghĩa là không có thực thể nào có giá trị độ tin cậy với p ≤ 0,05. Các kết quả đánh giá độ tin cậy chỉ ra sự đóng góp của UMLS với ba lớp (PH, GG và DS), MP với PH và GG, v.v.. cũng như sự thiếu hiệu quả của PATO và BTO đối với hệ thống. Tiếp theo đó, Bảng 4.4 đưa ra kết quả kiểm thử độ tin cậy dựa trên thống kê so sánh giữa các mô hình khác nhau sử dụng phương pháp kiểm định độ tin cậy với người quyết định là p≤0,05. Bảng 4.4. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng xấp xỉ ngẫu nhiên đối với các thực nghiệm 115 (Nội dung trong một ô biểu diễn hai hệ thống có sự khác biệt tin cậy (significantly diferent) về F1. CD không có sự chênh lệch tin cậy trong mọi thực nghiệm. Độ tin cậy được quyết định tại ngưỡng p ≤ 0,05) Danh sách ưu tiên MEM+BS SVM-LTR GG, OR, ALL PH, GG, OR, AN, DS,ALL Danh sách ưu tiên PH, GG, OR, AN, DS,ALL 4.3.4 Thảo luận và phân tích lỗi Thực nghiệm được tiến hành trong luận án đã xây dựng thành công hệ thống NER y sinh dựa trên phương pháp lai ghép kết hợp nhiều nguồn tài nguyên và gán nhãn học máy. Các thực nghiệm loại bỏ học máy hoặc từng loại tài nguyên chứng minh rằng sự kết hợp của nhiều phương pháp sẽ đem lại kết quả tốt nhất cho hệ thống. Điều này hoàn toàn có thể được giải thích bởi mỗi phương pháp sẽ có ưu điểm riêng của mình, nhưng đồng thời cũng có nhược điểm cần sử dụng phương pháp khác để bù vào. Phương pháp học máy giúp hệ thống tận dụng được các đặc trưng của ngữ cảnh, vì vậy nó có tác dụng tốt với các thực thể có cấu trúc nội tại phức tạp hoặc có thể được nhận dạng dựa vào ngữ cảnh chứa nó, ví dụ, áp dụng học máy giúp tăng kết quả nhận dạng thực thể PH lên đến 13.8%. Tương tự như vậy, từng tài nguyên đều có vị trí hợp lý để phát huy thế mạnh của mình, ví dụ thực thể sinh vật OR trong y sinh chấp nhận gán nhãn rất nhiều danh từ chung (như "family", "case", "cohort", v.v.. ) các danh từ này gần như không thể được trích xuất bằng bộ gán nhãn học máy, nhưng sử dụng Linnaeus lại khiến việc này trở nên tương đối dễ dàng, chính vì thế mà áp dụng Linnaeus khiến kết quả nhận dạng thực thể OR tăng lên đến 25.5%. Đôi khi hiệu quả đóng góp của một tài nguyên đối với hệ thống không hoàn toàn là do tính chất phù hợp của nó về mặt phương pháp luận, mà còn vì kích thước đồ sộ và độ phủ của chúng, ví dụ như từ điển Jochems là một nguồn tài nguyên toàn diện kết hợp thông tin từ UMLS, MeSH, Chebi, DrugBank, KEGG, 116 HMDB, và ChemIDplus, nên việc sử dụng nó để nhận dạng thực thể CD cải thiện kết quả lên đến 38.8%. Tuy nhiên, việc sử dụng các tài nguyên tri thức vào mô hình vẫn còn nhiều hạn chế, đặc biệt là với phương pháp đối sánh chuỗi như đang sử dụng. Nhận định này đặc biệt quan trọng khi xử lý những thực thể có cấu trúc phức tạp, ví dụ như thực thể biểu hiện PH. Cụ thể, giả sử ta có thực thể "serum total immunoglobin" trong dữ liệu, theo lý thuyết thì nó phải được ánh xạ vào thuật ngữ "abnormal serum level of immunoglobin/increased serum level of immunoglobin G" của HPO. Tuy nhiên kỹ thuật đối sánh chuỗi thông thường không thể làm được việc này mà đòi hỏi một vài phân tích sâu hơn về mặt ngữ nghĩa. Bảng 4.5. Các lỗi của mô đun quyết định kết quả sử dụng danh sách ưu tiên (PL) và học xếp hạng sử dụng SVM (LTR) (NC: Gán nhãn chuẩn của dữ liệu, HM: Bộ gán nhãn học máy, RU: bộ gán nhãn dựa trên luật, TD: Bộ gán nhãn dựa trên từ điển, QD: Quyết định kết quả. DS: Danh sách ưu tiên, LTR: SVM-LTR. Tài nguyên được sử dụng trong bộ gán nhãn dựa trên từ điển tương ứng như sau: aUMLS C0004364, bHP 0002099, cUMLS C0004096, dMP 0002492 và HP 0003212, eNCBI Gene dictionary) Thực thể NC HM RU TD QD PH GG DS CD AN PL LTR 1 susceptibilities to auto immune disease PH PH ─ ─ ─ DSa ─ ─ DS PH 2 asthma and atopy phenotypes PH PH ─ PHb ─ DSc ─ ─ DS PH 3 IgE levels PH GG ─ PHd ─ ─ ─ ─ PH GG 4 Toll-like receptor IL-1R PH GG ─ ─ GGe ─ ─ ─ GG GG 117 pathways 5 MyD88- deficiency PH GG ─ ─ ─ ─ ─ ─ GG GG 6 allergen- induced bronchial inflammation PH DS ─ ─ ─ ─ ─ ─ DS DS Việc sử dụng nhiều phương pháp có ưu điểm tận dụng nhiều nguồn tài nguyên, và các đặc trưng quý giá từ dữ liệu, tuy nhiên việc lựa chọn một kết quả cuối cùng lại đem đến một thách thức không dễ giải quyết. Các thực nghiệm chỉ ra rằng học xếp hạng sử dụng máy vector hỗ trợ để lựa chọn nhãn cuối cùng đem lại kết quả tốt nhất. Tuy nhiên, kết quả khi sử dụng SVM-LTR không vượt trội nhiều so với danh sách ưu tiên (0,7%). Bảng 4.5 chỉ ra một số ví dụ về các lỗi của danh sách ưu tiên cũng như SVM-LTR. Trong bảng này các ví dụ hàng 1 và 2 là khi danh sách ưu tiên đưa ra kết quả sai trong khi SVM-LTR đưa ra lựa chọn đúng. Ngược lại, ví dụ hàng 3 là một trường hợp khi danh sách ưu tiên trả về kết quả chính xác nhưng SVM-LTR lại sai. Các ví dụ hàng 4-5 là trường hợp khi cả hai phương pháp đều trả về kết quả sai. Sử dụng danh sách ưu tiên là một phương pháp dựa trên luật mang tính kinh nghiệm quá chặt chẽ, vì vậy trong các trường hợp hay xảy ra nhập nhằng, phương pháp này có thể sẽ đưa ra lựa chọn sai. Các trường hợp nhập nhằng về mặt ngữ nghĩa bao gồm nhập nhằng giữa DS và PH, OR và DS, PH và OR, v.v.. Ví dụ, trong danh sách ưu tiên, DS có độ ưu tiên cao hơn PH. Luật này đúng trong trường hợp các tên bệnh nhưng lại được đưa vào trong HPO, dẫn đến việc bộ gán nhãn dựa trên HPO sẽ gán nhãn nhầm, ví dụ như “asthma”, “allergy”. Tuy nhiên luật này lại sai trong trường hợp thực thể có ý nghĩa là biểu hiện của bệnh, tức là thực thể này phải được gán nhãn PH, ví dụ “asthma-related phenotypes”, “pathogenesis of early- onset persistent asthma”. Đối với những trường hợp nhập nhằng này, học xếp hạng 118 sử dụng thể hiện ưu điểm ở tính mềm dẻo của nó so với danh sách ưu tiên, hệ thống sẽ chọn nhãn hợp lý nhất dựa vào nhiều yếu tố khác nhau. Tuy nhiên, trong nhiều trường hợp danh sách ưu tiên vẫn là một sự lựa chọn tốt để quyết định kết quả. Cụ thể, dựa trên phân tích bản thể học của PH và GG, thường có nhiều trường hợp mà GG là một phần tạo thành PH, trường hợp ngược lại có vẻ là rất hiếm. Như vậy, luật ưu tiên PH hơn so với GG sẽ đem lại kết quả chính xác trong đa số trường hợp, sử dụng học xếp hạng một cách linh hoạt là không cần thiết. 4.4. Kết luận chương Luận án trình bày một nghiên cứu có tính hệ thống về việc làm thế nào để kết hợp các nguồn tài nguyên tri thức và phương pháp khác nhau để nhận dạng thực thể biểu hiện và một số thực thể liên quan. Nghiên cứu sinh tin rằng đây là nghiên cứu đầu tiên đưa ra một đánh giá toàn diện, sử dụng các tài nguyên, phương pháp cũng như tập đặc trưng phong phú nhằm giải quyết các thách thức do cấu trúc phức tạp của thực thể biểu hiện. Hệ thống xây dựng dựa trên phương pháp mà luận án đề xuất đạt được kết quả tốt nhất cho cả sáu loại thực thể với độ đo trung bình vi mô F1 = 78,41 và cho thực thể biểu hiện là F1 = 74,87 trên tập dữ liệu Phenominer A, tương ứng trên tập Phenominer B là 76,37 và 78,35. Luận án cũng đã chứng minh ý nghĩa của việc sử dụng kết hợp nhiều nguồn tài nguyên tri thức cũng như phương pháp để đem lại kết quả tốt nhất. Đối với thực thể biểu hiện, do tính chất phức tạp của nó, áp dụng các phương pháp học máy để nhận dạng thực thể này là hoàn toàn phù hợp. Ngoài ra, các tài nguyên UMLS, HPO và MP cũng được đánh giá là có đóng góp quan trọng vào kết quả nhận dạng biểu hiện của hệ thống. Tuy nhiên, việc sử dụng các tài nguyên còn nhiều hạn chế, hứa hẹn một tiềm năng nghiên cứu lớn, ví dụ như phân tích sâu hơn về mặt ngữ nghĩa để nâng cao hiệu suất sử dụng các tài nguyên này. Để lựa chọn ra kết quả cuối cùng từ kết quả của nhiều bộ gán nhãn, luận án đã so sánh một số phương pháp, bao gồm phương pháp thủ công (danh sách ưu tiên), 119 phương pháp học máy sử dụng mô hình Entropy cực đại và phương pháp học xếp hạng dựa trên SVM. Học xếp hạng dựa trên SVM là một phương pháp kết hợp sử dụng một vài luật khởi tạo dựa trên kinh nghiệm để xây dựng bộ học xếp hạng, phương pháp này đã được chứng minh bằng thực nghiệm rằng nó đem lại kết quả cao nhất. Tuy nhiên, cả học xếp hạng sử dụng SVM và sử dụng danh sách ưu tiên đều có những ưu điểm và đối tượng xử lý tốt, vì vậy có thể tiếp tục nghiên cứu để đưa ra một phương án kết hợp hai phương pháp quyết định kết quả này. Các kết quả nghiên cứu đã được tổng hợp và công bố trong các bài báo [CTLA2] năm 2013. 120 KẾT LUẬN Các kết quả chính của luận án Luận án đã trình bày một nghiên cứu có tính hệ thống về vấn đề nhận dạng thực thể, một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Luận án tập trung nghiên cứu, phát triển cả về lý thuyết và ứng dụng đối với bài toàn nhận dạng thực thể, đề xuất một số mô hình và giải pháp nhằm nâng cao hiệu quả nhận dạng thực thể cũng như đưa ra một số khung làm việc phục vụ cho quá trình nhận dạng thực thể. Kết quả nghiên cứu của luận án có thể được tóm tắt như sau: 1. Đề xuất mô hình kết hợp nhận dạng đồng thời thực thể và các thuộc tính liên quan đến thực thể, mô hình cho phép sử dụng nhiều loại đặc trưng khác nhau nhằm tăng cường tính ngữ nghĩa và hiệu quả của quá trình nhận dạng. Một tập dữ liệu với gần 10.000 câu đã được gán nhãn thực thể và thuộc tính cũng được xây dựng phục vụ cho việc huấn luyện và đánh giá. Kết quả của mô hình nhận dạng đạt 83,39 với độ đo F1. 2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mô hình nhận dạng thực thể và thuộc tính đã được đề xuất. Các bước phân tích câu hỏi và trả lời câu hỏi đều cho thấy tầm quan trọng của mô hình nhận dạng thực thể đối với mô hình hỏi đáp. Kết quả của mô hình tương đối khả quan với độ đo F1 đạt 65,5. 3. Góp phần mở rộng khung cấu trúc thực thể y sinh, thống nhất và tổng quát lại các định nghĩa về các thực thể y sinh có liên quan đến nhau như bệnh, hóa chất, gene, sinh vật, biểu hiện và bộ phân cơ thể. Đề xuất mô hình giải quyết bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan, đây là loại thực thể mới trong y sinh với các tính chất phức tạp về mặt ngữ nghĩa. Mô hình giải quyết đạt kết quả khả quan với tất các thực thể có trong lược đồ nhận dạng. 4. Đưa ra các so sánh, nhận định về vấn đề thích nghi miền dữ liệu đối với việc nhận dạng thực thể y sinh, các kết quả cho phép những nghiên cứu sau này về nhận dạng thực thể biểu hiện có một khung nhìn tổng quát trong quá trình chọn lựa dữ liệu huấn luyện và đánh giá. 121 5. Nâng cao chất lượng nhận dạng thực thể biểu hiện và thực thể y sinh liên quan bằng kỹ thuật lai ghép, kết hợp nhiều mô hình nhận dạng khác nhau. Luận án đề xuất 3 phương pháp lai ghép, kết hợp và đưa ra các đánh giá, nhận xét về các phương pháp này. Các kết quả đã chỉ ra được tính hiệu quả của các phương pháp lai ghép so với mô hình đã có trong chương 3 khi làm tăng kết quả lên 1,5% với độ đo F. Hướng nghiên cứu trong tương lai Từ những kết quả đạt được trong luận án, các vấn đề đặt ra cần được nghiên cứu trong thời gian tới: 1. Mô hình nhận dạng thực thể tiếng Việt vẫn còn một số lớp nhận dạng có kết quả chưa cao do vấn đề mất cân bằng dữ liệu trong tập huấn luyện. Để giải quyết vấn đề này có thể áp dụng một số kỹ thuật làm giảm sự ảnh hưởng giữa các lớp có số lượng dữ liệu lớn đến các lớp có số lượng dữ liệu nhỏ hơn hay áp dụng một số kỹ thuật lựa chọn đặc trưng. 2. Áp dụng bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan cho dữ liệu văn bản y sinh thực tế, bên cạnh đấy ứng dụng các phương pháp trích xuất quan hệ nhằm làm rõ sự tương tác giữa các thực thể với nhau. 3. Thử nghiệm phương pháp thích nghi miền với nhiều miền dữ liệu hơn để cho thấy sự tác động về mặt hiệu quả giữa các miền dữ liệu qua đấy đề xuất một mô hình cho phép nhận dạng được thực thể biểu hiện cho tất cả các loại bệnh di truyền. 122 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN 1. [CTLA1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014. 2. [CTLA2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Quang-Thuy Ha, Anika Oellrich, Dietrich Rebholz-Schuhmann (2013). Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM Re-Ranking. PLoS ONE 8(10): e72965, October 2013. 3. [CTLA3] Mai-Vu Tran, Duc-Trong Le (2013). vTools: Chunker and Part-of- Speech tools, RIVF-VLSP 2013 Workshop. 4. [CTLA4] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich Rebholz-Schuhmann (2012). A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647-662. 5. [CTLA5] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and Tien-Tung Nguyen (2012). A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012. 6. [CTLA6] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011). An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text. IALP 2011:115-118. 7. [CTLA7] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015). The UET-CAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015. 123 TÀI LIỆU THAM KHẢO Tiếng Việt [DH96] Diệp Quang Ban (chủ biên), Hoàng Văn Thung (1996), Ngữ pháp tiếng Việt T1, T2 - NXB Giáo dục- HN. [NTH11] Nguyễn Thanh Hiên (2011). Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở. Luận án tiến sỹ. Trường Đại học Bách Khoa, Đại học Quốc Gia TP.HCM. [SC13] Sam Chanrathany (2013). Trích rút thực thể có tên và quan hệ thực thể trong văn bản tiếng Việt. Luận án tiến sỹ. Trường Đại học Bách Khoa Hà Nội Tiếng Anh [AHB93] Appelt, D. E., Hobbs, J. R., Bear, J., Israel, D., & Tyson, M. (1993, August). FASTUS: A finite-state processor for information extraction from real- world text. In IJCAI (Vol. 93, pp. 1172-1178). [AZ05] Ando, R. K., & Zhang, T. (2005). A framework for learning predictive structures from multiple tasks and unlabeled data. The Journal of Machine Learning Research, 6, 1817-1853. [AZ11b] A. B. Abacha and P. Zweigenbaum. Medical entity recognition: A comparison of semantic and statistical methods. In Proceedings of BioNLP 2011 Workshop, pages 56–64, 2011. [AZ12] Aggarwal, C. C., & Zhai, C. (2012). Mining text data. Springer Science & Business Media. [BBD02] Banko, M., Brill, E., Dumais, S., & Lin, J. (2002, March). AskMSR: Question answering using the worldwide Web. In Proceedings of 2002 AAAI Spring Symposium on Mining Answers from Texts and Knowledge Bases (pp. 7-9). [BPP96] Berger, A. L., Pietra, V. J. D., & Pietra, S. A. D. (1996). A maximum entropy approach to natural language processing. Computational linguistics, 22(1), 39-71. 124 [BR04] Bard, J. B., & Rhee, S. Y. (2004). Ontologies in biology: design, applications and future challenges. Nature Reviews Genetics, 5(3), 213-222. [BSS03] Blake, A., Sinclair, M. T., & Sugiyarto, G. (2003). Quantifying the impact of foot and mouth disease on tourism and the UK economy. Tourism Economics,9(4), 449-465. [BSS08] Beisswanger, E., Schulz, S., Stenzhorn, H., & Hahn, U. (2008). BioTop: An upper domain ontology for the life sciencesA description of its current structure, contents and interfaces to OBO ontologies. Applied Ontology, 3(4), 205- 212. [CC03] Curran, J. R., & Clark, S. (2003, May). Language independent NER using a maximum entropy tagger. In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 164-167). Association for Computational Linguistics. [CC09] Cai, Y., & Cheng, X. (2009, October). Biomedical named entity recognition with tri-training learning. In Biomedical Engineering and Informatics, 2009. BMEI'09. 2nd International Conference on (pp. 1-5). IEEE. [COG15] Collier, N., Oellrich, A., & Groza, T. (2015). Concept selection for phenotypes and diseases using learn to rank. Journal of biomedical semantics, 6(1), 24. [CF04] Chen, L., & Friedman, C. (2004). Extracting phenotypic information from the literature via natural language processing. Medinfo, 11(Pt 2), 758-62. [CGE11] Cohen, R., Gefen, A., Elhadad, M., & Birk, O. S. (2011). CSI- OMIM-Clinical Synopsis Search in OMIM. BMC bioinformatics, 12(1), 65. [COG13] Collier, N., Oellrich, A., & Groza, T. (2013). Toward knowledge support for analysis and interpretation of complex traits. Genome biology, 14(9), 214. [CTX06] Cam-Tu Nguyen, Trung Kien Nguyen, Xuan Hieu Phan, Le Minh Nguyen, and Quang Thuy Ha: Vietnamese Word Segmentation with CRFs and 125 SVMs: An Investigation, The 20th Pacific Asia Conference on Language, Information, and Computation (PACLIC), 1st-3rd November, 2006, Wuhan, China. [CH08] Cohen, K. B., & Hunter, L. (2008). Getting started in text mining. PLoS computational biology, 4(1), e20. [DA07] H. Daume III. 2007. Frustratingly easy domain adaptation. In Annual meeting of the Association for Computational Linguistics (ACL 2007), pages 256– 263. [DCX12] Doan, S., Collier, N., Xu, H., Duy, P. H., & Phuong, T. M. (2012). Recognition of medication information from discharge summaries using ensembles of classifiers. BMC medical informatics and decision making, 12(1), 36. [DDS09] Nguyen, D. Q., Nguyen, D. Q., & Pham, S. B. (2009, October). A vietnamese question answering system. In Knowledge and Systems Engineering, 2009. KSE'09. International Conference on (pp. 26-32). IEEE. [DMP04] Doddington, G. R., Mitchell, A., Przybocki, M. A., Ramshaw, L. A., Strassel, S., & Weischedel, R. M. (2004, May). The Automatic Content Extraction (ACE) Program-Tasks, Data, and Evaluation. In LREC. [ES13] Ekbal, A., & Saha, S. (2013). Stacked ensemble coupled with feature selection for biomedical entity extraction. Knowledge-Based Systems, 46, 22-32. [EUL01] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External Knowledge in Factoid QA. Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November 13-16. [FEO02] K. Franzén, G. Eriksson, F. Olsson, L. Asker, P. Lid´en, and J. Coster. Protein names and how to find them. International Journal of Medical Informatics, 67(1-3):49–61, 2002. [FIJ03] Florian, R., Ittycheriah, A., Jing, H. and Zhang, T. (2003) Named Entity Recognition through Classifier Combination. Proceedings of CoNLL-2003. Edmonton, Canada. [FPS96] Fayyad, Piatetsky-Shapiro, Smyth. From Data Mining to Knowledge Discovery: An Overiew. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 126 Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press, Menlo Park, 1996, 1-34. [FS03] Freimer, N., & Sabatti, C. (2003). The human phenome project. Nature genetics, 34(1), 15-21. [FTT98] Fukuda, K. I., Tsunoda, T., Tamura, A., & Takagi, T. (1998, January). Toward information extraction: identifying protein names from biological papers. In Pac Symp Biocomput (Vol. 707, No. 18, pp. 707-718). [GCS11] Gremse, M., Chang, A., Schomburg, I., Grote, A., Scheer, M., Ebeling, C., & Schomburg, D. (2011). The BRENDA Tissue Ontology (BTO): the first all-integrating ontology of all organisms for enzyme sources. Nucleic acids research, 39(suppl 1), D507-D513. [GFH08] Danilo Giampiccolo, Pamela Forner, Jesús Herrera, Anselmo Peñas, Christelle Ayache, Corina Forascu, Valentin Jijkoun, Petya Osenova, Paulo Rocha, Bogdan Sacaleanu, Richard F. E. Sutcliffe (2008). Overview of the clef 2007 multilingual question answering track. In Advances in Multilingual and Multimodal Information Retrieval (pp. 200-236). Springer Berlin Heidelberg. [GKD15] Groza, T., Köhler, S., Doelken, S., Collier, N., Oellrich, A., Smedley, D., ... & Robinson, P. N. (2015). Automatic concept recognition using the Human Phenotype Ontology reference and test suite corpora. Database, 2015. [GHZ12] Groza, T., Hunter, J., & Zankl, A. (2012). Supervised segmentation of phenotype descriptions for the human skeletal phenome using hybrid methods.BMC bioinformatics, 13(1), 265. [GHZ13] Groza, T., Hunter, J., & Zankl, A. (2013). Decomposing phenotype descriptions for the human skeletal phenome. Biomedical informatics insights, 6, 1. [GLR06] Giuliano, C., Lavelli, A., & Romano, L. (2006, April). Exploiting shallow linguistic information for relation extraction from biomedical literature. In EACL (Vol. 18, pp. 401-408). 127 [GNB10] Gerner, M., Nenadic, G., & Bergman, C. M. (2010). LINNAEUS: a species name identification system for biomedical literature. BMC bioinformatics, 11(1), 85. [GR08] Girju R. Semantic relation extraction and its applications. ESSLLI 2008 Course Material, Hamburg, Germany, 4-15 August 2008. [GZH12] Groza, T., Zankl, A., & Hunter, J. (2012). Experiences with modeling composite phenotypes in the SKELETOME project. In The Semantic Web–ISWC 2012 (pp. 82-97). Springer Berlin Heidelberg. [HBK12] Hirschman, L., Burns, G. A. C., Krallinger, M., Arighi, C., Cohen, K. B., Valencia, A., ... & Winter, A. G. (2012). Text mining for the biocuration workflow. Database, 2012, bas020. [HC03] W.-J. Hou and H.-H. Chen. Enhancing performance of protein name recognizers using collocation. In Proceedings of the ACL 2003 Workshop on Natural Language Processing in Biomedicine Volume 13, pages 25–32, 2003. [HEG00] Hovy, Eduard and Gerber, Laurie and Hermjakob, Ulf and Junk, Michael and Lin, Chin-yew (2000). Question answering in webclopedia. In Proceedings of the Ninth Text REtrieval Conference (TREC-9). [HHH12] Hoehndorf, R., Harris, M. A., Herre, H., Rustici, G., & Gkoutos, G. V. (2012). Semantic integration of physiology phenotypes with an application to the Cellular Phenotype Ontology. Bioinformatics, 28(13), 1783-1789. [HL15] Huang, C. C., & Lu, Z. (2015). Community challenges in biomedical text mining over 10 years: success, failure and the future. Briefings in bioinformatics, bbv024. [HOR10] Hoehndorf, R., Oellrich, A., & Rebholz-Schuhmann, D. (2010). Interoperability between phenotype and anatomy ontologies. Bioinformatics, 26(24), 3112-3118. [HSG11] Hoehndorf, R., Schofield, P. N., & Gkoutos, G. V. (2011). PhenomeNET: a whole-phenome approach to disease gene discovery. Nucleic acids research,39(18), e119-e119. 128 [HSS09] Hettne, K. M., Stierum, R. H., Schuemie, M. J., Hendriksen, P. J., Schijvenaars, B. J., Van Mulligen, E. M., ... & Kors, J. A. (2009). A dictionary to identify small molecules and drugs in free text. Bioinformatics, 25(22), 2983-2991. [HWY05] Huang, J., Wang, C., Yang, C., Chiu, M. and Yee, G. 2005. Applying Word Sense Disambiguation to Question Answering System for E- Learning. In Proceedings of the 19th International Conference on Advanced Information Networking and Applications. Taipei, Taiwan, pp.157-62. [JAJ10] Javier Artiles, Andrew Borthwick, Julio Gonzalo, Satoshi Sekine, and Enrique Amigó. WePS-3 Evaluation Campaign: Overview of the Web People Search Clustering and Attribute Extraction Tasks. in the 3rd Web People Search Evaluation Workshop (WePS 2010). [Kai08] Kaisser, M. (2008, June). The QuALiM question answering demo: Supplementing answers with paragraphs drawn from Wikipedia. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies: Demo Session (pp. 32-35). Association for Computational Linguistics. [KCO05] S. Kinoshita, K. B. Cohen, P. Ogren, and L. Hunter. BioCreAtIvE task 1A: Entity identification with a stochastic tagger. BMC Bioinformatics, 6(Suppl 1):S4, 2005. [KLR15] Krallinger, M., Leitner, F., Rabal, O., Vazquez, M., Oyarzabal, J., & Valencia, A. (2015). CHEMDNER: The drugs and chemical names extraction challenge. J Cheminform, 7(Suppl 1), S1. [KM14] Khordad, Maryam (2014). Investigating Genotype-Phenotype relationship extraction from biomedical text . Doctoral dissertation. University of Western Ontario [KMR11] Khordad, M., Mercer, R. E., & Rogan, P. (2011). Improving phenotype name recognition. In Advances in Artificial Intelligence (pp. 246-257). Springer Berlin Heidelberg. 129 [KOT03] Kim, J. D., Ohta, T., Tateisi, Y., & Tsujii, J. I. (2003). GENIA corpus—a semantically annotated corpus for bio-textmining. Bioinformatics, 19(suppl 1), i180-i182. [KOT04] Kim, J. D., Ohta, T., Tsuruoka, Y., Tateisi, Y., & Collier, N. (2004, August). Introduction to the bio-entity recognition task at JNLPBA. In Proceedings of the international joint workshop on natural language processing in biomedicine and its applications (pp. 70-75). Association for Computational Linguistics. [LDN13] Le, N. M., Do, B. N., Nguyen, V. D., & Nguyen, T. D. (2013, December). VNLP: an open source framework for Vietnamese natural language processing. InProceedings of the Fourth Symposium on Information and Communication Technology (pp. 88-93). ACM. [LLL14] Le Trung, H., Le Anh, V., & Le Trung, K. (2014). Bootstrapping and Rule-Based Model for Recognizing Vietnamese Named Entity. In Intelligent Information and Database Systems (pp. 167-176). Springer International Publishing. [LMP01] Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. [LN10] Le, H. T., & Nguyen, T. H. (2010, August). Name entity recognition using inductive logic programming. In Proceedings of the 2010 Symposium on Information and Communication Technology (pp. 71-77). ACM. [LTC04] Lin, Y. F., Tsai, T. H., Chou, W. C., Wu, K. P., Sung, T. Y., & Hsu, W. L. (2004, August). A maximum entropy approach to biomedical named entity recognition. In BIOKDD (pp. 56-61). [LV13] Le, H. T., & Van Tran, L. (2013, December). Automatic feature selection for named entity recognition using genetic algorithm. In Proceedings of the Fourth Symposium on Information and Communication Technology (pp. 81- 87). ACM. [MAC07] Mabee, P. M., Ashburner, M., Cronk, Q., Gkoutos, G. V., Haendel, M., Segerdell, E., ... & Westerfield, M. (2007). Phenotype ontologies: the bridge between genomics and evolution. Trends in ecology & evolution, 22(7), 345-350. 130 [MC07] McKusick, V. A. (2007). Mendelian Inheritance in Man and its online version, OMIM. American journal of human genetics, 80(4), 588. [MFM05] Mitsumori, T., Fation, S., Murata, M., Doi, K., & Doi, H. (2005). Gene/protein name recognition based on support vector machine using dictionary as features. BMC bioinformatics, 6(Suppl 1), S8. [MFP00] McCallum, A., Freitag, D., & Pereira, F. C. (2000, June). Maximum Entropy Markov Models for Information Extraction and Segmentation. In ICML (pp. 591-598). [MHC04] A. A. Morgan, L. Hirschman, M. Colosimo, A. S. Yeh, and J. B. Colombe. Gene name identification and normalization using a model organism database. Journal of Biomedical Informatics, 37(6):396–410, 2004. [ML03] McCallum, A., & Li, W. (2003, May). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. InProceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 188-191). Association for Computational Linguistics. [MO08] Michele Banko, Oren Etzioni. “The Tradeoffs Between Open and Traditional Relation Extraction. ACL 2008: 28-36 [MPH03] Moldovan, D., Paşca, M., Harabagiu, S., & Surdeanu, M. (2003). Performance issues and error analysis in an open-domain question answering system. ACM Transactions on Information Systems (TOIS), 21(2), 133-154. [MR04] Mika, S., & Rost, B. (2004). Protein names precisely peeled off free text. Bioinformatics, 20(suppl 1), i241-i247. [MY14] Miwa, Makoto, and Yutaka Sasaki. "Modeling Joint Entity and Relation Extraction with Table Representation." EMNLP. 2014. [NBK13] Nédellec, C., Bossy, R., Kim, J. D., Kim, J. J., Ohta, T., Pyysalo, S., & Zweigenbaum, P. (2013, August). Overview of BioNLP shared task 2013. In Proceedings of the BioNLP Shared Task 2013 Workshop (pp. 1-7). 131 [NC12] Nguyen, T. T., & Cao, T. H. (2012, February). Linguistically Motivated and Ontological Features for Vietnamese Named Entity Recognition. In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2012 IEEE RIVF International Conference on (pp. 1-6). IEEE. [NCT99] C. Nobata, N. Collier, and J.-i. Tsujii. Automatic term identification and classification in biology texts. In Proceedings of the Natural Language Pacific Rim Symposium, pages 369–374, 1999. [NE05] Nédellec, C. (2005, August). Learning language in logic-genic interaction extraction challenge. In Proceedings of the 4th Learning Language in Logic Workshop (LLL05) (Vol. 7). [NN13] Nguyen, M. T., & Nguyen, T. T. (2013, December). Extraction of disease events for a real-time monitoring system. In Proceedings of the Fourth Symposium on Information and Communication Technology (pp. 139-147). ACM. [NP12] Nguyen, D. B., & Pham, S. B. (2012). Ripple down rules for vietnamese named entity recognition. In Computational Collective Intelligence. Technologies and Applications (pp. 354-363). Springer Berlin Heidelberg. [NRV03] M. Narayanaswamy, K. E. Ravikumar, and K. Vijay-Shanker. A biological named entity recognizer. In Pacific Symposium on Biocomputing, pages 427–438, 2003. [NHP10] Nguyen, D. B., Hoang, S. H., Pham, S. B., & Nguyen, T. P. (2010). Named entity recognition for Vietnamese. In Intelligent Information and Database Systems (pp. 205-214). Springer Berlin Heidelberg. [OCQ09] Oanh Thi Tran, Cuong Anh Le Quang-Thuy Ha and Quynh Hoang Le. An Experimental Study on Vietnamese POS tagging", International Conference on Asian Language Processing (IALP 2009):23-27, Dec 7-9, 2009, Singapore [OMT06] D. Okanohara, Y. Miyao, Y. Tsuruoka, and J. Tsujii. Improving the scalability of semi-Markov conditional random fields for named entity recognition. In Proceedings of the 21st International Conference on Computational Linguistics 132 and the 44th Annual Meeting of the Association for Computational Linguistics, pages 465–472, 2006. [OOG05] Özgür, A., Özgür, L., & Güngör, T. (2005). Text categorization with class-based and corpus-based keyword selection. In Computer and Information Sciences-ISCIS 2005 (pp. 606-615). Springer Berlin Heidelberg. [PGH07] Pyysalo, S., Ginter, F., Heimonen, J., Björne, J., Boberg, J., Järvinen, J., & Salakoski, T. (2007). BioInfer: a corpus for information extraction in the biomedical domain. BMC bioinformatics, 8(1), 50. [PNH10] Phan, T. T., Nguyen, T. C., & Huynh, T. N. (2010). Question semantic analysis in Vietnamese QA system. In Advances in Intelligent Information and Database Systems (pp. 29-40). Springer Berlin Heidelberg. [PY10] Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. Knowledge and Data Engineering, IEEE Transactions on, 22(10), 1345-1359. [QU93] Quinlan, J. R. (1993). C4. 5: programs for machine learning (Vol. 1). Morgan kaufmann. [RA89] Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), 257-286. [RA91] Rau, L. F. (1991, February). Extracting company names from text. In Artificial Intelligence Applications, 1991. Proceedings., Seventh IEEE Conference on(Vol. 1, pp. 29-32). IEEE. [RA96] Ratnaparkhi, A. (1996, May). A maximum entropy model for part-of- speech tagging. In Proceedings of the conference on empirical methods in natural language processing (Vol. 1, pp. 133-142). [RHT10] Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, The Minh Trinh. Relation Extraction in Vietnamese Text Using Conditional Random Fields. AAIRS 2010: 330-339 [RM95] L. A. Ramshaw and M. P. Marcus. Text chunking using transformation-based learning. In 3rd ACL SIGDAT Workshop on Very Large Corpora, pages 82–94, 1995. 133 [RR09] Ratinov, L., & Roth, D. (2009). Design challenges and misconceptions in named entity recognition. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (pp. 147-155). Association for Computational Linguistics. [SCW09] Scheuermann, R. H., Ceusters, W., & Smith, B. (2009). Toward an ontological treatment of disease and diagnosis. Summit on translational bioinformatics,2009, 116. [SE04] Settles, B. (2004, August). Biomedical named entity recognition using conditional random fields and rich feature sets. In Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (pp. 104-107). Association for Computational Linguistics. [SE09] Smith, C. L., & Eppig, J. T. (2009). The mammalian phenotype ontology: enabling robust annotation and comparative analysis. Wiley Interdisciplinary Reviews: Systems Biology and Medicine, 1(3), 390-399. [SGE04] Smith, C. L., Goldsmith, C. A. W., & Eppig, J. T. (2004). The Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing phenotypic information. Genome biology, 6(1), R7. [SJ09] Satoshi Sekine and Javier Artiles. WePS2 Attribute Extraction Task. in the 2nd Web People Search Evaluation Workshop (WePS 2, 2009). [SLT11a] Sam, R. C., Le, H. T., Nguyen, T. T., & Nguyen, T. H. (2011). Combining proper name-coreference with conditional random fields for semi- supervised named entity recognition in Vietnamese text. In Advances in Knowledge Discovery and Data Mining (pp. 512-524). Springer Berlin Heidelberg. [SLT11b] Sam, R. C., Le, H. T., Nguyen, T. T., Le, D. A., & Nguyen, N. M. T. (2011, October). Semi-supervised learning for relation extraction in Vietnamese text. In Proceedings of the Second Symposium on Information and Communication Technology (pp. 100-105). ACM. [SMY15] Sun, H., Ma, H., Yih, W. T., Tsai, C. T., Liu, J., & Chang, M. W. (2015, May). Open Domain Question Answering via Semantic Enrichment. In 134 Proceedings of the 24th International Conference on World Wide Web (pp. 1045- 1055). International World Wide Web Conferences Steering Committee. [SOK13] Smedley, D., Oellrich, A., Köhler, S., Ruef, B., Westerfield, M., Robinson, P., ... & Mungall, C. (2013). PhenoDigm: analyzing curated annotations to associate animal models with human diseases. Database, 2013, bat025. [SSM09] S. K. Saha, S. Sarkar, and P. Mitra. Feature selection techniques for maximum entropy based biomedical named entity recognition. Journal of Biomedical Informatics, vol. 42, no. 5, pp. 905–911, 2009. [STM08] Y. Sasaki, Y. Tsuruoka, J. McNaught, and S. Ananiadou. How to make the most of NE dictionaries in statistical NER. BMC Bioinformatics, 9(Suppl 11):S5, 2008. [TC05] K. Takeuchi and N. Collier. Bio-medical entity extraction using support vector machines. Artificial Intelligence in Medicine, 33(2):125–137, 2005. [TLH10] Tran Thi Oanh, Le Cuong Anh, Ha Thuy Quang, Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources. Journal of Natural Language Processing 17(3): 41-60 (2010) [TOH05] Tu, N. C., Oanh, T. T., Hieu, P. X., & Thuy, H. Q. (2005). Named entity recognition in vietnamese free-text and web documents using conditional random fields. In The 8th Conference on Some selection problems of Information Technology and Telecommunication. [TTD07] Thao, P. T. X., Tri, T. Q., Dien, D., & Collier, N. (2007). Named entity recognition in Vietnamese using classifier voting. ACM Transactions on Asian Language Information Processing (TALIP), 6(4), 3. [TTK05] Tsuruoka, Y., Tateishi, Y., Kim, J. D., Ohta, T., McNaught, J., Ananiadou, S., & Tsujii, J. I. (2005). Developing a robust part-of-speech tagger for biomedical text. In Advances in informatics (pp. 382-392). Springer Berlin Heidelberg. 135 [TTQ07] Tran, Q. T., Pham, T. T., Ngo, Q. H., Dinh, D., & Collier, N. (2007). Named entity recognition in Vietnamese documents. Progress in Informatics Journal,5, 14-17. [TWC06] Tzong-Han Tsai, Richard; Wu S.-H.; Chou, W.-C.; Lin, Y.-C.; He, D.; Hsiang, J.; Sung, T.-Y.; Hsu, W.-L. 2006. Various Criteria in the Evaluation of Biomedical Named Entity Recognition. BMC Bioinformatics 7:92, BioMed Central. [UCO11] Y. Usami, H.-C. Cho, N. Okazaki, and J. Tsujii. Automatic acquisition of huge training data for bio-medical named entity recognition. In Proceedings of BioNLP 2011 Workshop, pages 65–73, 2011. [USC10] Uzuner, Ö., Solti, I., & Cadag, E. (2010). Extracting medication information from clinical text. Journal of the American Medical Informatics Association,17(5), 514-518. [USS10] Uzuner, Ö., South, B. R., Shen, S., & DuVall, S. L. (2011). 2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text. Journal of the American Medical Informatics Association. [VA10] Vlachos, A. (2010). Semi-supervised learning for biomedical information extraction. Doctoral dissertation. Computer Laboratory, University of Cambridge. [VED01] Voorhees, Ellen M., and Donna Harman. Overview of TREC 2001. Trec. 2001. [Vo03] E.M. Voorhees. Overview of the TREC 2003 Question Answering Track. TREC 2003: 54-68 [VVO09] Vu Mai Tran, Vinh Duc Nguyen, Oanh Thi Tran, Uyen Thu Thi Pham, Thuy Quang Ha. An Experimental Study of Vietnamese Question Answering System. In Proceedings of IALP'2009. pp.152~155 [WAC12] Wu, C. H., Arighi, C. N., Cohen, K. B., Hirschman, L., Krallinger, M., Lu, Z., ... & Wilbur, W. J. (2012). BioCreative-2012 Virtual Issue. Database: The Journal of Biological Databases and Curation, 2012. 136 [WGM14] West, R., Gabrilovich, E., Murphy, K., Sun, S., Gupta, R., & Lin, D. (2014, April). Knowledge base completion via search-based question answering. In Proceedings of the 23rd international conference on World wide web (pp. 515- 526). ACM. [WKS09] Wang, Y., Kim, J. D., Sætre, R., Pyysalo, S., & Tsujii, J. I. (2009). Investigating heterogeneous protein annotations toward cross-corpora utilization. BMC bioinformatics, 10(1), 403. [WPL15] Wei, C. H., Peng, Y., Leaman, R., Davis, A. P., Mattingly, C. J., Li, J., ... & Lu, Z. (2015). Overview of the BioCreative V chemical disease relation (CDR) task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain. [WTJ13] Wagholikar, K. B., Torii, M., Jonnalagadda, S., & Liu, H. (2013). Pooling annotated corpora for clinical concept extraction. J. Biomedical Semantics, 4, 3. [YD14] Yao, X., & Van Durme, B. (2014). Information extraction over structured data: Question answering with freebase. In Proceedings of ACL. [YYW15] Yang, Y., Yih, W. T., & Meek, C. (2015). WIKIQA: A Challenge Dataset for Open-Domain Question Answering. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. [ZD09] Zweigenbaum, P., & Demner-Fushman, D. (2009). Advanced literature-mining tools. In Bioinformatics (pp. 347-380). Springer New York. [ZDY07] Zweigenbaum, P., Demner-Fushman, D., Yu, H., & Cohen, K. B. (2007). Frontiers of biomedical text mining: current progress. Briefings in bioinformatics, 8(5), 358-375. [ZSZ05] G. Zhou, D. Shen, J. Zhang, J. Su, and S. Tan. Recognition of protein/gene names from text using an ensemble of classifiers. BMC Bioinformatics, 6(Suppl 1):S7, 2005.

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_nhan_dang_thuc_the_co_ten_va_thuc_the_bie.pdf