Các kết quả chính của luận án
Luận án đã trình bày một nghiên cứu có tính hệ thống về vấn đề nhận dạng
thực thể, một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Luận án
tập trung nghiên cứu, phát triển cả về lý thuyết và ứng dụng đối với bài toàn nhận
dạng thực thể, đề xuất một số mô hình và giải pháp nhằm nâng cao hiệu quả nhận
dạng thực thể cũng như đưa ra một số khung làm việc phục vụ cho quá trình nhận
dạng thực thể. Kết quả nghiên cứu của luận án có thể được tóm tắt như sau:
1. Đề xuất mô hình kết hợp nhận dạng đồng thời thực thể và các thuộc tính
liên quan đến thực thể, mô hình cho phép sử dụng nhiều loại đặc trưng khác nhau
nhằm tăng cường tính ngữ nghĩa và hiệu quả của quá trình nhận dạng. Một tập dữ
liệu với gần 10.000 câu đã được gán nhãn thực thể và thuộc tính cũng được xây
dựng phục vụ cho việc huấn luyện và đánh giá. Kết quả của mô hình nhận dạng đạt
83,39 với độ đo F1.
2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mô hình nhận dạng thực
thể và thuộc tính đã được đề xuất. Các bước phân tích câu hỏi và trả lời câu hỏi đều
cho thấy tầm quan trọng của mô hình nhận dạng thực thể đối với mô hình hỏi đáp.
Kết quả của mô hình tương đối khả quan với độ đo F1 đạt 65,5.
3. Góp phần mở rộng khung cấu trúc thực thể y sinh, thống nhất và tổng quát
lại các định nghĩa về các thực thể y sinh có liên quan đến nhau như bệnh, hóa chất,
gene, sinh vật, biểu hiện và bộ phân cơ thể. Đề xuất mô hình giải quyết bài toán
nhận dạng thực thể biểu hiện và các thực thể liên quan, đây là loại thực thể mới
trong y sinh với các tính chất phức tạp về mặt ngữ nghĩa. Mô hình giải quyết đạt kết
quả khả quan với tất các thực thể có trong lược đồ nhận dạng.
4. Đưa ra các so sánh, nhận định về vấn đề thích nghi miền dữ liệu đối với
việc nhận dạng thực thể y sinh, các kết quả cho phép những nghiên cứu sau này về
nhận dạng thực thể biểu hiện có một khung nhìn tổng quát trong quá trình chọn lựa
dữ liệu huấn luyện và đánh giá.121
5. Nâng cao chất lượng nhận dạng thực thể biểu hiện và thực thể y sinh liên
quan bằng kỹ thuật lai ghép, kết hợp nhiều mô hình nhận dạng khác nhau. Luận án
đề xuất 3 phương pháp lai ghép, kết hợp và đưa ra các đánh giá, nhận xét về các
phương pháp này. Các kết quả đã chỉ ra được tính hiệu quả của các phương pháp lai
ghép so với mô hình đã có trong chương 3 khi làm tăng kết quả lên 1,5% với độ đo
F.
138 trang |
Chia sẻ: yenxoi77 | Lượt xem: 579 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ong đó các bộ gán nhãn đưa ra các kết quả khác nhau
cho cùng một chuỗi từ vựng. Trong trường hợp không nhập nhằng, hai nhãn được
đề xuất cho cùng một chuỗi là PH cho cụm “XY” và GG cho cụm “WZ”, tuy nhiên
không xảy ra xung đột nhãn, vì vậy kết quả nhãn cuối cùng cho chuỗi này theo ký
pháp BIO sẽ là B-PH I-PH O B-GG I-GG. Trong trường hợp nhập nhằng, có nhiều
xung đột nhãn xảy ra, ví dụ đối với từ vựng “A”, các bộ gán nhãn đưa ra các quyết
định khác nhau là PH, GG, O và AN, trong trường hợp này sẽ cần dùng đến danh
sách ưu tiên để đưa ra quyết định.
107
Hình 4.3. Mô hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả
Hình 4.4. Nhập nhằng và không nhập nhằng
(BNG: Bộ gán nhãn, X, Y, A-F là các từ vựng)
Có thể thấy rằng danh sách ưu tiên được sử dụng để quyết định kết quả có một
ưu điểm lớn về tính đơn giản và có vẻ nó bao phủ được khá nhiều các trường hợp
thông dụng. Tuy nhiên, danh sách ưu tiên có một nhược điểm lớn ở tính kinh
108
nghiệm và thiếu tính mềm dẻo của nó, hơn nữa, do sự phức tạp của ngôn ngữ, trong
dữ liệu thực tế không thể tránh khỏi những trường hợp vượt ra khỏi phạm vi của
danh sách này. Trong các kỹ thuật lai ghép tiếp theo, luận án đề xuất sử dụng hai
phương pháp khác áp dụng học máy thống kê để đưa ra được tập nhãn tối ưu khi kết
hợp giữa các mô hình là phương pháp lai ghép sử dụng kỹ thuật học máy gán
nhãn chuỗi và kỹ thuật học xếp hạng.
4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi
Phương pháp sử dụng kỹ thuật học máy vào giải quyết nhập nhằng trong quá
trình lai ghép được đề xuất trong luận án là sử dụng giải thuật gán nhãn chuỗi
MEM+BS (Mô hình Entropy cực đại và giải mã bằng tìm kiếm chùm). Phương
pháp này được mô tả như trong hình 4.5 dưới đây.
Hình 4.5. Mô hình hệ thống sử dụng MEM + BS để quyết định kết quả
109
Một ưu điểm của phương pháp này là sử dụng lại cài đặt MEM + BS đã được
dùng trong bộ gán nhãn học máy, vì vậy tái sử dụng nó sẽ hạn chế tính cồng kềnh
của hệ thống. Trong phương án cải tiến này, kết quả của 7 bộ gán nhãn sẽ được sử
dụng như các đặc trưng mới để huấn luyện và giải mã mô hình, tập đặc trưng đầy đủ
được miêu tả trong Bảng 4.1. Tuy nhiên, phương pháp này lại có nhược điểm do
MEM + BS xử lý dữ liệu dưới dạng gán nhãn chuỗi một lần nữa nên nó không xem
xét có xảy ra trường hợp nhập nhằng hay không, tức là dù có hay không xảy ra xung
đột nhãn, mô-đun quyết định kết quả bằng MEM + BS vẫn tiến hành gán lại toàn bộ
chuỗi.
Bảng 4.1. Các đặc trưng được MEM + BS sử dụng để quyết định kết quả
STT Đặc trưng Ví dụ
1 Từ đang xét wi
2 Ngữ cảnh wi-2, wi-1, wi+1, wi+2, wi-2.wi-1
3 MEM+BS mli : B-GG, mli-1 : B-PH, mli+1 : I-PH, mli+2 : O
4 Đối sánh luật rulei : B-PH, rulei-1 : I-PH, rulei+1 : O
5 Đối sánh từ điển PH dm1i : B-PH, dm
1
i-1 : I-PH, dm
1
i+1 : O
6 Đối sánh từ điển DS dm2i : B-DS, dm
2
i-1 : I-DS, dm
2
i+1 : O
7 Đối sánh từ điển CD dm3i : B-CD, dm
3
i-1 : I-CD, dm
3
i+1 : O
8 Đối sánh từ điển AN dm4i : B-AN, dm
4
i-1 : I-AN, dm
4
i+1 : O
9 Đối sánh từ điển GG dm5i : B-GG, dm
5
i-1 : I-GG, dm
5
i+1 : O
(Các đặc trưng 3-9 là nhãn đưa ra của bộ gán nhãn tương ứng)
4.2.3 Phương pháp lai ghép sử dụng học xếp hạng
Mô hình hệ thống lai ghép sử dụng học xếp hạng để quyết định kết quả được
mô tả trong Hình 4.6. Bước đầu tiên của học xếp hạng tương tự như phương pháp
danh sách ưu tiên, các kết quả đầu ra từ các bộ gán nhãn cũng được duyệt qua mô-
110
đun xác định trường hợp nhập nhằng, nếu không xảy ra xung đột, kết quả sẽ được
đưa ngay thành kết quả cuối cùng. Để xử lý các trường hợp nhập nhằng, một mô
hình giải quyết nhập nhằng bằng học xếp hạng được sử dụng để lựa chọn ra nhãn có
trọng số lớn nhất làm nhãn cuối cùng trong kết quả đầu ra.
Hình 4.6. Mô hình hệ thống sử dụng SVM-LTR để quyết định kết quả
Để sinh ra tập huấn luyện cho mô hình học xếp hạng, ba luật được sử dụng để
tạo ra các danh sách xếp hạng (ranked lists) từ tập dữ liệu huấn luyện, thông qua
bước trích chọn đặc trưng, các danh sách xếp hạng nói trên được sử dụng để huấn
111
luyện mô hình học xếp hạng. Ba luật được dùng để sinh tập dữ liệu huấn luyện cho
học xếp hạng được mô tả như sau:
(1) Ứng viên (candidate) có cùng một nhãn với nhãn trong tập huấn luyện
nhận được xếp hạng (rank) cao nhất. Trong số này, các ứng viên trùng khớp
với nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên
trùng khớp hơn về phía bên phải. Điều này là do chúng ta xử lý chuỗi theo
thứ tự từ trái sang phải.
(2) Các ứng viên có một sự trùng lặp một phần với chuỗi trong tập huấn
luyện nhận được xếp hạng thứ hai. Trong số đó, các ứng viên trùng khớp với
nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên trùng
khớp hơn về phía bên phải.
(3) Các ứng viên không có sự trùng lặp nào với chuỗi trong tập huấn luyện sẽ
nhận xếp hạng thấp nhất.
Luận án sử dụng phần mềm SVMrank22 của tác giả Thorsten Joachims để cài
đặt giải thuật học xếp hạng SVM-LTR (SVM Learn to rank).
4.3. Thực nghiệm và đánh giá kết quả
4.3.1. Phương pháp đánh giá
Các thực nghiệm đánh giá kết quả so sánh giữa các kỹ thuật lai ghép đều sử
dụng độ đo chính xác (P), độ hồi tưởng, độ đo F1 và độ đo trung vi mô F1 với
phương pháp kiểm thử chéo 10 lần. Tuy nhiên trong trường hợp kết quả giữa các
phương pháp có sự khác biệt nhỏ, việc kiểm định tính tin cậy của việc so sánh giữa
các phương pháp là một vấn đề quan trọng. Ở đây luận án đánh giá tính tin cậy dựa
trên đô đo p-value.
Kiểm định độ tin cậy (significant test) của kết quả dựa trên p-value. Dựa trên
[USC10, DCX12], luận án so sánh hiệu năng giữa các hệ thống khác nhau sử dụng
22 SVMrank:
112
một cách tiếp cận xấp xỉ ngẫu nhiên để đánh giá độ tin cậy của chúng (significance
test). Để tính toán độ tin cậy của hai hệ thống khác nhau (hệ thống A và hệ thống B)
trên tập dữ liệu Phenominer A (với i câu), luận án thực hiện các bước sau:
(1) Tính độ đo F1 theo micro-average sử dụng kiểm thử chéo 10 lần đối với mỗi
hệ thống và ghi lại sự khác biệt trong hiệu năng f = fA - fB;
(2) Tạo một tập S (với 2i câu) bằng cách lấy các kết quả đầu ra từ 10 lần kiểm
thử chép trên hai hệ thống;
(3) Sử dụng i câu lựa chọn ngẫu nhiên từ tập S để tạo tập Aj, phần còn lại của S
là tập Bj (Aj được sử dụng cho hệ thống A và Bj được sử dụng cho hệ thống
B);
(4) Tính = − (trong đó và là các độ đo F1 micro-average sử
dụng kiểm thử chéo 10 lần cho tập Aj và Bj tương ứng).
Các bước từ 2 đến 4 được lặp lại n lần (thực nghiệm trong luận án thiết lập n =
1000 dựa trên [USC10]). Số lần mà fi - f ≤ 0 trong n vòng lặp chia cho n là giá trị p-
value giữa hệ thống A và hệ thống B.
4.3.2 Thực nghiệm đánh giá hiệu quả của từng phương pháp lai ghép
Thực nghiệm này sẽ so sánh kết quả của ba phương pháp lai ghép mô hình với
kết quả của mô hình được đề xuất trong chương 3. Kết quả của thực nghiệm được
đánh giá trên tập dữ liệu Phenominer A sẽ được thể hiện rõ ràng trên từng loại thực
thể và trên toàn bộ mô hình.
Bảng 4.2. Kết quả của mô hình trên tập dữ liệu Phenominer A khi sử dụng các
phương pháp khác nhau để lai ghép kết quả
Đơn mô hình
MEM + BS
Danh sách ưu
tiên
Ghép nối
MEM + BS
Học xếp hạng
SVM-LTR
P R F P R F P R F P R F
PH 73,7 76,1 74,9 74,1 76,0 75,0 73,3 68,2 70,7 74,3 76,4 75,3
OR 72,8 78,1 75,4 79,1 80,5 79,8 82,4 80,6 81,5 80,2 82 81,1
AN 72,4 82,5 77,1 72,8 78,1 75,4 62,1 65,9 63,9 70,2 77,2 73,5
GG 82,5 81,5 82,0 82,6 81,7 82,1 79,3 75,4 77,3 82,5 81,9 82,2
CD 79,6 81,3 80,4 72,4 82,5 77,1 69,4 71,6 70,5 79,6 80,8 80,2
DS 75,8 72,9 74,3 75,9 73,0 74,4 71,9 70,4 71,1 75,7 73,2 74,4
113
ALL − − 78,4 − − 79,2 − − 74,9 − − 79,9
Hàng ALL đưa ra kết quả của toàn hệ thống sử dụng micro average F1
Kết quả khi sử dụng MEM+BS để quyết định kết quả là thấp nhất (F1 đạt
74,9%), sử dụng danh sách ưu tiên có F1 là 79,2% và sử dụng SVM-LTR đem lại
kết quả tốt nhất (F1=79,9%). Như vậy việc sử dụng SVM-LTR đem lại kết quả
chung tốt nhất của hệ thống, đồng thời, phương pháp này cũng thể hiện ưu điểm của
nó với hầu hết các lớp thực thể nói riêng (PH, OR, GG và CD).
Bảng 4.3. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng
xấp xỉ ngẫu nhiên đối với các thực nghiệm loại bỏ lần lượt từng tài nguyên.
(Nội dung trong một ô biểu diễn hai hệ thống có sự chênh lệch tin cậy (significantly
diferent) về F1. AR: tất cả tài nguyên, J: JNLPBA và Genia tagger, U: UMLS và
MetaMap, H: Human Phenotype Ontology, M: Mammalian Phenotype Ontology,
G: Gene Dictionary của NCBI, L: Linnaeus, F: Foundation Model of Anatomy, P:
Phenotypic Trait Ontology, C: từ điển Jochem, B: Brenda Tissue Ontology., −:
không có sự khác biệt đáng tin cậy).
J U H M G L F P C B
AR GG
PH,GG,
DS
PH PH,GG GG OR AN − CD −
J
PH,GG,
AN, DS
PH,GG PH,GG GG GG,OR AN,GG GG GG,CD GG
U PH, DS
PH,OR,
GG,DS
PH,OR,
DS
PH,OR,
DS
PH,AN PH PH PH
H PH PH,GG PH, OR
PH,OR,
AN
PH PH,CD −
M PH,GG PH,OR PH,AN PH PH PH
G OR,GG AN,GG − CD
GG
L OR,AN OR OR OR
114
F AN AN,CD
AN
P CD −
C −
4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của các
tài nguyên
Luận án sử dụng cách tiếp cận ngẫu nhiên xấp xỉ để tính toán độ tin cậy cho
các kết quả. Độ tin cậy được trình bày trong bảng 4.3 chỉ ra sự đóng góp của từng
tài nguyên trong hệ thống. Các ký hiệu ở hàng và cột chỉ ra tài nguyên đó không
được sử dụng trong hệ thống (ví dụ, J có nghĩa là hệ thống không sử dụng JNLPBA
để huấn luyện mô hình MEM+BS), AR nghĩa là toàn bộ các tài nguyên đều được sử
dụng. Nội dung trong một ô là các thực thể mà có giá trị độ tin cậy (significance
test) cho sự chênh lệch hiệu năng giữa hai hệ thống với p ≤ 0,05. Ví dụ, ô tương ứng
với hàng AR và cột H được đánh dấu PH, có nghĩa là có một giá trị độ tin cậy của
thực thể PH cho sự chênh lệch hiệu năng khi so sánh hệ thống không sử dụng HPO
(H) với hệ thống sử dụng toàn bộ tài nguyên (AR) với p ≤ 0,05. Dấu gạch ngang (-)
viết tắt cho "không có độ tin cậy khác nhau", nghĩa là không có thực thể nào có giá
trị độ tin cậy với p ≤ 0,05. Các kết quả đánh giá độ tin cậy chỉ ra sự đóng góp của
UMLS với ba lớp (PH, GG và DS), MP với PH và GG, v.v.. cũng như sự thiếu hiệu
quả của PATO và BTO đối với hệ thống.
Tiếp theo đó, Bảng 4.4 đưa ra kết quả kiểm thử độ tin cậy dựa trên thống kê so
sánh giữa các mô hình khác nhau sử dụng phương pháp kiểm định độ tin cậy với
người quyết định là p≤0,05.
Bảng 4.4. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng
xấp xỉ ngẫu nhiên đối với các thực nghiệm
115
(Nội dung trong một ô biểu diễn hai hệ thống có sự khác biệt tin cậy (significantly
diferent) về F1. CD không có sự chênh lệch tin cậy trong mọi thực nghiệm. Độ tin
cậy được quyết định tại ngưỡng p ≤ 0,05)
Danh sách ưu tiên MEM+BS
SVM-LTR GG, OR, ALL PH, GG, OR, AN, DS,ALL
Danh sách ưu tiên PH, GG, OR, AN, DS,ALL
4.3.4 Thảo luận và phân tích lỗi
Thực nghiệm được tiến hành trong luận án đã xây dựng thành công hệ thống
NER y sinh dựa trên phương pháp lai ghép kết hợp nhiều nguồn tài nguyên và gán
nhãn học máy. Các thực nghiệm loại bỏ học máy hoặc từng loại tài nguyên chứng
minh rằng sự kết hợp của nhiều phương pháp sẽ đem lại kết quả tốt nhất cho hệ
thống. Điều này hoàn toàn có thể được giải thích bởi mỗi phương pháp sẽ có ưu
điểm riêng của mình, nhưng đồng thời cũng có nhược điểm cần sử dụng phương
pháp khác để bù vào. Phương pháp học máy giúp hệ thống tận dụng được các đặc
trưng của ngữ cảnh, vì vậy nó có tác dụng tốt với các thực thể có cấu trúc nội tại
phức tạp hoặc có thể được nhận dạng dựa vào ngữ cảnh chứa nó, ví dụ, áp dụng học
máy giúp tăng kết quả nhận dạng thực thể PH lên đến 13.8%. Tương tự như vậy,
từng tài nguyên đều có vị trí hợp lý để phát huy thế mạnh của mình, ví dụ thực thể
sinh vật OR trong y sinh chấp nhận gán nhãn rất nhiều danh từ chung (như "family",
"case", "cohort", v.v.. ) các danh từ này gần như không thể được trích xuất bằng bộ
gán nhãn học máy, nhưng sử dụng Linnaeus lại khiến việc này trở nên tương đối dễ
dàng, chính vì thế mà áp dụng Linnaeus khiến kết quả nhận dạng thực thể OR tăng
lên đến 25.5%. Đôi khi hiệu quả đóng góp của một tài nguyên đối với hệ thống
không hoàn toàn là do tính chất phù hợp của nó về mặt phương pháp luận, mà còn
vì kích thước đồ sộ và độ phủ của chúng, ví dụ như từ điển Jochems là một nguồn
tài nguyên toàn diện kết hợp thông tin từ UMLS, MeSH, Chebi, DrugBank, KEGG,
116
HMDB, và ChemIDplus, nên việc sử dụng nó để nhận dạng thực thể CD cải thiện
kết quả lên đến 38.8%.
Tuy nhiên, việc sử dụng các tài nguyên tri thức vào mô hình vẫn còn nhiều
hạn chế, đặc biệt là với phương pháp đối sánh chuỗi như đang sử dụng. Nhận định
này đặc biệt quan trọng khi xử lý những thực thể có cấu trúc phức tạp, ví dụ như
thực thể biểu hiện PH. Cụ thể, giả sử ta có thực thể "serum total immunoglobin"
trong dữ liệu, theo lý thuyết thì nó phải được ánh xạ vào thuật ngữ "abnormal
serum level of immunoglobin/increased serum level of immunoglobin G" của HPO.
Tuy nhiên kỹ thuật đối sánh chuỗi thông thường không thể làm được việc này mà
đòi hỏi một vài phân tích sâu hơn về mặt ngữ nghĩa.
Bảng 4.5. Các lỗi của mô đun quyết định kết quả sử dụng danh sách ưu tiên (PL) và
học xếp hạng sử dụng SVM (LTR)
(NC: Gán nhãn chuẩn của dữ liệu, HM: Bộ gán nhãn học máy, RU: bộ gán nhãn
dựa trên luật, TD: Bộ gán nhãn dựa trên từ điển, QD: Quyết định kết quả. DS:
Danh sách ưu tiên, LTR: SVM-LTR. Tài nguyên được sử dụng trong bộ gán nhãn
dựa trên từ điển tương ứng như sau: aUMLS C0004364, bHP 0002099, cUMLS
C0004096, dMP 0002492 và HP 0003212, eNCBI Gene dictionary)
Thực thể NC HM RU
TD QD
PH GG DS CD AN PL LTR
1
susceptibilities
to auto immune
disease
PH PH ─ ─ ─ DSa ─ ─ DS PH
2
asthma and
atopy
phenotypes
PH PH ─ PHb ─ DSc ─ ─ DS PH
3 IgE levels PH GG ─ PHd ─ ─ ─ ─ PH GG
4
Toll-like
receptor IL-1R
PH GG ─ ─ GGe ─ ─ ─ GG GG
117
pathways
5
MyD88-
deficiency
PH GG ─ ─ ─ ─ ─ ─ GG GG
6
allergen-
induced
bronchial
inflammation
PH DS ─ ─ ─ ─ ─ ─ DS DS
Việc sử dụng nhiều phương pháp có ưu điểm tận dụng nhiều nguồn tài
nguyên, và các đặc trưng quý giá từ dữ liệu, tuy nhiên việc lựa chọn một kết quả
cuối cùng lại đem đến một thách thức không dễ giải quyết. Các thực nghiệm chỉ ra
rằng học xếp hạng sử dụng máy vector hỗ trợ để lựa chọn nhãn cuối cùng đem lại
kết quả tốt nhất. Tuy nhiên, kết quả khi sử dụng SVM-LTR không vượt trội nhiều
so với danh sách ưu tiên (0,7%). Bảng 4.5 chỉ ra một số ví dụ về các lỗi của danh
sách ưu tiên cũng như SVM-LTR. Trong bảng này các ví dụ hàng 1 và 2 là khi danh
sách ưu tiên đưa ra kết quả sai trong khi SVM-LTR đưa ra lựa chọn đúng. Ngược
lại, ví dụ hàng 3 là một trường hợp khi danh sách ưu tiên trả về kết quả chính xác
nhưng SVM-LTR lại sai. Các ví dụ hàng 4-5 là trường hợp khi cả hai phương pháp
đều trả về kết quả sai.
Sử dụng danh sách ưu tiên là một phương pháp dựa trên luật mang tính kinh
nghiệm quá chặt chẽ, vì vậy trong các trường hợp hay xảy ra nhập nhằng, phương
pháp này có thể sẽ đưa ra lựa chọn sai. Các trường hợp nhập nhằng về mặt ngữ
nghĩa bao gồm nhập nhằng giữa DS và PH, OR và DS, PH và OR, v.v.. Ví dụ, trong
danh sách ưu tiên, DS có độ ưu tiên cao hơn PH. Luật này đúng trong trường hợp
các tên bệnh nhưng lại được đưa vào trong HPO, dẫn đến việc bộ gán nhãn dựa trên
HPO sẽ gán nhãn nhầm, ví dụ như “asthma”, “allergy”. Tuy nhiên luật này lại sai
trong trường hợp thực thể có ý nghĩa là biểu hiện của bệnh, tức là thực thể này phải
được gán nhãn PH, ví dụ “asthma-related phenotypes”, “pathogenesis of early-
onset persistent asthma”. Đối với những trường hợp nhập nhằng này, học xếp hạng
118
sử dụng thể hiện ưu điểm ở tính mềm dẻo của nó so với danh sách ưu tiên, hệ thống
sẽ chọn nhãn hợp lý nhất dựa vào nhiều yếu tố khác nhau.
Tuy nhiên, trong nhiều trường hợp danh sách ưu tiên vẫn là một sự lựa chọn
tốt để quyết định kết quả. Cụ thể, dựa trên phân tích bản thể học của PH và GG,
thường có nhiều trường hợp mà GG là một phần tạo thành PH, trường hợp ngược
lại có vẻ là rất hiếm. Như vậy, luật ưu tiên PH hơn so với GG sẽ đem lại kết quả
chính xác trong đa số trường hợp, sử dụng học xếp hạng một cách linh hoạt là
không cần thiết.
4.4. Kết luận chương
Luận án trình bày một nghiên cứu có tính hệ thống về việc làm thế nào để kết
hợp các nguồn tài nguyên tri thức và phương pháp khác nhau để nhận dạng thực thể
biểu hiện và một số thực thể liên quan. Nghiên cứu sinh tin rằng đây là nghiên cứu
đầu tiên đưa ra một đánh giá toàn diện, sử dụng các tài nguyên, phương pháp cũng
như tập đặc trưng phong phú nhằm giải quyết các thách thức do cấu trúc phức tạp
của thực thể biểu hiện. Hệ thống xây dựng dựa trên phương pháp mà luận án đề
xuất đạt được kết quả tốt nhất cho cả sáu loại thực thể với độ đo trung bình vi mô
F1 = 78,41 và cho thực thể biểu hiện là F1 = 74,87 trên tập dữ liệu Phenominer A,
tương ứng trên tập Phenominer B là 76,37 và 78,35.
Luận án cũng đã chứng minh ý nghĩa của việc sử dụng kết hợp nhiều nguồn tài
nguyên tri thức cũng như phương pháp để đem lại kết quả tốt nhất. Đối với thực thể
biểu hiện, do tính chất phức tạp của nó, áp dụng các phương pháp học máy để nhận
dạng thực thể này là hoàn toàn phù hợp. Ngoài ra, các tài nguyên UMLS, HPO và
MP cũng được đánh giá là có đóng góp quan trọng vào kết quả nhận dạng biểu hiện
của hệ thống. Tuy nhiên, việc sử dụng các tài nguyên còn nhiều hạn chế, hứa hẹn
một tiềm năng nghiên cứu lớn, ví dụ như phân tích sâu hơn về mặt ngữ nghĩa để
nâng cao hiệu suất sử dụng các tài nguyên này.
Để lựa chọn ra kết quả cuối cùng từ kết quả của nhiều bộ gán nhãn, luận án đã
so sánh một số phương pháp, bao gồm phương pháp thủ công (danh sách ưu tiên),
119
phương pháp học máy sử dụng mô hình Entropy cực đại và phương pháp học xếp
hạng dựa trên SVM. Học xếp hạng dựa trên SVM là một phương pháp kết hợp sử
dụng một vài luật khởi tạo dựa trên kinh nghiệm để xây dựng bộ học xếp hạng,
phương pháp này đã được chứng minh bằng thực nghiệm rằng nó đem lại kết quả
cao nhất. Tuy nhiên, cả học xếp hạng sử dụng SVM và sử dụng danh sách ưu tiên
đều có những ưu điểm và đối tượng xử lý tốt, vì vậy có thể tiếp tục nghiên cứu để
đưa ra một phương án kết hợp hai phương pháp quyết định kết quả này. Các kết quả
nghiên cứu đã được tổng hợp và công bố trong các bài báo [CTLA2] năm 2013.
120
KẾT LUẬN
Các kết quả chính của luận án
Luận án đã trình bày một nghiên cứu có tính hệ thống về vấn đề nhận dạng
thực thể, một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Luận án
tập trung nghiên cứu, phát triển cả về lý thuyết và ứng dụng đối với bài toàn nhận
dạng thực thể, đề xuất một số mô hình và giải pháp nhằm nâng cao hiệu quả nhận
dạng thực thể cũng như đưa ra một số khung làm việc phục vụ cho quá trình nhận
dạng thực thể. Kết quả nghiên cứu của luận án có thể được tóm tắt như sau:
1. Đề xuất mô hình kết hợp nhận dạng đồng thời thực thể và các thuộc tính
liên quan đến thực thể, mô hình cho phép sử dụng nhiều loại đặc trưng khác nhau
nhằm tăng cường tính ngữ nghĩa và hiệu quả của quá trình nhận dạng. Một tập dữ
liệu với gần 10.000 câu đã được gán nhãn thực thể và thuộc tính cũng được xây
dựng phục vụ cho việc huấn luyện và đánh giá. Kết quả của mô hình nhận dạng đạt
83,39 với độ đo F1.
2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mô hình nhận dạng thực
thể và thuộc tính đã được đề xuất. Các bước phân tích câu hỏi và trả lời câu hỏi đều
cho thấy tầm quan trọng của mô hình nhận dạng thực thể đối với mô hình hỏi đáp.
Kết quả của mô hình tương đối khả quan với độ đo F1 đạt 65,5.
3. Góp phần mở rộng khung cấu trúc thực thể y sinh, thống nhất và tổng quát
lại các định nghĩa về các thực thể y sinh có liên quan đến nhau như bệnh, hóa chất,
gene, sinh vật, biểu hiện và bộ phân cơ thể. Đề xuất mô hình giải quyết bài toán
nhận dạng thực thể biểu hiện và các thực thể liên quan, đây là loại thực thể mới
trong y sinh với các tính chất phức tạp về mặt ngữ nghĩa. Mô hình giải quyết đạt kết
quả khả quan với tất các thực thể có trong lược đồ nhận dạng.
4. Đưa ra các so sánh, nhận định về vấn đề thích nghi miền dữ liệu đối với
việc nhận dạng thực thể y sinh, các kết quả cho phép những nghiên cứu sau này về
nhận dạng thực thể biểu hiện có một khung nhìn tổng quát trong quá trình chọn lựa
dữ liệu huấn luyện và đánh giá.
121
5. Nâng cao chất lượng nhận dạng thực thể biểu hiện và thực thể y sinh liên
quan bằng kỹ thuật lai ghép, kết hợp nhiều mô hình nhận dạng khác nhau. Luận án
đề xuất 3 phương pháp lai ghép, kết hợp và đưa ra các đánh giá, nhận xét về các
phương pháp này. Các kết quả đã chỉ ra được tính hiệu quả của các phương pháp lai
ghép so với mô hình đã có trong chương 3 khi làm tăng kết quả lên 1,5% với độ đo
F.
Hướng nghiên cứu trong tương lai
Từ những kết quả đạt được trong luận án, các vấn đề đặt ra cần được nghiên
cứu trong thời gian tới:
1. Mô hình nhận dạng thực thể tiếng Việt vẫn còn một số lớp nhận dạng có kết
quả chưa cao do vấn đề mất cân bằng dữ liệu trong tập huấn luyện. Để giải quyết
vấn đề này có thể áp dụng một số kỹ thuật làm giảm sự ảnh hưởng giữa các lớp có
số lượng dữ liệu lớn đến các lớp có số lượng dữ liệu nhỏ hơn hay áp dụng một số kỹ
thuật lựa chọn đặc trưng.
2. Áp dụng bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan
cho dữ liệu văn bản y sinh thực tế, bên cạnh đấy ứng dụng các phương pháp trích
xuất quan hệ nhằm làm rõ sự tương tác giữa các thực thể với nhau.
3. Thử nghiệm phương pháp thích nghi miền với nhiều miền dữ liệu hơn để
cho thấy sự tác động về mặt hiệu quả giữa các miền dữ liệu qua đấy đề xuất một mô
hình cho phép nhận dạng được thực thể biểu hiện cho tất cả các loại bệnh di truyền.
122
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN
QUAN ĐẾN LUẬN ÁN
1. [CTLA1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014). The impact of
near domain transfer on biomedical named entity recognitions LOUHI 2014,
EACL 2014, Sweden, 2014.
2. [CTLA2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Quang-Thuy Ha,
Anika Oellrich, Dietrich Rebholz-Schuhmann (2013). Learning to Recognize
Phenotype Candidates in the Auto-Immune Literature Using SVM Re-Ranking.
PLoS ONE 8(10): e72965, October 2013.
3. [CTLA3] Mai-Vu Tran, Duc-Trong Le (2013). vTools: Chunker and Part-of-
Speech tools, RIVF-VLSP 2013 Workshop.
4. [CTLA4] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai
Kawazoe, Martin Hall-May, Dietrich Rebholz-Schuhmann (2012). A Hybrid
Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012:
647-662.
5. [CTLA5] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and Tien-Tung Nguyen
(2012). A Model of Vietnamese Person Named Entity Question Answering
System, PACLIC 2012, Bali, Indonesia, October 2012.
6. [CTLA6] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong
Phan, Quang-Thuy Ha (2011). An Integrated Approach Using Conditional
Random Fields for Named Entity Recognition and Person Property Extraction
in Vietnamese Text. IALP 2011:115-118.
7. [CTLA7] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier
(2015). The UET-CAM System in the BioCreAtIvE V CDR Task. In
Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla,
Spain, 2015.
123
TÀI LIỆU THAM KHẢO
Tiếng Việt
[DH96] Diệp Quang Ban (chủ biên), Hoàng Văn Thung (1996), Ngữ pháp
tiếng Việt T1, T2 - NXB Giáo dục- HN.
[NTH11] Nguyễn Thanh Hiên (2011). Phân giải nhập nhằng thực thể có tên
dựa trên các ontology đóng và mở. Luận án tiến sỹ. Trường Đại học Bách Khoa,
Đại học Quốc Gia TP.HCM.
[SC13] Sam Chanrathany (2013). Trích rút thực thể có tên và quan hệ thực thể
trong văn bản tiếng Việt. Luận án tiến sỹ. Trường Đại học Bách Khoa Hà Nội
Tiếng Anh
[AHB93] Appelt, D. E., Hobbs, J. R., Bear, J., Israel, D., & Tyson, M. (1993,
August). FASTUS: A finite-state processor for information extraction from real-
world text. In IJCAI (Vol. 93, pp. 1172-1178).
[AZ05] Ando, R. K., & Zhang, T. (2005). A framework for learning predictive
structures from multiple tasks and unlabeled data. The Journal of Machine Learning
Research, 6, 1817-1853.
[AZ11b] A. B. Abacha and P. Zweigenbaum. Medical entity recognition: A
comparison of semantic and statistical methods. In Proceedings of BioNLP 2011
Workshop, pages 56–64, 2011.
[AZ12] Aggarwal, C. C., & Zhai, C. (2012). Mining text data. Springer
Science & Business Media.
[BBD02] Banko, M., Brill, E., Dumais, S., & Lin, J. (2002, March). AskMSR:
Question answering using the worldwide Web. In Proceedings of 2002 AAAI
Spring Symposium on Mining Answers from Texts and Knowledge Bases (pp. 7-9).
[BPP96] Berger, A. L., Pietra, V. J. D., & Pietra, S. A. D. (1996). A maximum
entropy approach to natural language processing. Computational linguistics, 22(1),
39-71.
124
[BR04] Bard, J. B., & Rhee, S. Y. (2004). Ontologies in biology: design,
applications and future challenges. Nature Reviews Genetics, 5(3), 213-222.
[BSS03] Blake, A., Sinclair, M. T., & Sugiyarto, G. (2003). Quantifying the
impact of foot and mouth disease on tourism and the UK economy. Tourism
Economics,9(4), 449-465.
[BSS08] Beisswanger, E., Schulz, S., Stenzhorn, H., & Hahn, U. (2008).
BioTop: An upper domain ontology for the life sciencesA description of its current
structure, contents and interfaces to OBO ontologies. Applied Ontology, 3(4), 205-
212.
[CC03] Curran, J. R., & Clark, S. (2003, May). Language independent NER
using a maximum entropy tagger. In Proceedings of the seventh conference on
Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 164-167).
Association for Computational Linguistics.
[CC09] Cai, Y., & Cheng, X. (2009, October). Biomedical named entity
recognition with tri-training learning. In Biomedical Engineering and Informatics,
2009. BMEI'09. 2nd International Conference on (pp. 1-5). IEEE.
[COG15] Collier, N., Oellrich, A., & Groza, T. (2015). Concept selection for
phenotypes and diseases using learn to rank. Journal of biomedical semantics, 6(1),
24.
[CF04] Chen, L., & Friedman, C. (2004). Extracting phenotypic information
from the literature via natural language processing. Medinfo, 11(Pt 2), 758-62.
[CGE11] Cohen, R., Gefen, A., Elhadad, M., & Birk, O. S. (2011). CSI-
OMIM-Clinical Synopsis Search in OMIM. BMC bioinformatics, 12(1), 65.
[COG13] Collier, N., Oellrich, A., & Groza, T. (2013). Toward knowledge
support for analysis and interpretation of complex traits. Genome biology, 14(9),
214.
[CTX06] Cam-Tu Nguyen, Trung Kien Nguyen, Xuan Hieu Phan, Le Minh
Nguyen, and Quang Thuy Ha: Vietnamese Word Segmentation with CRFs and
125
SVMs: An Investigation, The 20th Pacific Asia Conference on Language,
Information, and Computation (PACLIC), 1st-3rd November, 2006, Wuhan, China.
[CH08] Cohen, K. B., & Hunter, L. (2008). Getting started in text mining.
PLoS computational biology, 4(1), e20.
[DA07] H. Daume III. 2007. Frustratingly easy domain adaptation. In Annual
meeting of the Association for Computational Linguistics (ACL 2007), pages 256–
263.
[DCX12] Doan, S., Collier, N., Xu, H., Duy, P. H., & Phuong, T. M. (2012).
Recognition of medication information from discharge summaries using ensembles
of classifiers. BMC medical informatics and decision making, 12(1), 36.
[DDS09] Nguyen, D. Q., Nguyen, D. Q., & Pham, S. B. (2009, October). A
vietnamese question answering system. In Knowledge and Systems Engineering,
2009. KSE'09. International Conference on (pp. 26-32). IEEE.
[DMP04] Doddington, G. R., Mitchell, A., Przybocki, M. A., Ramshaw, L. A.,
Strassel, S., & Weischedel, R. M. (2004, May). The Automatic Content Extraction
(ACE) Program-Tasks, Data, and Evaluation. In LREC.
[ES13] Ekbal, A., & Saha, S. (2013). Stacked ensemble coupled with feature
selection for biomedical entity extraction. Knowledge-Based Systems, 46, 22-32.
[EUL01] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External
Knowledge in Factoid QA. Paper presented at the Tenth Text REtrieval Conference
(TREC 10), Gaithersburg, MD, 2001, November 13-16.
[FEO02] K. Franzén, G. Eriksson, F. Olsson, L. Asker, P. Lid´en, and J.
Coster. Protein names and how to find them. International Journal of Medical
Informatics, 67(1-3):49–61, 2002.
[FIJ03] Florian, R., Ittycheriah, A., Jing, H. and Zhang, T. (2003) Named
Entity Recognition through Classifier Combination. Proceedings of CoNLL-2003.
Edmonton, Canada.
[FPS96] Fayyad, Piatetsky-Shapiro, Smyth. From Data Mining to Knowledge
Discovery: An Overiew. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy,
126
Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press,
Menlo Park, 1996, 1-34.
[FS03] Freimer, N., & Sabatti, C. (2003). The human phenome project. Nature
genetics, 34(1), 15-21.
[FTT98] Fukuda, K. I., Tsunoda, T., Tamura, A., & Takagi, T. (1998,
January). Toward information extraction: identifying protein names from biological
papers. In Pac Symp Biocomput (Vol. 707, No. 18, pp. 707-718).
[GCS11] Gremse, M., Chang, A., Schomburg, I., Grote, A., Scheer, M.,
Ebeling, C., & Schomburg, D. (2011). The BRENDA Tissue Ontology (BTO): the
first all-integrating ontology of all organisms for enzyme sources. Nucleic acids
research, 39(suppl 1), D507-D513.
[GFH08] Danilo Giampiccolo, Pamela Forner, Jesús Herrera, Anselmo Peñas,
Christelle Ayache, Corina Forascu, Valentin Jijkoun, Petya Osenova, Paulo Rocha,
Bogdan Sacaleanu, Richard F. E. Sutcliffe (2008). Overview of the clef 2007
multilingual question answering track. In Advances in Multilingual and Multimodal
Information Retrieval (pp. 200-236). Springer Berlin Heidelberg.
[GKD15] Groza, T., Köhler, S., Doelken, S., Collier, N., Oellrich, A.,
Smedley, D., ... & Robinson, P. N. (2015). Automatic concept recognition using the
Human Phenotype Ontology reference and test suite corpora. Database, 2015.
[GHZ12] Groza, T., Hunter, J., & Zankl, A. (2012). Supervised segmentation
of phenotype descriptions for the human skeletal phenome using hybrid
methods.BMC bioinformatics, 13(1), 265.
[GHZ13] Groza, T., Hunter, J., & Zankl, A. (2013). Decomposing phenotype
descriptions for the human skeletal phenome. Biomedical informatics insights, 6, 1.
[GLR06] Giuliano, C., Lavelli, A., & Romano, L. (2006, April). Exploiting
shallow linguistic information for relation extraction from biomedical literature. In
EACL (Vol. 18, pp. 401-408).
127
[GNB10] Gerner, M., Nenadic, G., & Bergman, C. M. (2010). LINNAEUS: a
species name identification system for biomedical literature. BMC bioinformatics,
11(1), 85.
[GR08] Girju R. Semantic relation extraction and its applications. ESSLLI
2008 Course Material, Hamburg, Germany, 4-15 August 2008.
[GZH12] Groza, T., Zankl, A., & Hunter, J. (2012). Experiences with
modeling composite phenotypes in the SKELETOME project. In The Semantic
Web–ISWC 2012 (pp. 82-97). Springer Berlin Heidelberg.
[HBK12] Hirschman, L., Burns, G. A. C., Krallinger, M., Arighi, C., Cohen,
K. B., Valencia, A., ... & Winter, A. G. (2012). Text mining for the biocuration
workflow. Database, 2012, bas020.
[HC03] W.-J. Hou and H.-H. Chen. Enhancing performance of protein name
recognizers using collocation. In Proceedings of the ACL 2003 Workshop on
Natural Language Processing in Biomedicine Volume 13, pages 25–32, 2003.
[HEG00] Hovy, Eduard and Gerber, Laurie and Hermjakob, Ulf and Junk,
Michael and Lin, Chin-yew (2000). Question answering in webclopedia. In
Proceedings of the Ninth Text REtrieval Conference (TREC-9).
[HHH12] Hoehndorf, R., Harris, M. A., Herre, H., Rustici, G., & Gkoutos, G.
V. (2012). Semantic integration of physiology phenotypes with an application to the
Cellular Phenotype Ontology. Bioinformatics, 28(13), 1783-1789.
[HL15] Huang, C. C., & Lu, Z. (2015). Community challenges in biomedical
text mining over 10 years: success, failure and the future. Briefings in
bioinformatics, bbv024.
[HOR10] Hoehndorf, R., Oellrich, A., & Rebholz-Schuhmann, D. (2010).
Interoperability between phenotype and anatomy ontologies. Bioinformatics,
26(24), 3112-3118.
[HSG11] Hoehndorf, R., Schofield, P. N., & Gkoutos, G. V. (2011).
PhenomeNET: a whole-phenome approach to disease gene discovery. Nucleic acids
research,39(18), e119-e119.
128
[HSS09] Hettne, K. M., Stierum, R. H., Schuemie, M. J., Hendriksen, P. J.,
Schijvenaars, B. J., Van Mulligen, E. M., ... & Kors, J. A. (2009). A dictionary to
identify small molecules and drugs in free text. Bioinformatics, 25(22), 2983-2991.
[HWY05] Huang, J., Wang, C., Yang, C., Chiu, M. and Yee, G. 2005.
Applying Word Sense Disambiguation to Question Answering System for E-
Learning. In Proceedings of the 19th International Conference on Advanced
Information Networking and Applications. Taipei, Taiwan, pp.157-62.
[JAJ10] Javier Artiles, Andrew Borthwick, Julio Gonzalo, Satoshi Sekine, and
Enrique Amigó. WePS-3 Evaluation Campaign: Overview of the Web People
Search Clustering and Attribute Extraction Tasks. in the 3rd Web People Search
Evaluation Workshop (WePS 2010).
[Kai08] Kaisser, M. (2008, June). The QuALiM question answering demo:
Supplementing answers with paragraphs drawn from Wikipedia. In Proceedings of
the 46th Annual Meeting of the Association for Computational Linguistics on
Human Language Technologies: Demo Session (pp. 32-35). Association for
Computational Linguistics.
[KCO05] S. Kinoshita, K. B. Cohen, P. Ogren, and L. Hunter. BioCreAtIvE
task 1A: Entity identification with a stochastic tagger. BMC Bioinformatics,
6(Suppl 1):S4, 2005.
[KLR15] Krallinger, M., Leitner, F., Rabal, O., Vazquez, M., Oyarzabal, J., &
Valencia, A. (2015). CHEMDNER: The drugs and chemical names extraction
challenge. J Cheminform, 7(Suppl 1), S1.
[KM14] Khordad, Maryam (2014). Investigating Genotype-Phenotype
relationship extraction from biomedical text . Doctoral dissertation. University of
Western Ontario
[KMR11] Khordad, M., Mercer, R. E., & Rogan, P. (2011). Improving
phenotype name recognition. In Advances in Artificial Intelligence (pp. 246-257).
Springer Berlin Heidelberg.
129
[KOT03] Kim, J. D., Ohta, T., Tateisi, Y., & Tsujii, J. I. (2003). GENIA
corpus—a semantically annotated corpus for bio-textmining. Bioinformatics,
19(suppl 1), i180-i182.
[KOT04] Kim, J. D., Ohta, T., Tsuruoka, Y., Tateisi, Y., & Collier, N. (2004,
August). Introduction to the bio-entity recognition task at JNLPBA. In Proceedings
of the international joint workshop on natural language processing in biomedicine
and its applications (pp. 70-75). Association for Computational Linguistics.
[LDN13] Le, N. M., Do, B. N., Nguyen, V. D., & Nguyen, T. D. (2013,
December). VNLP: an open source framework for Vietnamese natural language
processing. InProceedings of the Fourth Symposium on Information and
Communication Technology (pp. 88-93). ACM.
[LLL14] Le Trung, H., Le Anh, V., & Le Trung, K. (2014). Bootstrapping and
Rule-Based Model for Recognizing Vietnamese Named Entity. In Intelligent
Information and Database Systems (pp. 167-176). Springer International Publishing.
[LMP01] Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional
random fields: Probabilistic models for segmenting and labeling sequence data.
[LN10] Le, H. T., & Nguyen, T. H. (2010, August). Name entity recognition
using inductive logic programming. In Proceedings of the 2010 Symposium on
Information and Communication Technology (pp. 71-77). ACM.
[LTC04] Lin, Y. F., Tsai, T. H., Chou, W. C., Wu, K. P., Sung, T. Y., & Hsu,
W. L. (2004, August). A maximum entropy approach to biomedical named entity
recognition. In BIOKDD (pp. 56-61).
[LV13] Le, H. T., & Van Tran, L. (2013, December). Automatic feature
selection for named entity recognition using genetic algorithm. In Proceedings of
the Fourth Symposium on Information and Communication Technology (pp. 81-
87). ACM.
[MAC07] Mabee, P. M., Ashburner, M., Cronk, Q., Gkoutos, G. V., Haendel,
M., Segerdell, E., ... & Westerfield, M. (2007). Phenotype ontologies: the bridge
between genomics and evolution. Trends in ecology & evolution, 22(7), 345-350.
130
[MC07] McKusick, V. A. (2007). Mendelian Inheritance in Man and its online
version, OMIM. American journal of human genetics, 80(4), 588.
[MFM05] Mitsumori, T., Fation, S., Murata, M., Doi, K., & Doi, H. (2005).
Gene/protein name recognition based on support vector machine using dictionary as
features. BMC bioinformatics, 6(Suppl 1), S8.
[MFP00] McCallum, A., Freitag, D., & Pereira, F. C. (2000, June). Maximum
Entropy Markov Models for Information Extraction and Segmentation. In ICML
(pp. 591-598).
[MHC04] A. A. Morgan, L. Hirschman, M. Colosimo, A. S. Yeh, and J. B.
Colombe. Gene name identification and normalization using a model organism
database. Journal of Biomedical Informatics, 37(6):396–410, 2004.
[ML03] McCallum, A., & Li, W. (2003, May). Early results for named entity
recognition with conditional random fields, feature induction and web-enhanced
lexicons. InProceedings of the seventh conference on Natural language learning at
HLT-NAACL 2003-Volume 4 (pp. 188-191). Association for Computational
Linguistics.
[MO08] Michele Banko, Oren Etzioni. “The Tradeoffs Between Open and
Traditional Relation Extraction. ACL 2008: 28-36
[MPH03] Moldovan, D., Paşca, M., Harabagiu, S., & Surdeanu, M. (2003).
Performance issues and error analysis in an open-domain question answering
system. ACM Transactions on Information Systems (TOIS), 21(2), 133-154.
[MR04] Mika, S., & Rost, B. (2004). Protein names precisely peeled off free
text. Bioinformatics, 20(suppl 1), i241-i247.
[MY14] Miwa, Makoto, and Yutaka Sasaki. "Modeling Joint Entity and
Relation Extraction with Table Representation." EMNLP. 2014.
[NBK13] Nédellec, C., Bossy, R., Kim, J. D., Kim, J. J., Ohta, T., Pyysalo, S.,
& Zweigenbaum, P. (2013, August). Overview of BioNLP shared task 2013. In
Proceedings of the BioNLP Shared Task 2013 Workshop (pp. 1-7).
131
[NC12] Nguyen, T. T., & Cao, T. H. (2012, February). Linguistically
Motivated and Ontological Features for Vietnamese Named Entity Recognition.
In Computing and Communication Technologies, Research, Innovation, and Vision
for the Future (RIVF), 2012 IEEE RIVF International Conference on (pp. 1-6).
IEEE.
[NCT99] C. Nobata, N. Collier, and J.-i. Tsujii. Automatic term identification
and classification in biology texts. In Proceedings of the Natural Language Pacific
Rim Symposium, pages 369–374, 1999.
[NE05] Nédellec, C. (2005, August). Learning language in logic-genic
interaction extraction challenge. In Proceedings of the 4th Learning Language in
Logic Workshop (LLL05) (Vol. 7).
[NN13] Nguyen, M. T., & Nguyen, T. T. (2013, December). Extraction of
disease events for a real-time monitoring system. In Proceedings of the Fourth
Symposium on Information and Communication Technology (pp. 139-147). ACM.
[NP12] Nguyen, D. B., & Pham, S. B. (2012). Ripple down rules for
vietnamese named entity recognition. In Computational Collective Intelligence.
Technologies and Applications (pp. 354-363). Springer Berlin Heidelberg.
[NRV03] M. Narayanaswamy, K. E. Ravikumar, and K. Vijay-Shanker. A
biological named entity recognizer. In Pacific Symposium on Biocomputing, pages
427–438, 2003.
[NHP10] Nguyen, D. B., Hoang, S. H., Pham, S. B., & Nguyen, T. P. (2010).
Named entity recognition for Vietnamese. In Intelligent Information and Database
Systems (pp. 205-214). Springer Berlin Heidelberg.
[OCQ09] Oanh Thi Tran, Cuong Anh Le Quang-Thuy Ha and Quynh Hoang
Le. An Experimental Study on Vietnamese POS tagging", International Conference
on Asian Language Processing (IALP 2009):23-27, Dec 7-9, 2009, Singapore
[OMT06] D. Okanohara, Y. Miyao, Y. Tsuruoka, and J. Tsujii. Improving the
scalability of semi-Markov conditional random fields for named entity recognition.
In Proceedings of the 21st International Conference on Computational Linguistics
132
and the 44th Annual Meeting of the Association for Computational Linguistics,
pages 465–472, 2006.
[OOG05] Özgür, A., Özgür, L., & Güngör, T. (2005). Text categorization with
class-based and corpus-based keyword selection. In Computer and Information
Sciences-ISCIS 2005 (pp. 606-615). Springer Berlin Heidelberg.
[PGH07] Pyysalo, S., Ginter, F., Heimonen, J., Björne, J., Boberg, J.,
Järvinen, J., & Salakoski, T. (2007). BioInfer: a corpus for information extraction in
the biomedical domain. BMC bioinformatics, 8(1), 50.
[PNH10] Phan, T. T., Nguyen, T. C., & Huynh, T. N. (2010). Question
semantic analysis in Vietnamese QA system. In Advances in Intelligent Information
and Database Systems (pp. 29-40). Springer Berlin Heidelberg.
[PY10] Pan, S. J., & Yang, Q. (2010). A survey on transfer learning.
Knowledge and Data Engineering, IEEE Transactions on, 22(10), 1345-1359.
[QU93] Quinlan, J. R. (1993). C4. 5: programs for machine learning (Vol. 1).
Morgan kaufmann.
[RA89] Rabiner, L. (1989). A tutorial on hidden Markov models and selected
applications in speech recognition. Proceedings of the IEEE, 77(2), 257-286.
[RA91] Rau, L. F. (1991, February). Extracting company names from text. In
Artificial Intelligence Applications, 1991. Proceedings., Seventh IEEE Conference
on(Vol. 1, pp. 29-32). IEEE.
[RA96] Ratnaparkhi, A. (1996, May). A maximum entropy model for part-of-
speech tagging. In Proceedings of the conference on empirical methods in natural
language processing (Vol. 1, pp. 133-142).
[RHT10] Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, The
Minh Trinh. Relation Extraction in Vietnamese Text Using Conditional Random
Fields. AAIRS 2010: 330-339
[RM95] L. A. Ramshaw and M. P. Marcus. Text chunking using
transformation-based learning. In 3rd ACL SIGDAT Workshop on Very Large
Corpora, pages 82–94, 1995.
133
[RR09] Ratinov, L., & Roth, D. (2009). Design challenges and misconceptions
in named entity recognition. In Proceedings of the Thirteenth Conference on
Computational Natural Language Learning (pp. 147-155). Association for
Computational Linguistics.
[SCW09] Scheuermann, R. H., Ceusters, W., & Smith, B. (2009). Toward an
ontological treatment of disease and diagnosis. Summit on translational
bioinformatics,2009, 116.
[SE04] Settles, B. (2004, August). Biomedical named entity recognition using
conditional random fields and rich feature sets. In Proceedings of the International
Joint Workshop on Natural Language Processing in Biomedicine and its
Applications (pp. 104-107). Association for Computational Linguistics.
[SE09] Smith, C. L., & Eppig, J. T. (2009). The mammalian phenotype
ontology: enabling robust annotation and comparative analysis. Wiley
Interdisciplinary Reviews: Systems Biology and Medicine, 1(3), 390-399.
[SGE04] Smith, C. L., Goldsmith, C. A. W., & Eppig, J. T. (2004). The
Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing
phenotypic information. Genome biology, 6(1), R7.
[SJ09] Satoshi Sekine and Javier Artiles. WePS2 Attribute Extraction Task. in
the 2nd Web People Search Evaluation Workshop (WePS 2, 2009).
[SLT11a] Sam, R. C., Le, H. T., Nguyen, T. T., & Nguyen, T. H. (2011).
Combining proper name-coreference with conditional random fields for semi-
supervised named entity recognition in Vietnamese text. In Advances in Knowledge
Discovery and Data Mining (pp. 512-524). Springer Berlin Heidelberg.
[SLT11b] Sam, R. C., Le, H. T., Nguyen, T. T., Le, D. A., & Nguyen, N. M.
T. (2011, October). Semi-supervised learning for relation extraction in Vietnamese
text. In Proceedings of the Second Symposium on Information and Communication
Technology (pp. 100-105). ACM.
[SMY15] Sun, H., Ma, H., Yih, W. T., Tsai, C. T., Liu, J., & Chang, M. W.
(2015, May). Open Domain Question Answering via Semantic Enrichment. In
134
Proceedings of the 24th International Conference on World Wide Web (pp. 1045-
1055). International World Wide Web Conferences Steering Committee.
[SOK13] Smedley, D., Oellrich, A., Köhler, S., Ruef, B., Westerfield, M.,
Robinson, P., ... & Mungall, C. (2013). PhenoDigm: analyzing curated annotations
to associate animal models with human diseases. Database, 2013, bat025.
[SSM09] S. K. Saha, S. Sarkar, and P. Mitra. Feature selection techniques for
maximum entropy based biomedical named entity recognition. Journal of
Biomedical Informatics, vol. 42, no. 5, pp. 905–911, 2009.
[STM08] Y. Sasaki, Y. Tsuruoka, J. McNaught, and S. Ananiadou. How to
make the most of NE dictionaries in statistical NER. BMC Bioinformatics, 9(Suppl
11):S5, 2008.
[TC05] K. Takeuchi and N. Collier. Bio-medical entity extraction using
support vector machines. Artificial Intelligence in Medicine, 33(2):125–137, 2005.
[TLH10] Tran Thi Oanh, Le Cuong Anh, Ha Thuy Quang, Improving
Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds
of Resources. Journal of Natural Language Processing 17(3): 41-60 (2010)
[TOH05] Tu, N. C., Oanh, T. T., Hieu, P. X., & Thuy, H. Q. (2005). Named
entity recognition in vietnamese free-text and web documents using conditional
random fields. In The 8th Conference on Some selection problems of Information
Technology and Telecommunication.
[TTD07] Thao, P. T. X., Tri, T. Q., Dien, D., & Collier, N. (2007). Named
entity recognition in Vietnamese using classifier voting. ACM Transactions on
Asian Language Information Processing (TALIP), 6(4), 3.
[TTK05] Tsuruoka, Y., Tateishi, Y., Kim, J. D., Ohta, T., McNaught, J.,
Ananiadou, S., & Tsujii, J. I. (2005). Developing a robust part-of-speech tagger for
biomedical text. In Advances in informatics (pp. 382-392). Springer Berlin
Heidelberg.
135
[TTQ07] Tran, Q. T., Pham, T. T., Ngo, Q. H., Dinh, D., & Collier, N. (2007).
Named entity recognition in Vietnamese documents. Progress in Informatics
Journal,5, 14-17.
[TWC06] Tzong-Han Tsai, Richard; Wu S.-H.; Chou, W.-C.; Lin, Y.-C.; He,
D.; Hsiang, J.; Sung, T.-Y.; Hsu, W.-L. 2006. Various Criteria in the Evaluation of
Biomedical Named Entity Recognition. BMC Bioinformatics 7:92, BioMed
Central.
[UCO11] Y. Usami, H.-C. Cho, N. Okazaki, and J. Tsujii. Automatic
acquisition of huge training data for bio-medical named entity recognition. In
Proceedings of BioNLP 2011 Workshop, pages 65–73, 2011.
[USC10] Uzuner, Ö., Solti, I., & Cadag, E. (2010). Extracting medication
information from clinical text. Journal of the American Medical Informatics
Association,17(5), 514-518.
[USS10] Uzuner, Ö., South, B. R., Shen, S., & DuVall, S. L. (2011). 2010
i2b2/VA challenge on concepts, assertions, and relations in clinical text. Journal of
the American Medical Informatics Association.
[VA10] Vlachos, A. (2010). Semi-supervised learning for biomedical
information extraction. Doctoral dissertation. Computer Laboratory, University of
Cambridge.
[VED01] Voorhees, Ellen M., and Donna Harman. Overview of TREC 2001.
Trec. 2001.
[Vo03] E.M. Voorhees. Overview of the TREC 2003 Question Answering
Track. TREC 2003: 54-68
[VVO09] Vu Mai Tran, Vinh Duc Nguyen, Oanh Thi Tran, Uyen Thu Thi
Pham, Thuy Quang Ha. An Experimental Study of Vietnamese Question Answering
System. In Proceedings of IALP'2009. pp.152~155
[WAC12] Wu, C. H., Arighi, C. N., Cohen, K. B., Hirschman, L., Krallinger,
M., Lu, Z., ... & Wilbur, W. J. (2012). BioCreative-2012 Virtual Issue. Database:
The Journal of Biological Databases and Curation, 2012.
136
[WGM14] West, R., Gabrilovich, E., Murphy, K., Sun, S., Gupta, R., & Lin,
D. (2014, April). Knowledge base completion via search-based question answering.
In Proceedings of the 23rd international conference on World wide web (pp. 515-
526). ACM.
[WKS09] Wang, Y., Kim, J. D., Sætre, R., Pyysalo, S., & Tsujii, J. I. (2009).
Investigating heterogeneous protein annotations toward cross-corpora utilization.
BMC bioinformatics, 10(1), 403.
[WPL15] Wei, C. H., Peng, Y., Leaman, R., Davis, A. P., Mattingly, C. J., Li,
J., ... & Lu, Z. (2015). Overview of the BioCreative V chemical disease relation
(CDR) task. In Proceedings of the fifth BioCreative challenge evaluation workshop,
Sevilla, Spain.
[WTJ13] Wagholikar, K. B., Torii, M., Jonnalagadda, S., & Liu, H. (2013).
Pooling annotated corpora for clinical concept extraction. J. Biomedical Semantics,
4, 3.
[YD14] Yao, X., & Van Durme, B. (2014). Information extraction over
structured data: Question answering with freebase. In Proceedings of ACL.
[YYW15] Yang, Y., Yih, W. T., & Meek, C. (2015). WIKIQA: A Challenge
Dataset for Open-Domain Question Answering. In Proceedings of the Conference
on Empirical Methods in Natural Language Processing.
[ZD09] Zweigenbaum, P., & Demner-Fushman, D. (2009). Advanced
literature-mining tools. In Bioinformatics (pp. 347-380). Springer New York.
[ZDY07] Zweigenbaum, P., Demner-Fushman, D., Yu, H., & Cohen, K. B.
(2007). Frontiers of biomedical text mining: current progress. Briefings in
bioinformatics, 8(5), 358-375.
[ZSZ05] G. Zhou, D. Shen, J. Zhang, J. Su, and S. Tan. Recognition of
protein/gene names from text using an ensemble of classifiers. BMC
Bioinformatics, 6(Suppl 1):S7, 2005.
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_nhan_dang_thuc_the_co_ten_va_thuc_the_bie.pdf