Trình bày khái quái về bài toán trích chọn sự kiện liên quan đến bệnh ung thư di
truyền.
Trình bày hai hướng tiếp cận điển hình giải quyết bài toán.
Trình bày một mô hình cơ sở đã đề xuất, giải quyết cho bài toán trích chọn sự
kiện liên quan đến bệnh ung thư di truyền.
Đề xuất và xây dựng một mô hình dựa trên học máy có giám sát với tập giàu
đặc trưng, tập luật và bộ phân tích quy hoạch động Earley parser, giải quyết cho
bài toán trích chọn sự kiện phức hợp trong văn bản về bệnh ung thư di truyền.
Thực nghiệm dựa trên tập dữ liệu phát triển (cung cấp bởi BioNLP-ST 2013)
cho kết quả khả quan hơn mô hình cơ sở: độ đo F1 với trích chọn các sự kiện
phức hợp đạt cao nhất khoảng 70%.
53 trang |
Chia sẻ: lylyngoc | Lượt xem: 2415 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
thực thể y sinh học được gán nhãn chuẩn bằng tay, liên kết tới văn bản
thông qua vị trí các kí tự (character offset).
Đầu ra:
Các sự kiện y sinh học được trích chọn và biểu diễn theo cấu trúc được định
nghĩa trước.
8
Hình 3: Minh họa đầu vào và đầu ra của bài toán trích chọn sự kiện liên quan đến
bệnh ung thư di truyền
Mục đích của bài toán: nhằm nhận dạng bất kì đối tượng của một lớp sự kiện
riêng trong văn bản về bệnh ung thư di truyền, trích chọn các tham số liên quan của sự
kiện và biểu diễn thông tin được trích chọn vào một dạng có cấu trúc [1]. Sự kiện được
trích chọn bao gồm: một trigger, một kiểu sự kiện và một (hoặc nhiều) tham số.
Hình 4: Cấu trúc sự kiện y sinh học
Với đầu vào là đoạn văn bản “...binding of SNAP23, syntaxin and VAMP-2...”
và các thực thể (in đậm) được cung cấp sẵn, cấu trúc của sự kiện được trích chọn là:
Trigger: binding
Kiểu: BINDING
Các tham số: Theme1 (PROTEIN), Theme2 (PROTEIN), Theme3 (PROTEIN)
1.4. Khó khăn và thách thức
Bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền là một bài toán
khó với nhiều thách thức được đặt ra như:
Sự kiện
Trigger
Kiểu sự kiện
Tham số
9
Đây là bài toán mới và có rất ít công trình nghiên cứu về trích chọn sự kiện
miền ung thư di truyền.
Không có bộ từ điển đầy đủ cho các loại tên thực thể/trigger, vấn đề tên viết tắt,
từ đồng nghĩa, tên lồng nhau, các tên biến thể...[2].
Số kiểu thực thể (18 kiểu) và sự kiện (40 kiểu) lớn.
Sự nhập nhằng của trigger: một trigger có thể thuộc nhiều kiểu sự kiện khác
nhau, tùy vào ngữ cảnh [3].
Một sự kiện có thể là sự kiện đơn hoặc sự kiện lồng nhau. Hiện tượng các sự
kiện lồng nhau thường xuyên xuất hiện trong văn bản y sinh học [4] [5]. Một sự
kiện cũng có thể chứa nhiều vai trò tham số giống nhau.
Các vai trò tham số của mỗi kiểu sự kiện khác nhau (Theme, Cause, Site,
Csite,...), một số vai trò tham số mới được định nghĩa trong CG task
(Instrument, Participant).
Một sự kiện có thể có nhiều tham số, và thứ tự của các tham số này hầu hết
không tuân theo một nguyên tắc cố định.
1.5. Phương pháp đánh giá
Theo BioNLP-ST 2009, sự đánh giá dựa vào sự khớp nhau của các sự kiện
được định nghĩa bên dưới7. Kết quả đánh giá được báo cáo bằng cách sử dụng các độ
đo chuẩn: độ chính xác, độ hồi tưởng và độ đo F1.
Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiểu sự kiện,
nhận dạng những từ biểu diễn sự kiện (trigger), các tham số của sự kiện và tính chính
xác của các thực thể và sự kiện chúng tham chiếu tới.
Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiểu sự kiện,
nhận dạng những từ biểu diễn sự kiện (trigger), các thành phần và tham số của sự kiện
và tính chính xác của các thực thể và sự kiện chúng tham chiếu tới. Một số tiêu chí
chính xác khác nhau được áp dụng:
strict equality (khớp nhau hoàn toàn): một sự kiện là chính xác phải khớp
với sự kiện đã được gán nhãn theo tất cả khía cạnh được đề cập ở trên.
approximate boundary matching (khớp biên xấp xỉ): cụm tên thực thể và
trigger cho phép khác so với cụm tên chính xác.
7
10
Định nghĩa chi tiết được đưa ra dưới đây. Chú ý rằng tất cả tiêu chí yêu cầu
kiểu của sự kiện chính xác và tất cả thành phần và tham số là chính xác. Kết hợp các
tiêu chí được xét dưới đây. Hai tiêu chí phổ biến sau được áp dụng.
1.5.1. Khớp nhau hoàn toàn
Tiêu chí khớp nhau hoàn toàn yêu cầu một sự kiện được xác nhận khớp với một
sự kiện đã được gán nhãn chuẩn:
Kiểu sự kiện như nhau
Trigger như nhau
Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực thể/sự kiện
được tham chiếu khớp:
o Các kiểu như nhau (cả thực thể và sự kiện)
o Cụm tên thực thể/trigger như nhau
o Các tham số của sự kiện như nhau
Hai cụm tên thực thể/trigger (begin1, end1) và (begin2, end2) là khớp nhau nếu
begin1 = begin2 và end1 = end2.
1.5.2. Khớp biên xấp xỉ
Khác với tiêu chí khớp nhau hoàn toàn ở phần in đậm:
Kiểu sự kiện như nhau
Trigger được dự đoán tương đương với kết quả gán nhãn chuẩn
Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực thể/sự kiện
được tham chiếu khớp:
o Các kiểu như nhau (cả thực thể và sự kiện)
o Cụm tên thực thể/trigger tương đương với kết quả gán nhãn chuẩn
o Các tham số của sự kiện như nhau
Với khớp xấp xỉ, sự tương đương được định nghĩa: một cụm dự đoán là tương
đương với cụm gán nhãn chuẩn nếu nó nằm hoàn toàn trong phần mở rộng của cụm
gán nhãn chuẩn bởi một từ ở cả hai phía trái và phải.
Ví dụ, cụm dự đoán (gạch chân) A plays role in [...] là tương đương với (giả
định) cụm gán nhãn chuẩn A plays role in [...] vì nó nằm trong cụm mở rộng A plays
role in [...].
11
Chương 2. Các hướng tiếp cận giải quyết bài toán
trích chọn sự kiện trong văn bản y sinh học
Phần này trình bày hai hướng tiếp cận được được sử dụng khá phổ biến trong
các hệ thống trích chọn sự kiện y sinh học gần đây. Chúng tôi cũng phân tích một số
thuận lợi và khó khăn đối với hai hướng tiếp cận này. Cuối cùng chúng tôi giới thiệu
một mô hình học máy đã được đề xuất để giải quyết cho bài toán trích chọn sự kiện
liên quan đến bệnh ung thư di truyền.
2.1. Trích chọn sự kiện dựa vào phân tích phụ thuộc cú
pháp
Trong công trình của David McClosky và cộng sự [5], họ đề xuất một hướng tiếp
cận mới cho bài toán trích chọn sự kiện. Họ tạo ra cây các chứa các quan hệ và tham
số của chúng, và sử dụng trực tiếp chúng để biểu diễn trong một bộ phân tích phụ
thuộc cú pháp.
Hình 5 biểu diễn hướng tiếp cận. Họ chuyển đổi dạng biểu diễn sự kiện gốc
sang cây phụ thuộc chứa cả trigger và thực thể, sau đó huấn luyện bộ phân tích cú
pháp nhằm nhận dạng những cấu trúc này. Những cây tạo nên sử dụng trigger được dự
đoán bởi một bộ phân lớp riêng. Trong mô hình này, các thực thể được cho sẵn. Các
phiên bản của bộ phân tích phụ thuộc cú pháp MSTParser8 được thiết lập với nhiều
decoder khác nhau. Đầu ra từ bộ xếp hạng phân tích cú pháp được chuyển đổi ngược
về dạng biểu diễn sự kiện gốc và đi qua một thành phần tái xếp hạng [7], điều chỉnh để
tối ưu hóa độ đo đánh giá bài toán.
Hình 5: Mô hình của hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp
8
12
Thực nghiệm của họ tiến hành trên kho ngữ liệu BioNLP-ST 2009 (Kim và
cộng sự, 2009) bao gồm 800 bản tóm tắt y sinh học (7449 câu, 8597 sự kiện) trong tập
huấn luyện và 150 bản tóm tắt (1450 câu, 1809 sự kiện) trong tập phát triển. Tập kiểm
thử chứa 260 bản tóm tắt, 2447 câu và 3182 sự kiện. Kết quả được thể hiện trong bảng
3 với độ đo xấp xỉ đã được mô tả trong phần II.4)
Bảng 3: Kết quả với tập kiểm thử theo các lớp sự kiện
Hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp xét sự phụ thuộc giữa các
trigger và thực thể: trigger và thực thể được xử lý tại cùng một thời điểm. Một số
trigger có thể bị loại bỏ trong quá trình xử lý khi đi qua bộ tái xếp hạng. Hướng tiếp
cận này có tiềm năng cho kết quả khá tốt, tuy nhiên việc cài đặt theo nó tương đối
phức tạp.
2.2. Trích chọn sự kiện dựa vào hệ thống đường ống
EventMine9 [14] là một hệ thống đường ống dựa vào học máy, trích chọn sự kiện
từ những tài liệu đã được gán nhãn tên thực thể (chẳng hạn gen, protein…). Đưa vào
dữ liệu thích hợp, nó có thể được huấn luyện để trích chọn nhiều kiểu và cấu trúc sự
kiện khác nhau. Hệ thống gồm 4 mô-đun phát hiện chính, hoạt động dựa trên đầu ra
của bộ phân tích cú pháp, được minh họa trong hình 6.
Các mô-đun hoạt động như sau:
Trigger/Entity Detection: Mô-đun này xác định những từ và cụm từ nào trong
câu có khả năng tham gia cấu thành sự kiện, và gán kiểu cho chúng. Những từ
và cụm từ có thể là thực thể hoặc trigger. Trong câu ví dụ ở hình 5, các từ
9
13
phospholylation, inhibits và binding được xác định có khả năng là trigger cho
các sự kiện Phosphorylation, Negative regulation và Binding.
Argument Detection: Mô-đun này tìm ra từng cặp quan hệ giữa trigger và
tham số, và gán kiểu ngữ nghĩa thích hợp cho quan hệ. Trong câu ví dụ ở hình
5, sáu quan hệ như vậy được tìm ra.
Multi-argument Event Detection: Mô-đun này kết hợp các cặp quan hệ độc
lập thành các cấu trúc sự kiện hoàn chỉnh.
Modification Detection: Mô-đun này gán thông tin modification (chẳng hạn
negation hoặc speculation) cho mỗi sự kiện. Trong hình 5, sự xuất hiện của từ
hypothesized (giả thiết) xác định sự kiện Negative regulation được suy đoán
(speculation).
Hình 6: Hệ thống EventMine
Mô hình theo hướng tiếp cận dựa vào hệ thống đường ống xét quá trình nhận
diện trigger và tham số là độc lập. Bài toán trích chọn sự kiện được phân rã thành các
bài toán con: nhận diện trigger được thực hiện trước khi nhận diện sự kiện và trigger
chỉ phụ thuộc vào đặc trưng ngữ cảnh. Các trigger đã nhận diện được giữ nguyên trong
suốt quá trình xử lý. Việc cài đặt theo mô hình này đơn giản hơn so với cài đặt theo
mô hình phân tích phụ thuộc ngữ pháp.
14
2.3. Mô hình học máy đã đề xuất cho bài toán trích chọn
sự kiện liên quan đến bệnh ung thư di truyền
Hướng tiếp cận dựa theo hệ thống EventMine có ưu điểm dễ cài đặt, dễ quản lý
và thích hợp với số lượng nhãn và số lượng thực thể lớn. Chúng tôi đã đưa ra một mô
hình đề xuất dựa trên ý tưởng của hệ thống EventMine.
Hình 7: Mô hình giải quyết bài toán Trích chọn sự kiện
liên quan đến bệnh ung thư di truyền
Trong mô hình này, bộ công cụ Enju Parser10 được sử dụng cho quá trình tiền
xử lý (tách câu, tách từ và phân tích cú pháp). Tuy nhiên, trong quá trình thực hiện,
chúng tôi sử dụng tập dữ liệu huấn luyện (training) và phát triển (development) liên
quan đến bệnh ung thư di truyền (CG dataset) đã được tách câu, tách từ (bởi Genia
10
15
Sentence Splitter11 và phân tích cú pháp (sử dụng Stanford Parsing), được cung cấp
bởi BioNLP Shared Task 2013. Một số lỗi trong những tập dữ liệu này được chỉnh sửa
lại bằng thủ công.
Mô hình đề xuất giải quyết bài toán Trích chọn sự kiện liên quan đến bệnh ung
thư di truyền gồm 3 thành phần chính:
Thành phần nhận diện trigger
Thành phần trích chọn sự kiện đơn: Nhận diện tham số kiểu thực thể + Trích
chọn sự kiện đơn.
Thành phần trích chọn sự kiện phức: Nhận diện tham số kiểu sự kiện + Trích
chọn sự kiện phức.
2.3.1. Thành phần nhận diện trigger
Bài toán nhận diện trigger có thể coi như bài toán gán nhãn token trong câu, mỗi
token thuộc về một lớp (ứng với lớp của sự kiện chứa trigger đó) hoặc thuộc lớp âm (-
1) nếu không phải là một trigger. Việc gán nhãn cho mỗi token là độc lập. Mô hình
được cài đặt sử dụng bộ phân lớp hồi quy logistic [15], với mục tiêu xây dựng một mô
hình tốt nhất cho tập dữ liệu huấn luyện.
Các xác suất trong hồi quy logistic nhị phân:
(2)
))((exp1
1
)|0p(
(1)
))((exp1
))((exp
)|1p(
-
T
-
-
-
T
-
-
T
-
-
xw
xy
xw
xw
xy
Trong đó: �⃗� là một vector biểu diễn một phần tử dữ liệu, y có giá trị nhị phân
{0, 1} là nhãn của phần tử dữ liệu �⃗� và �⃗⃗⃗� là vector tham số.
Quá trình huấn luyện:
Đầu vào: Tập dữ liệu huấn luyện D
Đầu ra: Mô hình (�⃗⃗⃗�)
Mã giả:
Khởi tạo �⃗⃗⃗�;
rate = 0.0001; // Một số nhỏ khác 0
11 https://github.com/ninjin/geniass/
16
for L lần lặp {
for mỗi vector �⃗� {
predict =
1
1+exp(�⃗⃗⃗�)𝑇∗𝑥)
// Dự đoán nhãn của �⃗�
�⃗⃗⃗� = �⃗⃗⃗� + rate * (y - predict) *�⃗� ;
}
}
Return �⃗⃗⃗�;
Quá trình phân lớp: Tính các xác suất theo công thức (1) và (2).
Phương pháp hồi quy logistic là một mô hình học có tốc độ huấn luyện nhanh,
hiệu năng tốt. Phương pháp này có thể áp dụng cho việc học với lượng dữ liệu lớn và
số chiều lớn. Một số thư viện về hồi quy logistic đã được xây dựng và sử dụng rất rộng
rãi như: Liblinear12, Lingpipe13. Để tối ưu hệ thống của mình, chúng tôi cài đặt lại mô
hình này dựa trên mã giả của thuật toán trên.
2.3.2. Thành phần trích chọn sự kiện đơn
Để nhận dạng các tham số kiểu thực thể, chúng tôi thực hiện việc ghép cặp và
phân lớp cho các cặp Trigger-Entity vào các lớp có dạng TriggerType_Role, trong đó
Trigger đại diện cho sự kiện, Entity có khả năng là tham số của sự kiện đó,
Trigger_Type là kiểu của trigger (cũng là kiểu của sự kiện chứa nó) và Role là kiểu vai
trò tham số (chẳng hạn Theme, Cause, Site, …).
Đầu tiên, các mẫu sự kiện được sử dụng để giảm một lượng lớn các trường hợp
không phải là trigger. Các mẫu này được xây dựng từ tập dữ liệu huấn luyện. Sau đó,
các cặp Trigger-Entity được phân lớp theo phương pháp SVM.
Chúng tôi phân loại các kiểu sự kiện vào 4 nhóm, trong đó 3 nhóm đầu là các
sự kiện đơn và nhóm còn lại là các sự kiện phức (tham số có thể là thực thể hoặc sự
kiện khác).
12 www.csie.ntu.edu.tw/~cjlin/liblinear/
13
17
Bảng 4: Phân loại các kiểu sự kiện trong CG task
Sự kiện không có tham số:
Amino_acid_catabolism
Sự kiện có tham số chỉ là thực thể (30 kiểu):
Acetylation
Blood_vessel_development
…
Sự kiện có tham số chỉ là thực thể (có thể có nhiều
hơn 1 tham số Theme hoặc Participant):
Binding
Gene_expression
Localization
Pathway
Dissociation
Sự kiện có tham số là thực thể hoặc sự kiện khác:
Negative_regulation
Planned_process
Positive_regulation
Regulation
Sau quá trình trích chọn sự kiện đơn, hệ thống đưa ra các sự kiện đơn đã được
trích chọn và biễu diễn theo cấu trúc được định nghĩa trước.
2.3.3. Thành phần trích chọn sự kiện phức
Thành phần này tương tự như thành phần trích chọn sự kiện đơn, nhưng áp
dụng cho 4 kiểu sự kiện: Negative_regulation, Planned_process, Positive_regulation
và Regulation.
Chúng tôi thực hiện ghép cặp và phân lớp mỗi cặp Trigger-Trigger thay cho
mỗi cặp Trigger-Entity. Các lớp có dạng tương tự như trong thành phần trích chọn sự
kiện đơn. Chú ý rằng cả hai trigger đại diện cho hai sự kiện, trong đó sự kiện thứ hai là
tham số của sự kiện thứ nhất.
Sau quá trình trích chọn sự kiện phức, hệ thống đưa ra các sự kiện phức hợp đã
được trích chọn và biễu diễn theo cấu trúc được định nghĩa trước.
18
Chúng tôi thu được kết quả với trích chọn các sự kiện phức hợp như ở bảng 5
khi đánh giá trên tập dữ liệu phát triển (development) được cung cấp bởi BioNLP-ST
2013.
Bảng 5: Kết quả với trích chọn các sự kiện phức hợp
liên quan đến bệnh ung thư di truyền
STT Kiểu sự kiện P (%) R (%) F1 (%)
… ... ... ... ...
29 Regulation 74.18 52.49 61.48
30 Positive_regulation 61.72 54.27 57.76
31 Negative_regulation 57.39 53.91 55.60
32 Planned_process 40.34 51.96 45.42
... ... ... ... ...
Tổng cộng (40 kiểu sự kiện) 70.26
Đánh giá trên tập dữ liệu kiểm thử được cung cấp bởi BioNLP-ST 2013, hệ
thống do chúng tôi xây dựng đã đạt kết quả đứng thứ 5 tại CG Task.
Chúng tôi cũng dùng mô hình này là mô hình cơ sở cho bài toán trích chọn các
sự kiện phức hợp, và so sánh kết quả với mô hình mới được đề xuất trong chương 3.
19
Chương 3. Mô hình giải quyết bài toán trích chọn sự
kiện y sinh phức hợp dựa vào mô hình phân tích cây
phụ thuộc
Từ quá trình khảo sát dữ liệu miền y sinh học về bệnh ung thư di truyền, cũng
như tìm hiểu một số hướng tiếp cận liên quan tới bài toán trích chọn sự kiện y sinh nói
chung trong chương trước. Chúng tôi nhận thấy việc chuyển đổi dạng biểu diễn ban
đầu của sự kiện (standoff format – được mô tả trong chương 4) sang cây phụ thuộc
(chứa các thực thể và trigger trong câu) cho kết quả khá tốt, đặc biệt với các kiểu sự
kiện phức hợp. Do đó, khóa luận đề xuất một mô hình phân tích, chủ yếu dựa trên
phương pháp này với việc kết hợp thuật toán Earley parser (một giải thuật được sử
dụng để phân tích cú pháp trong xử lý ngôn ngữ tự nhiên) cho bài toán trích chọn 4
kiểu sự kiện phức hợp trong CG Task.
3.1. Cơ sở lý thuyết
Phần này, khóa luận nêu ra những cơ sở lý thuyết và các kiến thức nền tảng để
áp dụng trong mô hình giải quyết bài toán.
3.1.1. Chuyển đổi cấu trúc sự kiện sang dạng biểu diễn cây phụ
thuộc
Dạng biểu diễn phụ thuộc của một câu được tạo nên bởi các token trong câu và
quan hệ hai ngôi giữa chúng [4]. Một quan hệ phụ thuộc đơn được biểu diễn bởi
relation(governor, dependent), trong đó governer và dependent là các token, và
relation là một kiểu quan hệ phụ thuộc về ngữ pháp. Dạng biểu diễn này về cơ bản là
một đồ thị có hướng được gán nhãn, được gọi là đồ thị phụ thuộc và được định nghĩa:
Định nghĩa. Một đồ thị phụ thuộc là một cặp của tập G=(V, E), trong đó V là
tập các nút tương ứng với các token trong một câu, và E là tập các cạnh có hướng.
Nhãn của cạnh là các kiểu quan hệ phụ thuộc giữa các token, và hướng của cạnh là từ
nút governer đến dependent.
Chuyển đổi dạng biểu diễn sự kiện sang một đồ thị bằng cách [4] [5]:
- Các nút trong đồ thị là các thực thể, các trigger và một nút ảo ROOT. Vì vậy chỉ
những từ trong cây phụ thuộc này tham gia vào các sự kiện.
20
- Các cạnh trong đồ thị được tạo nên theo cách sau:
Với mỗi trigger, tạo một liên kết tới mỗi tham số của nó, gán nhãn với tên chỉ
tham số (ví dụ: liên kết gene transcription tới IL-2 với nhãn THEME trong
hình 8b.
Liên kết nút ROOT tới mỗi thực thể (các thực thể này không tham gia trong
một sự kiện) sử dụng nhãn phụ thuộc ROOT-LABEL.
Cuối cùng liên kết nút ROOT tới mỗi trigger mức cao nhất (top-level) (không là
tham số cho các sự kiện khác) sử dụng lại nhãn ROOT-LABEL.
Đầu ra của quá trình này là một đồ thị có hướng. Chú ý rằng sau sự chuyển đổi,
chỉ còn lại các thực thể và các trigger. Hình 8 minh họa các sự kiện phức hợp
(complex event) nằm trong đoạn văn bản: “…the HTLV-1 transactivator protein, tax,
acts as a costimulatory signal for GM-CSF and IL-2 gene transcription …”. Từ in
đậm thể hiện các trigger và từ in nghiêng biểu diễn các thực thể.
Hình 8a) Câu gốc với các sự kiện
Hình 8b) Sau khi chuyển đổi sang sự phụ thuộc sự kiện
Hình 8a biểu diễn một câu và hình 8b là dạng chuyển đổi của nó từ miền y sinh
học với bốn sự kiện: hai sự kiện POSITIVE REGULATION có trigger đều là cụm
“acts as a costimulatory signal”, và hai sự kiện TRANSCRIPTION có cả hai trigger là
“gene transcription”. Tất cả sự kiện có tham số là thực thể hoặc sự kiện khác. Loại thứ
hai tạo nên những cấu trúc sự kiện lồng nhau (sự kiện phức hợp).
21
3.1.2. Giải thuật Earley parser
Phần tiếp theo trình bày về giải thuật Earley parser14 [6], là một trong số
những giải thuật được sử dụng để phân tích cú pháp trong xử lý ngôn ngữ tự nhiên. Nó
là một giải thuật tổng quát, có thể phân tích bất kỳ văn phạm phi ngữ cảnh nào. Giải
thuật Earley parser cơ bản được phát biểu như sau:
Đầu vào: Văn phạm G = (N, T, S, P), trong đó:
N: tập kí hiệu không kết thúc.
T: tập kí hiệu kết thúc.
S: kí hiệu không kết thúc bắt đầu.
P: tập luật cú pháp.
Xâu vào w = a1a2 ... an.
Đầu ra: Phân tích đối với w hoặc "sai".
Kí hiệu:
α, β, γ biểu diễn xâu chứa các kí hiệu kết thúc, không kết thúc hoặc rỗng.
X, Y, Z biểu diễn các kí hiệu không kết thúc đơn.
a biểu diễn kí hiệu kết thúc.
Earley parser sử dụng cách biểu diễn luật thông qua dấu chấm “•”. X→ α • β có
nghĩa là:
Trong P có một luật sản xuất X→ α β.
α đã được phân tích.
β đang được chờ phân tích.
Khi dấu chấm “•” được chuyển ra sau β có nghĩa đây là một luật hoàn thiện.
Thành phần X đã được phân tích đầy đủ, ngược lại nó là một luật chưa hoàn
thiện.
Đối với mỗi từ thứ j của xâu đầu vào, bộ phân tích khởi tạo một bộ có thứ tự
các trạng thái S(j).Mỗi bộ tương ứng với một cột trong bảng phân tích. Mỗi trạng thái
có dạng (X → α • β, i), thành phần sau dấu phẩy xác định rằng luật này được phát sinh
từ cột thứ i.
a. Khởi tạo
S(0) được khởi tạo chứa ROOT → • S.
14
22
Nếu tại bộ cuối cùng ta có luật (ROOT → S•, 0) thì có nghĩa xâu vào được phân
tích thành công.
b. Thuật toán
Thuật toán phân tích thực hiện ba bước: Dự đoán (Predictor), Duyệt (Scanner),
và Hoàn thiện (Completer) đối với mỗi bộ S(j).
Dự đoán: Với mỗi trạng thái trong S(j): (X → α • Y β, i), ta thêm trạng thái (Y
→ • γ, j) vào S(j) nếu có luật sản xuất Y → γ trong P.
Duyệt: Nếu a là kí hiệu kết thúc tiếp theo, với mọi trạng thái trong S(j): (X → α
• a β, i), ta thêm trạng thái (X → α a • β, i) vào S(j+1).
Hoàn thiện: Với mỗi trạng thái trong S(j): (X → γ• , i), ta tìm trong S(i) trạng
thái (Y → α • X β, k), sau đó thêm (Y → α X • β, k) vào S(j).
Ở mỗi bộ S(j) phải kiểm tra xem trạng thái đã có chưa trước khi thêm vào để
tránh trùng lặp. Ba bước này lặp lại cho đến khi không có trạng thái mới có thể thêm
vào tập trạng thái.
Dưới đây là mã giả của giải thuật Earley parser:
function EARLEY-PARSE(words, grammar)
ENQUEUE((γ → •S, 0), chart[0])
for i ← from 0 to LENGTH(words) do
for each state in chart[i] do
if INCOMPLETE?(state) then
if NEXT-CAT(state) is a nonterminal then
PREDICTOR(state, i, grammar) // non-terminal
else do
SCANNER(state, i) // terminal
else do
COMPLETER(state, i)
end
end
return chart
procedure PREDICTOR((A → α•B, i), j, grammar)
for each (B → γ) in GRAMMAR-RULES-FOR(B, grammar) do
ADD-TO-SET((B → •γ, j), chart[ j])
end
23
procedure SCANNER((A → α•B, i), j)
if B ⊂ PARTS-OF-SPEECH(word[j]) then
ADD-TO-SET((B → word[j], i), chart[j + 1])
end
procedure COMPLETER((B → γ•, j), k)
for each (A → α•Bβ, i) in chart[j] do
ADD-TO-SET((A → αB•β, i), chart[k])
end
3.2. Mô hình đề xuất giải quyết bài toán
Trên việc phân tích các hướng tiếp cận và khảo sát dữ liệu, tôi đề xuất mô hình
cho bài toán như sau:
Hình 9: Mô hình giải quyết bài toán Trích chọn sự kiện y sinh phức hợp
trong văn bản về bệnh ung thư di truyền
Dữ Liệu
Huấn Luyện
Tiền Xử Lý
Sự kiện phức hợp
Cây phụ thuộc
Earley Parser
Đầu Ra
Mô hình
Dữ Liệu
Kiểm Thử
Tiền Xử Lý
Nhận Diện
Trigger
Xếp hạng cây
Earley Parser
Trích chọn ứng viên sự kiện
Thực thể
24
Chúng tôi sử dụng tập dữ liệu huấn luyện (training) và phát triển (development)
liên quan đến bệnh ung thư di truyền (CG dataset) đã được tách câu, tách từ (bởi
Genia Sentence Splitter15 và phân tích cú pháp (sử dụng Stanford Parsing), được cung
cấp bởi BioNLP Shared Task 2013. Một số lỗi trong những tập dữ liệu này được chỉnh
sửa lại bằng thủ công.
Mô hình đề xuất giải quyết bài toán Trích chọn sự kiện y sinh phức hợp trong văn
bản về bệnh ung thư di truyền gồm 3 thành phần chính:
Thành phần nhận diện trigger
Thành phần trích chọn ứng viên sự kiện
Thành phần xếp hạng và đưa ra kết quả
3.2.1. Thành phần nhận diện trigger
Thành phần này tương tự như trong mô hình chúng tôi đã đề xuất cho bài toán
trích chọn 40 kiểu sự kiện trong CG Task.
Trong tập dữ liệu CG Task do BioNLP-ST 2013 cung cấp, có khoảng 95%
trigger đại diện cho sự kiện chỉ chứa một token. Vì vậy, chúng tôi coi bài toán nhận
diện trigger như là bài toán gán nhãn token, tương tự theo phương pháp của Bjorne và
cộng sự [9].
Hệ thống sẽ xác định một token trong câu là trigger cho một trong 40 kiểu sự
kiện, hoặc thuộc lớp negative (-1) nếu không là trigger. Chúng tôi sử dụng thư viện
Liblinear-java16 (Fan và cộng sự, 2008) theo phương pháp hồi quy logistic với chuẩn
L2 cho thành phần nhận diện trigger. Chúng tôi thực hiện theo phương pháp Grid
search để lựa chọn giá trị tham số C là 0.5. Giá trị này cũng tương đương với hệ thống
Turku (Bjoner và cộng sự, 2009), được thiết lập cho tất cả các bộ nhận diện của họ.
Các đặc trưng chính mà chúng tôi sử dụng dựa trên ý tưởng của Miwa và cộng
sự (2012) và được thể hiện trong bảng 6. Khi tiến hành thực nghiệm, số đặc trưng là
khá lớn: khoảng 500,000 đặc trưng cho thành phần nhận diện trigger. Lý do mà chúng
tôi lựa chọn thư viện Liblinear một phần bởi nó có hiệu năng tốt với tập đặc trưng lớn.
15 https://github.com/ninjin/geniass/
16
25
Bảng 6: Các loại đặc trưng trong thành phần nhận diện trigger
STT Loại đặc trưng Đích
1 Mức token Token đang xét
2 Đặc trưng từ liền kề Token đang xét
3 Đặc trưng từ n-gram Token đang xét
4 Đặc trưng từ điển Token đang xét
5
Đặc trưng cặp n-gram Giữa token đang xét và các
tên thực thể
6
Đặc trưng đường đi ngắn nhất
trong cây phân tích
Giữa token đang xét và các
tên thực thể
3.2.2. Thành phần trích chọn ứng viên sự kiện
Thống kê cho thấy không có sự kiện nào nằm ở cả hai câu trong CG dataset. Sau
quá trình nhận dạng trigger, dạng cấu trúc sự kiện được chuyển sang đồ thị phụ thuộc
(biểu diễn một cây phụ thuộc được gán nhãn). Tiếp theo, thành phần trích chọn ứng
viên sự kiện sử dụng Chart Parser, mà cụ thể là giải thuật Earley parser để tìm ra các
cây có thể của mỗi câu. Trong quá trình kiểm thử, khi đưa các thực thể và trigger của
một câu vào bộ Earley parser (bộ parser này đã học được mô hình từ các cây trong tập
dữ liệu huấn luyện), sẽ sinh ra các cây có thể có trong câu đó.
Với trích chọn bốn kiểu sự kiện phức hợp trong CG Task, dựa trên ý tưởng của
McClosky và cộng sự (2011) – coi bài toán trích chọn sự kiện như phân tích sự phụ
thuộc, chúng tôi biểu diễn các sự kiện phức hợp theo dạng cây sự kiện tương tự như
cây phụ thuộc. Hướng tiếp cận của chúng tôi khác với hướng tiếp cận của McClosky
và cộng sự: thay vì biểu diễn tất cả sự kiện trong câu vào một cây duy nhất, chúng tôi
xây dựng một cây cho mỗi kiểu sự kiện phức hợp trong câu đó. Giải pháp này tránh
được vấn đề vòng lặp nếu hai sự kiện phức có chung tham số là thực thể hoặc sự kiện
khác.
Hình 10 minh họa dạng biểu diễn của hai sự kiện phức hợp như là hai cây sự
kiện. Để xây dựng cây sự kiện, chúng tôi tạo một nút ảo ROOT, sự kiện phức hợp đích
sẽ được liên kết trực tiếp tới nút ROOT này, và các trigger và thực thể không thuộc
cấu trúc con của sự kiện đích cũng được liên kết tới ROOT. Trong cây sự kiện, các
nhãn lớp thực thể và sự kiện được giữ lại trong khi các cụm từ trigger và thực thể bị
loại bỏ.
26
Hình 10: Minh họa dạng biểu diễn hai cây sự kiện cho hai sự kiện phức hợp
Với phân tích cây sự kiện, chúng tôi sử dụng giải thuật Earley parser (Jay
Earley, 1970) để tìm các cấu trúc có thể cho sự kiện. Các cây sự kiện được lưu trữ
trong bộ nhớ theo dạng luật Earley. Đầu vào của bộ phân tích là các thực thể và trigger
(qua thành phần nhận diện trigger), đầu ra là các ứng viên sự kiện (dạng cây sự kiện).
3.2.3. Thành phần xếp hạng và đưa ra kết quả
Thành phần trích chọn ứng viên sự kiện sẽ đưa ra tất cả các cây phụ thuộc có thể
của mỗi câu, vấn đề đặt ra là làm thế nào để lựa chọn được những kết quả tốt nhất?
Dựa vào nghiên cứu của John Hale [13], chúng tôi xây dựng một bộ phân tích phụ
thuộc theo xác suất với thuật toán Earley parser (probabilistic Earley parser) để lựa
chọn các ứng viên cây sự kiện tốt nhất.
Bộ phân tích phụ thuộc theo Earley parser sử dụng nội suy tuyến tính trên các
xác suất từ thành phần nhận diện cạnh (theo mô hình đã đề xuất trong chương 2) và
xác suất cạnh ưu tiên để tính toán trọng số (score) cho mỗi ứng viên cây sự kiện. Tham
số nội suy λ được thiết lập sử dụng grid search.
Với mục tiêu tính trọng số (score) cho từng cây, việc tính trọng số này dựa vào
trọng số của nút ROOT. Trọng số của nút ROOT của một cây bằng tổng trọng số của
các nút con của ROOT chia cho số lượng nút con. Trọng số của một nút con bằng
trọng số của các cạnh có một liên kết tới nút. Công thức tính trọng số cho mỗi nút là:
Occurrence
(edge | argrument)
(node) (arguments | node)
(edges)
edges node
P
Score P
num
27
với,
num(edge) là số cạnh có một liên kết tới nút
POccurence(argument|node) là sự phân phối biểu diễn sự đồng xuất hiện của các
nhãn thực thể/trigger trong các tham số của một kiểu sự kiện
P(edge|argument) = λ * PClassifier(edge|argument) + (1- λ) * PPrior(edge|argument)
λ là một tham số nội suy trong đoạn [0, 1]
PClassifier(edge|argument) là xác suất thu được từ bộ phân lớp cạnh
PPrior(edge|argument) là xác suất ưu tiên cho cạnh trong tập dữ liệu huấn luyện
(xác suất điều kiện tiên nghiệm). Xác suất này bằng tổng số lần xuất hiện của
điều kiện chia cho tổng số lần xuất hiện.
Các cạnh liên kết trực tiếp đến ROOT và không liên quan đến sự kiện phức hợp
đích có giá trị mặc định là 0. Trọng số cho một ứng viên cây sự kiện được tính như là
giá trị của ROOT.
Chúng tôi sử dụng một tham số ngưỡng filter_threshold để loại bỏ các cây có
một cạnh với P(edge|argument) nhỏ hơn filter_threshold. Mặt khác, chúng tôi sử dụng
tham số ngưỡng cutoff_threshold để lựa chọn các cây ứng viên với giá trị cao nhất.
Các cây ứng viên là cấu trúc con của cây ứng viên khác bị loại bỏ từ kết quả cuối
cùng.
Những cây phụ thuộc tốt nhất được chuyển về dạng biểu diễn cấu trúc sự kiện
(theo standoff format được sử dụng tại BioNLP Shared Task 2013) và hệ thống đưa ra
kết quả cuối cùng.
28
Chương 4. Thực nghiệm và đánh giá
4.1. Môi trường thực nghiệm và dữ liệu thực nghiệm
4.1.1. Môi trường thực nghiệm
Bảng 7: Môi trường thực nghiệm
Thành phần Chỉ số
CPU Intel Core i3 2.53GHz
RAM 2G
HDD 320GB
Hệ điều hành Windows 7 Ultimate
4.1.2. Dữ liệu thực nghiệm
Dữ liệu BioNLP-ST 2013 sử dụng định dạng standoff17 tương tự như BioNLP-
ST 2011. Với dạng biểu diễn standoff, các tài liệu văn bản được tách riêng với file gán
nhãn (được kết nối đến vị trí cụm từ trong văn bản thông qua các vị trí (offset) kí tự).
Định dạng file BioNLP-ST 2013 được xác định bởi phần hậu tố của tên file: “.txt”,
“.a1” hoặc “.a2”:
File văn bản (.txt): chứa văn bản từ tài liệu gốc. Ví dụ:
RFLAT-1, a new zinc finger transcription factor that activates RANTES gene …
File gán nhãn đầu vào (.a1): chứa các nhãn thực thể cho sẵn, là đầu vào cho bài
toán. Chú ý rằng những file gán nhãn .a1 được gán nhãn thủ công sẽ được cung
cấp cho các đội trong cả dữ liệu huấn luyện và kiểm thử. Ví dụ:
T1 Protein 0 7 RFLAT-1
T2 Protein 63 69 RANTES
File gán nhãn đích (.a2): chứa nhãn cho các sự kiện và các thông tin liên quan,
là mục tiêu cho trích chọn trong bài toán.
T13 Positive_regulation 53 62 activates
E1 Positive_regulation:T13 Theme:T1
Cấu trúc gán nhãn chung: Tất cả file gán nhãn có cấu trúc như nhau: mỗi
dòng chứa một nhãn và mỗi nhãn có một ID xuất hiện đầu tiên trong dòng, ngăn cách
17
29
phần còn lại bởi một kí tự TAB. Phần còn lại của cấu trúc khác nhau theo kiểu gán
nhãn. Tất cả ID của nhãn chứa một kí tự viết hoa xác định kiểu gán nhãn và một con
số. Các kí tự ID bắt đầu liên quan đến các kiểu gán nhãn sau:
T: nhãn biên của cụm từ (thực thể / trigger) (text-bound annotation)
E: sự kiện (event)
M: modification
Nhãn biên của cụm từ: xác định một cụm từ nào đó là một thực thể hoặc
trigger và gán một kiểu cho chúng. Nhãn chính được cho sẵn là bộ ba ngăn cách nhau
bởi kí tự SPACE (type, start-offset, end-offset); start-offset là chỉ số của kí tự đầu tiên
của cụm được gán nhãn trong văn bản (file “.txt”, kí tự đầu tiên bắt đầu là 0), end-
offset là chỉ số của kí tự đầu tiên sau cụm được gán nhãn. Nhãn cho trigger cũng là
nhãn biên của cụm từ, có định dạng như với thực thể, có ID khác với các thực thể đó.
Nhãn sự kiện: có một ID duy nhất, được định nghĩa kiểu, trigger và các tham
số. ID sự kiện xuất hiện đầu tiên, ngăn cách bởi một kí tự TAB. TYPE:ID xác định
kiểu sự kiện và trigger của nó thông qua ID. Trigger được ngăn cách với các tham số
bởi kí tự SPACE. Các tham số sự kiện là các tập các cặp ROLE:ID ngăn cách nhau bởi
kí tự SPACE, với ROLE là một trong những vai trò tham số sự kiện, ID xác định thực
thể hoặc sự kiện ứng với vai trò đó.
Nhãn modification: sự kiện trong trạng thái được suy luận hoặc trong một ngữ
cảnh phủ định [8] [15]. Nhãn này bắt đầu với một ID, ngăn cách bởi kí tự TAB với
kiểu modification (Speculation hoặc Negation), và được ngăn cách tiếp theo bởi kí tự
SPACE với ID của nhãn mà sự sửa đổi được áp dụng.
M1 Speculation E1
M2 Negation E2
Chúng tôi tiến hành thực nghiệm với tập dữ liệu huấn luyện và phát triển18 được
cung cấp bởi BioNLP-ST 2013. Kết quả đánh giá được thực hiện trên tập dữ liệu phát
triển đã được gán nhãn chuẩn. Một số thống kê về dữ liệu như sau.
18
30
Bảng 8: Thống kê chung về dữ liệu thực nghiệm
Dữ liệu huấn luyện Dữ liệu phát triển
Câu 3040 1003
Thực thể 11034 3665
Thực thể phân biệt 3901 1554
Trigger 7370 2420
Trigger phân biệt 1426 732
Sự kiện 8803 2915
Nhãn
Modification
Speculation 309 103
Negation 361 111
Tổng cộng 670 214
Bảng 9: Thống kê các sự kiện trong tập dữ liệu
Sự kiện
STT Kiểu
Số sự kiện
Tập huấn luyện Tập phát triển
1 Development 275 72
2 Blood_vessel_development 410 166
3 Growth 110 43
4 Death 98 42
5 Cell_death 196 69
6 Breakdown 67 27
7 Cell_proliferation 215 43
8 Cell_division 2 1
9 Remodeling 29 4
10 Reproduction 1 0
11 Mutation 170 54
12 Carcinogenesis 125 45
13 Metastasis 284 85
14 Metabolism 49 13
15 Synthesis 33 9
16 Catabolism 24 12
17 Gene_expression 717 253
18 Transcription 96 17
19 Translation 11 2
20 Protein_processing 13 2
21 Phosphorylation 66 30
22 Dephosphorylation 4 4
23 DNA_methylation 33 3
24 DNA_demethylation 1 0
25 Pathway 163 65
26 Localization 492 127
27 Binding 197 80
28 Dissociation 3 1
29 Regulation 1026 291
31
30 Positive_regulation 1793 621
31 Negative_regulation 1126 352
32 Planned_process 693 279
33 Acetylation 5 1
34 Glycolysis 39 10
35 Glycosylation 4 0
36 Cell_transformation 148 53
37 Cell_differentiation 58 22
38 Ubiquitination 1 3
39 Amino_acid_catabolism 2 1
40 Infection 24 13
Total 8803 2915
Chúng tôi cũng tiến hành một số thống kê về các kiểu thực thể, trigger và các
tham số cho từng kiểu sự kiện riêng.
Bốn kiểu sự kiện phức hợp sau là mục tiêu cho bài toán trích chọn sự kiện phức
hợp trong CG task: Regulation, Positive regulation, Negative regulation, Planned
process. Các sự kiện này có thể nhận tham số là thực thể (18 kiểu) hoặc sự kiện khác
(40 kiểu).
4.2. Giới thiệu phần mềm thực nghiệm
Chúng tôi xây dựng phần mềm gồm các chức năng sau:
Nhận diện trigger và đánh giá kết quả
Trích chọn ứng viên cây sự kiện
Xếp hạng các cây phụ thuộc và đưa ra kết quả
Các mô-đun chính trong phần mềm:
Trigger_feature_extract: Trích chọn đặc trưng trigger cho bài toán nhận diện
trigger
Liblinear: triển khai thuật toán học máy hồi quy logistic trong nhận diện trigger
(là mã nguồn mở)
Prob_Earley_parser: Trích chọn các ứng viên cây sự kiện
Trees_rank: Xếp hạng các cây phụ thuộc và đưa ra kết quả cuối cùng
Evaluator: Đánh giá kết quả các pha chạy
32
Hình 11: Các mô-đun chính trong phần mềm thực nghiệm
4.3. Thực nghiệm
4.3.1. Hướng tiếp cận thực nghiệm
Chúng tôi tiến hành 2 thực nghiệm:
Thực nghiệm nhận diện trigger: Trích chọn đặc trưng trigger, phân lớp chúng vào
41 lớp (40 lớp ứng với 40 kiểu sự kiện và lớp -1 nếu không là trigger). Từ đó lấy ra kết
quả là các trigger đại diện cho bốn kiểu sự kiện phức hợp.
Thực nghiệm trích chọn các sự kiện phức hợp: Trích chọn các ứng viên cây sự kiện
cho mỗi câu trong văn bản y sinh học. Sau đó xếp hạng các cây này và đưa ra kết quả
là bốn kiểu sự kiện phức hợp trong CG Task.
Các thực nghiệm được tiến hành trên tập dữ liệu huấn luyện (training) và tập dữ liệu
phát triển (development) được cung cấp bởi BioNLP-ST 2013. Tập dữ liệu phát triển giúp
chúng tôi đánh giá được mô hình đã đề xuất trên dữ liệu mới. Tiêu chí “khớp nhau hoàn toàn”
(trình bày ở phần I.5) được áp dụng cho quá trình đánh giá.
4.3.2. Thực nghiệm nhận diện trigger
Tỉ lệ số trigger chỉ chứa một token trong tập huấn luyện (CG dataset) là
7078/7410 = 95.5%, trong tập dữ liệu phát triển (CG dataset) là 2350/2453 = 95.8%.
Theo Jari Bjorne và các cộng sự [9], Chúng tôi đơn giản hóa bài toán bằng cách thu
33
gọn các trigger chứa nhiều token về các từ đại diện (head word) cú pháp của chúng (ví
dụ: “acts” thay cho “acts as a costimulatory signal”).
Hình 9 là ví dụ về một câu trong tập dữ liệu huấn luyện cho nhận diện trigger,
trong đó các thực thể được bao trong tag ,
; các trigger được bao trong tag ,
.
Hình 12: Ví dụ về một câu trong tập dữ liệu huấn luyện cho nhận diện trigger
Mô hình được cài đặt sử dụng bộ phân lớp hồi quy logistic dựa vào các loại đặc
trưng:
Bảng 10: Các loại đặc trưng trong nhận diện trigger
STT Loại đặc trưng Mô tả đặc trưng
1 Đặc trưng token
Bao gồm cách viết hoa, sự xuất hiện của
dấu câu, kí tự số, từ gốc, bigram và trigram,
sự xuất hiện trong từ điển chứa trigger
(được xây dựng dựa vào tập dữ liệu huấn
luyện).
2 Đặc trưng tần suất Bao gồm số thực thể trong câu
3 Chuỗi phụ thuộc
Các chuỗi phụ thuộc đến độ sâu là ba, được
xây dựng từ token được phân lớp. Tại mỗi
độ sâu, cả các đặc trưng mức token và kiểu
phụ thuộc được đưa vào, cũng như thứ tự
của các kiểu phụ thuộc trong chuỗi.
Sau khi tiến hành thực nghiệm gồm các bước:
1) Trích chọn đặc trưng trigger
2) Học (theo phương pháp hồi quy logistic)
3) Kiểm thử (theo phương pháp hồi quy logistic)
Chúng tôi thu được kết quả nhận diện trigger: độ chính xác 96.8%, độ hồi
tưởng 94.4% và độ đo F1 95.6%.
In contrast, tunicamycin
had little effect on the viability
and MTT responses of the
cells used.
34
Chúng tôi cũng lấy kết quả từ thành phần nhận diện trigger này là đầu vào cho
thành phần trích chọn ứng viên sự kiện, cho bốn kiểu sự kiện phức hợp: Regulation,
Positive regulation, Negative regulation và Planned process.
4.3.3. Thực nghiệm trích chọn sự kiện phức hợp
Chúng tôi xây dựng một bộ phân tích bằng phương pháp xác suất theo Earley
parser để lựa chọn các ứng viên cây sự kiện tốt nhất. Các thiết lập tối ưu cho tập tham
số được sử dụng trên tập dữ liệu phát triển (development test) để đánh giá là: α=0.5;
filter_threshold=0.2; cutoff_threshold=0.45.
Để minh họa cho dữ liệu và các cây ứng viên sự kiện được sinh ra từ giải thuật
Earley parser, ta xét hai ví dụ sau:
Tập luật (ví dụ 1):
ROOT ::= NEGATIVE_REGULATION
NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER CAUSE THEME
NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER THEME CAUSE
NEGATIVE_REGULATION ::= CAUSE NEGATIVE_REGULATION_TRIGGER THEME
NEGATIVE_REGULATION ::= CAUSE THEME NEGATIVE_REGULATION_TRIGGER
NEGATIVE_REGULATION ::= THEME NEGATIVE_REGULATION_TRIGGER CAUSE
NEGATIVE_REGULATION ::= THEME CAUSE NEGATIVE_REGULATION_TRIGGER
CELL_PROLIFERATION ::= CELL_PROLIFERATION_TRIGGER THEME
CELL_PROLIFERATION ::= THEME CELL_PROLIFERATION_TRIGGER
METASTASIS ::= METASTASIS_TRIGGER THEME
METASTASIS ::= THEME METASTASIS_TRIGGER
NEGATIVE_REGULATION_TRIGGER ::= inhibiting
CELL_PROLIFERATION_TRIGGER ::= growth
METASTASIS_TRIGGER ::= metastasis
CAUSE ::= GENE_OR_GENE_PRODUCT
THEME ::= CELL_PROLIFERATION
THEME ::= METASTASIS
THEME ::= CELL
CELL ::= tumor_cell
GENE_OR_GENE_PRODUCT ::= u-995
Cây phân tích cho ví dụ 1:
Đầu vào: u995 inhibiting tumor_cell growth metastasis
0:[ROOT](0)
0:[NEGATIVE_REGULATION](0)
0:[CAUSE](0)
35
0:[GENE_OR_GENE_PRODUCT](0)
> 0:[u995](0)
0:[NEGATIVE_REGULATION_TRIGGER](0)
> 0:[inhibiting](0)
0:[THEME](0)
0:[METASTASIS](0)
0:[THEME](0)
0:[CELL_PROLIFERATION](0)
0:[THEME](0)
0:[CELL](0)
> 0:[tumor_cell](0)
0:[CELL_PROLIFERATION_TRIGGER](0)
> 0:[growth](0)
0:[METASTASIS_TRIGGER](0)
> 0:[metastasis](0)
Tập luật (ví dụ 2):
ROOT ::= NEGATIVE_REGULATION SIMPLE_CHEMICAL
NEGATIVE_REGULATION_TRIGGER ::= inhibited
LOCALIZATION_TRIGGER ::= migration
THEME ::= LOCALIZATION
LOCALIZATION ::= LOCALIZATION_TRIGGER THEME
LOCALIZATION ::= THEME LOCALIZATION_TRIGGER
CELL ::= huvec
SIMPLE_CHEMICAL ::= thymidine
Cây phân tích cho ví dụ 2:
Đầu vào: u995 inhibited huvec migration thymidine
0:[ROOT](0)
0:[NEGATIVE_REGULATION](0)
0:[CAUSE](0)
0:[GENE_OR_GENE_PRODUCT](0)
> 0:[u995](0)
0:[NEGATIVE_REGULATION_TRIGGER](0)
> 0:[inhibited](0)
0:[THEME](0)
0:[LOCALIZATION](0)
0:[THEME](0)
0:[CELL](0)
> 0:[huvec](0)
0:[LOCALIZATION_TRIGGER](0)
> 0:[migration](0)
0:[SIMPLE_CHEMICAL](0)
> 0:[thymidine](0)
36
Bảng 11 là kết quả trích chọn sự kiện trên tập dữ liệu phát triển, theo phương
thức decomposition. Theo phương phức này, một sự kiện với nhiều hơn một tham số,
chẳng hạn:
event-type:trigger-id arg1-type:arg1-id arg2-type:arg2-id
được phân tách thành nhiều sự kiện đơn tham số:
event-type:trigger-id arg1-type:arg1-id
event-type:trigger-id arg2-type:arg2-id
Bảng 11: Kết quả với trích chọn các sự kiện phức hợp liên quan đến bệnh ung thư
di truyền dựa vào mô hình phân tích cây phụ thuộc
STT Kiểu sự kiện F1 (%)
1 Regulation 69.55
2 Positive_regulation 68.13
3 Negative_regulation 68.57
4 Planned_process 49.99
4.4. Nhận xét và thảo luận
Các phân tích từ tập dữ liệu phát triển (development set) mà chúng tôi thực hiện
cho thấy thành phần nhận diện trigger đưa ra kết quả với độ chính xác cao: F1=95.6%.
Chúng tôi chọn ra ngẫu nhiên 50 false negative event (missing event - thực tế là sự
kiện nhưng hệ thống dự đoán không phải là sự kiện) để phân tích lỗi. Có 29 trigger và
21 sự kiện mà hệ thống không dự đoán là sự kiện. Bảng 12 liệt kê một số kiểu lỗi
chính.
Bảng 12: Một số kiểu lỗi nhận diện thiếu sự kiện
STT Nguyên nhân Trigger Sự kiện
1 Nhập nhằng kiểu sự kiện 9
2 Đồng tham chiếu 6
3 Không khớp với mẫu sự kiện 7
4
Không có thể hiện trong tập
huấn luyện
7 4
5 Không có tham số 7
6 Không có luật Earley 10
Hiệu năng khi trích chọn các sự kiện phức hợp đạt độ chính xác kém hơn so với
các sự kiện đơn (các sự kiện chỉ nhận tham số là thực thể) do sự phức tạp về cấu trúc
của nó. Các tham số của sự kiện phức hợp cũng đa dạng về kiểu thực thể/sự kiện, điều
37
này ảnh hưởng đến hiệu nặng khi trích chọn chúng. Bảng 13 là thống kê các kiểu thực
thể/sự kiện là tham số cho kiểu sự kiện Regulation. Các mẫu tổng quát cho các sự kiện
được mô tả trong bảng 14.
Bảng 13: Thống kê các kiểu thực thể/sự kiện là tham số cho sự kiện Regulation
Tham số
Training Development
Kiểu thực thể/sự kiện
Số
lượng
Kiểu thực thể/sự kiện
Số
lượng
Theme:Entity Gene_or_gene_product 67 Gene_or_gene_product 10
Cancer 32 Cell 7
Cell 26 Cancer 3
Cause:Entity Gene_or_gene_product 25 Gene_or_gene_product 4
Cancer 23 Cancer 3
Cell 12
Theme:Event Blood_vessel_development 36 Negative_regulation 13
Positive_regulation 29 Blood_vessel_development 12
Gene_expression 25 Positive_regulation 11
Localization 24 Metastasis 8
Cell_proliferation 21 Cell_proliferation 8
Development 17 Pathway 7
Negative_regulation 16 Localization 5
Carcinogenesis 15 Gene_expression 5
Metastasis 13 Binding 5
Growth 13 Regulation 4
Cell_death 13 Development 4
Regulation 12 Cell_transformation 4
Pathway 12 Carcinogenesis 3
Binding 12 Cell_death 3
Cell_transformation 10
Cause:Event Negative_regulation 41 Negative_regulation 12
Blood_vessel_development 17 Positive_regulation 9
Localization 15 Metastasis 8
Positive_regulation 15 Blood_vessel_development 8
Development 14 Development 4
Carcinogenesis 13 Regulation 4
Gene_expression 12 Cell_transformation 4
Carcinogenesis 3
Gene_expression 3
38
Bảng 14: Mẫu các sự kiện phức hợp trong CG task19
STT Kiểu sự kiện Tham số
1 Regulation Theme(Any), Cause?(Any)
2 Positive regulation Theme(Any), Cause?(Any)
3 Negative regulation Theme(Any), Cause?(Any)
4 Planned process Theme*(Any), Instrument*(Entity)
Trong đó, “Entity” là bất kì thực thể nào trong 18 kiểu thực thể; “Any” là bất kì
sự kiện nào trong 40 kiểu sự kiện trong CG task.
Khi so sánh kết quả với mô hình cơ sở (mô hình đã đề xuất trong chương 2),
mô hình mới cho hiệu năng cao hơn từ 5-13%. Điều này cho thấy ưu điểm của mô
hình mới dựa trên phân tích cây phụ thuộc khi trích chọn các sự kiện phức hợp.
Bảng 15: So sánh kết quả giữa mô hình cơ sở và mô hình mới đề xuất (dạng bảng)
STT Kiểu sự kiện
F1 %
(Mô hình cơ sở)
F1 %
(Mô hình mới)
1 Regulation 61.48 69.55
2 Positive_regulation 57.76 68.13
3 Negative_regulation 55.60 68.57
4 Planned_process 45.42 49.99
Hình 13: So sánh kết quả giữa mô hình cơ sở và mô hình mới đề xuất (dạng biểu đồ)
19
39
Kết luận và định hướng
Với các kết quả đạt được, báo cáo nghiên cứu khoa học này đã đóng góp:
Trình bày khái quái về bài toán trích chọn sự kiện liên quan đến bệnh ung thư di
truyền.
Trình bày hai hướng tiếp cận điển hình giải quyết bài toán.
Trình bày một mô hình cơ sở đã đề xuất, giải quyết cho bài toán trích chọn sự
kiện liên quan đến bệnh ung thư di truyền.
Đề xuất và xây dựng một mô hình dựa trên học máy có giám sát với tập giàu
đặc trưng, tập luật và bộ phân tích quy hoạch động Earley parser, giải quyết cho
bài toán trích chọn sự kiện phức hợp trong văn bản về bệnh ung thư di truyền.
Thực nghiệm dựa trên tập dữ liệu phát triển (cung cấp bởi BioNLP-ST 2013)
cho kết quả khả quan hơn mô hình cơ sở: độ đo F1 với trích chọn các sự kiện
phức hợp đạt cao nhất khoảng 70%.
Kết quả dựa trên sự kết hợp của hai mô hình đề xuất cho bài toán trích chọn sự
kiện liên quan đến bệnh ung thư di truyền (cho cả sự kiện đơn và sự kiện phức
hợp) được được công bố trong bài báo khoa học:
Mai-Vu Tran, Nigel Collier, Hoang-Quynh Le, Van-Thuy Phi, Thanh-Binh
Pham. “Exploring a Probabilistic Earley Parser for Event Decomposition in
Biomedical Texts”. Proceedings of the BioNLP Shared Task 2013 Workshop.
Association for Computational Linguistics (ACL), 2013. Accepted.
Định hướng nghiên cứu:
Tiếp tục cải tiến mô hình khi trích chọn các sự kiện phức hợp và tránh vấn đề
quá khớp (over-fitting) để áp dụng mô hình với đa miền (cross-domain) y sinh
học.
40
Tài liệu tham khảo
Tiếng Anh
[1] C. Hong-Woo, T. Ohta, J.D. Kim, and J. Tsujii, "Building Patterns for
Biomedical Event Extraction,". In the 15th International conference on
Genome Informatics GIW 163-164. 2004.
[2] David Campos, Sérgio Matos and José Luís Oliveira (2012). Biomedical
Named Entity Recognition: A Survey of Machine-Learning Tools, Theory
and Applications for Advanced Text Mining, Prof. Shigeaki Sakurai (Ed.),
ISBN: 978-953-51-0852-8, InTech, DOI: 10.5772/51066.
[3] David Martinez and Timothy Baldwin. Word sense disambiguation for event
trigger word detection in biomedicine, BMC Bioinformatics 2011, 12(Suppl
2):S4.
[4] David McClosky, Mihai Surdeanu, and Chris Manning. 2011. Event extraction
as dependency parsing. In Proceedings of the Association for Computational
Linguistics: Human Language Technologies 2011 Conference (ACL-
HLT’11), Main Conference, Portland, Oregon, June.
[5] David McClosky, Mihai Surdeanu, and Christopher D. Manning. 2011b. Event
extraction as dependency parsing in BioNLP 2011. In BioNLP 2011 Shared
Task.
[6] Earley, Jay (1968). An Efficient Context-Free Parsing Algorithm. Carnegie-
Mellon Dissertation.
[7] Eugene Charniak and Mark Johnson. 2005. Coarse-to-Fine n-Best Parsing and
MaxEnt Discriminative Reranking. In ACL. The Association for Computer
Linguistics.
[8] Eisner, Jason, and Nathaniel Filardo. Use of Modality and Negation in
Semantically-Informed Syntactic MT. Datalog 2.0.
[9] Jari Bjorne, Juho Heimonen, Filip Ginter, Antti Airola, Tapio Pahikkala, and
Tapio Salakoski. 2009. Extracting complex biological events with rich graph-
based feature sets. In Proceedings of the BioNLP 2009 Workshop Companion
Volume for Shared Task, pages 10–18, Boulder, Colorado, June. Association
for Computational Linguistics.
41
[10] Jin-Dong Kim, Sampo Pyysalo, Tomoko Ohta et al. Overview of BioNLP
Shared Task 2011. In Proceedings of the BioNLP Shared Task 2011
Workshop (2011), pp. 1-6.
[11] Jin-Dong Kim, Tomoko Ohta, Sampo Pyysalo, Yoshinobu Kano, and
Jun’ichi Tsujii. 2009. Overview of BioNLP’09 shared task on event
extraction. In Proceedings of the Workshop on BioNLP: Shared Task, pages
1–9. Association for Computational Linguistics.
[12] Jin-Dong Kim, Yue Wang, Toshihisa Takagi, and Akinori Yonezawa. 2011b.
Overview of the Genia Event task in BioNLP Shared Task 2011. In
Proceedings of the BioNLP 2011 Workshop Companion Volume for Shared
Task, Portland, Oregon, June. Association for Computational Linguistics.
[13] Hale, J. (2001). A probabilistic Earley parser as a psycholinguistic model. In
Proceedings of NAACL, volume 2, pages 159-166.
[14] Makoto Miwa, Paul Thompson, John McNaught, Douglas B Kell and Sophia
Ananiadou (2012). Extracting semantically enriched events from biomedical
literature. BMC Bioinformatics, 13:108
[15] Minka, T. (2001). Algorithms for maximum-likelihood logistic regression.
Statistics Tech Report[J], volume 758.
[16] Poon, Hoifung, and Lucy Vanderwende. Joint inference for knowledge
extraction from biomedical literature. Human Language Technologies: The
2010 Annual Conference of the North American Chapter of the Association
for Computational Linguistics. Association for Computational Linguistics,
2010.
[17] Velldal, Erik, et al. Speculation and negation: Rules, rankers, and the role of
syntax. Computational Linguistics 38.2 (2012): 369-410.
Các file đính kèm theo tài liệu này:
- kltn_phi_van_thuy_final_1903.pdf