Trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền

 Trình bày khái quái về bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Trình bày hai hướng tiếp cận điển hình giải quyết bài toán.  Trình bày một mô hình cơ sở đã đề xuất, giải quyết cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Đề xuất và xây dựng một mô hình dựa trên học máy có giám sát với tập giàu đặc trưng, tập luật và bộ phân tích quy hoạch động Earley parser, giải quyết cho bài toán trích chọn sự kiện phức hợp trong văn bản về bệnh ung thư di truyền.  Thực nghiệm dựa trên tập dữ liệu phát triển (cung cấp bởi BioNLP-ST 2013) cho kết quả khả quan hơn mô hình cơ sở: độ đo F1 với trích chọn các sự kiện phức hợp đạt cao nhất khoảng 70%.

pdf53 trang | Chia sẻ: lylyngoc | Lượt xem: 2389 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
thực thể y sinh học được gán nhãn chuẩn bằng tay, liên kết tới văn bản thông qua vị trí các kí tự (character offset). Đầu ra:  Các sự kiện y sinh học được trích chọn và biểu diễn theo cấu trúc được định nghĩa trước. 8 Hình 3: Minh họa đầu vào và đầu ra của bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền Mục đích của bài toán: nhằm nhận dạng bất kì đối tượng của một lớp sự kiện riêng trong văn bản về bệnh ung thư di truyền, trích chọn các tham số liên quan của sự kiện và biểu diễn thông tin được trích chọn vào một dạng có cấu trúc [1]. Sự kiện được trích chọn bao gồm: một trigger, một kiểu sự kiện và một (hoặc nhiều) tham số. Hình 4: Cấu trúc sự kiện y sinh học Với đầu vào là đoạn văn bản “...binding of SNAP23, syntaxin and VAMP-2...” và các thực thể (in đậm) được cung cấp sẵn, cấu trúc của sự kiện được trích chọn là:  Trigger: binding  Kiểu: BINDING  Các tham số: Theme1 (PROTEIN), Theme2 (PROTEIN), Theme3 (PROTEIN) 1.4. Khó khăn và thách thức Bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền là một bài toán khó với nhiều thách thức được đặt ra như: Sự kiện Trigger Kiểu sự kiện Tham số 9  Đây là bài toán mới và có rất ít công trình nghiên cứu về trích chọn sự kiện miền ung thư di truyền.  Không có bộ từ điển đầy đủ cho các loại tên thực thể/trigger, vấn đề tên viết tắt, từ đồng nghĩa, tên lồng nhau, các tên biến thể...[2].  Số kiểu thực thể (18 kiểu) và sự kiện (40 kiểu) lớn.  Sự nhập nhằng của trigger: một trigger có thể thuộc nhiều kiểu sự kiện khác nhau, tùy vào ngữ cảnh [3].  Một sự kiện có thể là sự kiện đơn hoặc sự kiện lồng nhau. Hiện tượng các sự kiện lồng nhau thường xuyên xuất hiện trong văn bản y sinh học [4] [5]. Một sự kiện cũng có thể chứa nhiều vai trò tham số giống nhau.  Các vai trò tham số của mỗi kiểu sự kiện khác nhau (Theme, Cause, Site, Csite,...), một số vai trò tham số mới được định nghĩa trong CG task (Instrument, Participant).  Một sự kiện có thể có nhiều tham số, và thứ tự của các tham số này hầu hết không tuân theo một nguyên tắc cố định. 1.5. Phương pháp đánh giá Theo BioNLP-ST 2009, sự đánh giá dựa vào sự khớp nhau của các sự kiện được định nghĩa bên dưới7. Kết quả đánh giá được báo cáo bằng cách sử dụng các độ đo chuẩn: độ chính xác, độ hồi tưởng và độ đo F1. Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiểu sự kiện, nhận dạng những từ biểu diễn sự kiện (trigger), các tham số của sự kiện và tính chính xác của các thực thể và sự kiện chúng tham chiếu tới. Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiểu sự kiện, nhận dạng những từ biểu diễn sự kiện (trigger), các thành phần và tham số của sự kiện và tính chính xác của các thực thể và sự kiện chúng tham chiếu tới. Một số tiêu chí chính xác khác nhau được áp dụng:  strict equality (khớp nhau hoàn toàn): một sự kiện là chính xác phải khớp với sự kiện đã được gán nhãn theo tất cả khía cạnh được đề cập ở trên.  approximate boundary matching (khớp biên xấp xỉ): cụm tên thực thể và trigger cho phép khác so với cụm tên chính xác. 7 10 Định nghĩa chi tiết được đưa ra dưới đây. Chú ý rằng tất cả tiêu chí yêu cầu kiểu của sự kiện chính xác và tất cả thành phần và tham số là chính xác. Kết hợp các tiêu chí được xét dưới đây. Hai tiêu chí phổ biến sau được áp dụng. 1.5.1. Khớp nhau hoàn toàn Tiêu chí khớp nhau hoàn toàn yêu cầu một sự kiện được xác nhận khớp với một sự kiện đã được gán nhãn chuẩn:  Kiểu sự kiện như nhau  Trigger như nhau  Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực thể/sự kiện được tham chiếu khớp: o Các kiểu như nhau (cả thực thể và sự kiện) o Cụm tên thực thể/trigger như nhau o Các tham số của sự kiện như nhau Hai cụm tên thực thể/trigger (begin1, end1) và (begin2, end2) là khớp nhau nếu begin1 = begin2 và end1 = end2. 1.5.2. Khớp biên xấp xỉ Khác với tiêu chí khớp nhau hoàn toàn ở phần in đậm:  Kiểu sự kiện như nhau  Trigger được dự đoán tương đương với kết quả gán nhãn chuẩn  Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực thể/sự kiện được tham chiếu khớp: o Các kiểu như nhau (cả thực thể và sự kiện) o Cụm tên thực thể/trigger tương đương với kết quả gán nhãn chuẩn o Các tham số của sự kiện như nhau Với khớp xấp xỉ, sự tương đương được định nghĩa: một cụm dự đoán là tương đương với cụm gán nhãn chuẩn nếu nó nằm hoàn toàn trong phần mở rộng của cụm gán nhãn chuẩn bởi một từ ở cả hai phía trái và phải. Ví dụ, cụm dự đoán (gạch chân) A plays role in [...] là tương đương với (giả định) cụm gán nhãn chuẩn A plays role in [...] vì nó nằm trong cụm mở rộng A plays role in [...]. 11 Chương 2. Các hướng tiếp cận giải quyết bài toán trích chọn sự kiện trong văn bản y sinh học Phần này trình bày hai hướng tiếp cận được được sử dụng khá phổ biến trong các hệ thống trích chọn sự kiện y sinh học gần đây. Chúng tôi cũng phân tích một số thuận lợi và khó khăn đối với hai hướng tiếp cận này. Cuối cùng chúng tôi giới thiệu một mô hình học máy đã được đề xuất để giải quyết cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền. 2.1. Trích chọn sự kiện dựa vào phân tích phụ thuộc cú pháp Trong công trình của David McClosky và cộng sự [5], họ đề xuất một hướng tiếp cận mới cho bài toán trích chọn sự kiện. Họ tạo ra cây các chứa các quan hệ và tham số của chúng, và sử dụng trực tiếp chúng để biểu diễn trong một bộ phân tích phụ thuộc cú pháp. Hình 5 biểu diễn hướng tiếp cận. Họ chuyển đổi dạng biểu diễn sự kiện gốc sang cây phụ thuộc chứa cả trigger và thực thể, sau đó huấn luyện bộ phân tích cú pháp nhằm nhận dạng những cấu trúc này. Những cây tạo nên sử dụng trigger được dự đoán bởi một bộ phân lớp riêng. Trong mô hình này, các thực thể được cho sẵn. Các phiên bản của bộ phân tích phụ thuộc cú pháp MSTParser8 được thiết lập với nhiều decoder khác nhau. Đầu ra từ bộ xếp hạng phân tích cú pháp được chuyển đổi ngược về dạng biểu diễn sự kiện gốc và đi qua một thành phần tái xếp hạng [7], điều chỉnh để tối ưu hóa độ đo đánh giá bài toán. Hình 5: Mô hình của hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp 8 12 Thực nghiệm của họ tiến hành trên kho ngữ liệu BioNLP-ST 2009 (Kim và cộng sự, 2009) bao gồm 800 bản tóm tắt y sinh học (7449 câu, 8597 sự kiện) trong tập huấn luyện và 150 bản tóm tắt (1450 câu, 1809 sự kiện) trong tập phát triển. Tập kiểm thử chứa 260 bản tóm tắt, 2447 câu và 3182 sự kiện. Kết quả được thể hiện trong bảng 3 với độ đo xấp xỉ đã được mô tả trong phần II.4) Bảng 3: Kết quả với tập kiểm thử theo các lớp sự kiện Hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp xét sự phụ thuộc giữa các trigger và thực thể: trigger và thực thể được xử lý tại cùng một thời điểm. Một số trigger có thể bị loại bỏ trong quá trình xử lý khi đi qua bộ tái xếp hạng. Hướng tiếp cận này có tiềm năng cho kết quả khá tốt, tuy nhiên việc cài đặt theo nó tương đối phức tạp. 2.2. Trích chọn sự kiện dựa vào hệ thống đường ống EventMine9 [14] là một hệ thống đường ống dựa vào học máy, trích chọn sự kiện từ những tài liệu đã được gán nhãn tên thực thể (chẳng hạn gen, protein…). Đưa vào dữ liệu thích hợp, nó có thể được huấn luyện để trích chọn nhiều kiểu và cấu trúc sự kiện khác nhau. Hệ thống gồm 4 mô-đun phát hiện chính, hoạt động dựa trên đầu ra của bộ phân tích cú pháp, được minh họa trong hình 6. Các mô-đun hoạt động như sau:  Trigger/Entity Detection: Mô-đun này xác định những từ và cụm từ nào trong câu có khả năng tham gia cấu thành sự kiện, và gán kiểu cho chúng. Những từ và cụm từ có thể là thực thể hoặc trigger. Trong câu ví dụ ở hình 5, các từ 9 13 phospholylation, inhibits và binding được xác định có khả năng là trigger cho các sự kiện Phosphorylation, Negative regulation và Binding.  Argument Detection: Mô-đun này tìm ra từng cặp quan hệ giữa trigger và tham số, và gán kiểu ngữ nghĩa thích hợp cho quan hệ. Trong câu ví dụ ở hình 5, sáu quan hệ như vậy được tìm ra.  Multi-argument Event Detection: Mô-đun này kết hợp các cặp quan hệ độc lập thành các cấu trúc sự kiện hoàn chỉnh.  Modification Detection: Mô-đun này gán thông tin modification (chẳng hạn negation hoặc speculation) cho mỗi sự kiện. Trong hình 5, sự xuất hiện của từ hypothesized (giả thiết) xác định sự kiện Negative regulation được suy đoán (speculation). Hình 6: Hệ thống EventMine Mô hình theo hướng tiếp cận dựa vào hệ thống đường ống xét quá trình nhận diện trigger và tham số là độc lập. Bài toán trích chọn sự kiện được phân rã thành các bài toán con: nhận diện trigger được thực hiện trước khi nhận diện sự kiện và trigger chỉ phụ thuộc vào đặc trưng ngữ cảnh. Các trigger đã nhận diện được giữ nguyên trong suốt quá trình xử lý. Việc cài đặt theo mô hình này đơn giản hơn so với cài đặt theo mô hình phân tích phụ thuộc ngữ pháp. 14 2.3. Mô hình học máy đã đề xuất cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền Hướng tiếp cận dựa theo hệ thống EventMine có ưu điểm dễ cài đặt, dễ quản lý và thích hợp với số lượng nhãn và số lượng thực thể lớn. Chúng tôi đã đưa ra một mô hình đề xuất dựa trên ý tưởng của hệ thống EventMine. Hình 7: Mô hình giải quyết bài toán Trích chọn sự kiện liên quan đến bệnh ung thư di truyền Trong mô hình này, bộ công cụ Enju Parser10 được sử dụng cho quá trình tiền xử lý (tách câu, tách từ và phân tích cú pháp). Tuy nhiên, trong quá trình thực hiện, chúng tôi sử dụng tập dữ liệu huấn luyện (training) và phát triển (development) liên quan đến bệnh ung thư di truyền (CG dataset) đã được tách câu, tách từ (bởi Genia 10 15 Sentence Splitter11 và phân tích cú pháp (sử dụng Stanford Parsing), được cung cấp bởi BioNLP Shared Task 2013. Một số lỗi trong những tập dữ liệu này được chỉnh sửa lại bằng thủ công. Mô hình đề xuất giải quyết bài toán Trích chọn sự kiện liên quan đến bệnh ung thư di truyền gồm 3 thành phần chính:  Thành phần nhận diện trigger  Thành phần trích chọn sự kiện đơn: Nhận diện tham số kiểu thực thể + Trích chọn sự kiện đơn.  Thành phần trích chọn sự kiện phức: Nhận diện tham số kiểu sự kiện + Trích chọn sự kiện phức. 2.3.1. Thành phần nhận diện trigger Bài toán nhận diện trigger có thể coi như bài toán gán nhãn token trong câu, mỗi token thuộc về một lớp (ứng với lớp của sự kiện chứa trigger đó) hoặc thuộc lớp âm (- 1) nếu không phải là một trigger. Việc gán nhãn cho mỗi token là độc lập. Mô hình được cài đặt sử dụng bộ phân lớp hồi quy logistic [15], với mục tiêu xây dựng một mô hình tốt nhất cho tập dữ liệu huấn luyện. Các xác suất trong hồi quy logistic nhị phân: (2) ))((exp1 1 )|0p( (1) ))((exp1 ))((exp )|1p( - T - - - T - - T - -          xw xy xw xw xy Trong đó: �⃗� là một vector biểu diễn một phần tử dữ liệu, y có giá trị nhị phân {0, 1} là nhãn của phần tử dữ liệu �⃗� và �⃗⃗⃗� là vector tham số. Quá trình huấn luyện: Đầu vào: Tập dữ liệu huấn luyện D Đầu ra: Mô hình (�⃗⃗⃗�) Mã giả: Khởi tạo �⃗⃗⃗�; rate = 0.0001; // Một số nhỏ khác 0 11 https://github.com/ninjin/geniass/ 16 for L lần lặp { for mỗi vector �⃗� { predict = 1 1+exp⁡(�⃗⃗⃗�)𝑇∗𝑥)⁡ // Dự đoán nhãn của �⃗� �⃗⃗⃗� = �⃗⃗⃗� + rate * (y - predict) *⁡�⃗� ; } } Return �⃗⃗⃗�;  Quá trình phân lớp: Tính các xác suất theo công thức (1) và (2). Phương pháp hồi quy logistic là một mô hình học có tốc độ huấn luyện nhanh, hiệu năng tốt. Phương pháp này có thể áp dụng cho việc học với lượng dữ liệu lớn và số chiều lớn. Một số thư viện về hồi quy logistic đã được xây dựng và sử dụng rất rộng rãi như: Liblinear12, Lingpipe13. Để tối ưu hệ thống của mình, chúng tôi cài đặt lại mô hình này dựa trên mã giả của thuật toán trên. 2.3.2. Thành phần trích chọn sự kiện đơn Để nhận dạng các tham số kiểu thực thể, chúng tôi thực hiện việc ghép cặp và phân lớp cho các cặp Trigger-Entity vào các lớp có dạng TriggerType_Role, trong đó Trigger đại diện cho sự kiện, Entity có khả năng là tham số của sự kiện đó, Trigger_Type là kiểu của trigger (cũng là kiểu của sự kiện chứa nó) và Role là kiểu vai trò tham số (chẳng hạn Theme, Cause, Site, …). Đầu tiên, các mẫu sự kiện được sử dụng để giảm một lượng lớn các trường hợp không phải là trigger. Các mẫu này được xây dựng từ tập dữ liệu huấn luyện. Sau đó, các cặp Trigger-Entity được phân lớp theo phương pháp SVM. Chúng tôi phân loại các kiểu sự kiện vào 4 nhóm, trong đó 3 nhóm đầu là các sự kiện đơn và nhóm còn lại là các sự kiện phức (tham số có thể là thực thể hoặc sự kiện khác). 12 www.csie.ntu.edu.tw/~cjlin/liblinear/ 13 17 Bảng 4: Phân loại các kiểu sự kiện trong CG task Sự kiện không có tham số: Amino_acid_catabolism Sự kiện có tham số chỉ là thực thể (30 kiểu): Acetylation Blood_vessel_development … Sự kiện có tham số chỉ là thực thể (có thể có nhiều hơn 1 tham số Theme hoặc Participant): Binding Gene_expression Localization Pathway Dissociation Sự kiện có tham số là thực thể hoặc sự kiện khác: Negative_regulation Planned_process Positive_regulation Regulation Sau quá trình trích chọn sự kiện đơn, hệ thống đưa ra các sự kiện đơn đã được trích chọn và biễu diễn theo cấu trúc được định nghĩa trước. 2.3.3. Thành phần trích chọn sự kiện phức Thành phần này tương tự như thành phần trích chọn sự kiện đơn, nhưng áp dụng cho 4 kiểu sự kiện: Negative_regulation, Planned_process, Positive_regulation và Regulation. Chúng tôi thực hiện ghép cặp và phân lớp mỗi cặp Trigger-Trigger thay cho mỗi cặp Trigger-Entity. Các lớp có dạng tương tự như trong thành phần trích chọn sự kiện đơn. Chú ý rằng cả hai trigger đại diện cho hai sự kiện, trong đó sự kiện thứ hai là tham số của sự kiện thứ nhất. Sau quá trình trích chọn sự kiện phức, hệ thống đưa ra các sự kiện phức hợp đã được trích chọn và biễu diễn theo cấu trúc được định nghĩa trước. 18 Chúng tôi thu được kết quả với trích chọn các sự kiện phức hợp như ở bảng 5 khi đánh giá trên tập dữ liệu phát triển (development) được cung cấp bởi BioNLP-ST 2013. Bảng 5: Kết quả với trích chọn các sự kiện phức hợp liên quan đến bệnh ung thư di truyền STT Kiểu sự kiện P (%) R (%) F1 (%) … ... ... ... ... 29 Regulation 74.18 52.49 61.48 30 Positive_regulation 61.72 54.27 57.76 31 Negative_regulation 57.39 53.91 55.60 32 Planned_process 40.34 51.96 45.42 ... ... ... ... ... Tổng cộng (40 kiểu sự kiện) 70.26 Đánh giá trên tập dữ liệu kiểm thử được cung cấp bởi BioNLP-ST 2013, hệ thống do chúng tôi xây dựng đã đạt kết quả đứng thứ 5 tại CG Task. Chúng tôi cũng dùng mô hình này là mô hình cơ sở cho bài toán trích chọn các sự kiện phức hợp, và so sánh kết quả với mô hình mới được đề xuất trong chương 3. 19 Chương 3. Mô hình giải quyết bài toán trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc Từ quá trình khảo sát dữ liệu miền y sinh học về bệnh ung thư di truyền, cũng như tìm hiểu một số hướng tiếp cận liên quan tới bài toán trích chọn sự kiện y sinh nói chung trong chương trước. Chúng tôi nhận thấy việc chuyển đổi dạng biểu diễn ban đầu của sự kiện (standoff format – được mô tả trong chương 4) sang cây phụ thuộc (chứa các thực thể và trigger trong câu) cho kết quả khá tốt, đặc biệt với các kiểu sự kiện phức hợp. Do đó, khóa luận đề xuất một mô hình phân tích, chủ yếu dựa trên phương pháp này với việc kết hợp thuật toán Earley parser (một giải thuật được sử dụng để phân tích cú pháp trong xử lý ngôn ngữ tự nhiên) cho bài toán trích chọn 4 kiểu sự kiện phức hợp trong CG Task. 3.1. Cơ sở lý thuyết Phần này, khóa luận nêu ra những cơ sở lý thuyết và các kiến thức nền tảng để áp dụng trong mô hình giải quyết bài toán. 3.1.1. Chuyển đổi cấu trúc sự kiện sang dạng biểu diễn cây phụ thuộc Dạng biểu diễn phụ thuộc của một câu được tạo nên bởi các token trong câu và quan hệ hai ngôi giữa chúng [4]. Một quan hệ phụ thuộc đơn được biểu diễn bởi relation(governor, dependent), trong đó governer và dependent là các token, và relation là một kiểu quan hệ phụ thuộc về ngữ pháp. Dạng biểu diễn này về cơ bản là một đồ thị có hướng được gán nhãn, được gọi là đồ thị phụ thuộc và được định nghĩa: Định nghĩa. Một đồ thị phụ thuộc là một cặp của tập G=(V, E), trong đó V là tập các nút tương ứng với các token trong một câu, và E là tập các cạnh có hướng. Nhãn của cạnh là các kiểu quan hệ phụ thuộc giữa các token, và hướng của cạnh là từ nút governer đến dependent. Chuyển đổi dạng biểu diễn sự kiện sang một đồ thị bằng cách [4] [5]: - Các nút trong đồ thị là các thực thể, các trigger và một nút ảo ROOT. Vì vậy chỉ những từ trong cây phụ thuộc này tham gia vào các sự kiện. 20 - Các cạnh trong đồ thị được tạo nên theo cách sau:  Với mỗi trigger, tạo một liên kết tới mỗi tham số của nó, gán nhãn với tên chỉ tham số (ví dụ: liên kết gene transcription tới IL-2 với nhãn THEME trong hình 8b.  Liên kết nút ROOT tới mỗi thực thể (các thực thể này không tham gia trong một sự kiện) sử dụng nhãn phụ thuộc ROOT-LABEL.  Cuối cùng liên kết nút ROOT tới mỗi trigger mức cao nhất (top-level) (không là tham số cho các sự kiện khác) sử dụng lại nhãn ROOT-LABEL. Đầu ra của quá trình này là một đồ thị có hướng. Chú ý rằng sau sự chuyển đổi, chỉ còn lại các thực thể và các trigger. Hình 8 minh họa các sự kiện phức hợp (complex event) nằm trong đoạn văn bản: “…the HTLV-1 transactivator protein, tax, acts as a costimulatory signal for GM-CSF and IL-2 gene transcription …”. Từ in đậm thể hiện các trigger và từ in nghiêng biểu diễn các thực thể. Hình 8a) Câu gốc với các sự kiện Hình 8b) Sau khi chuyển đổi sang sự phụ thuộc sự kiện Hình 8a biểu diễn một câu và hình 8b là dạng chuyển đổi của nó từ miền y sinh học với bốn sự kiện: hai sự kiện POSITIVE REGULATION có trigger đều là cụm “acts as a costimulatory signal”, và hai sự kiện TRANSCRIPTION có cả hai trigger là “gene transcription”. Tất cả sự kiện có tham số là thực thể hoặc sự kiện khác. Loại thứ hai tạo nên những cấu trúc sự kiện lồng nhau (sự kiện phức hợp). 21 3.1.2. Giải thuật Earley parser Phần tiếp theo trình bày về giải thuật Earley parser14 [6], là một trong số những giải thuật được sử dụng để phân tích cú pháp trong xử lý ngôn ngữ tự nhiên. Nó là một giải thuật tổng quát, có thể phân tích bất kỳ văn phạm phi ngữ cảnh nào. Giải thuật Earley parser cơ bản được phát biểu như sau: Đầu vào: Văn phạm G = (N, T, S, P), trong đó:  N: tập kí hiệu không kết thúc.  T: tập kí hiệu kết thúc.  S: kí hiệu không kết thúc bắt đầu.  P: tập luật cú pháp. Xâu vào w = a1a2 ... an. Đầu ra: Phân tích đối với w hoặc "sai". Kí hiệu:  α, β, γ biểu diễn xâu chứa các kí hiệu kết thúc, không kết thúc hoặc rỗng.  X, Y, Z biểu diễn các kí hiệu không kết thúc đơn.  a biểu diễn kí hiệu kết thúc. Earley parser sử dụng cách biểu diễn luật thông qua dấu chấm “•”. X→ α • β có nghĩa là:  Trong P có một luật sản xuất X→ α β.  α đã được phân tích.  β đang được chờ phân tích.  Khi dấu chấm “•” được chuyển ra sau β có nghĩa đây là một luật hoàn thiện. Thành phần X đã được phân tích đầy đủ, ngược lại nó là một luật chưa hoàn thiện. Đối với mỗi từ thứ j của xâu đầu vào, bộ phân tích khởi tạo một bộ có thứ tự các trạng thái S(j).Mỗi bộ tương ứng với một cột trong bảng phân tích. Mỗi trạng thái có dạng (X → α • β, i), thành phần sau dấu phẩy xác định rằng luật này được phát sinh từ cột thứ i. a. Khởi tạo  S(0) được khởi tạo chứa ROOT → • S. 14 22  Nếu tại bộ cuối cùng ta có luật (ROOT → S•, 0) thì có nghĩa xâu vào được phân tích thành công. b. Thuật toán Thuật toán phân tích thực hiện ba bước: Dự đoán (Predictor), Duyệt (Scanner), và Hoàn thiện (Completer) đối với mỗi bộ S(j).  Dự đoán: Với mỗi trạng thái trong S(j): (X → α • Y β, i), ta thêm trạng thái (Y → • γ, j) vào S(j) nếu có luật sản xuất Y → γ trong P.  Duyệt: Nếu a là kí hiệu kết thúc tiếp theo, với mọi trạng thái trong S(j): (X → α • a β, i), ta thêm trạng thái (X → α a • β, i) vào S(j+1).  Hoàn thiện: Với mỗi trạng thái trong S(j): (X → γ• , i), ta tìm trong S(i) trạng thái (Y → α • X β, k), sau đó thêm (Y → α X • β, k) vào S(j). Ở mỗi bộ S(j) phải kiểm tra xem trạng thái đã có chưa trước khi thêm vào để tránh trùng lặp. Ba bước này lặp lại cho đến khi không có trạng thái mới có thể thêm vào tập trạng thái. Dưới đây là mã giả của giải thuật Earley parser: function EARLEY-PARSE(words, grammar) ENQUEUE((γ → •S, 0), chart[0]) for i ← from 0 to LENGTH(words) do for each state in chart[i] do if INCOMPLETE?(state) then if NEXT-CAT(state) is a nonterminal then PREDICTOR(state, i, grammar) // non-terminal else do SCANNER(state, i) // terminal else do COMPLETER(state, i) end end return chart procedure PREDICTOR((A → α•B, i), j, grammar) for each (B → γ) in GRAMMAR-RULES-FOR(B, grammar) do ADD-TO-SET((B → •γ, j), chart[ j]) end 23 procedure SCANNER((A → α•B, i), j) if B ⊂ PARTS-OF-SPEECH(word[j]) then ADD-TO-SET((B → word[j], i), chart[j + 1]) end procedure COMPLETER((B → γ•, j), k) for each (A → α•Bβ, i) in chart[j] do ADD-TO-SET((A → αB•β, i), chart[k]) end 3.2. Mô hình đề xuất giải quyết bài toán Trên việc phân tích các hướng tiếp cận và khảo sát dữ liệu, tôi đề xuất mô hình cho bài toán như sau: Hình 9: Mô hình giải quyết bài toán Trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền Dữ Liệu Huấn Luyện Tiền Xử Lý Sự kiện phức hợp  Cây phụ thuộc Earley Parser Đầu Ra Mô hình Dữ Liệu Kiểm Thử Tiền Xử Lý Nhận Diện Trigger Xếp hạng cây Earley Parser Trích chọn ứng viên sự kiện Thực thể 24 Chúng tôi sử dụng tập dữ liệu huấn luyện (training) và phát triển (development) liên quan đến bệnh ung thư di truyền (CG dataset) đã được tách câu, tách từ (bởi Genia Sentence Splitter15 và phân tích cú pháp (sử dụng Stanford Parsing), được cung cấp bởi BioNLP Shared Task 2013. Một số lỗi trong những tập dữ liệu này được chỉnh sửa lại bằng thủ công. Mô hình đề xuất giải quyết bài toán Trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền gồm 3 thành phần chính:  Thành phần nhận diện trigger  Thành phần trích chọn ứng viên sự kiện  Thành phần xếp hạng và đưa ra kết quả 3.2.1. Thành phần nhận diện trigger Thành phần này tương tự như trong mô hình chúng tôi đã đề xuất cho bài toán trích chọn 40 kiểu sự kiện trong CG Task. Trong tập dữ liệu CG Task do BioNLP-ST 2013 cung cấp, có khoảng 95% trigger đại diện cho sự kiện chỉ chứa một token. Vì vậy, chúng tôi coi bài toán nhận diện trigger như là bài toán gán nhãn token, tương tự theo phương pháp của Bjorne và cộng sự [9]. Hệ thống sẽ xác định một token trong câu là trigger cho một trong 40 kiểu sự kiện, hoặc thuộc lớp negative (-1) nếu không là trigger. Chúng tôi sử dụng thư viện Liblinear-java16 (Fan và cộng sự, 2008) theo phương pháp hồi quy logistic với chuẩn L2 cho thành phần nhận diện trigger. Chúng tôi thực hiện theo phương pháp Grid search để lựa chọn giá trị tham số C là 0.5. Giá trị này cũng tương đương với hệ thống Turku (Bjoner và cộng sự, 2009), được thiết lập cho tất cả các bộ nhận diện của họ. Các đặc trưng chính mà chúng tôi sử dụng dựa trên ý tưởng của Miwa và cộng sự (2012) và được thể hiện trong bảng 6. Khi tiến hành thực nghiệm, số đặc trưng là khá lớn: khoảng 500,000 đặc trưng cho thành phần nhận diện trigger. Lý do mà chúng tôi lựa chọn thư viện Liblinear một phần bởi nó có hiệu năng tốt với tập đặc trưng lớn. 15 https://github.com/ninjin/geniass/ 16 25 Bảng 6: Các loại đặc trưng trong thành phần nhận diện trigger STT Loại đặc trưng Đích 1 Mức token Token đang xét 2 Đặc trưng từ liền kề Token đang xét 3 Đặc trưng từ n-gram Token đang xét 4 Đặc trưng từ điển Token đang xét 5 Đặc trưng cặp n-gram Giữa token đang xét và các tên thực thể 6 Đặc trưng đường đi ngắn nhất trong cây phân tích Giữa token đang xét và các tên thực thể 3.2.2. Thành phần trích chọn ứng viên sự kiện Thống kê cho thấy không có sự kiện nào nằm ở cả hai câu trong CG dataset. Sau quá trình nhận dạng trigger, dạng cấu trúc sự kiện được chuyển sang đồ thị phụ thuộc (biểu diễn một cây phụ thuộc được gán nhãn). Tiếp theo, thành phần trích chọn ứng viên sự kiện sử dụng Chart Parser, mà cụ thể là giải thuật Earley parser để tìm ra các cây có thể của mỗi câu. Trong quá trình kiểm thử, khi đưa các thực thể và trigger của một câu vào bộ Earley parser (bộ parser này đã học được mô hình từ các cây trong tập dữ liệu huấn luyện), sẽ sinh ra các cây có thể có trong câu đó. Với trích chọn bốn kiểu sự kiện phức hợp trong CG Task, dựa trên ý tưởng của McClosky và cộng sự (2011) – coi bài toán trích chọn sự kiện như phân tích sự phụ thuộc, chúng tôi biểu diễn các sự kiện phức hợp theo dạng cây sự kiện tương tự như cây phụ thuộc. Hướng tiếp cận của chúng tôi khác với hướng tiếp cận của McClosky và cộng sự: thay vì biểu diễn tất cả sự kiện trong câu vào một cây duy nhất, chúng tôi xây dựng một cây cho mỗi kiểu sự kiện phức hợp trong câu đó. Giải pháp này tránh được vấn đề vòng lặp nếu hai sự kiện phức có chung tham số là thực thể hoặc sự kiện khác. Hình 10 minh họa dạng biểu diễn của hai sự kiện phức hợp như là hai cây sự kiện. Để xây dựng cây sự kiện, chúng tôi tạo một nút ảo ROOT, sự kiện phức hợp đích sẽ được liên kết trực tiếp tới nút ROOT này, và các trigger và thực thể không thuộc cấu trúc con của sự kiện đích cũng được liên kết tới ROOT. Trong cây sự kiện, các nhãn lớp thực thể và sự kiện được giữ lại trong khi các cụm từ trigger và thực thể bị loại bỏ. 26 Hình 10: Minh họa dạng biểu diễn hai cây sự kiện cho hai sự kiện phức hợp Với phân tích cây sự kiện, chúng tôi sử dụng giải thuật Earley parser (Jay Earley, 1970) để tìm các cấu trúc có thể cho sự kiện. Các cây sự kiện được lưu trữ trong bộ nhớ theo dạng luật Earley. Đầu vào của bộ phân tích là các thực thể và trigger (qua thành phần nhận diện trigger), đầu ra là các ứng viên sự kiện (dạng cây sự kiện). 3.2.3. Thành phần xếp hạng và đưa ra kết quả Thành phần trích chọn ứng viên sự kiện sẽ đưa ra tất cả các cây phụ thuộc có thể của mỗi câu, vấn đề đặt ra là làm thế nào để lựa chọn được những kết quả tốt nhất? Dựa vào nghiên cứu của John Hale [13], chúng tôi xây dựng một bộ phân tích phụ thuộc theo xác suất với thuật toán Earley parser (probabilistic Earley parser) để lựa chọn các ứng viên cây sự kiện tốt nhất. Bộ phân tích phụ thuộc theo Earley parser sử dụng nội suy tuyến tính trên các xác suất từ thành phần nhận diện cạnh (theo mô hình đã đề xuất trong chương 2) và xác suất cạnh ưu tiên để tính toán trọng số (score) cho mỗi ứng viên cây sự kiện. Tham số nội suy λ được thiết lập sử dụng grid search. Với mục tiêu tính trọng số (score) cho từng cây, việc tính trọng số này dựa vào trọng số của nút ROOT. Trọng số của nút ROOT của một cây bằng tổng trọng số của các nút con của ROOT chia cho số lượng nút con. Trọng số của một nút con bằng trọng số của các cạnh có một liên kết tới nút. Công thức tính trọng số cho mỗi nút là: Occurrence (edge | argrument) (node) (arguments | node) (edges) edges node P Score P num     27 với,  num(edge) là số cạnh có một liên kết tới nút  POccurence(argument|node) là sự phân phối biểu diễn sự đồng xuất hiện của các nhãn thực thể/trigger trong các tham số của một kiểu sự kiện  P(edge|argument) = λ * PClassifier(edge|argument) + (1- λ) * PPrior(edge|argument)  λ là một tham số nội suy trong đoạn [0, 1]  PClassifier(edge|argument) là xác suất thu được từ bộ phân lớp cạnh  PPrior(edge|argument) là xác suất ưu tiên cho cạnh trong tập dữ liệu huấn luyện (xác suất điều kiện tiên nghiệm). Xác suất này bằng tổng số lần xuất hiện của điều kiện chia cho tổng số lần xuất hiện. Các cạnh liên kết trực tiếp đến ROOT và không liên quan đến sự kiện phức hợp đích có giá trị mặc định là 0. Trọng số cho một ứng viên cây sự kiện được tính như là giá trị của ROOT. Chúng tôi sử dụng một tham số ngưỡng filter_threshold để loại bỏ các cây có một cạnh với P(edge|argument) nhỏ hơn filter_threshold. Mặt khác, chúng tôi sử dụng tham số ngưỡng cutoff_threshold để lựa chọn các cây ứng viên với giá trị cao nhất. Các cây ứng viên là cấu trúc con của cây ứng viên khác bị loại bỏ từ kết quả cuối cùng. Những cây phụ thuộc tốt nhất được chuyển về dạng biểu diễn cấu trúc sự kiện (theo standoff format được sử dụng tại BioNLP Shared Task 2013) và hệ thống đưa ra kết quả cuối cùng. 28 Chương 4. Thực nghiệm và đánh giá 4.1. Môi trường thực nghiệm và dữ liệu thực nghiệm 4.1.1. Môi trường thực nghiệm Bảng 7: Môi trường thực nghiệm Thành phần Chỉ số CPU Intel Core i3 2.53GHz RAM 2G HDD 320GB Hệ điều hành Windows 7 Ultimate 4.1.2. Dữ liệu thực nghiệm Dữ liệu BioNLP-ST 2013 sử dụng định dạng standoff17 tương tự như BioNLP- ST 2011. Với dạng biểu diễn standoff, các tài liệu văn bản được tách riêng với file gán nhãn (được kết nối đến vị trí cụm từ trong văn bản thông qua các vị trí (offset) kí tự). Định dạng file BioNLP-ST 2013 được xác định bởi phần hậu tố của tên file: “.txt”, “.a1” hoặc “.a2”:  File văn bản (.txt): chứa văn bản từ tài liệu gốc. Ví dụ: RFLAT-1, a new zinc finger transcription factor that activates RANTES gene …  File gán nhãn đầu vào (.a1): chứa các nhãn thực thể cho sẵn, là đầu vào cho bài toán. Chú ý rằng những file gán nhãn .a1 được gán nhãn thủ công sẽ được cung cấp cho các đội trong cả dữ liệu huấn luyện và kiểm thử. Ví dụ: T1 Protein 0 7 RFLAT-1 T2 Protein 63 69 RANTES  File gán nhãn đích (.a2): chứa nhãn cho các sự kiện và các thông tin liên quan, là mục tiêu cho trích chọn trong bài toán. T13 Positive_regulation 53 62 activates E1 Positive_regulation:T13 Theme:T1 Cấu trúc gán nhãn chung: Tất cả file gán nhãn có cấu trúc như nhau: mỗi dòng chứa một nhãn và mỗi nhãn có một ID xuất hiện đầu tiên trong dòng, ngăn cách 17 29 phần còn lại bởi một kí tự TAB. Phần còn lại của cấu trúc khác nhau theo kiểu gán nhãn. Tất cả ID của nhãn chứa một kí tự viết hoa xác định kiểu gán nhãn và một con số. Các kí tự ID bắt đầu liên quan đến các kiểu gán nhãn sau:  T: nhãn biên của cụm từ (thực thể / trigger) (text-bound annotation)  E: sự kiện (event)  M: modification Nhãn biên của cụm từ: xác định một cụm từ nào đó là một thực thể hoặc trigger và gán một kiểu cho chúng. Nhãn chính được cho sẵn là bộ ba ngăn cách nhau bởi kí tự SPACE (type, start-offset, end-offset); start-offset là chỉ số của kí tự đầu tiên của cụm được gán nhãn trong văn bản (file “.txt”, kí tự đầu tiên bắt đầu là 0), end- offset là chỉ số của kí tự đầu tiên sau cụm được gán nhãn. Nhãn cho trigger cũng là nhãn biên của cụm từ, có định dạng như với thực thể, có ID khác với các thực thể đó. Nhãn sự kiện: có một ID duy nhất, được định nghĩa kiểu, trigger và các tham số. ID sự kiện xuất hiện đầu tiên, ngăn cách bởi một kí tự TAB. TYPE:ID xác định kiểu sự kiện và trigger của nó thông qua ID. Trigger được ngăn cách với các tham số bởi kí tự SPACE. Các tham số sự kiện là các tập các cặp ROLE:ID ngăn cách nhau bởi kí tự SPACE, với ROLE là một trong những vai trò tham số sự kiện, ID xác định thực thể hoặc sự kiện ứng với vai trò đó. Nhãn modification: sự kiện trong trạng thái được suy luận hoặc trong một ngữ cảnh phủ định [8] [15]. Nhãn này bắt đầu với một ID, ngăn cách bởi kí tự TAB với kiểu modification (Speculation hoặc Negation), và được ngăn cách tiếp theo bởi kí tự SPACE với ID của nhãn mà sự sửa đổi được áp dụng. M1 Speculation E1 M2 Negation E2 Chúng tôi tiến hành thực nghiệm với tập dữ liệu huấn luyện và phát triển18 được cung cấp bởi BioNLP-ST 2013. Kết quả đánh giá được thực hiện trên tập dữ liệu phát triển đã được gán nhãn chuẩn. Một số thống kê về dữ liệu như sau. 18 30 Bảng 8: Thống kê chung về dữ liệu thực nghiệm Dữ liệu huấn luyện Dữ liệu phát triển Câu 3040 1003 Thực thể 11034 3665 Thực thể phân biệt 3901 1554 Trigger 7370 2420 Trigger phân biệt 1426 732 Sự kiện 8803 2915 Nhãn Modification Speculation 309 103 Negation 361 111 Tổng cộng 670 214 Bảng 9: Thống kê các sự kiện trong tập dữ liệu Sự kiện STT Kiểu Số sự kiện Tập huấn luyện Tập phát triển 1 Development 275 72 2 Blood_vessel_development 410 166 3 Growth 110 43 4 Death 98 42 5 Cell_death 196 69 6 Breakdown 67 27 7 Cell_proliferation 215 43 8 Cell_division 2 1 9 Remodeling 29 4 10 Reproduction 1 0 11 Mutation 170 54 12 Carcinogenesis 125 45 13 Metastasis 284 85 14 Metabolism 49 13 15 Synthesis 33 9 16 Catabolism 24 12 17 Gene_expression 717 253 18 Transcription 96 17 19 Translation 11 2 20 Protein_processing 13 2 21 Phosphorylation 66 30 22 Dephosphorylation 4 4 23 DNA_methylation 33 3 24 DNA_demethylation 1 0 25 Pathway 163 65 26 Localization 492 127 27 Binding 197 80 28 Dissociation 3 1 29 Regulation 1026 291 31 30 Positive_regulation 1793 621 31 Negative_regulation 1126 352 32 Planned_process 693 279 33 Acetylation 5 1 34 Glycolysis 39 10 35 Glycosylation 4 0 36 Cell_transformation 148 53 37 Cell_differentiation 58 22 38 Ubiquitination 1 3 39 Amino_acid_catabolism 2 1 40 Infection 24 13 Total 8803 2915 Chúng tôi cũng tiến hành một số thống kê về các kiểu thực thể, trigger và các tham số cho từng kiểu sự kiện riêng. Bốn kiểu sự kiện phức hợp sau là mục tiêu cho bài toán trích chọn sự kiện phức hợp trong CG task: Regulation, Positive regulation, Negative regulation, Planned process. Các sự kiện này có thể nhận tham số là thực thể (18 kiểu) hoặc sự kiện khác (40 kiểu). 4.2. Giới thiệu phần mềm thực nghiệm Chúng tôi xây dựng phần mềm gồm các chức năng sau:  Nhận diện trigger và đánh giá kết quả  Trích chọn ứng viên cây sự kiện  Xếp hạng các cây phụ thuộc và đưa ra kết quả Các mô-đun chính trong phần mềm:  Trigger_feature_extract: Trích chọn đặc trưng trigger cho bài toán nhận diện trigger  Liblinear: triển khai thuật toán học máy hồi quy logistic trong nhận diện trigger (là mã nguồn mở)  Prob_Earley_parser: Trích chọn các ứng viên cây sự kiện  Trees_rank: Xếp hạng các cây phụ thuộc và đưa ra kết quả cuối cùng  Evaluator: Đánh giá kết quả các pha chạy 32 Hình 11: Các mô-đun chính trong phần mềm thực nghiệm 4.3. Thực nghiệm 4.3.1. Hướng tiếp cận thực nghiệm Chúng tôi tiến hành 2 thực nghiệm:  Thực nghiệm nhận diện trigger: Trích chọn đặc trưng trigger, phân lớp chúng vào 41 lớp (40 lớp ứng với 40 kiểu sự kiện và lớp -1 nếu không là trigger). Từ đó lấy ra kết quả là các trigger đại diện cho bốn kiểu sự kiện phức hợp.  Thực nghiệm trích chọn các sự kiện phức hợp: Trích chọn các ứng viên cây sự kiện cho mỗi câu trong văn bản y sinh học. Sau đó xếp hạng các cây này và đưa ra kết quả là bốn kiểu sự kiện phức hợp trong CG Task. Các thực nghiệm được tiến hành trên tập dữ liệu huấn luyện (training) và tập dữ liệu phát triển (development) được cung cấp bởi BioNLP-ST 2013. Tập dữ liệu phát triển giúp chúng tôi đánh giá được mô hình đã đề xuất trên dữ liệu mới. Tiêu chí “khớp nhau hoàn toàn” (trình bày ở phần I.5) được áp dụng cho quá trình đánh giá. 4.3.2. Thực nghiệm nhận diện trigger Tỉ lệ số trigger chỉ chứa một token trong tập huấn luyện (CG dataset) là 7078/7410 = 95.5%, trong tập dữ liệu phát triển (CG dataset) là 2350/2453 = 95.8%. Theo Jari Bjorne và các cộng sự [9], Chúng tôi đơn giản hóa bài toán bằng cách thu 33 gọn các trigger chứa nhiều token về các từ đại diện (head word) cú pháp của chúng (ví dụ: “acts” thay cho “acts as a costimulatory signal”). Hình 9 là ví dụ về một câu trong tập dữ liệu huấn luyện cho nhận diện trigger, trong đó các thực thể được bao trong tag , ; các trigger được bao trong tag , . Hình 12: Ví dụ về một câu trong tập dữ liệu huấn luyện cho nhận diện trigger Mô hình được cài đặt sử dụng bộ phân lớp hồi quy logistic dựa vào các loại đặc trưng: Bảng 10: Các loại đặc trưng trong nhận diện trigger STT Loại đặc trưng Mô tả đặc trưng 1 Đặc trưng token Bao gồm cách viết hoa, sự xuất hiện của dấu câu, kí tự số, từ gốc, bigram và trigram, sự xuất hiện trong từ điển chứa trigger (được xây dựng dựa vào tập dữ liệu huấn luyện). 2 Đặc trưng tần suất Bao gồm số thực thể trong câu 3 Chuỗi phụ thuộc Các chuỗi phụ thuộc đến độ sâu là ba, được xây dựng từ token được phân lớp. Tại mỗi độ sâu, cả các đặc trưng mức token và kiểu phụ thuộc được đưa vào, cũng như thứ tự của các kiểu phụ thuộc trong chuỗi. Sau khi tiến hành thực nghiệm gồm các bước: 1) Trích chọn đặc trưng trigger 2) Học (theo phương pháp hồi quy logistic) 3) Kiểm thử (theo phương pháp hồi quy logistic) Chúng tôi thu được kết quả nhận diện trigger: độ chính xác 96.8%, độ hồi tưởng 94.4% và độ đo F1 95.6%. In contrast, tunicamycin had little effect on the viability and MTT responses of the cells used. 34 Chúng tôi cũng lấy kết quả từ thành phần nhận diện trigger này là đầu vào cho thành phần trích chọn ứng viên sự kiện, cho bốn kiểu sự kiện phức hợp: Regulation, Positive regulation, Negative regulation và Planned process. 4.3.3. Thực nghiệm trích chọn sự kiện phức hợp Chúng tôi xây dựng một bộ phân tích bằng phương pháp xác suất theo Earley parser để lựa chọn các ứng viên cây sự kiện tốt nhất. Các thiết lập tối ưu cho tập tham số được sử dụng trên tập dữ liệu phát triển (development test) để đánh giá là: α=0.5; filter_threshold=0.2; cutoff_threshold=0.45. Để minh họa cho dữ liệu và các cây ứng viên sự kiện được sinh ra từ giải thuật Earley parser, ta xét hai ví dụ sau:  Tập luật (ví dụ 1): ROOT ::= NEGATIVE_REGULATION NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER CAUSE THEME NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER THEME CAUSE NEGATIVE_REGULATION ::= CAUSE NEGATIVE_REGULATION_TRIGGER THEME NEGATIVE_REGULATION ::= CAUSE THEME NEGATIVE_REGULATION_TRIGGER NEGATIVE_REGULATION ::= THEME NEGATIVE_REGULATION_TRIGGER CAUSE NEGATIVE_REGULATION ::= THEME CAUSE NEGATIVE_REGULATION_TRIGGER CELL_PROLIFERATION ::= CELL_PROLIFERATION_TRIGGER THEME CELL_PROLIFERATION ::= THEME CELL_PROLIFERATION_TRIGGER METASTASIS ::= METASTASIS_TRIGGER THEME METASTASIS ::= THEME METASTASIS_TRIGGER NEGATIVE_REGULATION_TRIGGER ::= inhibiting CELL_PROLIFERATION_TRIGGER ::= growth METASTASIS_TRIGGER ::= metastasis CAUSE ::= GENE_OR_GENE_PRODUCT THEME ::= CELL_PROLIFERATION THEME ::= METASTASIS THEME ::= CELL CELL ::= tumor_cell GENE_OR_GENE_PRODUCT ::= u-995 Cây phân tích cho ví dụ 1: Đầu vào: u995 inhibiting tumor_cell growth metastasis 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 35 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibiting](0) 0:[THEME](0) 0:[METASTASIS](0) 0:[THEME](0) 0:[CELL_PROLIFERATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[tumor_cell](0) 0:[CELL_PROLIFERATION_TRIGGER](0) > 0:[growth](0) 0:[METASTASIS_TRIGGER](0) > 0:[metastasis](0)  Tập luật (ví dụ 2): ROOT ::= NEGATIVE_REGULATION SIMPLE_CHEMICAL NEGATIVE_REGULATION_TRIGGER ::= inhibited LOCALIZATION_TRIGGER ::= migration THEME ::= LOCALIZATION LOCALIZATION ::= LOCALIZATION_TRIGGER THEME LOCALIZATION ::= THEME LOCALIZATION_TRIGGER CELL ::= huvec SIMPLE_CHEMICAL ::= thymidine Cây phân tích cho ví dụ 2: Đầu vào: u995 inhibited huvec migration thymidine 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibited](0) 0:[THEME](0) 0:[LOCALIZATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[huvec](0) 0:[LOCALIZATION_TRIGGER](0) > 0:[migration](0) 0:[SIMPLE_CHEMICAL](0) > 0:[thymidine](0) 36 Bảng 11 là kết quả trích chọn sự kiện trên tập dữ liệu phát triển, theo phương thức decomposition. Theo phương phức này, một sự kiện với nhiều hơn một tham số, chẳng hạn: event-type:trigger-id arg1-type:arg1-id arg2-type:arg2-id được phân tách thành nhiều sự kiện đơn tham số: event-type:trigger-id arg1-type:arg1-id event-type:trigger-id arg2-type:arg2-id Bảng 11: Kết quả với trích chọn các sự kiện phức hợp liên quan đến bệnh ung thư di truyền dựa vào mô hình phân tích cây phụ thuộc STT Kiểu sự kiện F1 (%) 1 Regulation 69.55 2 Positive_regulation 68.13 3 Negative_regulation 68.57 4 Planned_process 49.99 4.4. Nhận xét và thảo luận Các phân tích từ tập dữ liệu phát triển (development set) mà chúng tôi thực hiện cho thấy thành phần nhận diện trigger đưa ra kết quả với độ chính xác cao: F1=95.6%. Chúng tôi chọn ra ngẫu nhiên 50 false negative event (missing event - thực tế là sự kiện nhưng hệ thống dự đoán không phải là sự kiện) để phân tích lỗi. Có 29 trigger và 21 sự kiện mà hệ thống không dự đoán là sự kiện. Bảng 12 liệt kê một số kiểu lỗi chính. Bảng 12: Một số kiểu lỗi nhận diện thiếu sự kiện STT Nguyên nhân Trigger Sự kiện 1 Nhập nhằng kiểu sự kiện 9 2 Đồng tham chiếu 6 3 Không khớp với mẫu sự kiện 7 4 Không có thể hiện trong tập huấn luyện 7 4 5 Không có tham số 7 6 Không có luật Earley 10 Hiệu năng khi trích chọn các sự kiện phức hợp đạt độ chính xác kém hơn so với các sự kiện đơn (các sự kiện chỉ nhận tham số là thực thể) do sự phức tạp về cấu trúc của nó. Các tham số của sự kiện phức hợp cũng đa dạng về kiểu thực thể/sự kiện, điều 37 này ảnh hưởng đến hiệu nặng khi trích chọn chúng. Bảng 13 là thống kê các kiểu thực thể/sự kiện là tham số cho kiểu sự kiện Regulation. Các mẫu tổng quát cho các sự kiện được mô tả trong bảng 14. Bảng 13: Thống kê các kiểu thực thể/sự kiện là tham số cho sự kiện Regulation Tham số Training Development Kiểu thực thể/sự kiện Số lượng Kiểu thực thể/sự kiện Số lượng Theme:Entity Gene_or_gene_product 67 Gene_or_gene_product 10 Cancer 32 Cell 7 Cell 26 Cancer 3 Cause:Entity Gene_or_gene_product 25 Gene_or_gene_product 4 Cancer 23 Cancer 3 Cell 12 Theme:Event Blood_vessel_development 36 Negative_regulation 13 Positive_regulation 29 Blood_vessel_development 12 Gene_expression 25 Positive_regulation 11 Localization 24 Metastasis 8 Cell_proliferation 21 Cell_proliferation 8 Development 17 Pathway 7 Negative_regulation 16 Localization 5 Carcinogenesis 15 Gene_expression 5 Metastasis 13 Binding 5 Growth 13 Regulation 4 Cell_death 13 Development 4 Regulation 12 Cell_transformation 4 Pathway 12 Carcinogenesis 3 Binding 12 Cell_death 3 Cell_transformation 10 Cause:Event Negative_regulation 41 Negative_regulation 12 Blood_vessel_development 17 Positive_regulation 9 Localization 15 Metastasis 8 Positive_regulation 15 Blood_vessel_development 8 Development 14 Development 4 Carcinogenesis 13 Regulation 4 Gene_expression 12 Cell_transformation 4 Carcinogenesis 3 Gene_expression 3 38 Bảng 14: Mẫu các sự kiện phức hợp trong CG task19 STT Kiểu sự kiện Tham số 1 Regulation Theme(Any), Cause?(Any) 2 Positive regulation Theme(Any), Cause?(Any) 3 Negative regulation Theme(Any), Cause?(Any) 4 Planned process Theme*(Any), Instrument*(Entity) Trong đó, “Entity” là bất kì thực thể nào trong 18 kiểu thực thể; “Any” là bất kì sự kiện nào trong 40 kiểu sự kiện trong CG task. Khi so sánh kết quả với mô hình cơ sở (mô hình đã đề xuất trong chương 2), mô hình mới cho hiệu năng cao hơn từ 5-13%. Điều này cho thấy ưu điểm của mô hình mới dựa trên phân tích cây phụ thuộc khi trích chọn các sự kiện phức hợp. Bảng 15: So sánh kết quả giữa mô hình cơ sở và mô hình mới đề xuất (dạng bảng) STT Kiểu sự kiện F1 % (Mô hình cơ sở) F1 % (Mô hình mới) 1 Regulation 61.48 69.55 2 Positive_regulation 57.76 68.13 3 Negative_regulation 55.60 68.57 4 Planned_process 45.42 49.99 Hình 13: So sánh kết quả giữa mô hình cơ sở và mô hình mới đề xuất (dạng biểu đồ) 19 39 Kết luận và định hướng Với các kết quả đạt được, báo cáo nghiên cứu khoa học này đã đóng góp:  Trình bày khái quái về bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Trình bày hai hướng tiếp cận điển hình giải quyết bài toán.  Trình bày một mô hình cơ sở đã đề xuất, giải quyết cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Đề xuất và xây dựng một mô hình dựa trên học máy có giám sát với tập giàu đặc trưng, tập luật và bộ phân tích quy hoạch động Earley parser, giải quyết cho bài toán trích chọn sự kiện phức hợp trong văn bản về bệnh ung thư di truyền.  Thực nghiệm dựa trên tập dữ liệu phát triển (cung cấp bởi BioNLP-ST 2013) cho kết quả khả quan hơn mô hình cơ sở: độ đo F1 với trích chọn các sự kiện phức hợp đạt cao nhất khoảng 70%.  Kết quả dựa trên sự kết hợp của hai mô hình đề xuất cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền (cho cả sự kiện đơn và sự kiện phức hợp) được được công bố trong bài báo khoa học: Mai-Vu Tran, Nigel Collier, Hoang-Quynh Le, Van-Thuy Phi, Thanh-Binh Pham. “Exploring a Probabilistic Earley Parser for Event Decomposition in Biomedical Texts”. Proceedings of the BioNLP Shared Task 2013 Workshop. Association for Computational Linguistics (ACL), 2013. Accepted. Định hướng nghiên cứu:  Tiếp tục cải tiến mô hình khi trích chọn các sự kiện phức hợp và tránh vấn đề quá khớp (over-fitting) để áp dụng mô hình với đa miền (cross-domain) y sinh học. 40 Tài liệu tham khảo Tiếng Anh [1] C. Hong-Woo, T. Ohta, J.D. Kim, and J. Tsujii, "Building Patterns for Biomedical Event Extraction,". In the 15th International conference on Genome Informatics GIW 163-164. 2004. [2] David Campos, Sérgio Matos and José Luís Oliveira (2012). Biomedical Named Entity Recognition: A Survey of Machine-Learning Tools, Theory and Applications for Advanced Text Mining, Prof. Shigeaki Sakurai (Ed.), ISBN: 978-953-51-0852-8, InTech, DOI: 10.5772/51066. [3] David Martinez and Timothy Baldwin. Word sense disambiguation for event trigger word detection in biomedicine, BMC Bioinformatics 2011, 12(Suppl 2):S4. [4] David McClosky, Mihai Surdeanu, and Chris Manning. 2011. Event extraction as dependency parsing. In Proceedings of the Association for Computational Linguistics: Human Language Technologies 2011 Conference (ACL- HLT’11), Main Conference, Portland, Oregon, June. [5] David McClosky, Mihai Surdeanu, and Christopher D. Manning. 2011b. Event extraction as dependency parsing in BioNLP 2011. In BioNLP 2011 Shared Task. [6] Earley, Jay (1968). An Efficient Context-Free Parsing Algorithm. Carnegie- Mellon Dissertation. [7] Eugene Charniak and Mark Johnson. 2005. Coarse-to-Fine n-Best Parsing and MaxEnt Discriminative Reranking. In ACL. The Association for Computer Linguistics. [8] Eisner, Jason, and Nathaniel Filardo. Use of Modality and Negation in Semantically-Informed Syntactic MT. Datalog 2.0. [9] Jari Bjorne, Juho Heimonen, Filip Ginter, Antti Airola, Tapio Pahikkala, and Tapio Salakoski. 2009. Extracting complex biological events with rich graph- based feature sets. In Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task, pages 10–18, Boulder, Colorado, June. Association for Computational Linguistics. 41 [10] Jin-Dong Kim, Sampo Pyysalo, Tomoko Ohta et al. Overview of BioNLP Shared Task 2011. In Proceedings of the BioNLP Shared Task 2011 Workshop (2011), pp. 1-6. [11] Jin-Dong Kim, Tomoko Ohta, Sampo Pyysalo, Yoshinobu Kano, and Jun’ichi Tsujii. 2009. Overview of BioNLP’09 shared task on event extraction. In Proceedings of the Workshop on BioNLP: Shared Task, pages 1–9. Association for Computational Linguistics. [12] Jin-Dong Kim, Yue Wang, Toshihisa Takagi, and Akinori Yonezawa. 2011b. Overview of the Genia Event task in BioNLP Shared Task 2011. In Proceedings of the BioNLP 2011 Workshop Companion Volume for Shared Task, Portland, Oregon, June. Association for Computational Linguistics. [13] Hale, J. (2001). A probabilistic Earley parser as a psycholinguistic model. In Proceedings of NAACL, volume 2, pages 159-166. [14] Makoto Miwa, Paul Thompson, John McNaught, Douglas B Kell and Sophia Ananiadou (2012). Extracting semantically enriched events from biomedical literature. BMC Bioinformatics, 13:108 [15] Minka, T. (2001). Algorithms for maximum-likelihood logistic regression. Statistics Tech Report[J], volume 758. [16] Poon, Hoifung, and Lucy Vanderwende. Joint inference for knowledge extraction from biomedical literature. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010. [17] Velldal, Erik, et al. Speculation and negation: Rules, rankers, and the role of syntax. Computational Linguistics 38.2 (2012): 369-410.

Các file đính kèm theo tài liệu này:

  • pdfkltn_phi_van_thuy_final_1903.pdf