Trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền

 Trình bày khái quái về bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Trình bày hai hướng tiếp cận điển hình giải quyết bài toán.  Trình bày một mô hình cơ sở đã đề xuất, giải quyết cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Đề xuất và xây dựng một mô hình dựa trên học máy có giám sát với tập giàu đặc trưng, tập luật và bộ phân tích quy hoạch động Earley parser, giải quyết cho bài toán trích chọn sự kiện phức hợp trong văn bản về bệnh ung thư di truyền.  Thực nghiệm dựa trên tập dữ liệu phát triển (cung cấp bởi BioNLP-ST 2013) cho kết quả khả quan hơn mô hình cơ sở: độ đo F1 với trích chọn các sự kiện phức hợp đạt cao nhất khoảng 70%.

53 trang | Chia sẻ: lylyngoc | Lượt xem: 2285 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

thực thể y sinh học được gán nhãn chuẩn bằng tay, liên kết tới văn bản thông qua vị trí các kí tự (character offset). Đầu ra:  Các sự kiện y sinh học được trích chọn và biểu diễn theo cấu trúc được định nghĩa trước. 8 Hình 3: Minh họa đầu vào và đầu ra của bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền Mục đích của bài toán: nhằm nhận dạng bất kì đối tượng của một lớp sự kiện riêng trong văn bản về bệnh ung thư di truyền, trích chọn các tham số liên quan của sự kiện và biểu diễn thông tin được trích chọn vào một dạng có cấu trúc [1]. Sự kiện được trích chọn bao gồm: một trigger, một kiểu sự kiện và một (hoặc nhiều) tham số. Hình 4: Cấu trúc sự kiện y sinh học Với đầu vào là đoạn văn bản “...binding of SNAP23, syntaxin and VAMP-2...” và các thực thể (in đậm) được cung cấp sẵn, cấu trúc của sự kiện được trích chọn là:  Trigger: binding  Kiểu: BINDING  Các tham số: Theme1 (PROTEIN), Theme2 (PROTEIN), Theme3 (PROTEIN) 1.4. Khó khăn và thách thức Bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền là một bài toán khó với nhiều thách thức được đặt ra như: Sự kiện Trigger Kiểu sự kiện Tham số 9  Đây là bài toán mới và có rất ít công trình nghiên cứu về trích chọn sự kiện miền ung thư di truyền.  Không có bộ từ điển đầy đủ cho các loại tên thực thể/trigger, vấn đề tên viết tắt, từ đồng nghĩa, tên lồng nhau, các tên biến thể...[2].  Số kiểu thực thể (18 kiểu) và sự kiện (40 kiểu) lớn.  Sự nhập nhằng của trigger: một trigger có thể thuộc nhiều kiểu sự kiện khác nhau, tùy vào ngữ cảnh [3].  Một sự kiện có thể là sự kiện đơn hoặc sự kiện lồng nhau. Hiện tượng các sự kiện lồng nhau thường xuyên xuất hiện trong văn bản y sinh học [4] [5]. Một sự kiện cũng có thể chứa nhiều vai trò tham số giống nhau.  Các vai trò tham số của mỗi kiểu sự kiện khác nhau (Theme, Cause, Site, Csite,...), một số vai trò tham số mới được định nghĩa trong CG task (Instrument, Participant).  Một sự kiện có thể có nhiều tham số, và thứ tự của các tham số này hầu hết không tuân theo một nguyên tắc cố định. 1.5. Phương pháp đánh giá Theo BioNLP-ST 2009, sự đánh giá dựa vào sự khớp nhau của các sự kiện được định nghĩa bên dưới7. Kết quả đánh giá được báo cáo bằng cách sử dụng các độ đo chuẩn: độ chính xác, độ hồi tưởng và độ đo F1. Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiểu sự kiện, nhận dạng những từ biểu diễn sự kiện (trigger), các tham số của sự kiện và tính chính xác của các thực thể và sự kiện chúng tham chiếu tới. Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiểu sự kiện, nhận dạng những từ biểu diễn sự kiện (trigger), các thành phần và tham số của sự kiện và tính chính xác của các thực thể và sự kiện chúng tham chiếu tới. Một số tiêu chí chính xác khác nhau được áp dụng:  strict equality (khớp nhau hoàn toàn): một sự kiện là chính xác phải khớp với sự kiện đã được gán nhãn theo tất cả khía cạnh được đề cập ở trên.  approximate boundary matching (khớp biên xấp xỉ): cụm tên thực thể và trigger cho phép khác so với cụm tên chính xác. 7 10 Định nghĩa chi tiết được đưa ra dưới đây. Chú ý rằng tất cả tiêu chí yêu cầu kiểu của sự kiện chính xác và tất cả thành phần và tham số là chính xác. Kết hợp các tiêu chí được xét dưới đây. Hai tiêu chí phổ biến sau được áp dụng. 1.5.1. Khớp nhau hoàn toàn Tiêu chí khớp nhau hoàn toàn yêu cầu một sự kiện được xác nhận khớp với một sự kiện đã được gán nhãn chuẩn:  Kiểu sự kiện như nhau  Trigger như nhau  Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực thể/sự kiện được tham chiếu khớp: o Các kiểu như nhau (cả thực thể và sự kiện) o Cụm tên thực thể/trigger như nhau o Các tham số của sự kiện như nhau Hai cụm tên thực thể/trigger (begin1, end1) và (begin2, end2) là khớp nhau nếu begin1 = begin2 và end1 = end2. 1.5.2. Khớp biên xấp xỉ Khác với tiêu chí khớp nhau hoàn toàn ở phần in đậm:  Kiểu sự kiện như nhau  Trigger được dự đoán tương đương với kết quả gán nhãn chuẩn  Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực thể/sự kiện được tham chiếu khớp: o Các kiểu như nhau (cả thực thể và sự kiện) o Cụm tên thực thể/trigger tương đương với kết quả gán nhãn chuẩn o Các tham số của sự kiện như nhau Với khớp xấp xỉ, sự tương đương được định nghĩa: một cụm dự đoán là tương đương với cụm gán nhãn chuẩn nếu nó nằm hoàn toàn trong phần mở rộng của cụm gán nhãn chuẩn bởi một từ ở cả hai phía trái và phải. Ví dụ, cụm dự đoán (gạch chân) A plays role in [...] là tương đương với (giả định) cụm gán nhãn chuẩn A plays role in [...] vì nó nằm trong cụm mở rộng A plays role in [...]. 11 Chương 2. Các hướng tiếp cận giải quyết bài toán trích chọn sự kiện trong văn bản y sinh học Phần này trình bày hai hướng tiếp cận được được sử dụng khá phổ biến trong các hệ thống trích chọn sự kiện y sinh học gần đây. Chúng tôi cũng phân tích một số thuận lợi và khó khăn đối với hai hướng tiếp cận này. Cuối cùng chúng tôi giới thiệu một mô hình học máy đã được đề xuất để giải quyết cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền. 2.1. Trích chọn sự kiện dựa vào phân tích phụ thuộc cú pháp Trong công trình của David McClosky và cộng sự [5], họ đề xuất một hướng tiếp cận mới cho bài toán trích chọn sự kiện. Họ tạo ra cây các chứa các quan hệ và tham số của chúng, và sử dụng trực tiếp chúng để biểu diễn trong một bộ phân tích phụ thuộc cú pháp. Hình 5 biểu diễn hướng tiếp cận. Họ chuyển đổi dạng biểu diễn sự kiện gốc sang cây phụ thuộc chứa cả trigger và thực thể, sau đó huấn luyện bộ phân tích cú pháp nhằm nhận dạng những cấu trúc này. Những cây tạo nên sử dụng trigger được dự đoán bởi một bộ phân lớp riêng. Trong mô hình này, các thực thể được cho sẵn. Các phiên bản của bộ phân tích phụ thuộc cú pháp MSTParser8 được thiết lập với nhiều decoder khác nhau. Đầu ra từ bộ xếp hạng phân tích cú pháp được chuyển đổi ngược về dạng biểu diễn sự kiện gốc và đi qua một thành phần tái xếp hạng [7], điều chỉnh để tối ưu hóa độ đo đánh giá bài toán. Hình 5: Mô hình của hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp 8 12 Thực nghiệm của họ tiến hành trên kho ngữ liệu BioNLP-ST 2009 (Kim và cộng sự, 2009) bao gồm 800 bản tóm tắt y sinh học (7449 câu, 8597 sự kiện) trong tập huấn luyện và 150 bản tóm tắt (1450 câu, 1809 sự kiện) trong tập phát triển. Tập kiểm thử chứa 260 bản tóm tắt, 2447 câu và 3182 sự kiện. Kết quả được thể hiện trong bảng 3 với độ đo xấp xỉ đã được mô tả trong phần II.4) Bảng 3: Kết quả với tập kiểm thử theo các lớp sự kiện Hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp xét sự phụ thuộc giữa các trigger và thực thể: trigger và thực thể được xử lý tại cùng một thời điểm. Một số trigger có thể bị loại bỏ trong quá trình xử lý khi đi qua bộ tái xếp hạng. Hướng tiếp cận này có tiềm năng cho kết quả khá tốt, tuy nhiên việc cài đặt theo nó tương đối phức tạp. 2.2. Trích chọn sự kiện dựa vào hệ thống đường ống EventMine9 [14] là một hệ thống đường ống dựa vào học máy, trích chọn sự kiện từ những tài liệu đã được gán nhãn tên thực thể (chẳng hạn gen, protein…). Đưa vào dữ liệu thích hợp, nó có thể được huấn luyện để trích chọn nhiều kiểu và cấu trúc sự kiện khác nhau. Hệ thống gồm 4 mô-đun phát hiện chính, hoạt động dựa trên đầu ra của bộ phân tích cú pháp, được minh họa trong hình 6. Các mô-đun hoạt động như sau:  Trigger/Entity Detection: Mô-đun này xác định những từ và cụm từ nào trong câu có khả năng tham gia cấu thành sự kiện, và gán kiểu cho chúng. Những từ và cụm từ có thể là thực thể hoặc trigger. Trong câu ví dụ ở hình 5, các từ 9 13 phospholylation, inhibits và binding được xác định có khả năng là trigger cho các sự kiện Phosphorylation, Negative regulation và Binding.  Argument Detection: Mô-đun này tìm ra từng cặp quan hệ giữa trigger và tham số, và gán kiểu ngữ nghĩa thích hợp cho quan hệ. Trong câu ví dụ ở hình 5, sáu quan hệ như vậy được tìm ra.  Multi-argument Event Detection: Mô-đun này kết hợp các cặp quan hệ độc lập thành các cấu trúc sự kiện hoàn chỉnh.  Modification Detection: Mô-đun này gán thông tin modification (chẳng hạn negation hoặc speculation) cho mỗi sự kiện. Trong hình 5, sự xuất hiện của từ hypothesized (giả thiết) xác định sự kiện Negative regulation được suy đoán (speculation). Hình 6: Hệ thống EventMine Mô hình theo hướng tiếp cận dựa vào hệ thống đường ống xét quá trình nhận diện trigger và tham số là độc lập. Bài toán trích chọn sự kiện được phân rã thành các bài toán con: nhận diện trigger được thực hiện trước khi nhận diện sự kiện và trigger chỉ phụ thuộc vào đặc trưng ngữ cảnh. Các trigger đã nhận diện được giữ nguyên trong suốt quá trình xử lý. Việc cài đặt theo mô hình này đơn giản hơn so với cài đặt theo mô hình phân tích phụ thuộc ngữ pháp. 14 2.3. Mô hình học máy đã đề xuất cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền Hướng tiếp cận dựa theo hệ thống EventMine có ưu điểm dễ cài đặt, dễ quản lý và thích hợp với số lượng nhãn và số lượng thực thể lớn. Chúng tôi đã đưa ra một mô hình đề xuất dựa trên ý tưởng của hệ thống EventMine. Hình 7: Mô hình giải quyết bài toán Trích chọn sự kiện liên quan đến bệnh ung thư di truyền Trong mô hình này, bộ công cụ Enju Parser10 được sử dụng cho quá trình tiền xử lý (tách câu, tách từ và phân tích cú pháp). Tuy nhiên, trong quá trình thực hiện, chúng tôi sử dụng tập dữ liệu huấn luyện (training) và phát triển (development) liên quan đến bệnh ung thư di truyền (CG dataset) đã được tách câu, tách từ (bởi Genia 10 15 Sentence Splitter11 và phân tích cú pháp (sử dụng Stanford Parsing), được cung cấp bởi BioNLP Shared Task 2013. Một số lỗi trong những tập dữ liệu này được chỉnh sửa lại bằng thủ công. Mô hình đề xuất giải quyết bài toán Trích chọn sự kiện liên quan đến bệnh ung thư di truyền gồm 3 thành phần chính:  Thành phần nhận diện trigger  Thành phần trích chọn sự kiện đơn: Nhận diện tham số kiểu thực thể + Trích chọn sự kiện đơn.  Thành phần trích chọn sự kiện phức: Nhận diện tham số kiểu sự kiện + Trích chọn sự kiện phức. 2.3.1. Thành phần nhận diện trigger Bài toán nhận diện trigger có thể coi như bài toán gán nhãn token trong câu, mỗi token thuộc về một lớp (ứng với lớp của sự kiện chứa trigger đó) hoặc thuộc lớp âm (- 1) nếu không phải là một trigger. Việc gán nhãn cho mỗi token là độc lập. Mô hình được cài đặt sử dụng bộ phân lớp hồi quy logistic [15], với mục tiêu xây dựng một mô hình tốt nhất cho tập dữ liệu huấn luyện. Các xác suất trong hồi quy logistic nhị phân: (2) ))((exp1 1 )|0p( (1) ))((exp1 ))((exp )|1p( - T - - - T - - T - -          xw xy xw xw xy Trong đó: �⃗� là một vector biểu diễn một phần tử dữ liệu, y có giá trị nhị phân {0, 1} là nhãn của phần tử dữ liệu �⃗� và �⃗⃗⃗� là vector tham số. Quá trình huấn luyện: Đầu vào: Tập dữ liệu huấn luyện D Đầu ra: Mô hình (�⃗⃗⃗�) Mã giả: Khởi tạo �⃗⃗⃗�; rate = 0.0001; // Một số nhỏ khác 0 11 https://github.com/ninjin/geniass/ 16 for L lần lặp { for mỗi vector �⃗� { predict = 1 1+exp⁡(�⃗⃗⃗�)𝑇∗𝑥)⁡ // Dự đoán nhãn của �⃗� �⃗⃗⃗� = �⃗⃗⃗� + rate * (y - predict) *⁡�⃗� ; } } Return �⃗⃗⃗�;  Quá trình phân lớp: Tính các xác suất theo công thức (1) và (2). Phương pháp hồi quy logistic là một mô hình học có tốc độ huấn luyện nhanh, hiệu năng tốt. Phương pháp này có thể áp dụng cho việc học với lượng dữ liệu lớn và số chiều lớn. Một số thư viện về hồi quy logistic đã được xây dựng và sử dụng rất rộng rãi như: Liblinear12, Lingpipe13. Để tối ưu hệ thống của mình, chúng tôi cài đặt lại mô hình này dựa trên mã giả của thuật toán trên. 2.3.2. Thành phần trích chọn sự kiện đơn Để nhận dạng các tham số kiểu thực thể, chúng tôi thực hiện việc ghép cặp và phân lớp cho các cặp Trigger-Entity vào các lớp có dạng TriggerType_Role, trong đó Trigger đại diện cho sự kiện, Entity có khả năng là tham số của sự kiện đó, Trigger_Type là kiểu của trigger (cũng là kiểu của sự kiện chứa nó) và Role là kiểu vai trò tham số (chẳng hạn Theme, Cause, Site, …). Đầu tiên, các mẫu sự kiện được sử dụng để giảm một lượng lớn các trường hợp không phải là trigger. Các mẫu này được xây dựng từ tập dữ liệu huấn luyện. Sau đó, các cặp Trigger-Entity được phân lớp theo phương pháp SVM. Chúng tôi phân loại các kiểu sự kiện vào 4 nhóm, trong đó 3 nhóm đầu là các sự kiện đơn và nhóm còn lại là các sự kiện phức (tham số có thể là thực thể hoặc sự kiện khác). 12 www.csie.ntu.edu.tw/~cjlin/liblinear/ 13 17 Bảng 4: Phân loại các kiểu sự kiện trong CG task Sự kiện không có tham số: Amino_acid_catabolism Sự kiện có tham số chỉ là thực thể (30 kiểu): Acetylation Blood_vessel_development … Sự kiện có tham số chỉ là thực thể (có thể có nhiều hơn 1 tham số Theme hoặc Participant): Binding Gene_expression Localization Pathway Dissociation Sự kiện có tham số là thực thể hoặc sự kiện khác: Negative_regulation Planned_process Positive_regulation Regulation Sau quá trình trích chọn sự kiện đơn, hệ thống đưa ra các sự kiện đơn đã được trích chọn và biễu diễn theo cấu trúc được định nghĩa trước. 2.3.3. Thành phần trích chọn sự kiện phức Thành phần này tương tự như thành phần trích chọn sự kiện đơn, nhưng áp dụng cho 4 kiểu sự kiện: Negative_regulation, Planned_process, Positive_regulation và Regulation. Chúng tôi thực hiện ghép cặp và phân lớp mỗi cặp Trigger-Trigger thay cho mỗi cặp Trigger-Entity. Các lớp có dạng tương tự như trong thành phần trích chọn sự kiện đơn. Chú ý rằng cả hai trigger đại diện cho hai sự kiện, trong đó sự kiện thứ hai là tham số của sự kiện thứ nhất. Sau quá trình trích chọn sự kiện phức, hệ thống đưa ra các sự kiện phức hợp đã được trích chọn và biễu diễn theo cấu trúc được định nghĩa trước. 18 Chúng tôi thu được kết quả với trích chọn các sự kiện phức hợp như ở bảng 5 khi đánh giá trên tập dữ liệu phát triển (development) được cung cấp bởi BioNLP-ST 2013. Bảng 5: Kết quả với trích chọn các sự kiện phức hợp liên quan đến bệnh ung thư di truyền STT Kiểu sự kiện P (%) R (%) F1 (%) … ... ... ... ... 29 Regulation 74.18 52.49 61.48 30 Positive_regulation 61.72 54.27 57.76 31 Negative_regulation 57.39 53.91 55.60 32 Planned_process 40.34 51.96 45.42 ... ... ... ... ... Tổng cộng (40 kiểu sự kiện) 70.26 Đánh giá trên tập dữ liệu kiểm thử được cung cấp bởi BioNLP-ST 2013, hệ thống do chúng tôi xây dựng đã đạt kết quả đứng thứ 5 tại CG Task. Chúng tôi cũng dùng mô hình này là mô hình cơ sở cho bài toán trích chọn các sự kiện phức hợp, và so sánh kết quả với mô hình mới được đề xuất trong chương 3. 19 Chương 3. Mô hình giải quyết bài toán trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc Từ quá trình khảo sát dữ liệu miền y sinh học về bệnh ung thư di truyền, cũng như tìm hiểu một số hướng tiếp cận liên quan tới bài toán trích chọn sự kiện y sinh nói chung trong chương trước. Chúng tôi nhận thấy việc chuyển đổi dạng biểu diễn ban đầu của sự kiện (standoff format – được mô tả trong chương 4) sang cây phụ thuộc (chứa các thực thể và trigger trong câu) cho kết quả khá tốt, đặc biệt với các kiểu sự kiện phức hợp. Do đó, khóa luận đề xuất một mô hình phân tích, chủ yếu dựa trên phương pháp này với việc kết hợp thuật toán Earley parser (một giải thuật được sử dụng để phân tích cú pháp trong xử lý ngôn ngữ tự nhiên) cho bài toán trích chọn 4 kiểu sự kiện phức hợp trong CG Task. 3.1. Cơ sở lý thuyết Phần này, khóa luận nêu ra những cơ sở lý thuyết và các kiến thức nền tảng để áp dụng trong mô hình giải quyết bài toán. 3.1.1. Chuyển đổi cấu trúc sự kiện sang dạng biểu diễn cây phụ thuộc Dạng biểu diễn phụ thuộc của một câu được tạo nên bởi các token trong câu và quan hệ hai ngôi giữa chúng [4]. Một quan hệ phụ thuộc đơn được biểu diễn bởi relation(governor, dependent), trong đó governer và dependent là các token, và relation là một kiểu quan hệ phụ thuộc về ngữ pháp. Dạng biểu diễn này về cơ bản là một đồ thị có hướng được gán nhãn, được gọi là đồ thị phụ thuộc và được định nghĩa: Định nghĩa. Một đồ thị phụ thuộc là một cặp của tập G=(V, E), trong đó V là tập các nút tương ứng với các token trong một câu, và E là tập các cạnh có hướng. Nhãn của cạnh là các kiểu quan hệ phụ thuộc giữa các token, và hướng của cạnh là từ nút governer đến dependent. Chuyển đổi dạng biểu diễn sự kiện sang một đồ thị bằng cách [4] [5]: - Các nút trong đồ thị là các thực thể, các trigger và một nút ảo ROOT. Vì vậy chỉ những từ trong cây phụ thuộc này tham gia vào các sự kiện. 20 - Các cạnh trong đồ thị được tạo nên theo cách sau:  Với mỗi trigger, tạo một liên kết tới mỗi tham số của nó, gán nhãn với tên chỉ tham số (ví dụ: liên kết gene transcription tới IL-2 với nhãn THEME trong hình 8b.  Liên kết nút ROOT tới mỗi thực thể (các thực thể này không tham gia trong một sự kiện) sử dụng nhãn phụ thuộc ROOT-LABEL.  Cuối cùng liên kết nút ROOT tới mỗi trigger mức cao nhất (top-level) (không là tham số cho các sự kiện khác) sử dụng lại nhãn ROOT-LABEL. Đầu ra của quá trình này là một đồ thị có hướng. Chú ý rằng sau sự chuyển đổi, chỉ còn lại các thực thể và các trigger. Hình 8 minh họa các sự kiện phức hợp (complex event) nằm trong đoạn văn bản: “…the HTLV-1 transactivator protein, tax, acts as a costimulatory signal for GM-CSF and IL-2 gene transcription …”. Từ in đậm thể hiện các trigger và từ in nghiêng biểu diễn các thực thể. Hình 8a) Câu gốc với các sự kiện Hình 8b) Sau khi chuyển đổi sang sự phụ thuộc sự kiện Hình 8a biểu diễn một câu và hình 8b là dạng chuyển đổi của nó từ miền y sinh học với bốn sự kiện: hai sự kiện POSITIVE REGULATION có trigger đều là cụm “acts as a costimulatory signal”, và hai sự kiện TRANSCRIPTION có cả hai trigger là “gene transcription”. Tất cả sự kiện có tham số là thực thể hoặc sự kiện khác. Loại thứ hai tạo nên những cấu trúc sự kiện lồng nhau (sự kiện phức hợp). 21 3.1.2. Giải thuật Earley parser Phần tiếp theo trình bày về giải thuật Earley parser14 [6], là một trong số những giải thuật được sử dụng để phân tích cú pháp trong xử lý ngôn ngữ tự nhiên. Nó là một giải thuật tổng quát, có thể phân tích bất kỳ văn phạm phi ngữ cảnh nào. Giải thuật Earley parser cơ bản được phát biểu như sau: Đầu vào: Văn phạm G = (N, T, S, P), trong đó:  N: tập kí hiệu không kết thúc.  T: tập kí hiệu kết thúc.  S: kí hiệu không kết thúc bắt đầu.  P: tập luật cú pháp. Xâu vào w = a1a2 ... an. Đầu ra: Phân tích đối với w hoặc "sai". Kí hiệu:  α, β, γ biểu diễn xâu chứa các kí hiệu kết thúc, không kết thúc hoặc rỗng.  X, Y, Z biểu diễn các kí hiệu không kết thúc đơn.  a biểu diễn kí hiệu kết thúc. Earley parser sử dụng cách biểu diễn luật thông qua dấu chấm “•”. X→ α • β có nghĩa là:  Trong P có một luật sản xuất X→ α β.  α đã được phân tích.  β đang được chờ phân tích.  Khi dấu chấm “•” được chuyển ra sau β có nghĩa đây là một luật hoàn thiện. Thành phần X đã được phân tích đầy đủ, ngược lại nó là một luật chưa hoàn thiện. Đối với mỗi từ thứ j của xâu đầu vào, bộ phân tích khởi tạo một bộ có thứ tự các trạng thái S(j).Mỗi bộ tương ứng với một cột trong bảng phân tích. Mỗi trạng thái có dạng (X → α • β, i), thành phần sau dấu phẩy xác định rằng luật này được phát sinh từ cột thứ i. a. Khởi tạo  S(0) được khởi tạo chứa ROOT → • S. 14 22  Nếu tại bộ cuối cùng ta có luật (ROOT → S•, 0) thì có nghĩa xâu vào được phân tích thành công. b. Thuật toán Thuật toán phân tích thực hiện ba bước: Dự đoán (Predictor), Duyệt (Scanner), và Hoàn thiện (Completer) đối với mỗi bộ S(j).  Dự đoán: Với mỗi trạng thái trong S(j): (X → α • Y β, i), ta thêm trạng thái (Y → • γ, j) vào S(j) nếu có luật sản xuất Y → γ trong P.  Duyệt: Nếu a là kí hiệu kết thúc tiếp theo, với mọi trạng thái trong S(j): (X → α • a β, i), ta thêm trạng thái (X → α a • β, i) vào S(j+1).  Hoàn thiện: Với mỗi trạng thái trong S(j): (X → γ• , i), ta tìm trong S(i) trạng thái (Y → α • X β, k), sau đó thêm (Y → α X • β, k) vào S(j). Ở mỗi bộ S(j) phải kiểm tra xem trạng thái đã có chưa trước khi thêm vào để tránh trùng lặp. Ba bước này lặp lại cho đến khi không có trạng thái mới có thể thêm vào tập trạng thái. Dưới đây là mã giả của giải thuật Earley parser: function EARLEY-PARSE(words, grammar) ENQUEUE((γ → •S, 0), chart[0]) for i ← from 0 to LENGTH(words) do for each state in chart[i] do if INCOMPLETE?(state) then if NEXT-CAT(state) is a nonterminal then PREDICTOR(state, i, grammar) // non-terminal else do SCANNER(state, i) // terminal else do COMPLETER(state, i) end end return chart procedure PREDICTOR((A → α•B, i), j, grammar) for each (B → γ) in GRAMMAR-RULES-FOR(B, grammar) do ADD-TO-SET((B → •γ, j), chart[ j]) end 23 procedure SCANNER((A → α•B, i), j) if B ⊂ PARTS-OF-SPEECH(word[j]) then ADD-TO-SET((B → word[j], i), chart[j + 1]) end procedure COMPLETER((B → γ•, j), k) for each (A → α•Bβ, i) in chart[j] do ADD-TO-SET((A → αB•β, i), chart[k]) end 3.2. Mô hình đề xuất giải quyết bài toán Trên việc phân tích các hướng tiếp cận và khảo sát dữ liệu, tôi đề xuất mô hình cho bài toán như sau: Hình 9: Mô hình giải quyết bài toán Trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền Dữ Liệu Huấn Luyện Tiền Xử Lý Sự kiện phức hợp  Cây phụ thuộc Earley Parser Đầu Ra Mô hình Dữ Liệu Kiểm Thử Tiền Xử Lý Nhận Diện Trigger Xếp hạng cây Earley Parser Trích chọn ứng viên sự kiện Thực thể 24 Chúng tôi sử dụng tập dữ liệu huấn luyện (training) và phát triển (development) liên quan đến bệnh ung thư di truyền (CG dataset) đã được tách câu, tách từ (bởi Genia Sentence Splitter15 và phân tích cú pháp (sử dụng Stanford Parsing), được cung cấp bởi BioNLP Shared Task 2013. Một số lỗi trong những tập dữ liệu này được chỉnh sửa lại bằng thủ công. Mô hình đề xuất giải quyết bài toán Trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền gồm 3 thành phần chính:  Thành phần nhận diện trigger  Thành phần trích chọn ứng viên sự kiện  Thành phần xếp hạng và đưa ra kết quả 3.2.1. Thành phần nhận diện trigger Thành phần này tương tự như trong mô hình chúng tôi đã đề xuất cho bài toán trích chọn 40 kiểu sự kiện trong CG Task. Trong tập dữ liệu CG Task do BioNLP-ST 2013 cung cấp, có khoảng 95% trigger đại diện cho sự kiện chỉ chứa một token. Vì vậy, chúng tôi coi bài toán nhận diện trigger như là bài toán gán nhãn token, tương tự theo phương pháp của Bjorne và cộng sự [9]. Hệ thống sẽ xác định một token trong câu là trigger cho một trong 40 kiểu sự kiện, hoặc thuộc lớp negative (-1) nếu không là trigger. Chúng tôi sử dụng thư viện Liblinear-java16 (Fan và cộng sự, 2008) theo phương pháp hồi quy logistic với chuẩn L2 cho thành phần nhận diện trigger. Chúng tôi thực hiện theo phương pháp Grid search để lựa chọn giá trị tham số C là 0.5. Giá trị này cũng tương đương với hệ thống Turku (Bjoner và cộng sự, 2009), được thiết lập cho tất cả các bộ nhận diện của họ. Các đặc trưng chính mà chúng tôi sử dụng dựa trên ý tưởng của Miwa và cộng sự (2012) và được thể hiện trong bảng 6. Khi tiến hành thực nghiệm, số đặc trưng là khá lớn: khoảng 500,000 đặc trưng cho thành phần nhận diện trigger. Lý do mà chúng tôi lựa chọn thư viện Liblinear một phần bởi nó có hiệu năng tốt với tập đặc trưng lớn. 15 https://github.com/ninjin/geniass/ 16 25 Bảng 6: Các loại đặc trưng trong thành phần nhận diện trigger STT Loại đặc trưng Đích 1 Mức token Token đang xét 2 Đặc trưng từ liền kề Token đang xét 3 Đặc trưng từ n-gram Token đang xét 4 Đặc trưng từ điển Token đang xét 5 Đặc trưng cặp n-gram Giữa token đang xét và các tên thực thể 6 Đặc trưng đường đi ngắn nhất trong cây phân tích Giữa token đang xét và các tên thực thể 3.2.2. Thành phần trích chọn ứng viên sự kiện Thống kê cho thấy không có sự kiện nào nằm ở cả hai câu trong CG dataset. Sau quá trình nhận dạng trigger, dạng cấu trúc sự kiện được chuyển sang đồ thị phụ thuộc (biểu diễn một cây phụ thuộc được gán nhãn). Tiếp theo, thành phần trích chọn ứng viên sự kiện sử dụng Chart Parser, mà cụ thể là giải thuật Earley parser để tìm ra các cây có thể của mỗi câu. Trong quá trình kiểm thử, khi đưa các thực thể và trigger của một câu vào bộ Earley parser (bộ parser này đã học được mô hình từ các cây trong tập dữ liệu huấn luyện), sẽ sinh ra các cây có thể có trong câu đó. Với trích chọn bốn kiểu sự kiện phức hợp trong CG Task, dựa trên ý tưởng của McClosky và cộng sự (2011) – coi bài toán trích chọn sự kiện như phân tích sự phụ thuộc, chúng tôi biểu diễn các sự kiện phức hợp theo dạng cây sự kiện tương tự như cây phụ thuộc. Hướng tiếp cận của chúng tôi khác với hướng tiếp cận của McClosky và cộng sự: thay vì biểu diễn tất cả sự kiện trong câu vào một cây duy nhất, chúng tôi xây dựng một cây cho mỗi kiểu sự kiện phức hợp trong câu đó. Giải pháp này tránh được vấn đề vòng lặp nếu hai sự kiện phức có chung tham số là thực thể hoặc sự kiện khác. Hình 10 minh họa dạng biểu diễn của hai sự kiện phức hợp như là hai cây sự kiện. Để xây dựng cây sự kiện, chúng tôi tạo một nút ảo ROOT, sự kiện phức hợp đích sẽ được liên kết trực tiếp tới nút ROOT này, và các trigger và thực thể không thuộc cấu trúc con của sự kiện đích cũng được liên kết tới ROOT. Trong cây sự kiện, các nhãn lớp thực thể và sự kiện được giữ lại trong khi các cụm từ trigger và thực thể bị loại bỏ. 26 Hình 10: Minh họa dạng biểu diễn hai cây sự kiện cho hai sự kiện phức hợp Với phân tích cây sự kiện, chúng tôi sử dụng giải thuật Earley parser (Jay Earley, 1970) để tìm các cấu trúc có thể cho sự kiện. Các cây sự kiện được lưu trữ trong bộ nhớ theo dạng luật Earley. Đầu vào của bộ phân tích là các thực thể và trigger (qua thành phần nhận diện trigger), đầu ra là các ứng viên sự kiện (dạng cây sự kiện). 3.2.3. Thành phần xếp hạng và đưa ra kết quả Thành phần trích chọn ứng viên sự kiện sẽ đưa ra tất cả các cây phụ thuộc có thể của mỗi câu, vấn đề đặt ra là làm thế nào để lựa chọn được những kết quả tốt nhất? Dựa vào nghiên cứu của John Hale [13], chúng tôi xây dựng một bộ phân tích phụ thuộc theo xác suất với thuật toán Earley parser (probabilistic Earley parser) để lựa chọn các ứng viên cây sự kiện tốt nhất. Bộ phân tích phụ thuộc theo Earley parser sử dụng nội suy tuyến tính trên các xác suất từ thành phần nhận diện cạnh (theo mô hình đã đề xuất trong chương 2) và xác suất cạnh ưu tiên để tính toán trọng số (score) cho mỗi ứng viên cây sự kiện. Tham số nội suy λ được thiết lập sử dụng grid search. Với mục tiêu tính trọng số (score) cho từng cây, việc tính trọng số này dựa vào trọng số của nút ROOT. Trọng số của nút ROOT của một cây bằng tổng trọng số của các nút con của ROOT chia cho số lượng nút con. Trọng số của một nút con bằng trọng số của các cạnh có một liên kết tới nút. Công thức tính trọng số cho mỗi nút là: Occurrence (edge | argrument) (node) (arguments | node) (edges) edges node P Score P num     27 với,  num(edge) là số cạnh có một liên kết tới nút  POccurence(argument|node) là sự phân phối biểu diễn sự đồng xuất hiện của các nhãn thực thể/trigger trong các tham số của một kiểu sự kiện  P(edge|argument) = λ * PClassifier(edge|argument) + (1- λ) * PPrior(edge|argument)  λ là một tham số nội suy trong đoạn [0, 1]  PClassifier(edge|argument) là xác suất thu được từ bộ phân lớp cạnh  PPrior(edge|argument) là xác suất ưu tiên cho cạnh trong tập dữ liệu huấn luyện (xác suất điều kiện tiên nghiệm). Xác suất này bằng tổng số lần xuất hiện của điều kiện chia cho tổng số lần xuất hiện. Các cạnh liên kết trực tiếp đến ROOT và không liên quan đến sự kiện phức hợp đích có giá trị mặc định là 0. Trọng số cho một ứng viên cây sự kiện được tính như là giá trị của ROOT. Chúng tôi sử dụng một tham số ngưỡng filter_threshold để loại bỏ các cây có một cạnh với P(edge|argument) nhỏ hơn filter_threshold. Mặt khác, chúng tôi sử dụng tham số ngưỡng cutoff_threshold để lựa chọn các cây ứng viên với giá trị cao nhất. Các cây ứng viên là cấu trúc con của cây ứng viên khác bị loại bỏ từ kết quả cuối cùng. Những cây phụ thuộc tốt nhất được chuyển về dạng biểu diễn cấu trúc sự kiện (theo standoff format được sử dụng tại BioNLP Shared Task 2013) và hệ thống đưa ra kết quả cuối cùng. 28 Chương 4. Thực nghiệm và đánh giá 4.1. Môi trường thực nghiệm và dữ liệu thực nghiệm 4.1.1. Môi trường thực nghiệm Bảng 7: Môi trường thực nghiệm Thành phần Chỉ số CPU Intel Core i3 2.53GHz RAM 2G HDD 320GB Hệ điều hành Windows 7 Ultimate 4.1.2. Dữ liệu thực nghiệm Dữ liệu BioNLP-ST 2013 sử dụng định dạng standoff17 tương tự như BioNLP- ST 2011. Với dạng biểu diễn standoff, các tài liệu văn bản được tách riêng với file gán nhãn (được kết nối đến vị trí cụm từ trong văn bản thông qua các vị trí (offset) kí tự). Định dạng file BioNLP-ST 2013 được xác định bởi phần hậu tố của tên file: “.txt”, “.a1” hoặc “.a2”:  File văn bản (.txt): chứa văn bản từ tài liệu gốc. Ví dụ: RFLAT-1, a new zinc finger transcription factor that activates RANTES gene …  File gán nhãn đầu vào (.a1): chứa các nhãn thực thể cho sẵn, là đầu vào cho bài toán. Chú ý rằng những file gán nhãn .a1 được gán nhãn thủ công sẽ được cung cấp cho các đội trong cả dữ liệu huấn luyện và kiểm thử. Ví dụ: T1 Protein 0 7 RFLAT-1 T2 Protein 63 69 RANTES  File gán nhãn đích (.a2): chứa nhãn cho các sự kiện và các thông tin liên quan, là mục tiêu cho trích chọn trong bài toán. T13 Positive_regulation 53 62 activates E1 Positive_regulation:T13 Theme:T1 Cấu trúc gán nhãn chung: Tất cả file gán nhãn có cấu trúc như nhau: mỗi dòng chứa một nhãn và mỗi nhãn có một ID xuất hiện đầu tiên trong dòng, ngăn cách 17 29 phần còn lại bởi một kí tự TAB. Phần còn lại của cấu trúc khác nhau theo kiểu gán nhãn. Tất cả ID của nhãn chứa một kí tự viết hoa xác định kiểu gán nhãn và một con số. Các kí tự ID bắt đầu liên quan đến các kiểu gán nhãn sau:  T: nhãn biên của cụm từ (thực thể / trigger) (text-bound annotation)  E: sự kiện (event)  M: modification Nhãn biên của cụm từ: xác định một cụm từ nào đó là một thực thể hoặc trigger và gán một kiểu cho chúng. Nhãn chính được cho sẵn là bộ ba ngăn cách nhau bởi kí tự SPACE (type, start-offset, end-offset); start-offset là chỉ số của kí tự đầu tiên của cụm được gán nhãn trong văn bản (file “.txt”, kí tự đầu tiên bắt đầu là 0), end- offset là chỉ số của kí tự đầu tiên sau cụm được gán nhãn. Nhãn cho trigger cũng là nhãn biên của cụm từ, có định dạng như với thực thể, có ID khác với các thực thể đó. Nhãn sự kiện: có một ID duy nhất, được định nghĩa kiểu, trigger và các tham số. ID sự kiện xuất hiện đầu tiên, ngăn cách bởi một kí tự TAB. TYPE:ID xác định kiểu sự kiện và trigger của nó thông qua ID. Trigger được ngăn cách với các tham số bởi kí tự SPACE. Các tham số sự kiện là các tập các cặp ROLE:ID ngăn cách nhau bởi kí tự SPACE, với ROLE là một trong những vai trò tham số sự kiện, ID xác định thực thể hoặc sự kiện ứng với vai trò đó. Nhãn modification: sự kiện trong trạng thái được suy luận hoặc trong một ngữ cảnh phủ định [8] [15]. Nhãn này bắt đầu với một ID, ngăn cách bởi kí tự TAB với kiểu modification (Speculation hoặc Negation), và được ngăn cách tiếp theo bởi kí tự SPACE với ID của nhãn mà sự sửa đổi được áp dụng. M1 Speculation E1 M2 Negation E2 Chúng tôi tiến hành thực nghiệm với tập dữ liệu huấn luyện và phát triển18 được cung cấp bởi BioNLP-ST 2013. Kết quả đánh giá được thực hiện trên tập dữ liệu phát triển đã được gán nhãn chuẩn. Một số thống kê về dữ liệu như sau. 18 30 Bảng 8: Thống kê chung về dữ liệu thực nghiệm Dữ liệu huấn luyện Dữ liệu phát triển Câu 3040 1003 Thực thể 11034 3665 Thực thể phân biệt 3901 1554 Trigger 7370 2420 Trigger phân biệt 1426 732 Sự kiện 8803 2915 Nhãn Modification Speculation 309 103 Negation 361 111 Tổng cộng 670 214 Bảng 9: Thống kê các sự kiện trong tập dữ liệu Sự kiện STT Kiểu Số sự kiện Tập huấn luyện Tập phát triển 1 Development 275 72 2 Blood_vessel_development 410 166 3 Growth 110 43 4 Death 98 42 5 Cell_death 196 69 6 Breakdown 67 27 7 Cell_proliferation 215 43 8 Cell_division 2 1 9 Remodeling 29 4 10 Reproduction 1 0 11 Mutation 170 54 12 Carcinogenesis 125 45 13 Metastasis 284 85 14 Metabolism 49 13 15 Synthesis 33 9 16 Catabolism 24 12 17 Gene_expression 717 253 18 Transcription 96 17 19 Translation 11 2 20 Protein_processing 13 2 21 Phosphorylation 66 30 22 Dephosphorylation 4 4 23 DNA_methylation 33 3 24 DNA_demethylation 1 0 25 Pathway 163 65 26 Localization 492 127 27 Binding 197 80 28 Dissociation 3 1 29 Regulation 1026 291 31 30 Positive_regulation 1793 621 31 Negative_regulation 1126 352 32 Planned_process 693 279 33 Acetylation 5 1 34 Glycolysis 39 10 35 Glycosylation 4 0 36 Cell_transformation 148 53 37 Cell_differentiation 58 22 38 Ubiquitination 1 3 39 Amino_acid_catabolism 2 1 40 Infection 24 13 Total 8803 2915 Chúng tôi cũng tiến hành một số thống kê về các kiểu thực thể, trigger và các tham số cho từng kiểu sự kiện riêng. Bốn kiểu sự kiện phức hợp sau là mục tiêu cho bài toán trích chọn sự kiện phức hợp trong CG task: Regulation, Positive regulation, Negative regulation, Planned process. Các sự kiện này có thể nhận tham số là thực thể (18 kiểu) hoặc sự kiện khác (40 kiểu). 4.2. Giới thiệu phần mềm thực nghiệm Chúng tôi xây dựng phần mềm gồm các chức năng sau:  Nhận diện trigger và đánh giá kết quả  Trích chọn ứng viên cây sự kiện  Xếp hạng các cây phụ thuộc và đưa ra kết quả Các mô-đun chính trong phần mềm:  Trigger_feature_extract: Trích chọn đặc trưng trigger cho bài toán nhận diện trigger  Liblinear: triển khai thuật toán học máy hồi quy logistic trong nhận diện trigger (là mã nguồn mở)  Prob_Earley_parser: Trích chọn các ứng viên cây sự kiện  Trees_rank: Xếp hạng các cây phụ thuộc và đưa ra kết quả cuối cùng  Evaluator: Đánh giá kết quả các pha chạy 32 Hình 11: Các mô-đun chính trong phần mềm thực nghiệm 4.3. Thực nghiệm 4.3.1. Hướng tiếp cận thực nghiệm Chúng tôi tiến hành 2 thực nghiệm:  Thực nghiệm nhận diện trigger: Trích chọn đặc trưng trigger, phân lớp chúng vào 41 lớp (40 lớp ứng với 40 kiểu sự kiện và lớp -1 nếu không là trigger). Từ đó lấy ra kết quả là các trigger đại diện cho bốn kiểu sự kiện phức hợp.  Thực nghiệm trích chọn các sự kiện phức hợp: Trích chọn các ứng viên cây sự kiện cho mỗi câu trong văn bản y sinh học. Sau đó xếp hạng các cây này và đưa ra kết quả là bốn kiểu sự kiện phức hợp trong CG Task. Các thực nghiệm được tiến hành trên tập dữ liệu huấn luyện (training) và tập dữ liệu phát triển (development) được cung cấp bởi BioNLP-ST 2013. Tập dữ liệu phát triển giúp chúng tôi đánh giá được mô hình đã đề xuất trên dữ liệu mới. Tiêu chí “khớp nhau hoàn toàn” (trình bày ở phần I.5) được áp dụng cho quá trình đánh giá. 4.3.2. Thực nghiệm nhận diện trigger Tỉ lệ số trigger chỉ chứa một token trong tập huấn luyện (CG dataset) là 7078/7410 = 95.5%, trong tập dữ liệu phát triển (CG dataset) là 2350/2453 = 95.8%. Theo Jari Bjorne và các cộng sự [9], Chúng tôi đơn giản hóa bài toán bằng cách thu 33 gọn các trigger chứa nhiều token về các từ đại diện (head word) cú pháp của chúng (ví dụ: “acts” thay cho “acts as a costimulatory signal”). Hình 9 là ví dụ về một câu trong tập dữ liệu huấn luyện cho nhận diện trigger, trong đó các thực thể được bao trong tag , ; các trigger được bao trong tag , . Hình 12: Ví dụ về một câu trong tập dữ liệu huấn luyện cho nhận diện trigger Mô hình được cài đặt sử dụng bộ phân lớp hồi quy logistic dựa vào các loại đặc trưng: Bảng 10: Các loại đặc trưng trong nhận diện trigger STT Loại đặc trưng Mô tả đặc trưng 1 Đặc trưng token Bao gồm cách viết hoa, sự xuất hiện của dấu câu, kí tự số, từ gốc, bigram và trigram, sự xuất hiện trong từ điển chứa trigger (được xây dựng dựa vào tập dữ liệu huấn luyện). 2 Đặc trưng tần suất Bao gồm số thực thể trong câu 3 Chuỗi phụ thuộc Các chuỗi phụ thuộc đến độ sâu là ba, được xây dựng từ token được phân lớp. Tại mỗi độ sâu, cả các đặc trưng mức token và kiểu phụ thuộc được đưa vào, cũng như thứ tự của các kiểu phụ thuộc trong chuỗi. Sau khi tiến hành thực nghiệm gồm các bước: 1) Trích chọn đặc trưng trigger 2) Học (theo phương pháp hồi quy logistic) 3) Kiểm thử (theo phương pháp hồi quy logistic) Chúng tôi thu được kết quả nhận diện trigger: độ chính xác 96.8%, độ hồi tưởng 94.4% và độ đo F1 95.6%. In contrast, tunicamycin had little effect on the viability and MTT responses of the cells used. 34 Chúng tôi cũng lấy kết quả từ thành phần nhận diện trigger này là đầu vào cho thành phần trích chọn ứng viên sự kiện, cho bốn kiểu sự kiện phức hợp: Regulation, Positive regulation, Negative regulation và Planned process. 4.3.3. Thực nghiệm trích chọn sự kiện phức hợp Chúng tôi xây dựng một bộ phân tích bằng phương pháp xác suất theo Earley parser để lựa chọn các ứng viên cây sự kiện tốt nhất. Các thiết lập tối ưu cho tập tham số được sử dụng trên tập dữ liệu phát triển (development test) để đánh giá là: α=0.5; filter_threshold=0.2; cutoff_threshold=0.45. Để minh họa cho dữ liệu và các cây ứng viên sự kiện được sinh ra từ giải thuật Earley parser, ta xét hai ví dụ sau:  Tập luật (ví dụ 1): ROOT ::= NEGATIVE_REGULATION NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER CAUSE THEME NEGATIVE_REGULATION ::= NEGATIVE_REGULATION_TRIGGER THEME CAUSE NEGATIVE_REGULATION ::= CAUSE NEGATIVE_REGULATION_TRIGGER THEME NEGATIVE_REGULATION ::= CAUSE THEME NEGATIVE_REGULATION_TRIGGER NEGATIVE_REGULATION ::= THEME NEGATIVE_REGULATION_TRIGGER CAUSE NEGATIVE_REGULATION ::= THEME CAUSE NEGATIVE_REGULATION_TRIGGER CELL_PROLIFERATION ::= CELL_PROLIFERATION_TRIGGER THEME CELL_PROLIFERATION ::= THEME CELL_PROLIFERATION_TRIGGER METASTASIS ::= METASTASIS_TRIGGER THEME METASTASIS ::= THEME METASTASIS_TRIGGER NEGATIVE_REGULATION_TRIGGER ::= inhibiting CELL_PROLIFERATION_TRIGGER ::= growth METASTASIS_TRIGGER ::= metastasis CAUSE ::= GENE_OR_GENE_PRODUCT THEME ::= CELL_PROLIFERATION THEME ::= METASTASIS THEME ::= CELL CELL ::= tumor_cell GENE_OR_GENE_PRODUCT ::= u-995 Cây phân tích cho ví dụ 1: Đầu vào: u995 inhibiting tumor_cell growth metastasis 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 35 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibiting](0) 0:[THEME](0) 0:[METASTASIS](0) 0:[THEME](0) 0:[CELL_PROLIFERATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[tumor_cell](0) 0:[CELL_PROLIFERATION_TRIGGER](0) > 0:[growth](0) 0:[METASTASIS_TRIGGER](0) > 0:[metastasis](0)  Tập luật (ví dụ 2): ROOT ::= NEGATIVE_REGULATION SIMPLE_CHEMICAL NEGATIVE_REGULATION_TRIGGER ::= inhibited LOCALIZATION_TRIGGER ::= migration THEME ::= LOCALIZATION LOCALIZATION ::= LOCALIZATION_TRIGGER THEME LOCALIZATION ::= THEME LOCALIZATION_TRIGGER CELL ::= huvec SIMPLE_CHEMICAL ::= thymidine Cây phân tích cho ví dụ 2: Đầu vào: u995 inhibited huvec migration thymidine 0:[ROOT](0) 0:[NEGATIVE_REGULATION](0) 0:[CAUSE](0) 0:[GENE_OR_GENE_PRODUCT](0) > 0:[u995](0) 0:[NEGATIVE_REGULATION_TRIGGER](0) > 0:[inhibited](0) 0:[THEME](0) 0:[LOCALIZATION](0) 0:[THEME](0) 0:[CELL](0) > 0:[huvec](0) 0:[LOCALIZATION_TRIGGER](0) > 0:[migration](0) 0:[SIMPLE_CHEMICAL](0) > 0:[thymidine](0) 36 Bảng 11 là kết quả trích chọn sự kiện trên tập dữ liệu phát triển, theo phương thức decomposition. Theo phương phức này, một sự kiện với nhiều hơn một tham số, chẳng hạn: event-type:trigger-id arg1-type:arg1-id arg2-type:arg2-id được phân tách thành nhiều sự kiện đơn tham số: event-type:trigger-id arg1-type:arg1-id event-type:trigger-id arg2-type:arg2-id Bảng 11: Kết quả với trích chọn các sự kiện phức hợp liên quan đến bệnh ung thư di truyền dựa vào mô hình phân tích cây phụ thuộc STT Kiểu sự kiện F1 (%) 1 Regulation 69.55 2 Positive_regulation 68.13 3 Negative_regulation 68.57 4 Planned_process 49.99 4.4. Nhận xét và thảo luận Các phân tích từ tập dữ liệu phát triển (development set) mà chúng tôi thực hiện cho thấy thành phần nhận diện trigger đưa ra kết quả với độ chính xác cao: F1=95.6%. Chúng tôi chọn ra ngẫu nhiên 50 false negative event (missing event - thực tế là sự kiện nhưng hệ thống dự đoán không phải là sự kiện) để phân tích lỗi. Có 29 trigger và 21 sự kiện mà hệ thống không dự đoán là sự kiện. Bảng 12 liệt kê một số kiểu lỗi chính. Bảng 12: Một số kiểu lỗi nhận diện thiếu sự kiện STT Nguyên nhân Trigger Sự kiện 1 Nhập nhằng kiểu sự kiện 9 2 Đồng tham chiếu 6 3 Không khớp với mẫu sự kiện 7 4 Không có thể hiện trong tập huấn luyện 7 4 5 Không có tham số 7 6 Không có luật Earley 10 Hiệu năng khi trích chọn các sự kiện phức hợp đạt độ chính xác kém hơn so với các sự kiện đơn (các sự kiện chỉ nhận tham số là thực thể) do sự phức tạp về cấu trúc của nó. Các tham số của sự kiện phức hợp cũng đa dạng về kiểu thực thể/sự kiện, điều 37 này ảnh hưởng đến hiệu nặng khi trích chọn chúng. Bảng 13 là thống kê các kiểu thực thể/sự kiện là tham số cho kiểu sự kiện Regulation. Các mẫu tổng quát cho các sự kiện được mô tả trong bảng 14. Bảng 13: Thống kê các kiểu thực thể/sự kiện là tham số cho sự kiện Regulation Tham số Training Development Kiểu thực thể/sự kiện Số lượng Kiểu thực thể/sự kiện Số lượng Theme:Entity Gene_or_gene_product 67 Gene_or_gene_product 10 Cancer 32 Cell 7 Cell 26 Cancer 3 Cause:Entity Gene_or_gene_product 25 Gene_or_gene_product 4 Cancer 23 Cancer 3 Cell 12 Theme:Event Blood_vessel_development 36 Negative_regulation 13 Positive_regulation 29 Blood_vessel_development 12 Gene_expression 25 Positive_regulation 11 Localization 24 Metastasis 8 Cell_proliferation 21 Cell_proliferation 8 Development 17 Pathway 7 Negative_regulation 16 Localization 5 Carcinogenesis 15 Gene_expression 5 Metastasis 13 Binding 5 Growth 13 Regulation 4 Cell_death 13 Development 4 Regulation 12 Cell_transformation 4 Pathway 12 Carcinogenesis 3 Binding 12 Cell_death 3 Cell_transformation 10 Cause:Event Negative_regulation 41 Negative_regulation 12 Blood_vessel_development 17 Positive_regulation 9 Localization 15 Metastasis 8 Positive_regulation 15 Blood_vessel_development 8 Development 14 Development 4 Carcinogenesis 13 Regulation 4 Gene_expression 12 Cell_transformation 4 Carcinogenesis 3 Gene_expression 3 38 Bảng 14: Mẫu các sự kiện phức hợp trong CG task19 STT Kiểu sự kiện Tham số 1 Regulation Theme(Any), Cause?(Any) 2 Positive regulation Theme(Any), Cause?(Any) 3 Negative regulation Theme(Any), Cause?(Any) 4 Planned process Theme*(Any), Instrument*(Entity) Trong đó, “Entity” là bất kì thực thể nào trong 18 kiểu thực thể; “Any” là bất kì sự kiện nào trong 40 kiểu sự kiện trong CG task. Khi so sánh kết quả với mô hình cơ sở (mô hình đã đề xuất trong chương 2), mô hình mới cho hiệu năng cao hơn từ 5-13%. Điều này cho thấy ưu điểm của mô hình mới dựa trên phân tích cây phụ thuộc khi trích chọn các sự kiện phức hợp. Bảng 15: So sánh kết quả giữa mô hình cơ sở và mô hình mới đề xuất (dạng bảng) STT Kiểu sự kiện F1 % (Mô hình cơ sở) F1 % (Mô hình mới) 1 Regulation 61.48 69.55 2 Positive_regulation 57.76 68.13 3 Negative_regulation 55.60 68.57 4 Planned_process 45.42 49.99 Hình 13: So sánh kết quả giữa mô hình cơ sở và mô hình mới đề xuất (dạng biểu đồ) 19 39 Kết luận và định hướng Với các kết quả đạt được, báo cáo nghiên cứu khoa học này đã đóng góp:  Trình bày khái quái về bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Trình bày hai hướng tiếp cận điển hình giải quyết bài toán.  Trình bày một mô hình cơ sở đã đề xuất, giải quyết cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền.  Đề xuất và xây dựng một mô hình dựa trên học máy có giám sát với tập giàu đặc trưng, tập luật và bộ phân tích quy hoạch động Earley parser, giải quyết cho bài toán trích chọn sự kiện phức hợp trong văn bản về bệnh ung thư di truyền.  Thực nghiệm dựa trên tập dữ liệu phát triển (cung cấp bởi BioNLP-ST 2013) cho kết quả khả quan hơn mô hình cơ sở: độ đo F1 với trích chọn các sự kiện phức hợp đạt cao nhất khoảng 70%.  Kết quả dựa trên sự kết hợp của hai mô hình đề xuất cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền (cho cả sự kiện đơn và sự kiện phức hợp) được được công bố trong bài báo khoa học: Mai-Vu Tran, Nigel Collier, Hoang-Quynh Le, Van-Thuy Phi, Thanh-Binh Pham. “Exploring a Probabilistic Earley Parser for Event Decomposition in Biomedical Texts”. Proceedings of the BioNLP Shared Task 2013 Workshop. Association for Computational Linguistics (ACL), 2013. Accepted. Định hướng nghiên cứu:  Tiếp tục cải tiến mô hình khi trích chọn các sự kiện phức hợp và tránh vấn đề quá khớp (over-fitting) để áp dụng mô hình với đa miền (cross-domain) y sinh học. 40 Tài liệu tham khảo Tiếng Anh [1] C. Hong-Woo, T. Ohta, J.D. Kim, and J. Tsujii, "Building Patterns for Biomedical Event Extraction,". In the 15th International conference on Genome Informatics GIW 163-164. 2004. [2] David Campos, Sérgio Matos and José Luís Oliveira (2012). Biomedical Named Entity Recognition: A Survey of Machine-Learning Tools, Theory and Applications for Advanced Text Mining, Prof. Shigeaki Sakurai (Ed.), ISBN: 978-953-51-0852-8, InTech, DOI: 10.5772/51066. [3] David Martinez and Timothy Baldwin. Word sense disambiguation for event trigger word detection in biomedicine, BMC Bioinformatics 2011, 12(Suppl 2):S4. [4] David McClosky, Mihai Surdeanu, and Chris Manning. 2011. Event extraction as dependency parsing. In Proceedings of the Association for Computational Linguistics: Human Language Technologies 2011 Conference (ACL- HLT’11), Main Conference, Portland, Oregon, June. [5] David McClosky, Mihai Surdeanu, and Christopher D. Manning. 2011b. Event extraction as dependency parsing in BioNLP 2011. In BioNLP 2011 Shared Task. [6] Earley, Jay (1968). An Efficient Context-Free Parsing Algorithm. Carnegie- Mellon Dissertation. [7] Eugene Charniak and Mark Johnson. 2005. Coarse-to-Fine n-Best Parsing and MaxEnt Discriminative Reranking. In ACL. The Association for Computer Linguistics. [8] Eisner, Jason, and Nathaniel Filardo. Use of Modality and Negation in Semantically-Informed Syntactic MT. Datalog 2.0. [9] Jari Bjorne, Juho Heimonen, Filip Ginter, Antti Airola, Tapio Pahikkala, and Tapio Salakoski. 2009. Extracting complex biological events with rich graph- based feature sets. In Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task, pages 10–18, Boulder, Colorado, June. Association for Computational Linguistics. 41 [10] Jin-Dong Kim, Sampo Pyysalo, Tomoko Ohta et al. Overview of BioNLP Shared Task 2011. In Proceedings of the BioNLP Shared Task 2011 Workshop (2011), pp. 1-6. [11] Jin-Dong Kim, Tomoko Ohta, Sampo Pyysalo, Yoshinobu Kano, and Jun’ichi Tsujii. 2009. Overview of BioNLP’09 shared task on event extraction. In Proceedings of the Workshop on BioNLP: Shared Task, pages 1–9. Association for Computational Linguistics. [12] Jin-Dong Kim, Yue Wang, Toshihisa Takagi, and Akinori Yonezawa. 2011b. Overview of the Genia Event task in BioNLP Shared Task 2011. In Proceedings of the BioNLP 2011 Workshop Companion Volume for Shared Task, Portland, Oregon, June. Association for Computational Linguistics. [13] Hale, J. (2001). A probabilistic Earley parser as a psycholinguistic model. In Proceedings of NAACL, volume 2, pages 159-166. [14] Makoto Miwa, Paul Thompson, John McNaught, Douglas B Kell and Sophia Ananiadou (2012). Extracting semantically enriched events from biomedical literature. BMC Bioinformatics, 13:108 [15] Minka, T. (2001). Algorithms for maximum-likelihood logistic regression. Statistics Tech Report[J], volume 758. [16] Poon, Hoifung, and Lucy Vanderwende. Joint inference for knowledge extraction from biomedical literature. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010. [17] Velldal, Erik, et al. Speculation and negation: Rules, rankers, and the role of syntax. Computational Linguistics 38.2 (2012): 369-410.

Các file đính kèm theo tài liệu này:

kltn_phi_van_thuy_final_1903.pdf