Luận án Một số thuật toán dóng hàng các mạng protein

Trong chương này chúng tôi đã trình bày về bài toán dóng hàng toàn cục mạng tương tác protein - protein và đề xuất các thuật toán mới để giải quyết bài toán này. Các thuật toán đề xuất dựa trên 2 hướng tiếp cận. Hướng tiếp cận heuristic và hướng tiếp cận metaheuristic dựa trên phương pháp tối ưu đàn kiến. Với hướng tiếp cận heuristic, thuật toán FASTAN có ưu điểm là cho lời giải nhanh và kết quả tốt hơn so với các thuật toán trước đó. Tuy nhiên nhược điểm của phương pháp FASTAN là khi tăng thời gian chạy thì chất lượng lời giải được cải thiện không đáng kể. Để khắc phục nhược điểm trên của FASTAN, chúng tôi đề xuất các thuật toán mới ACOGNA và ACOGNA++ dựa trên phương pháp tối ưu đàn kiến để xây dựng các dóng hàng. Thuật toán ACOGNA bao gồm nhiều vòng lặp, trong mỗi vòng lặp của thuật toán, tất cả các kiến xây dựng lời giải, sau đó kiến có chất lượng lời giải tốt nhất được lựa chọn để cập nhật vết mùi và áp dụng tìm kiếm cục bộ để tăng chất lượng lời giải. Các thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra rằng thuật toán chúng tôi đề xuất cho kết quả tốt hơn các thuật toán gần đây đối với 2 tiêu chuẩn GNAS và EC đối với tất cả các trường hợp. Mặc dù không sử dụng tiêu chuẩn S3 làm hàm mục tiêu, nhưng trong các trường hợp mà đồ thị nguồn là đồ thị dày thuật toán ACOGNA cho kết quả S3 tốt hơn so với thuật toán MAGNA++ (Là thuật toán tốt nhất tới thời điểm đó tối ưu theo tiêu chuẩn S3). Thuật toán ACOGNA++ sử dụng sơ đồ cấu trúc giống với thuật toán ACOGNA nhưng có nhiều điểm cải tiến trong cách xác định thông tin heuristic, cách lưu trữ và cập nhật thông tin vết mùi và sử dụng kiến trong cả 2 giai đoạn xác định đỉnh tiếp theo của đồ thị nguồn được dóng hàng và tìm ảnh của nó trên đồ thị đích. Thuật toán ACOGNA++ cho phép thay đổi các tiêu chuẩn tối ưu để tối ưu theo các hàm mục tiêu GNAS, EC và S3. Các thực nghiệm đã cho thấy112 thuật toán ACOGNA++ cho chất lượng lời giải tốt hơn so với các thuật toán được so sánh theo các tiêu chuẩn này. Các thuật toán đề xuất trong chương này tạo ra các dóng hàng toàn cục giữa hai mạng PPI có chất lượng dóng hàng tốt hơn so với các thuật toán trước đó đồng nghĩa với việc xác định được các vùng mạng được bảo tồn giữa các mạng PPI chính xác hơn. Các vùng mạng được bảo tồn này sẽ giúp chuyển hiệu quả các kiến thức về chức năng của tế bào từ mô hình các loài đã được nghiên cứu sâu, chẳng hạn như nấm men, ruồi giấm, hoặc sâu sang con người ít được nghiên cứu hơn [Guzzi & Milenković, 2018; R. Sharan & Ideker, 2006]. Ngoài ra, các kết quả của bài toán dóng hàng hai mạng PPI còn được sử dụng để phục vụ cho bài toán xây dựng cây phân loài [O. Kuchaiev et al., 2010].

132 trang | Chia sẻ: yenxoi77 | Lượt xem: 511 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Một số thuật toán dóng hàng các mạng protein, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

h của G2. 3.3.5. Quy tắc cập nhật vết mùi Sau khi tất cả các kiến đã xây dựng lời giải, lời giải của kiến tốt nhất được áp dụng thủ tục tìm kiếm cục bộ để tăng chất lượng lời giải. Lời giải tốt nhất này được sử dụng để cập nhật vết mùi trên các cạnh theo quy tắc cập nhật mùi SMMAS [Hoang Xuan Huan et al., 2013], như dưới đây: (1 ).i i ij j j       , (3.11) . . maxi j min j=f(i) j f(i)           , (3.12) trong đó max và min là các tham số được cho trước, ∈ (0,1) là tham số bay hơi cho trước quy định 2 thuộc tính,  nhỏ thể hiện việc tìm kiếm quanh thông tin học tăng cường,  lớn thể hiện tính khám phá. 95 3.3.6. Thủ tục tìm kiếm cục bộ Trong mỗi vòng lặp, sau khi tất cả các kiến đã xây dựng xong lời giải, lời giải tốt nhất 𝐴12 được kiến xây dựng sẽ được áp dụng tìm kiếm cục bộ. Thủ tục tìm kiếm cục bộ được cải tiến từ thủ tục rebuild trong FASTAN. Điểm khác biệt của ACOGNA so với FASTAN là khi chất lượng dóng hàng tăng lên khi gọi thủ tục dóng hàng cục bộ thì giá trị nkeep sẽ được điều chỉnh tăng lên để giữ được nhiều cặp đỉnh tốt hơn và giảm thời gian xây dựng lại các dóng hàng. 3.4. Thuật toán ACOGNA++ Mục này giới thiệu một thuật toán được phát triển từ thuật toán ACOGNA gọi là ACOGNA++. Như đã giới thiệu ở mục 3.3, thuật toán ACOGNA sử dụng tiêu chuẩn GNAS là tiêu chuẩn tối ưu và chỉ sử dụng phương pháp ACO để tìm ảnh của các đỉnh của đồ thị G1. Ý tưởng của thuật toán ACOGNA++ có một số điểm mới so với thuật toán ACOGNA là:  Thứ nhất ACOGNA++ cho phép thay đổi tùy chọn tiêu chuẩn tối ưu theo các hàm mục tiêu là GNAS, EC, và S3. Đặc điểm này cho phép ACOGNA++ có thể tối ưu theo các hàm mục tiêu khác nhau.  Thứ 2 là giải thuật đàn kiến được áp dụng cho cả 2 giai đoạn là tìm thứ tự các đỉnh của đồ thị G1 được dóng hàng và tìm ảnh của các đỉnh này trên đồ thị G2. Ưu điểm của cải tiến này là ACOGNA++ có thể khai thác thông tin học tăng cường ngay từ giai đoạn tìm đỉnh tiếp theo của G1 được dóng hàng mà ACOGNA không làm được.  Thứ 3 là thay đổi cách xác định thông tin heuristic, cách lựa chọn đỉnh của đồ thị đích để dóng hàng với 1 đỉnh thuộc đồ thị nguồn và cách tổ chức và cập nhật thông tin vết mùi. 96 Các mục tiếp theo sẽ phân tích chi tiết những điểm mới này. 3.4.1. Mô tả thuật toán Với đồ thị cấu trúc được xây dựng giống như thuật toán ACOGNA, để xây dựng một dóng hàng, các kiến sẽ thực hiện quá trình lặp để xác định 1 đỉnh thuộc tầng 1 của đồ thị cấu trúc và một đỉnh thuộc tầng 2 sẽ được dóng hàng với nó. Quá trình này kết thúc khi tất cả các đỉnh thuộc đồ thị G1 đã được dóng hàng. Sau khi tất cả các kiến xây dựng xong dóng hàng, thủ tục tìm kiếm cục bộ sẽ được áp dụng trên lời giải tốt nhất do các kiến tìm được trong vòng lặp để nâng cao chất lượng. Sau đó sử dụng quy tắc cập nhật mùi SMMAS để cập nhật thông tin vết mùi theo lời giải tốt nhất tìm được. Tùy theo tiêu chuẩn tối ưu được lựa chọn là GNAS, EC hay S3, tiêu chuẩn được sử dụng để lựa chọn lời giải tốt nhất sẽ được thay đổi tương ứng theo các hàm mục tiêu này. 3.4.2. Vết mùi Vết mùi lưu thông tin học tăng cường để đánh giá một cặp đỉnh được dóng hàng là tốt hay không. Thuật toán ACOGNA++ sử dụng 2 ma trận vết mùi. Vết mùi 𝜏1 𝑖 đặt trên các đỉnh của đồ thị G1 để xác định các đỉnh thuộc đồ thị nguồn sẽ được ưu tiên lựa chọn để dóng hàng. Vết mùi 𝜏𝑗 𝑖 đặt trên cạnh (i,j) của đồ thị cấu trúc, dùng để xác định đỉnh 2j G được dóng hàng với đỉnh 1 i G . Các vết mùi được khởi tạo bằng giá trị 𝜏𝑚𝑎𝑥 và được cập nhật lại sau mỗi vòng lặp. 97 3.4.3. Thủ tục xác định cặp đỉnh dóng hàng Thủ tục này gồm 2 bước, đầu tiên xác định đỉnh được dóng hàng trên đồ thị G1 và sau đó là xác định ảnh của nó trên đồ thị G2. Xác định đỉnh được dóng hàng thuộc đồ thị nguồn Khác với thủ tục find_next_node trong FASTAN và ACOGNA sử dụng để xác định đỉnh 1i RV sẽ được dóng hàng. Thuật toán ACOGNA+ sử dụng thuật toán ACO để xác định đỉnh i được dóng hàng như dưới đây. Gọi tập T chứa các đỉnh 𝑖 sao cho 1i RV và có nhiều cạnh nối với các đỉnh của 1V nhất. Khi đó, đỉnh 𝑖 ∈ 𝑇 được chọn ngẫu nhiên theo xác suất: 1 1 ( ) .[ ] ( ) .[ ] i a b i i j a b jj T p        , (3.13) trong đó 𝜂𝑖 là số lượng đỉnh kề của i trong đồ thị 𝐺1, 𝜏1 𝑖 là vết mùi 𝜏1 𝑖 đặt trên các đỉnh của đồ thị G1 như mô tả ở mục 3.4.2. Việc sử dụng ACO để tìm đỉnh thuộc đồ thị nguồn được dóng hàng sẽ giúp khai thác tốt thông tin học tăng cường thông qua vết mùi mà các kiến để lại. Điều này giúp cải thiện chất lượng lời giải tốt hơn so với cách lựa chọn ngẫu nhiên trong FASTAN và ACOGNA. Xác định ảnh của điểm được dóng hàng trên đồ thị đích G2 Sau khi xác định được đỉnh 1i V đỉnh 2j V được các kiến lựa chọn theo xác suất cho bởi công thức 3.14. 2 ( ) .[ ] ( ) .[ ] i c i d j ji j i c i d k kk RV p        . (3.14) Khi chạy thuật toán ACOGNA++ để tối ưu theo hàm mục tiêu GNAS thì thông tin heuristic được sử dụng giống thuật toán ACOGNA. Trong trường hợp 98 chạy thuật toán ACOGNA++ tối ưu theo hàm mục tiêu EC, hoặc S3, thông tin heuristic 𝜂𝑗 𝑖 lần lượt được tính theo các công thức 3.15 hoặc 3.16.  11 1 ( [V i]) i j f E G E    , (3.15)     1 1 1 1 1 2 1 ( [V i]) ( ( ) j ) ( [V i]) i j f E G E E G f V f E G           . (3.16) 3.4.4. Quy tắc cập nhật vết mùi Sau mỗi vòng lặp, lời giải tốt nhất được xác định được sử dụng để cập nhật lại vết mùi theo quy tắc cập nhật mùi SMMAS. Vết mùi đặt trên các đỉnh của đồ thị G1 được cập nhật theo công thức 3.17 và 3.18: 𝜏1 𝑖 ← (1 − 𝜌). 𝜏1 𝑖 + Δ𝜏𝑖 (3.17) với Δ𝜏𝑖 = { 𝜌. 𝜏𝑚𝑖𝑛 𝑛ế𝑢 𝑘ℎô𝑛𝑔 𝑐ó đỉ𝑛ℎ 𝑘ề 𝜌. 𝜏𝑚𝑎𝑥𝑛ế𝑢 𝑐ó í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 đỉ𝑛ℎ 𝑘ề , (3.18) trong đó f(i)G2 là đỉnh thuộc đồ thị G2 được lựa chọn để dóng hàng với đỉnh i trên đồ thị G1 Vết mùi đặt trên các cạnh của đồ thị cấu trúc được cập nhật theo công thức (3.19) và (3.20) (1 ).i i ij j j       , (3.19) . . ( ) maxi j min j=f(i) j f i           . (3.20) 99 3.4.5. Thủ tục tìm kiếm cục bộ Thủ tục tìm kiếm cục bộ của ACOGNA++ được sử dụng tương tự như trong ACOGNA. 3.5. Kết quả thực nghiệm 3.5.1. Dữ liệu thực nghiệm Việc lựa chọn các bộ dữ liệu để so sánh các thuật toán rất quan trọng. Bộ dữ liệu thường được sử dụng để so sánh các phương pháp dóng hàng mạng tương tác protein là bộ dữ liệu IsoBase được giới thiệu bởi Daniel Park và các cộng sự [Park, Singh, Baym, Liao, & Berger, 2010]. Bộ dữ liệu IsoBase được cung cấp miễn phí tại địa chỉ Trong các nghiên cứu gần đây nhất, khi đề xuất các thuật toán mới cho bài toán dóng hàng toàn cục mạng tương tác protein-protein như Spinal năm 2013 [Aladag & Erten, 2013], MAGNA và MAGNA++ năm 2015 [V Vijayan et al., 2015] hay ModuleAlign năm 2016 [Hashemifar et al., 2016] các tác giả cũng sử dụng bộ dữ liệu này để đánh giá chất lượng các thuật toán đề xuất. Luận án cũng sử dụng bộ dữ liệu này để so sánh các thuật toán đề xuất với các thuật toán hiện thời để đảm bảo độ tin cậy và sự khách quan. IsoBase là bộ dữ liệu mạng tương tác protein-protein của các loài động vật trong tự nhiên, trong đó bao gồm các mạng tương tác protein-protein của các loài như: giun, ruồi giấm, khỉ và người. Mô tả về các tập dữ liệu này được chỉ ra trong bảng 3.1. Từ các bộ dữ liệu đó chúng tôi tạo ra sáu cặp mạng tương tác để dóng hàng (ce-dm, ce-hs,ce-sc,dm-hs, dm-sc,hs-sc). 100 Bảng 3.1. Mô tả bộ dữ liệu Tập dữ liệu Ký hiệu Số lượng protein Số tương tác C.elegans (Worm) ce 2805 4495 D. melanogaster (fly) dm 7518 25635 S.cerevisiae (yeast) sc 5499 31261 H.sapiens (human) hs 9633 34327 3.5.2. Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL Có nhiều thuật toán dóng hàng toàn cục hai mạng tương tác protein – protein đã được đề xuất trước đó, tuy nhiên trong bài báo [Aladag & Erten, 2013], Aladag đã tiến hành các thực nghiệm trên bộ dữ liệu IsoBase và cho thấy thuật toán SPINAL cho kết quả tốt hơn các thuật toán khác khi đánh giá theo tiêu chuẩn GNAS và |E12| (số tương tác protein được bảo tồn khi dóng hàng mạng PPI nguồn với mạng PPI đích). Vì vậy các thực nghiệm ở mục này chỉ tiến hành so sánh 2 thuật toán heuristic là thuật toán FASTAN và SPINAL trên các bộ dữ liệu đã được mô tả ở mục 3.5.1 với tiêu chuẩn GNAS và |E12|. Để đảm bảo tính công bằng về mặt thời gian, cả 2 thuật toán đều được chạy lại trên máy tính có cùng cấu hình và cùng hệ điều hành. Chú ý rằng trong công thức 3.1 tính giá trị GNAS, 𝛼 ∈ [0,1] là tham số thể hiện sự tương quan giữa độ tương đồng về mặt cấu trúc và sự tương đồng về mặt trình tự. Nếu 𝛼 dần về 0 có nghĩa là độ tương đồng về trình tự giữ vai trò quan trọng hơn, ngược lại khi 𝛼 dần về 1 nghĩa là độ tương đồng về mặt cấu trúc giữ vai trò quan trọng hơn. Giống như các thực nghiệm được tiến hành trong đề xuất thuật toán SPINAL của Aladag [Aladag & Erten, 2013], ở đây 101 luận án tiến hành các thực nghiệm ứng với các giá trị của 𝛼 thay đổi lần lượt là 0,3; 0,4; 0,5; 0,6; 0,7 để đảm bảo lời giải của thuật toán đề xuất không quá thiên về 1 trong 2 độ tương đồng trình tự hoặc độ tương đồng về mặt cấu trúc. Thuật toán FASTAN được chạy với các giá trị khác nhau của tham số 𝑛𝑘𝑒𝑒𝑝 lần lượt là 1%, 5%, 10%, 20% và 50%. Kết quả thực nghiệm cho thấy 𝑛𝑘𝑒𝑒𝑝= 1% thuật toán FASTAN sẽ thu được kết quả tốt nhất. Vì vậy các kết quả được trình bày dưới đây tương ứng với giá trị 𝑛𝑘𝑒𝑒𝑝 = 1%. Các thực nghiệm được chạy trên máy tính có cấu hình như sau: CPU Intel Core 2 Duo 2.53GHz, RAM DDR2 4GB sử dụng hệ điều hành Ubuntu 13.10 64 bit. Như đã trình bày ở trên thuật toán FASTAN là thuật toán ngẫu nhiên nên sẽ được chạy 100 lần với từng cặp mạng PPI. Các kết quả GNAS, |E12| và thời gian chạy được tính theo giá trị trung bình của 100 lần chạy. Các kết quả so sánh về điểm dóng hàng và thời gian chạy được thể hiện ở các bảng 3.2 và 3.3, kết quả tốt hơn được thể hiện bởi chữ in đậm. Kết quả thực nghiệm từ bảng 3.2 chỉ ra rằng FASTAN có thể tìm ra lời giải (dóng hàng toàn cục) có điểm GNAS và |E12| tốt hơn nhiều so với Spinal (p-value <2.2e-16 được tính sử dụng t-test dựa trên kết quả GNAS và giá trị |E12| của 100 lần chạy) đối với cả 6 cặp mạng PPI. Ngoài ra, kết quả kém nhất của FASTAN từ 100 lần chạy đối với tất cả các cặp mạng protein được dóng hàng đều tốt hơn các kết quả dóng hàng tạo ra bởi Spinal. 102 . . Datasets α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL ce-dm 778.46 2560.7 717.99 2343.0 1034.20 2564.6 941.19 2320.0 1290.11 2567.2 1159.93 2300.0 1545.86 2567.7 1350.59 2237.0 1801.24 2567.6 1586.87 2258.0 ce-hs 863.46 2842.8 728.26 2370.0 1144.17 2838.1 993.07 2446.0 1429.89 2844.9 1229.95 2437.0 1708.81 2838.0 1501.61 2487.0 1994.87 2843.4 1764.93 2512.0 ce-sc 834.79 2761.1 709.12 2326.0 1109.93 2761.2 963.28 2384.0 1389.21 2769.7 1168.95 2323.0 1663.39 2766.5 1422.74 2361.0 1936.83 2763.1 1683.13 2398.0 dm-hs 2260.31 7478.3 1883.22 6189.0 3007.11 7481.9 2517.23 6235.0 3755.36 7429.0 3160.48 6282.0 4496.45 7478.2 3790.79 6291.0 5242.32 7478.8 4451.6 6344.0 dm-sc 1977.82 6569.7 1579.06 5203.0 2631.85 6565.5 2075.14 5150.0 3290.03 6570.7 2668.65 5311.0 3950.16 6577.4 3180.27 5283.0 4603.41 6572.3 3759.07 5360.0 hs-sc 2268.21 7531.8 1731.81 5703.0 3017.96 7528.5 2253.66 5593.0 3772.96 7535.2 2839.00 5651.0 4520.51 7527.0 3434.54 5706.0 5279.88 7538.1 4066.22 5798.0 Bảng 3.2. So sánh thuật toán FASTAN và thuật toán Spinal theo các hàm mục tiêu GNAS và giá trị | E12| với các giá trị tham số α khác nhau 103 Mặc dù đã so sánh về độ phức tạp của FASTAN và Spinal, trong phần này chúng tôi so sánh cả thời gian chạy của 2 thuật toán. Kết quả so sánh thời gian chạy được thể hiện trong bảng 3.3. Bảng 3.3. Thời gian chạy trung bình của thuật toán FASTAN (tính theo đơn vị giây) và thuật toán SPINAL khi chạy với cùng bộ dữ liệu. Data sets ce-dm dm-sc dm-hs ce-hs hs-sc ce-sc SPINAL 540.2 1912.1 1736.8 664.3 2630.6 638.2 FASTAN 221.5 1064.5 1395.9 327.9 1507.8 142.2 Về thời gian chạy, kết quả ở bảng 3.3 cho thấy thời gian chạy của FASTAN nhanh xấp xỉ gấp đôi thuật toán SPINAL trong phần lớn các cặp mạng PPI. 3.5.3. Thực nghiệm so sánh thuật toán ACOGNA với các thuật toán FASTAN và MAGNA++ Thực nghiệm được tiến hành để so sánh thuật toán ACOGNA với thuật toán FASTAN. Thuật toán được chạy với nhiều giá trị 𝑛𝑏𝑒𝑠𝑡 khác nhau bao gồm 1%, 5%, 10%, 20% và 50%. Các kết quả thực nghiệm chỉ ra rằng với nbest=1% sẽ cho chất lượng lời giải tốt nhất. Đối với thuật toán đàn kiến, các tham số  được khởi tạo từ đầu và số lượng kiến trong mỗi vòng lặp ảnh hưởng nhiều đến chất lượng lời giải. Qua nhiều thực nghiệm chúng tôi thấy với =0.3 sẽ cho chất lượng lời giải tốt nhất. Đối với số lượng kiến, nếu sử dụng nhiều kiến để xây dựng lời giải có thể cho được kết quả tốt hơn, tuy nhiên lại khiến thuật toán chạy lâu. Để cân bằng giữa hai yếu tố này, trong thực nghiệm chúng tôi chọn số kiến là 6. Các tham số max được khởi tạo bằng 1 và min 1 2 1 | | | |V V    . Vì vậy các kết quả được 104 trình bày ở đây tương ứng với giá trị nbest=1%, 0.3  , nants=6 như đã phân tích ở trên. Các thuật toán được so sánh dựa trên 2 tiêu chí là tiêu chuẩn GNAS và giá trị |E12| (Số cạnh của đồ thị nguồn được bảo tồn trên đồ thị đích khi dóng hàng). Các thực nghiệm được chạy trên cùng một máy tính có cấu hình như sau: CPU Intel Core 2 Duo 2.53GHz, RAM DDR2 3GB và hệ điều hành Windows 7 32 bit. 3.5.3.1. Thực nghiệm so sánh ACOGNA và FASTAN theo tiêu chuẩn GNAS ACOGNA, FASTAN và Spinal là các thuật toán dóng hàng tối ưu theo tiêu chuẩn GNAS. Các thực nghiệm đã chứng minh rằng FASTAN tốt hơn Spinal nên thực nghiệm này chỉ tiến hành so sánh tiêu chuẩn GNAS của 2 thuật toán ACOGNA và thuật toán FASTAN. Vì thuật toán ACOGNA và FASTAN là thuật toán ngẫu nhiên nên chúng tôi tiến hành chạy thuật toán 10 lần và sử dụng kết quả trung bình của 10 lần chạy để so sánh. Các thực nghiệm so sánh các thuật toán với các giá trị α lần lượt là 0.3, 0.4, 0.5, 0.6 và 0.7 như trong [Aladag & Erten, 2013]. Các kết quả so sánh được thể hiện trong Bảng 3.4. Mỗi ô trong bảng gồm 2 dòng, dòng đầu là tiêu chuẩn GNAS và dòng thứ 2 là giá trị |E12| (số cạnh được bảo tồn qua dóng hàng). Các kết quả tốt hơn được chúng tôi thể hiện bằng chữ in đậm. 105 Bảng 3.4. So sánh thuật toán ACOGNA và thuật toán FASTAN theo tiêu chuẩn GNAS và giá trị |E12| với các giá trị α khác nhau. Datasets α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA ce-dm 778.46 2560.7 833.14 2749.2 1109.92 2564.6 1109.92 2758.2 1290.11 2567.2 1368.35 2726.10 1545.86 2567.7 1641.35 2728.3 1801.24 2567.6 1930.84 2753.7 ce-hs 863.46 2842.8 913.39 3015.3 1144.17 2838.1 1207.94 3001.1 1429.89 2844.9 1513.4 3014.2 1708.81 2838.0 1824.69 3033.0 1994.87 2843.4 2091.43 2982.6 ce-sc 834.79 2761.1 876.78 2902.9 1109.93 2761.2 1178.46 2934.8 1389.21 2769.7 1457.65 2907.9 1663.39 2766.5 1742.2 2898.3 1936.83 2763.1 2064.12 2945 dm-hs 2260.31 7478.3 2431.59 8058.4 3007.11 7481.9 3226.76 8038.7 3755.36 7429.0 4039.68 8060.1 4496.45 7478.2 4828.29 8034.29 5242.32 7478.8 5648.18 8060.9 dm-sc 1977.82 6569.7 2108.13 7008.7 2631.85 6565.5 2811.97 7019.2 3290.03 6570.7 3518.87 7030.2 3950.16 6577.4 4203.53 7000.90 4603.41 6572.3 4908.90 7009.6 hs-sc 2268.21 7531.8 2429.12 8072.9 3017.96 7528.5 3256.54 8182.8 3772.96 7535.2 3938.3 7666.0 4520.51 7527 4895.45 8153.4 5279.88 7538.1 5693.4 8129.8 Qua bảng 3.4 ta có thể thấy rõ trong tất cả các trường hợp thì thuật toán ACOGNA đều cho các kết quả tốt hơn so với thuật toán FASTAN đối với tiêu chuẩn là GNAS và cả giá trị |E12|. 106 3.5.3.2. Thực nghiệm so sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3 và EC Các tiêu chuẩn EC, ICS và S3 được sử dụng để đánh giá độ tương đồng về cấu trúc của các thuật toán dóng hàng hai mạng. Thực nghiệm này sẽ so sánh kết quả của ACOGNA so với MAGNA++, một thuật toán được xây dựng với 3 tùy chọn tiêu chuẩn tối ưu như trên khi dóng hàng 2 đồ thị. Bảng 3.5 trình bày các kết quả so sánh của 2 thuật toán với tiêu chuẩn EC, thuật toán ACOGNA được chạy với các giá trị của tham số α lần lượt là 0.3, 0.4, 0.5, 0.6, 0.7. Giá trị điểm EC của thuật toán ACOGNA được thể hiện trong các cột tương ứng. Thuật toán MAGNA++ được chạy với 3 tùy chọn tối ưu theo các tiêu chuẩn EC, ICS và S3. Các giá trị điểm EC được hiển thị trong các cột EC, ICS và S3 tương ứng với các tùy chọn chạy thuật toán MAGNA++ tối ưu theo các tiêu chuẩn EC, ICS và S3. Kết quả tốt nhất khi so sánh các thuật toán được thể hiện bằng chữ in đậm. Bảng 3.5. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn EC Datasets ACOGNA MAGNA++ α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 EC ICS S3 ce-dm 0.6116 0.6136 0.6065 0.6070 0.6126 0.5217 0.0700 0.2983 ce-hs 0.6708 0.6677 0.6706 0.6747 0.6635 0.3061 0.1288 0.3065 ce-sc 0.6458 0.6529 0.6469 0.6448 0.6553 0.6002 0.1449 0.2901 dm-hs 0.3144 0.3136 0.3144 0.3159 0.3138 0.1921 0.0885 0.1464 dm-sc 0.2242 0.2245 0.2249 0.2239 0.2240 0.1575 0.0569 0.1357 hs-sc 0.2582 0.2600 0.2608 0.2608 0.2601 0.1680 0.0390 0.1439 107 Nhận xét: Các kết quả ở bảng 3.5 chỉ ra rằng với tất cả các giá trị của tham số α và tất cả các bộ dữ liệu, điểm số EC của ACOGNA luôn luôn tốt hơn MAGNA++. Bảng 3.6 thể hiện các kết quả so sánh của 2 thuật toán theo độ đo S3. Điểm S3 của ACOGNA được thể hiện trong các cột tương ứng với các giá trị α lần lượt là 0.3, 0.4, 0.5, 0.6, 0.7, và kết quả S3 của thuật toán MAGNA ++ khi được chạy lần lượt với 3 tiêu chuẩn tối ưu là EC, ICS và S3 được thể hiện trong các cột tương ứng. Các kết quả tốt nhất được in đậm. Bảng 3.6. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3 Nhận xét: Với tiêu chuẩn S3 khi chạy với các bộ dữ liệu dm-hs, dm-sc, hs-sc với tất cả các giá trị của tham số α, thuật toán ACOGNA cho kết quả tốt hơn so với MAGNA++ khi chạy thuật toán này theo cả 3 tiêu chuẩn tối ưu là EC, ICS và S3. Tuy nhiên đối với 3 bộ dữ liệu ce-dm, ce-sc, ce-hs MAGNA++ lại cho kết quả tốt hơn ACOGNA. Về mặt thời gian chạy, do ACOGNA là thuật toán metaheuristic được thực hiện với nhiều vòng lặp, nên thời gian chạy chậm hơn so với thuật toán Datasets ACOGNA MAGNA++ α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 EC ICS S3 ce-dm 0.1344 0.1123 0.1068 0.1338 0.1061 0.1580 0.0700 0.2597 ce-hs 0.1265 0.0993 0.0953 0.0939 0.0909 0.2621 0.1284 0.2639 ce-sc 0.1063 0.0953 0.0925 0.0911 0.0922 0.1198 0.1446 0.2573 dm-hs 0.1593 0.1559 0.156 0.1567 0.1555 0.0988 0.0785 0.1088 dm-sc 0.1446 0.1417 0.1415 0.1407 0.1406 0.1030 0.0554 0.1081 hs-sc 0.1501 0.1452 0.1484 0.1446 0.1433 0.1043 0.0387 0.1166 108 FASTAN là một thuật toán theo hướng tiếp cận heuristic, vì vậy ở đây chúng tôi không đưa ra các bảng so sánh về mặt thời gian chạy. 3.5.4. Thực nghiệm so sánh thuật toán ACOGNA++ với các thuật toán ACOGNA, MAGNA++ và ModuleAlign Để đánh giá hiệu quả của các thuật toán, chúng tôi tiến hành so sánh chất lượng lời giải của các thuật toán theo các tiêu chuẩn S3, GNAS và EC. Thuật toán ACOGNA++ được so sánh với các thuật toán ACOGNA, MAGNA++, và ModuleAlign. Điểm mới của thuật toán ACOGNA++ so với ACOGNA là có thể tối ưu theo các hàm mục tiêu khác nhau (tương tự như MAGNA++). Khi so sánh theo hàm mục tiêu GNAS và EC, thì 2 thuật toán ACOGNA và ACOGNA++ có chất lượng chênh lệch không nhiều (vì cả 2 thuật toán đều sử dụng hàm mục tiêu là GNAS) nên trong phần này chúng tôi trình bày kết quả so sánh khi chạy thuật toán ACOGNA++ với tiêu chuẩn tối ưu là S3. Các thực nghiệm được tiến hành trên máy tính có cấu hình như sau: CPU Intel Core 2 Duo 2.53Ghz, RAM DDR2 4GB và hệ điều hành Windows 7. Các tham số được thiết lập như sau: số lượng kiến trong mỗi vòng lặp là 10, 𝑎 = 1.5; 𝑏 = 1; c=1; d=2; max = 1.0 và min 1 2 1 | | | |V V    . Qua các thực nghiệm thuật toán cho kết quả tốt nhất khi chọn giá trị nbest = 1%. 3.5.4.1. So sánh các thuật toán theo tiêu chuẩn tối ưu S3 Bảng 3.7 thể hiện kết quả so sánh chất lượng lời giải của các thuật toán theo tiêu chuẩn S3. Chất lượng lời giải tốt nhất được định dạng chữ in đậm. 109 Bảng 3.7. So sánh các thuật toán theo tiêu chuẩn S3 Kết quả thể hiện trong bảng cho thấy với tất cả các bộ dữ liệu, thuật toán ACOGNA++ đều cho kết quả tốt hơn các thuật toán còn lại. Datasets ACOGNA MAGNA++ ModuleAlign ACOGNA++ α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 ce-dm 0.1344 0.1123 0.1068 0.1338 0.1061 0.2597 0.1538 0.3655 ce-hs 0.1265 0.0993 0.0953 0.0939 0.0909 0.2639 0.1354 0.4165 ce-sc 0.1063 0.0953 0.0925 0.0911 0.0922 0.2573 0.1192 0.2795 dm-hs 0.1593 0.1559 0.156 0.1567 0.1555 0.1088 0.1117 0.1910 sc-dm 0.1446 0.1417 0.1415 0.1407 0.1406 0.1081 0.1059 0.1767 sc-hs 0.1501 0.1452 0.1484 0.1446 0.1433 0.1166 0.1174 0.2096 110 3.5.4.2. So sánh thời gian chạy Các thuật toán FASTAN, Spinal và ModuleAlign là các thuật toán heuristic nên có thời gian chạy nhanh hơn, nhưng lại không cải thiện được chất lượng khi tăng thời gian chạy, vì vậy luận án không so sánh thời gian chạy với 3 thuật toán này. Khi so sánh thời gian chạy của 2 thuật toán ACOGNA++ và MAGNA++ ta có kết quả thể hiện trên hình 3.2: Hình 3.2. So sánh thời gian chạy tính theo giây của 2 thuật toán ACOGNA++ và MAGNA++ Qua biểu đồ so sánh ta thấy trong 6 bộ test thì có 5 bộ test là thời gian chạy của ACOGNA++ nhanh hơn so với MAGNA++, chỉ có 1 bộ test dm-hs là thời gian chạy của MAGNA++ nhanh hơn so với ACOGNA++. 3.6. Kết luận chương Trong chương này chúng tôi đã trình bày về bài toán dóng hàng toàn cục mạng tương tác protein - protein và đề xuất các thuật toán mới để giải quyết bài 0 5000 10000 15000 20000 25000 30000 ce-dm ce-hs ce-sc sc-dm dm-hs sc-hs T h ờ i g ia n ( s) Bộ dữ liệu MAGNA++ ACOGNA++ 111 toán này. Các thuật toán đề xuất dựa trên 2 hướng tiếp cận. Hướng tiếp cận heuristic và hướng tiếp cận metaheuristic dựa trên phương pháp tối ưu đàn kiến. Với hướng tiếp cận heuristic, thuật toán FASTAN có ưu điểm là cho lời giải nhanh và kết quả tốt hơn so với các thuật toán trước đó. Tuy nhiên nhược điểm của phương pháp FASTAN là khi tăng thời gian chạy thì chất lượng lời giải được cải thiện không đáng kể. Để khắc phục nhược điểm trên của FASTAN, chúng tôi đề xuất các thuật toán mới ACOGNA và ACOGNA++ dựa trên phương pháp tối ưu đàn kiến để xây dựng các dóng hàng. Thuật toán ACOGNA bao gồm nhiều vòng lặp, trong mỗi vòng lặp của thuật toán, tất cả các kiến xây dựng lời giải, sau đó kiến có chất lượng lời giải tốt nhất được lựa chọn để cập nhật vết mùi và áp dụng tìm kiếm cục bộ để tăng chất lượng lời giải. Các thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra rằng thuật toán chúng tôi đề xuất cho kết quả tốt hơn các thuật toán gần đây đối với 2 tiêu chuẩn GNAS và EC đối với tất cả các trường hợp. Mặc dù không sử dụng tiêu chuẩn S3 làm hàm mục tiêu, nhưng trong các trường hợp mà đồ thị nguồn là đồ thị dày thuật toán ACOGNA cho kết quả S3 tốt hơn so với thuật toán MAGNA++ (Là thuật toán tốt nhất tới thời điểm đó tối ưu theo tiêu chuẩn S3). Thuật toán ACOGNA++ sử dụng sơ đồ cấu trúc giống với thuật toán ACOGNA nhưng có nhiều điểm cải tiến trong cách xác định thông tin heuristic, cách lưu trữ và cập nhật thông tin vết mùi và sử dụng kiến trong cả 2 giai đoạn xác định đỉnh tiếp theo của đồ thị nguồn được dóng hàng và tìm ảnh của nó trên đồ thị đích. Thuật toán ACOGNA++ cho phép thay đổi các tiêu chuẩn tối ưu để tối ưu theo các hàm mục tiêu GNAS, EC và S3. Các thực nghiệm đã cho thấy 112 thuật toán ACOGNA++ cho chất lượng lời giải tốt hơn so với các thuật toán được so sánh theo các tiêu chuẩn này. Các thuật toán đề xuất trong chương này tạo ra các dóng hàng toàn cục giữa hai mạng PPI có chất lượng dóng hàng tốt hơn so với các thuật toán trước đó đồng nghĩa với việc xác định được các vùng mạng được bảo tồn giữa các mạng PPI chính xác hơn. Các vùng mạng được bảo tồn này sẽ giúp chuyển hiệu quả các kiến thức về chức năng của tế bào từ mô hình các loài đã được nghiên cứu sâu, chẳng hạn như nấm men, ruồi giấm, hoặc sâu sang con người ít được nghiên cứu hơn [Guzzi & Milenković, 2018; R. Sharan & Ideker, 2006]. Ngoài ra, các kết quả của bài toán dóng hàng hai mạng PPI còn được sử dụng để phục vụ cho bài toán xây dựng cây phân loài [O. Kuchaiev et al., 2010]. 113 KẾT LUẬN Luận án đã trình bày các kiến thức chung về lĩnh vực tin sinh học và về 2 bài toán có ý nghĩa quan trọng trong lĩnh vực tin sinh học là bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết protein và là bài toán dóng hàng mạng tương tác protein-protein. Bên cạnh đó luận án cũng đã trình bày về các kỹ thuật tính toán mềm, trong đó tập trung trình bày chi tiết về phương pháp tối ưu hóa đàn kiến và các phương pháp tính toán mềm khác được sử dụng để giải quyết 2 bài toán dóng hàng mạng protein. Với việc phân tích đặc điểm của các thuật toán mới nhất giải quyết các bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết ptotein và bài toán dóng hàng toàn cục hai mạng tương tác protein-protein chúng tôi đã đề xuất các thuật toán mới giải quyết hiệu quả 2 bài toán này. Với bài toán dóng hàng nhiều mạng các vị trí hoạt tính protein, luận án đề xuất 3 thuật toán để giải bài toán này là thuật toán ACO-MGA, ACO-MGA2 và ACOTS-MGA. Thuật toán ACO-MGA dựa trên phương pháp tối ưu hóa đàn kiến thuần túy để giải bài toán dóng hàng nhiều mạng. Các kết quả thực nghiệm dựa trên các bộ dữ liệu mô phỏng đã chứng minh hiệu quả nổi trội của thuật toán này so với các thuật toán GAVEO và thuật toán heuristic để giải bài toán này. Nghiên cứu đặc tính biến thiên vết mùi của các thuật toán ACO, trong thuật toán ACO-MGA2, chúng tôi áp dụng lược đồ memetic cho thuật toán, trong đó vết mùi của thuật toán ACO được cập nhật theo 2 giai đoạn khác nhau. Giai đoạn đầu tham số bay hơi được thiết lập nhỏ để khai thác thông tin học tăng cường và không áp dụng tìm kiếm cục bộ. Giai đoạn 2 có sử dụng tìm kiếm cục bộ nên tham số bay hơi được thiết lập lớn hơn để tăng tính khám phá của thuật toán. Các kết quả thực nghiệm trên các bộ dữ liệu thực đã cho thấy những ưu điểm của thuật toán mới đề xuất này so với các thuật toán trước đó. 114 Thuật toán ACO-MGA2 có nhược điểm là khi áp dụng tìm kiếm cục bộ, việc hoán đổi vị trí giữa các đỉnh bị lặp lại trong các lần gọi khác nhau, vì vậy luận án đề xuất thuật toán ACOTS-MGA sử dụng kết hợp phương pháp ACO và tìm kiếm Tabu theo lược đồ memetic. Thuật toán Tabu search sử dụng để thay thế cho thuật toán tìm kiếm cục bộ trong ACO-MGA2 sử dụng danh sách cấm để tránh xét lại các bước chuyển đã xét trước đó. Ngoài ra trong ACOTS- MGA, còn có sự cải tiến trong cách xác định thông tin heuristic và thủ tục bước ngẫu nhiên xây dựng một dóng hàng. Các thực nghiệm trên bộ dữ liệu thực đã chứng minh những ưu điểm nổi trội của phương pháp này so với các phương pháp đề xuất trước đó. Đối với bài toán dóng hàng hai mạng tương tác protein, chúng tôi đề xuất các thuật toán mới theo hướng tiếp cận dóng hàng toàn cục. Thuật toán thứ nhất là thuật toán FASTAN cho phép dóng hàng nhanh và cho chất lượng lời giải tốt so với các thuật toán trước đó. Thuật toán này phù hợp với các mạng tương tác protein-protein có kích thước lớn và yêu cầu thời gian giải bài toán nhanh. Tuy nhiên khi tăng thời gian chạy thuật toán thì chất lượng của FASTAN được cải thiện không nhiều. Để khắc phục nhược điểm trên của FASTAN, chúng tôi tiếp tục đề xuất thuật toán giải bài toán dóng hàng toàn cục mạng tương tác protein-protein dựa trên phương pháp tối ưu hóa đàn kiến có tên là ACOGNA. Các kết quả thực nghiệm trên các bộ dữ liệu sinh học thực đã chứng minh những hiệu quả của phương pháp ACOGNA tốt hơn so với các thuật toán trước đó theo các tiêu chuẩn GNAS, EC; tuy nhiên với tiêu chuẩn S3 thuật toán ACOGNA còn cho chất lượng lời giải kém hơn so với thuật toán MAGNA++. Thuật toán ACOGNA++ được đề xuất sau đó cho phép thay đổi hàm mục tiêu theo các tiêu chuẩn dóng hàng khác nhau và sử dụng thuật toán kiến trong cả 2 giai đoạn xác định thứ tự các đỉnh trên đồ thị nguồn và xác định ảnh của nó trên 115 đồ thị đích. Vì vậy ACOGNA++ cho chất lượng lời giải tốt hơn ACOGNA, ModuleAlign, MAGNA++ đối với tất cả các bộ dữ liệu. Các kết quả nghiên cứu đã được công bố trong 5 bài báo công bố tại các hội nghị quốc tế cũng như trong nước có phản biện, trong đó có 3 bài được đưa vào danh mục Scopus; một bài báo đăng tại tạp chí VNU Journal of Science: Computer Science and Communication Engineering. Các thuật toán đề xuất trong luận án cho thấy hiệu quả tốt hơn hẳn so với các thuật toán đề xuất trước đó để giải các bài toán dóng hàng nhiều mạng các vị trí liên kết protein và bài toán dóng hàng toàn cục hai mạng tương tác protein. Về thời gian chạy, các thuật toán đề xuất cũng nhanh hơn các thuật toán tính toán mềm khác được đề xuất trước đó trong phần lớn các bộ dữ liệu. Các thuật toán đề xuất đều dựa trên phương pháp tối ưu đàn kiến, vì vậy có thể cải thiện thời gian chạy theo hướng song song hóa các thuật toán, bên cạnh đó nghiên cứu sâu hơn về các phương pháp tính toán mềm khác để cải tiến các thuật toán đề xuất nhằm giảm thời gian chạy. Đối với bài toán dóng hàng các mạng các vị trí liên kết protein. Thời gian gần đây, người ta tập trung nghiên cứu việc ứng dụng bài toán này vào việc nghiên cứu thuốc [Borrel, 2016; Jukič, Konc, Gobec, & Janežič, 2017; Yuan et al., 2018]. Chúng tôi dự kiến sẽ liên hệ với các cơ sở nghiên cứu y-sinh để cùng phát triển các nghiên cứu mang tính ứng dụng. Đối với bài toán dóng hàng mạng tương tác protein, thời gian tới chúng tôi sẽ nghiên cứu để mở rộng việc áp dụng các thuật toán đề xuất cho bài toán dóng hàng đồng thời nhiều mạng tương tác protein-protein [Dohrmann & Singh, 2016; Vipin Vijayan & Milenkovic, 2018], hay bài toán dóng hàng các mạng động [V Vijayan, Critchlow, & Milenković, 2017]. Bên cạnh đó là việc nghiên 116 cứu ứng dụng các thuật toán đề xuất vào trong các bài toán thời sự trong lĩnh vực mạng xã hội [J. Zhang & Yu, 2015; Y. Zhang, Tang, Yang, Pei, & Yu, 2015]. 117 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 1. Trần Ngọc Hà, Đỗ Đức Đông, Hoàng Xuân Huấn (2013), “An Efficient Ant Colony Optimization Algorithm for Multiple Graph Alignment”, Proceedings of International Conference on Computing, Management and Telecommunications (ComManTel),Ho Chi Minh City, Vietnam, pp.386-391. (Scopus) 2. Trần Ngọc Hà, Đỗ Đức Đông, Hoàng Xuân Huấn (2014), “A Novel Ant Based Algorithm for Multiple Graph Alignment”, Proceedings of the 2014 International Conference on Advanced Technologies for Communications, pp. 181-186. (Scopus) 3. Đỗ Đức Đông, Trần Ngọc Hà, Đặng Thanh Hải, Đặng Cao Cường, Hoàng Xuân Huấn (2015), “An efficient algorithm for global alignment of protein-protein interaction networks”, Proceedings of the 2015 International Conference on Advanced Technologies for Communications, pp. 332-336. (Scopus) 4. Trần Ngọc Hà, Hoàng Xuân Huấn (2015), “Một thuật toán tối ưu đàn kiến dóng hàng toàn cục mạng tương tác protein”, Proceedings of Fundamental and Applied IT Research Conference 2015 (FAIR 2015), Ha Noi, Viet Nam, pp. 471-477. 5. Ha Tran Ngoc, Huan Hoang Xuan (2016), “ACOGNA: An Efficient Method for Protein-Protein Interaction Network Alignment”, Proceedings of the The Eighth International Conference on Knowledge and Systems Engineering (KSE 2016), pp. 7-12. 6. Ha Tran Ngoc, Hien Le Nhu, Huan Hoang Xuan (2018), “A new memetic algorithm for multiple graph alignment”, VNU Journal of Science: Computer Science and Communication Engineering, vol 34, no 1, pp. 1-9. 118 TÀI LIỆU THAM KHẢO Tiếng Việt 1. Lê Sỹ Vinh (2014), Nhập môn Tin sinh học, NXB Đại học Quốc gia Hà Nội, Hà Nội. Tiếng Anh 2. Aladag, A. E., & Erten, C. (2013). "SPINAL: scalable protein interaction network alignment". Bioinformatics, 29(7), pp. 917–924. 3. Alföldi, J., & Lindblad-Toh, K. (2013). "Comparative genomics as a tool to understand evolution and disease". Genome Res., 23(7), pp. 1063–1068. 4. Alkan, F., & Erten, C. (2014). "BEAMS: backbone extraction and merge strategy for the global many-to-many alignment of multiple PPI networks". Bioinformatics, 30(4), pp. 531–539. 5. Altschul, S. F., Gish, W., Miller, W., & Lipman, D. J. (1990). "Basic local alignment search tool". J. Mol. Biol., 215(3), pp. 403–410. 6. Altschul, S. F., Madden, T. L., Schffer, A. A., Zhang, J., Zhang, Z., Miller, W., & Lipman, D. J. (1997). "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs". Nucleic Acids Res., 25(17), pp. 3389–3402. 7. Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Sherlock, G. (2000). "Gene ontology: tool for the unification of biology". Nat. Genet., 25(1), pp. 25–29. 119 8. Berg, J., & Lassig, M. (2004). "Local graph alignment and motif search in biological networks". Proceedings of the National Academy of Sciences, 101(41), pp. 14689–14694. 9. Berg, J., & Lassig, M. (2006). "Cross-species analysis of biological networks by Bayesian alignment". Proc. Natl. Acad. Sci., 103(29), pp. 10967–10972. 10. Berman, H. M., Battistuz, T., Bhat, T. N., Bluhm, W. F., Bourne, P. E., Burkhardt, K., Zardecki, C. (2002). "The protein data bank". Acta Crystallographica Section D: Biological Crystallography, 58(6 I), pp. 899–907. 11. Biesecker, L. G., Mullikin, J. C., Facio, F. M., Turner, C., Cherukuri, P. F., Blakesley, R. W., Green, E. D. (2009). "The ClinSeq project: piloting large-scale genome sequencing for research in genomic medicine". Genome Res., 19, pp. 1665–1674. 12. Borrel, A. (2016). Development of Computational Methods to Predict Pocket Druggability and Profile Ligands using Structural Data By. Thesis Phd-penting. University of Helsinki, Faculty of Pharmacy, Division of Pharmaceutical Chemistry and Technology Molécules Thérapeutiques in Silico (MTi), Inserm UMR-S 973, University Paris Diderot, France. 13. Brin, S., & Page, L. (1998). "The anatomy of a large-scale hypertextual web search engine". Comput. Net. ISDN Syst., 30(1–7), pp. 107–117. 14. Brownlee, J. (2011). Clever Algorithms: Nature Inspired Programming Recipes. Search. 120 15. Chindelevitch, L., Liao, C.-S., & Berger, B. (2010). "Local optimization for global alignment of protein interaction networks.". Pacific Symposium On Biocomputing, 132, pp. 123–132. 16. Chindelevitch, L., Ma, C.-. Y., Liao, C.-. S., & Berger, B. (2013). "Optimizing a global alignment of protein interaction networks". Bioinformatics, 29(21), pp. 2765–2773. 17. Ciriello, G., Mina, M., Guzzi, P. H., Cannataro, M., & Guerra, C. (2012). "AlignNemo: A local network alignment method to integrate homology and topology". PLoS ONE, 7(6), pp. e38107. 18. Clark, C., & Kalita, J. (2014). "A comparison of algorithms for the pairwise alignment of biological networks". Bioinformatics, 30(16), pp. 2351–2359. 19. CONTE, D., FOGGIA, P., SANSONE, C., & VENTO, M. (2004). "THIRTY YEARS OF GRAPH MATCHING IN PATTERN RECOGNITION". International Journal of Pattern Recognition and Artificial Intelligence, 18(03), pp. 265–298. 20. Correa, L., Borguesan, B., Farfan, C., Inostroza-Ponta, M., & Dorn, M. (2018). "A memetic algorithm for 3D protein structure prediction problem". IEEE/ACM Transactions on Computational Biology and Bioinformatics, 15(3), pp. 690–704. 21. Do Duc, D., Dinh, H. Q., & Hoang Xuan, H. (2008). "On the pheromone update rules of ant colony optimization approaches for the job shop scheduling problem". In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 5357 LNAI, pp. 153–160). 121 22. Dohrmann, J., & Singh, R. (2016). "The SMAL web server: global multiple network alignment from pairwise alignments". Bioinformatics, 32(21), pp. 3330–3332. 23. Dorigo, M., & Gambardella, L. M. (1997). "Ant Colony System: A Cooperative Learning Approach to the Traveling Salesman Problem". IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 1(1), pp. 53. 24. Dorigo, M., & Stützle, T. (2004). Ant Colony Optimization. Cambridge, Massachusetts, London England: MIT Press. 25. Edgar, R. C. (2004). "MUSCLE: multiple sequence alignment with high accuracy and high throughput". Nucleic Acids Research, 32(5), pp. 1792–1797. 26. El-Kebir, M., Heringa, J., & Klau, G. W. (2011). "Lagrangian relaxation applied to sparse global network alignment". In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 7036 LNBI, pp. 225–236). 27. Flannick, J., Novak, A., Balaji, S. S., Harley, H. M., & Batzglou, S. (2006). "Graemlin general and robust alignment of multiple large interaction networks". Genome Res., 16(9), pp. 214–231. 28. Fober, T., Mernberger, M., Klebe, G., & Hüllermeier, E. (2009). "Evolutionary construction of multiple graph alignments for the structural analysis of biomolecules". Bioinformatics, 25(16), pp. 2110– 2117. 122 29. Garbelini, J. M. C., Kashiwabara, A. Y., & Sanches, D. S. (2018). "Sequence motif finder using memetic algorithm". BMC Bioinformatics, 19(1), pp. 4. 30. Gligorijević, V., Malod-Dognin, N., & Prulj, N. (2015). "Fuse: Multiple network alignment via data fusion". Bioinformatics, 32(8), pp. 1195– 1203. 31. Glover, F. (1986). "Future Paths for Integer Programming". Elsevier, 13(5), pp. 533–549. 32. Gong, M., Peng, Z., Ma, L., & Huang, J. (2016). "Global Biological Network Alignment by Using Efficient Memetic Algorithm". IEEE/ACM Transactions on Computational Biology and Bioinformatics, 13(6), pp. 1117–1129. 33. Guzzi, P. H., & Milenković, T. (2018). "Survey of local and global biological network alignment: the need to reconcile the two sides of the same coin". Briefings in Bioinformatics, 19(3), pp. bbw132. 34. Hashemifar, S., Ma, J., Naveed, H., Canzar, S., & Xu, J. (2016). "ModuleAlign: Module-based global alignment of protein-protein interaction networks". Bioinformatics, 32(17), pp. i658–i664. 35. Hendlich, M., Bergner, A., Günther, J., & Klebe, G. (2003). "Relibase: Design and Development of a Database for Comprehensive Analysis of Protein–Ligand Interactions". Journal of Molecular Biology, 326(2), pp. 607–620. 36. Hendlich, M., Rippmann, F., & Barnickel, G. (1997). "LIGSITE: automatic and efficient detection of potential small molecule-binding 123 sites in proteins". Journal of Molecular Graphics and Modelling, 15(6), pp. 359–363. 37. Holland, J. H. (1975). "Adaptation in Natural and Artificial Systems". Ann Arbor MI University of Michigan Press. 38. Hu, J., Kehr, B., & Reinert, K. (2014). "NetCoffee: A fast and accurate global alignment approach to identify functionally conserved proteins in multiple networks". Bioinformatics, 30(4), pp. 540–548. 39. Huan, H. X., Linh-Trung, N., Huynh, H.-T., & others. (2013). "Solving the Traveling Salesman Problem with Ant Colony Optimization: A Revisit and New Efficient Algorithms". REV Journal on Electronics and Communications, 2(3–4). 40. Huan, H. X., Tuyet, D. T. A., Ha, D. T. T., & Hung, N. T. (2015). "An Efficient Ant Colony Algorithm for DNA Motif Finding" (pp. 589– 601). Springer, Cham. 41. Ibragimov, R., Malek, M., Baumbach, J., & Guo, J. (2014). "Multiple graph edit distance". In Proceedings of the 2014 conference on Genetic and evolutionary computation - GECCO ’14 (pp. 277–284). New York, New York, USA: ACM Press. 42. Jukič, M., Konc, J., Gobec, S., & Janežič, D. (2017). "Identification of Conserved Water Sites in Protein Structures for Drug Design". Journal of Chemical Information and Modeling, 57(12), pp. 3094–3103. 43. Junker, B, H., & Schreiber, H. (2008). An introduction to biological networks and methods for their analysis. John Wiley &Sons. 124 44. Kelley, B. P., Bingbing, Y., Lewitter, F., Sharan, R., Stockwell, B. R., Ideker, T., Ideker. (2004). "PathBLAST: a tool for alignment of protein interaction networks". Nucleic Acids Res., 32(suppl_2), pp. W83–W88. 45. Kinoshita, K., & Nakamura, H. (2005). "Identification of the ligand binding sites on the molecular surface of proteins". Protein Science, 14(3), pp. 711–718. 46. Koyutürk, M., Kim, Y., Topkara, U., Subramaniam, S., Szpankowski, W., & Grama, A. (2006). "Pairwise alignment of protein interaction networks". J. Comput. Biol., 13(2), pp. 182–199. 47. Kuchaiev, O., Milenković, T., Memišević, V., Hayes, W., & Pržulj, N. (2010). "Topological network alignment uncovers biological function and phylogeny". J. R. Soc. Interface, 7. 48. Kuchaiev, O., & Pržulj, N. (2011). "Integrative network alignment reveals large regions of global network similarity in yeast and human". Bioinformatics, 27(10), pp. 1390–1396. 49. Liang, Z., Xu, M., Teng, M., & Niu, L. (2006). "NetAlign: a web-based tool for comparison of protein interaction networks". Bioinformatics, 22. 50. Liao, C., Lu, K., Baym, M., Singh, R., & Berger, B. (2009). "IsoRankN: spectral methods for global alignment of multiple protein networks". Bioinformatics, 25(12), pp. i253–i258. 51. M. Dorigo, V. M. and A. C. (1991). "Ant System: An Autocatalytic Optimizing Process". Technical Report 91-016, pp. 21. 125 52. M.Lesk, A. (2002). Introduction to Bioinformatics. New York: Oxford University Press Inc. 53. Malod-Dognin, N., & Pržulj, N. (2014). "GR-Align: fast and flexible alignment of protein 3D structures using graphlet degree similarity". Bioinformatics, 30(9), pp. 1259–1265. 54. Mamano, N., & Hayes, W. B. (2017). "SANA: simulated annealing far outperforms many other search algorithms for biological network alignment". Bioinformatics, 33(14), pp. 2156–2164. 55. Memišević, V., & Pržulj, N. (2012). "C-GRAAL: Common-neighbors- based global graph alignment of biological networks". Integr. Biol., 4(7), pp. 734–743. 56. Meng, L., Crawford, J., Striegel, A., & Milenkovic, T. (2016). "IGLOO: Integrating global and local biological network alignment". 57. Mernberger, M., Klebe, G., & Hullermeier, E. (2011). "SEGA: Semiglobal Graph Alignment for Structure-Based Protein Comparison". IEEE/ACM Transactions on Computational Biology and Bioinformatics, 8(5), pp. 1330–1343. 58. Milenković, T., Ng, W. L., Hayes, W., & Pržulj, N. (2010). "Optimal network alignment with graphlet degree vectors". Cancer Inform., 9, pp. 121. 59. Mina, M., & Guzzi, P. H. (2012). "AlignMCL: Comparative analysis of protein interaction networks through Markov clustering". In Proceedings - 2012 IEEE International Conference on Bioinformatics and Biomedicine Workshops, BIBMW 2012 (pp. 174–181). IEEE. 126 60. Neri, F. (2011). Handbook of memetic algorithms. (F. Neri, C. Cotta, & P. Moscato, Eds.), Studies in Computational Intelligence (Vol. 379). Berlin, Heidelberg: Springer Berlin Heidelberg. 61. Notredame, C., Higgins, D. G., & Heringa, J. (2000). "T-coffee: a novel method for fast and accurate multiple sequence alignment". Journal of Molecular Biology, 302(1), pp. 205–217. 62. Pache, R., & P Aloy. (2012). "A novel framework for the comparative analysis of biological networks". PLOS ONE, 7(2), pp. e31220. 63. Park, D., Singh, R., Baym, M., Liao, C.-S., & Berger, B. (2010). "IsoBase: a database of functionally related proteins across PPI networks". Nucleic Acids Research, 39(suppl_1), pp. D295--D300. 64. Patro, R., & Kingsford, C. (2012). "Global network alignment using multiscale spectral signatures". Bioinformatics, 28(23), pp. 3105–3114. 65. Sahraeian, S., & Yoon, B.-J. (2013). "SMETANA: Accurate and scalable algorithm for probabilistic alignment of large-scale biological networks.". PLOS ONE, 8(7), pp. e67995. 66. Saraph, V., & Milenković, T. (2014). "MAGNA: maximizing accuracy in global network alignment". Bioinformatics, 30(20), pp. 2931–2940. 67. Schmitt, S., Kuhn, D., & Klebe, G. (2002). "A New Method to Detect Related Function Among Proteins Independent of Sequence and Fold Homology". Journal of Molecular Biology, 323(2), pp. 387–406. 68. Schrijver, A. (2006). A Course in Combinatorial Optimization. Department of Mat., University of Amsterdam. 127 69. Sharan, R., & Ideker, T. (2006). "Modeling cellular machinery through biological network comparison". Nat. Biotechnol., 24(4), pp. 427–433. 70. Sharan, R., Suthram, S., Kelley, R. M., Kuhn, T., McCuine, S., Uetz, P., Ideker, T. (2005). "Conserved patterns of protein interaction in multiple species". In National Academy of Sciences (Vol. 102, pp. 1974–1979). National Academy of Sciences. 71. Singh, R., Xu, J., & Berger, B. (2007). "Pairwise global alignment of protein interaction networks by matching neighborhood topology". In Annual International Conference on Research in Computational Molecular Biology (pp. 16–31). Oakland, CA, USA: Springer. 72. Singh, R., Xu, J., & Berger, B. (2008). "Global alignment of multiple protein interaction networks". Proc. Pac. Symp. Biocomput., 13, pp. 303–314. 73. Sjolander, K. (2004). "Phylogenomic inference of protein molecular function: advances and challenges". Bioinformatics, 20(2), pp. 170– 179. 74. Stützle, T., & Hoos, H. H. (2000). "MAX–MIN Ant System". Future Generation Computer Systems, 16(8), pp. 889–914. 75. Thompson, J. D., Higgins, D. G., & Gibson, T. J. (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice". Nucleic Acids Research, 22(22), pp. 4673– 4680. 128 76. Todd, A. E., Orengo, C. A., & Thornton, J. M. (2001). "Evolution of function in protein superfamilies, from a structural perspective". Journal of Molecular Biology, 307(4), pp. 1113–1143. 77. Tsai, S. Q., Iafrate, A. J., & Joung, J. K. (2014). "Genome editing: a tool for research and therapy: towards a functional understanding of variants for molecular diagnostics using genome editing". Nat. Med., 20(10), pp. 1103–1104. 78. Vijayan, V., Critchlow, D., & Milenković, T. (2017). "Alignment of dynamic networks". Bioinformatics, 33(14), pp. i180–i189. 79. Vijayan, V., & Milenkovic, T. (2018). "Multiple network alignment via multiMAGNA++". IEEE/ACM Transactions on Computational Biology and Bioinformatics, pp. 1–1. 80. Vijayan, V., Saraph, V., & Milenković, T. (2015). "MAGNA++: maximizing accuracy in global network alignment via both node and edge conservation". Bioinformatics, 31(14), pp. 2409–2411. 81. Volna, E. (2013). Introduction to Soft Computing. bookboon.com. 82. Weskamp, N., Hüllermeier, E., Kuhn, D., & Klebe, G. (2007). "Multiple graph alignment for the structural analysis of protein active sites". IEEE/ACM Transactions on Computational Biology and Bioinformatics, 4(2), pp. 310–320. 83. Xifeng Yan, Feida Zhu, Jiawei Han, & Yu, P. S. (2006). "Searching Substructures with Superimposed Distance". In 22nd International Conference on Data Engineering (ICDE’06) (pp. 88–88). IEEE. 129 84. Yan, X., Yu, P. S., & Han, J. (2005). "Substructure similarity search in graph databases". In Proceedings of the 2005 ACM SIGMOD international conference on Management of data - SIGMOD ’05 (pp. 766–777). New York, New York, USA: ACM Press. 85. Yang, W., & Lai, L. (2017). "Computational design of ligand-binding proteins". Current Opinion in Structural Biology, 45, pp. 67–73. 86. Yang, X.-S. (2014). "Nature-Inspired Optimization Algorithms". In Nature-Inspired Optimization Algorithms. Elsevier. 87. Yang, X.-S., & Wiley InterScience (Online service). (2010). Engineering optimization : an introduction with metaheuristic applications. John Wiley. 88. Yuan, X., Xu, Y., Yuan, X., & Xu, Y. (2018). "Recent Trends and Applications of Molecular Modeling in GPCR–Ligand Recognition and Structure-Based Drug Design". International Journal of Molecular Sciences, 19(7), pp. 2105. 89. Zaslavskiy, M., Bach, F., & Vert, J. P. (2009). "Global alignment of protein-protein interaction networks by graph matching methods". Bioinformatics, 25(12), pp. i259-1267. 90. Zhang, J., & Yu, P. S. (2015). "Multiple Anonymized Social Networks Alignment". In 2015 IEEE International Conference on Data Mining (pp. 599–608). IEEE. 91. Zhang, S., Hu, M., & Yang, J. (2007). "TreePi: A Novel Graph Indexing Method". In 2007 IEEE 23rd International Conference on Data Engineering (pp. 966–975). IEEE. 130 92. Zhang, Y., Tang, J., Yang, Z., Pei, J., & Yu, P. S. (2015). "COSNET". In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD’15 (pp. 1485–1494). New York, New York, USA: ACM Press.

Các file đính kèm theo tài liệu này:

luan_an_mot_so_thuat_toan_dong_hang_cac_mang_protein.pdf