Các kỹ thuật toán học cho bài toán so sánh đa trình tự

TÓM TẮT LUẬN VĂN So sánh đa trình tự(Multiple Sequence Alignment-MSA) là một trong 10 bài toán lớn của Sinh tin học(Bioinformatics). MSA đóng vai trò quan trọng trong Sinh tin học nói chung và lĩnh vực tìm kiếm gene (Gene Finding) nói riêng. MSA là một bài toán NP, và hoàn toàn chưa có giải pháp trọn vẹn để tìm lời giải tối ưu của bài toán. Nhiều phương pháp sử dụng heuristic đã được đưa ra để giải quyết bài toán khi tập dữ liệu đầu vào lớn, các phương pháp này hướng tới việc tìm 1 lời giải cận tối ưu với thời gian tính toán và bộ nhớ sử dụng chấp nhận được. Progress Algorithm là một phương pháp tốt tiếp cận theo phương thức này. Đề tài này trình bày một giải thuật mới dựa trên Progressive Algorithm. Sử dụng lời giải của bài toán TSP để mô tả quá trình so sánh(align) các sequence. Để cung cấp một Progressive Algorithm có chất lượng, giải thuật đã tối ưu bài toán Pairwise Sequence Alignment(PSA) về độ chính xác và bộ nhớ sử dụng thông qua giải thuật ”chia để trị” kết hợp với việc sử dụng 3 ma trận đánh giá BLOSUM. Thông qua quá trình so sánh với CLUSTALW(một chương trình hiện thực Progressive Algorithm được đánh giá là cho kết quả tốt nhất), dựa trên kết quả kiểm thử với tập dữ liệu BAliBASE benchmark và một số nguồn dữ liệu từ NCBI(National Center for Biotechnology Information), chương trình hiện thực giải thuật đã cung cấp một lời giải có độ chính xác khá cao, tiết kiệm bộ nhớ và có thời gian tính toán chấp nhận được. Từ khoá: Algorithm, Sequence Alignment, Multiple Sequence Alignment, MSA, Pairwise Sequence Alignment, PSA, Progressive Algorithm, Dynamic Programming, Traveling Salesman Problem, TSP, CLUSTALW, BLOSUM, BAliBASE. MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN . ii TÓM TẮT LUẬN VĂN iii DANH MỤC HÌNH . vi DANH MỤC BẢNG viii Chương 1. GIỚI THIỆU .1 1.1. Giới thiệu 1 1.2. Kết cấu của luận văn .4 Chương 2. TỔNG QUAN VỀ KHÁI NIỆM SO SÁNH TRÌNH TỰ (SEQUENCE ALIGNMENT) .6 2.1. So sánh trình tự 6 2.1.1. Định nghĩa So sánh trình tự(Sequence Alignment) 6 2.1.2. Phân loại .7 2.1.3. So sánh 2 trình tự (Pairwise Sequence Alignment-PSA) 8 2.1.4. So sánh nhiều trình tự (Multiple Sequence Alignment-MSA) 9 2.2. Các khái niệm khác .10 2.2.1. Ma trận đánh giá(Scoring Matrix) 12 2.2.2. Gap 14 2.2.3. Phương pháp đánh giá(Scoring Method) 15 2.3. Các phương pháp giải quyết bài toán so sánh trình tự 18 2.3.1. Phương pháp Quy hoạch động(Dynamic Programming) 19 2.3.2. Sử dụng các thiết bị phần cứng .20 2.3.3. Phương pháp tìm kiếm cục bộ(Local Search) .21 2.3.4. Sử dụng giải thuật Di truyền(Genetic Algorithm) 21 2.3.5. Sử dụng Mô hình Markov ẩn(Hidden Markov Model-HMM). 21 Chương 3. CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC HIỆN .24 3.1. Giới thiệu về Dynamic Programming 24 3.2. Bài toán PSA và cách giải quyết bằng kỹ thuật quy hoạch động 24 3.2.1. Giải thuật quy hoạch động cho bài toán PSA .25 3.2.2. Giải thuật Gotoh 28 3.2.3. Giải thuật cải tiến không gian nhớ .29 3.3. Giải thuật tính toán phép Alignment tối ưu cho bài toán Multiple Alignment sử dụng kỹ thuật dynamic programming .32 3.3.1. Giải thuật Center Star Alignment Algorithm 33 3.3.2. Phương pháp Progressive Algorithm giải quyết bài toán MSA. .37 3.3.3. Feng-Doolittle Algorithm .38 Chương 4. THIẾT KẾ GIẢI THUẬT VÀ HIỆN THỰC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN MSA .42 4.1. Giải thuật sử dụng cho bài toán PSA .42 4.1.1. Giải thuật tính toán dựa theo kỹ thuật chia để trị 43 4.2. Giải thuật hiện thực cho bài toán MSA .49 4.2.1. Bài toán TSP(Travelling Salesman Problem-Bài toán người bán hàng). .50 4.2.2. Giải thuật 1A .51 4.2.3. Giải thuật 1B(Giải thuật cải tiến gom nhóm nhỏ nhất) .55 4.3. Giải thuật di truyền và bài toán TSP. 57 4.3.1. Đặc điểm giải thuật di truyền 57 4.3.2. Cấu trúc thuật giải di truyền tổng quát 59 4.4. Phần hiện thực giải thuật và chương trình: 60 Chương 5. KẾT QUẢ NHẬN XÉT 66 5.1. Một số kết quả chạy chương trình. 66 5.2. BAliBASE (Benchmark Alignment Database) 68 5.3. So sánh kết quả 69 5.3.1. Giới thiệu về các chương trình được sử dụng .70 5.3.2. So sánh độ chính xác của kết quả .70 5.3.3. So sánh về mặt thời gian chạy, bộ nhớ .77 Chương 6. KẾT LUẬN .78 TÀI LIỆU THAM KHẢO .80 Phụ lục 1. Bảng đối chiếu Thuật ngữ Anh - Việt 83 Phụ lục 2. Từ viết tắt .87 Tham khảo Chỉ mục 88

100 trang | Chia sẻ: lvcdongnoi | Lượt xem: 4706 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Các kỹ thuật toán học cho bài toán so sánh đa trình tự, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ư sau: Sắp xếp quần thể theo thứ tự độ tốt giảm dần. Loại bỏ các cá thể cuối dãy để chỉ giữ lại p cá thể tốt nhất, ở đây ta giả sử quần thể có kích thước cố định p. Một thuật giải di truyền gồm các thành phần sau: Một cấu trúc dữ liệu I biểu diễn không gian lời giải của bài toán. Phương pháp khởi tạo quần thể ban đầu P(0). Hàm định nghĩa độ thích nghi (fitness function) đóng vai trò môi trường. Các phép toán di truyền như đã mô phỏng ở trên. Và các tham số thuật giải di truyền sử dụng (kích thước quần thể, xác suất lai, đột biến v.v...) parent 1 : 1 1 0 | 0 0 1 parent 2 : 0 1 0 | 1 1 1 offspring 1 : 1 1 0 1 1 1 offspring 2 : 0 1 0 0 0 1 Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 59 4.3.2. Cấu trúc thuật giải di truyền tổng quát Bắt đầu t=0; Khởi tạo quần thể P(t); Tính độ thích nghi cho các cá thể thuộc P(t); while (điều kiện dừng chưa thoả) { t = t+1; Tái sinh P’(t) từ P(t-1); Lai Q(t) từ P’(t); Đột biến R(t) từ P’(t); Chọn lọc P(t) từ ( 1) ( ) ( ) ( )− ∪ ∪ ∪P t Q t R t P' t ; } Kết thúc. Ý tưởng của việc sử dụng giải thuật GA cho bài toán TSP: Chúng ta xây dựng một quần thể các lời giải của bài toán TSP. Quần thể có m cá thể với m là tham số do người dùng điều chỉnh. Mỗi nhiễm sắc thể sẽ có k gene, mỗi gene đại diện cho 1 đỉnh. Hàm fitness chính là chiều dài của quãng đường ứng với nhiễm sắc thể. Quãng đường ứng với nhiễm sắc thể càng ngắn hàm thích nghi càng tốt. Chúng ta sẽ xây dựng các hàm lai ghép, đột biến, và chọn lọc cho giải thuật. Ví dụ: Phép lai ghép sử dụng phép lai ghép theo giải thuật PMX(Partially-Mapped Crossover). Nội dung phép lai ghép này như sau: Sử dụng 2 điểm cắt trên nhiễm sắc thể của cả cha-mẹ. Để tạo một nhiễm sắc thể mới(con), phần chuỗi nằm giữa 2 điểm cắt của nhiễm sắc thể thứ nhất cha(mẹ) sẽ được thay thế cho phần chuỗi nằm giữa 2 điểm cắt của nhiễm sắc thể còn lại. So sánh sự thay đổi gene trong phần giữa 2 điểm cắt của nhiễm sắc thể thứ hai với nhiễm sắc thể mới tạo, thực hiện sự thay đổi các phần tử bên ngoài vùng giữa 2 điểm cắt của nhiễm sắc thể con, dựa trên sự thay đổi này. Điều này đảm bảo cho không có sự lặp lại của các gene trong nhiễm sắc thể mới. Tương tự đổi vai trò của nhiễm sắc thể cha mẹ với nhau ta sẽ tạo được thêm 1 con mới. Xét ví dụ 2 nhiễm sắc thể cha 1 2 5 6 4 3 8 7 và mẹ 1 4 2 3 6 5 7 8 . Xét 2 điểm cắt tại vị trí 3,6. Quá trình tạo ra 1 nhiễm sắc thể mới(con) như sau. Thay thế chuỗi nằm giữa 2 điểm cắt của mẹ là 2 3 6 bằng chuỗi nằm giữa 2 điểm cắt của cha 5 6 4 lúc Nhiễm sắc thể cho bài toán TSP 9 đỉnh [9 3 4 0 1 2 5 7 6 8] Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 60 này nhiễm sắc thể con là 1 4 5 6 4 5 7 8. Như vậy 5, 4 xuất hiện 2 lần trong nhiễm sắc thể con. So sánh phần nằm giữa 2 điểm cắt của nhiễm sắc thể con và nhiễm sắc thể mẹ ta thấy gene 5 được thay bằng 2, gene 4 được thay bằng 6, nhưng vì 6 có trong phần giữa 2 điểm cắt nên 4 được thay bằng 3. Thực hiện sự thay đổi này với phần nằm ngoài 2 điểm cắt ta được nhiễm sắc thể con mới: 1 3 5 6 4 2 7 8 . Chúng ta có một ví dụ minh họa cho phép Crossover của giải thuật. Phép đột biến: phép đột biến được thực hiện bằng cách đổi chỗ một cách ngẫu nhiên 2 gene bất kỳ trong 1 nhiễm sắc thể, sao cho nhiễm sắc thể mới thu được có chiều dài của con đường tương ứng ngắn hơn so với nhiễm sắc thể ban đầu. Ví dụ minh họa cho phép đột biến của giải thuật: Phép chọn lọc: Chọn lọc các cá thể có hàm thích nghi tốt nhất. 4.4. Phần hiện thực giải thuật và chương trình: Chương trình tính MSA(MSAPR) được viết bằng VC++8(2005) trên nền IDE Visual Studio 2005. Chương trình chạy trên nền hệ điều hành Microsoft Windows XP, cung cấp giao diện đồ hoạ cho phép người dùng tương tác một cách dễ dàng. Chương trình tính MSA hiện thực cả 2 giải thuật 1A, 1B. Người sử dụng có thể lựa chọn 1 trong 2 giải thuật này. Dựa trên các ý tưởng đã được phân tích trong phần giải thuật. Cấu trúc chương trình chương trình hiện thực bài toán MSA gồm có 3 phần: Module giải quyết bài toán PSA Module giải quyết bài toán TSP Trước [0 1 2 3 4 5 6] Sau phép đột biến [0 1 3 2 4 5 6] parent 1 : 1 2 | 5 6 4 | 3 8 7 parent 2 : 1 4 | 2 3 6 | 5 7 8 ________________________________ offspring (step 1) : 1 4 5 6 4 5 7 8 (step 2) : 1 3 5 6 4 2 7 8 Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 61 Module hiện thực giải thuật 1B. Hình 4.8 Cấu trúc chương trình hiện thực PSA Module: hiện thực giải thuật “Chia để trị” kết hợp với việc sử dụng 3 ma trận BLOSUM để giải quyết bài toán PSA. Hình 4.9 Module PSA MSA Module :Hiện thực giải thuật tính MSA. Bao gồm các khối chức năng: Khối chức năng tính toán ma trận khoảng cách dựa trên việc sử dụng module PSA. Khối chức năng tìm thứ tự align các sequence dựa trên ma trận khoảng cách và Module TSP. Khối chức năng thực hiện giải thuật Feng-Doolittle, align 2 nhóm sequence. Input MSA Module PSA Module TSP Module Output PSA Module Kết quả hàm đánh giá 2 sequence Kết quả alignment 2 sequence Sequence 1 Sequence 2 Đầu raĐầu vào Giải thuật Chia để trị kết hợp quy hoạch động Các ma trận BLOSUM Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 62 Khối chức năng thực hiện giải thuật align bao gồm việc gom nhóm, thực hiện giải thuật align theo thứ tự từ lời giải bài toán TSP, lưu trữ các nhóm sequence đã được align. Hình 4.10 Sơ đồ các khối chức năng của Module MSA. TSP Module: Module hiện thực giải thuật giải quyết bài toán TSP. Trên cơ sở thư viện hàm GALib[12] được phát triển bởi MIT(Massachusetts Institute of Technology), chương trình tích hợp và thừa kế thư viện GALib đồng thời hiện thực một giải thuật di truyền cho bài toán TSP. GALib là một thư viện hàm mở, được viết bằng C++, cung cấp các phương thức hỗ trợ người dùng xây dựng một giải thuật di truyền(GA) để phát triển các ứng dụng . Mặc dù là bài toán NP, tuy nhiên hiện tại bài toán TSP đã được giải quyết rất tốt với số đỉnh nhỏ hơn 10000.Về phương pháp giải quyết bài toán TSP, có khá nhiều phương pháp, phương pháp tiếp cận theo nhánh và cận(branch and bound) kết hợp một số kỹ thuật heuristic được sử dụng phổ biến nhất và cho kết quả nhanh nhất. Sử dụng giải thuật GA cho bài toán TSP là một giải pháp không thật sự tối ưu, tuy nhiên giải thuật là chấp nhận được về mặt thời gian cũng như không gian nhớ khi số đỉnh nhỏ hơn 500. Do phạm vi của luận văn nên phần giải quyết bài toán TSP chỉ giới hạn trong việc áp dụng giải thuật GA. Input (k sequence) Ma trận khoảng cách Lời giải TSP Feng-Doolittle Algorithm Module PSA Module TSP Module Module gom nhóm, align Kết quả MSA Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 63 Hình 4.11 Sơ đồ các khối chức năng của module TSP. Ngoài 3 module chính còn 2 module nhập xuất thực hiện việc xử lý dữ liệu đầu vào cũng như xuất kết quả của giải thuật. Input/Output. Dữ liệu đầu vào của chương trình tuân theo chuẩn định dạng FASTA(NCBI)[21]. Chuẩn định dạng FASTA được sử dụng phổ biến trong hầu hết các chương trình tìm MSA. Chuẩn định dạng này lưu trữ các sequence theo cấu trúc: tên, mô tả và nội dung của sequence. Mỗi ký tự “>” biểu hiện cho sự khai báo một sequence trong file. Nội dung của sequence không chứa ký tự khoảng trắng. Định dạng: Bảng 4.1 Định dạng của file dữ liệu đầu vào Dữ liệu đầu ra của chương trình được biểu diễn theo từng phần của toàn bộ MSA. Định dạng của file kết quả có dạng như sau. Giải thuật GA cho TSP Chu trình qua các đỉnh Ma trận khoảng cách Số đỉnh GALib >Tênsequence Mô tả Nội dung >Tênsequence Mô tả Nội dung . . . . >Sequence1 cbfx_mouse VLGTVKWFNVRNGYGFINRNDT KEDVFVHQTAIKKNNPRKYLRSV GDGETVEFDVVEGEKGAEAANV TGP >Sequence2 grp2_nicsy KGTVKWFSDQKGFGFITPDDGGE DLFVHQSGIRSEGFRSLAEGETVE FEVESGGDGRTKAVDVTGP Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 64 Bảng 4.2 Định dạng của file dữ liệu đầu ra. Ngoài ra chương trình còn cho phép lưu trữ kết quả theo chuẩn định dạng MSF, để phục vụ cho quá trình so sánh thống kê kết quả khi kiểm thử trên tập BAliBASE benchmark, phần này sẽ được đề cập chi tiết trong Chương 5. Chuẩn định dạng MSF có dạng như sau: Bảng 4.3 Định dạng file dữ liệu đầu ra theo chuẩn MSF Result MSA: Tên sequence Nội dung của sequence trong MSA Tên sequence Nội dung của sequence trong MSA … Tên sequence Nội dung của sequence trong MSA Result MSA: grp2_nicsy -----KGTVKWFSDQKGFGFITPDDGGEDLFVHQSGIRSEG----FRSLA cbfx_mouse ----VLGTVKWFNVRNGYGFINRNDTKEDVFVHQTAIKKNNPRKYLRSVG ************************************************************* grp2_nicsy EGETVEFEVESGGDGRTKAVDVTGP- cbfx_mouse DGETVEFDVVEGEKG-AEAANVTGP- PileUp MSF: l (chiều dài MSA) Type: P hay N (cho biết là các sequence đang xét là protein hay nucleotide) Name: Tên của sequence oo Len: chiều dài sequence trong MSA … Name: Tên của sequence oo Len: chiều dài sequence trong MSA // (2 ký tự này cho biết kết thúc phần header của file) Tên sequence Nội dung của sequence trong MSA(Các ký hiệu ‘-‘ được thay bằng ‘.’) Tên sequence Nội dung của sequence trong MSA PileUp MSF: 82 Type: P Name: hmgl_trybr oo Len: 82 Name: hmgt_mouse oo Len: 82 Name: hmgb_chite oo Len: 82 // hmgl_trybr .KKDSNAPKR AMTSFMFFSS ....DFRSKH SDLSI.VEMS KAAGAAWKEL hmgt_mouse ......KPKR PRSAYNIYVS ESFQEAKDDS AQGKL..... KLVNEAWKNL hmgb_chite ....ADKPKR PLSAYMLWLN SARESIKREN PDFKV.TEVA KKGGELWRGL hmgl_trybr GPEERKVYEE MAEKDKERYK REM....... .. hmgt_mouse SPEEKQAYIQ LAKDDRIRYD NEMKSWEEQM AE hmgb_chite ..KDKSEWEA KAATAKQNYI RALQEYERNG G. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 65 Bảng tóm tắt các lớp được xây dựng của chương trình: Lớp Chức năng MultipleAlignmentAlgorithm Hiện thực chức năng module MSA: Feng- Doolittle, tạo ma trận khoảng cách, thực hiện giải thuật align MSA LinearSapceAlgorithm Hiện thực giải thuật PSA theo kỹ thuật chia để trị sử dụng 3 ma trận BLOSUM Sequence Lưu trữ Sequence GATSP Hiện thực giải thuật di truyền cho bài toán TSP dựa trên thư viện hàm GALib AlignSequenceProfile Lưu trữ các nhóm sequence đã được align InitValue Khởi tạo các thông số cho giải thuật PSA MatrixPenalty Đối tượng lưu trữ ma trận đánh giá, các tham số về gap StoreOPDBPF Lưu trữ thông tin cho phép tìm lại con đuờng của giải thuật PSA TSPResultObject Lưu trữ kết quả lời giải TSP Bảng 4.4 Bảng tóm tắt các lớp của chương trình. Ngoài ra chương trình còn 1 số lớp phụ khác phục vụ cho quá trình xây dựng giao diện, hỗ trợ cấu trúc dữ liệu cho việc thực thi các thuật giải… Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 66 Chương 5. KẾT QUẢ NHẬN XÉT Chương này giới thiệu một số kết quả của chương trình. Thực hiện việc kiểm thử chương trình trên BAliBASE benchmark, so sánh kết quả với một số chương trình đang được sử dụng phổ biến trên thế giới. Các kết quả của MSAPR trong phần này thu được khi chạy trên máy PC cấu hình 512MB RAM, CPU Intel 4 2.4 GHz, sử dụng hệ điều hành Microsoft Windows XP. 5.1. Một số kết quả chạy chương trình. Ví dụ kiểm thử kết quả chương trình trên tập TAT protein của HIV1(Human Immunodeficiency Virus 1): Bảng 5.1 TAT Protein HIV1 >1 MDPVDPNLESWNHPGSQPRTACNKCHCKKCCYHC >2 MDPVDPNLEPWNHPGSQPRTPCNKCHCKKCCYHC >9 MEPVDPRLEPWKHPGSQPKTACNNCYCKKCCYHC >16 MEPVDPRLEPWKHPGSQPKTASNNCYCKRCCLHC >20 MEPVDPRLEPWKHPGSQPKTACTNCYCKKCCFHC >22 MEPVDPRLEPWKHPGSQPKTACTTCYCKKCCFHC >21 MDPVDPRLEPWKHPGSQPKAACTSCYCKKCCFHC >23 MEPVDPSLEPWKHPGSQPKTACTNCYCKKCCLHC >18 MEPVDPNLEPWKHPGSQPRTACNNCYCKKCCFHC >19 MEPVDPNLEPWKHPGSQPRTACNNCYCKKCCFHC >8 MEPVDPNLEPWKHPGSQPRTACTNCYCKKCCFHC >15 MEPVDPRLEPWKHPGSQPKTACTNCYCKKCCFHC >14 MEPVDPRLEPWKHPGSQPKTACTNCYCKKCCFHC >13 MEPVDPRLEPWKHPGSQPKTACTNCYCKKCCFHC >12 MEPVDPRLEPWKHPGSQPKTACTNCYCKKCCFHC >11 MEPVDPRLEPWKHPGSQPKTACTNCYCKKCCFHC >10 MEPVDPRLEPWKHPGSQPKTACTTCYCKKCCFHC >17 METHLKAPESSLESYNEPSSCTSEQGVTAQELAKQGEELLSQLHRPLEACTNSCYCKQCSFHC >7 MEPVDPNLEPWKHPGSQPTTACSNCYCKVCCWHC >6 MDPIDPDLEPWKHPGSQPRTVCNNCYCKACCYHC >24 MDPVDPNIEPWNHPGSQPKTACNRCHCKKCCYHC >5 MDPVDPNIEPWNHPGSQPKTACNRCHCKKCCYHC >4 MDPVDPNLEPWNHPGSQPKTACNRCHCKKCCYHC >3 MDPVDPNLEPWNHPGSQPRTPCNKCYCKKCCYHC Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 67 Trong đó: 1,..,24 lần lượt là 24 protein của TAT : 1 -> P18804 2 -> P04611 3 -> P04613 4 -> P04609 5 -> P12506 6 -> P17285 7 -> P24738 8 -> P19552 9 -> P05908 10 -> P04610 11 -> P04607 12 -> P04606 13 -> P04326 14 -> P04608 15 -> P05907 16 -> P20893 17 -> P18044 18 -> P35965 19 -> P04614 20 -> P19553 21 -> P05906 22 -> P05905 23 -> P20879 24 -> PDB1tiv Bảng 5.2 Kết quả Alignment của MSAPR và CLUSTALW với TAT HIV1 Result of MSA: 6 MDP----IDPDLEPWKHPGS------------------------QPRTVCNN-CYCKACCYHC 3 MDP----VDPNLEPWNHPGS------------------------QPRTPCNK-CYCKKCCYHC 2 MDP----VDPNLEPWNHPGS------------------------QPRTPCNK-CHCKKCCYHC 1 MDP----VDPNLESWNHPGS------------------------QPRTACNK-CHCKKCCYHC 24 MDP----VDPNIEPWNHPGS------------------------QPKTACNR-CHCKKCCYHC 5 MDP----VDPNIEPWNHPGS------------------------QPKTACNR-CHCKKCCYHC 4 MDP----VDPNLEPWNHPGS------------------------QPKTACNR-CHCKKCCYHC 19 MEP----VDPNLEPWKHPGS------------------------QPRTACNN-CYCKKCCFHC 18 MEP----VDPNLEPWKHPGS------------------------QPRTACNN-CYCKKCCFHC 8 MEP----VDPNLEPWKHPGS------------------------QPRTACTN-CYCKKCCFHC 7 MEP----VDPNLEPWKHPGS------------------------QPTTACSN-CYCKVCCWHC 23 MEP----VDPSLEPWKHPGS------------------------QPKTACTN-CYCKKCCLHC 16 MEP----VDPRLEPWKHPGS------------------------QPKTASNN-CYCKRCCLHC 9 MEP----VDPRLEPWKHPGS------------------------QPKTACNN-CYCKKCCYHC 12 MEP----VDPRLEPWKHPGS------------------------QPKTACTN-CYCKKCCFHC 14 MEP----VDPRLEPWKHPGS------------------------QPKTACTN-CYCKKCCFHC 20 MEP----VDPRLEPWKHPGS------------------------QPKTACTN-CYCKKCCFHC 11 MEP----VDPRLEPWKHPGS------------------------QPKTACTN-CYCKKCCFHC 15 MEP----VDPRLEPWKHPGS------------------------QPKTACTN-CYCKKCCFHC 13 MEP----VDPRLEPWKHPGS------------------------QPKTACTN-CYCKKCCFHC 10 MEP----VDPRLEPWKHPGS------------------------QPKTACTT-CYCKKCCFHC 22 MEP----VDPRLEPWKHPGS------------------------QPKTACTT-CYCKKCCFHC 21 MDP----VDPRLEPWKHPGS------------------------QPKAACTS-CYCKKCCFHC 17 METHLKAPESSLESYNEPSSCTSEQGVTAQELAKQGEELLSQLHRPLEACTNSCYCKQCSFHC 1 ----MDPVDPNLESWNHP-----------------GS-------QPRTACNK-CHCKKCCYHC 2 ----MDPVDPNLEPWNHP-----------------GS-------QPRTPCNK-CHCKKCCYHC 9 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACNN-CYCKKCCYHC 16 ----MEPVDPRLEPWKHP-----------------GS-------QPKTASNN-CYCKRCCLHC 20 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTN-CYCKKCCFHC 22 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTT-CYCKKCCFHC 21 ----MDPVDPRLEPWKHP-----------------GS-------QPKAACTS-CYCKKCCFHC 23 ----MEPVDPSLEPWKHP-----------------GS-------QPKTACTN-CYCKKCCLHC 18 ----MEPVDPNLEPWKHP-----------------GS-------QPRTACNN-CYCKKCCFHC 19 ----MEPVDPNLEPWKHP-----------------GS-------QPRTACNN-CYCKKCCFHC 8 ----MEPVDPNLEPWKHP-----------------GS-------QPRTACTN-CYCKKCCFHC 15 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTN-CYCKKCCFHC 14 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTN-CYCKKCCFHC 13 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTN-CYCKKCCFHC 12 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTN-CYCKKCCFHC 11 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTN-CYCKKCCFHC 10 ----MEPVDPRLEPWKHP-----------------GS-------QPKTACTT-CYCKKCCFHC 17 METHLKAPESSLESYNEPSSCTSEQGVTAQELAKQGEELLSQLHRPLEACTNSCYCKQCSFHC 7 ----MEPVDPNLEPWKHP-----------------GS-------QPTTACSN-CYCKVCCWHC 6 ----MDPIDPDLEPWKHP-----------------GS-------QPRTVCNN-CYCKACCYHC 24 ----MDPVDPNIEPWNHP-----------------GS-------QPKTACNR-CHCKKCCYHC 5 ----MDPVDPNIEPWNHP-----------------GS-------QPKTACNR-CHCKKCCYHC 4 ----MDPVDPNLEPWNHP-----------------GS-------QPKTACNR-CHCKKCCYHC 3 ----MDPVDPNLEPWNHP-----------------GS-------QPRTPCNK-CYCKKCCYHC Kết quả MSA với tập HIV1 của MSAPR Kết quả MSA với tập HIV1 của CLUSTALW Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 68 Thời gian chạy đối với việc tìm MSA của TAT HIV1 là 15s, của CLUSTALW là 12s. Thử nghiệm trên một số tập protein thực khác, và so sánh với kết quả của CLUSTALW, chương trình cho kết quả chạy tốt. Khi số sequence lớn và chiều dài trung bình của các sequence lớn hơn 500, thời gian chạy của chương trình cao hơn so với CLUSTALW. Vấn đề so sánh thời gian chạy và không gian bộ nhớ sử dụng sẽ được đề cập chi tiết trong phần sau. Phần tiếp theo sẽ thực hiện việc so sánh kết quả của MSAPR với một số chương trình, trên cùng một tập dữ liệu đầu vào BAliBASE. 5.2. BAliBASE (Benchmark Alignment Database) BAliBASE[3] là một tập dữ liệu các MSA của các protein được giới thiệu bởi Thompson(1999). Các MSA trong BAliBASE được xây dựng dựa trên cấu trúc bậc 3 (cấu trúc của các protein trong không gian 3 chiều) quan sát được của các protein. Từ cấu trúc bậc 3, các protein được chuyển đổi về cấu trúc bậc 2, từ đó tạo nên các MSA trong BAliBASE. Đây là một benchmark chuẩn, thường được dùng để kiểm thử các chương trình tìm lời giải của bài toán MSA. Phiên bản được sử dụng trong đề tài BAliBASE 2.01. BAliBASE 2.01 bao gồm 220 MSA, với khoảng 1000 sequence. Các protein trong MSA là các protein thật sự trong thực tế. Các MSA trong BAliBASE chia làm 8 nhóm. Mỗi nhóm này giới thiệu một số các trường hợp MSA thường gặp trong thực tế. Nhóm 1 là các MSA của các sequence có độ dài tương đương nhau, và có nhiều mức độ tương đồng giữa các sequence. Nhóm 2 bao gồm các MSA của 1 tập khoảng 15 sequence, có độ giống nhau quan sát được trong cấu trúc bậc 3 nhỏ hơn 25%. Nhóm 3 bao gồm 4 nhóm con, các nhóm con này có độ giống nhau ở các vị trí của các sequence giữa các nhóm nhỏ hơn 25%. Nhóm 4 và nhóm 5 chứa các alignment có từ 20 sequence trở lên bao gồm các N/C terminal extension và các insertions. Nhóm 6 gồm các MSA được hình thành từ các sequence có sự lặp lại của các đoạn con. Nhóm 7 gồm các MSA được hình thành từ các transmembrane protein sequence. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 69 Nhóm 8 bao gồm các MSA được hình thành từ các protein có sự đột biến theo dạng vòng(Đột biến vòng được định nghĩa: Xét 1 protein ABCDEFGH, đột biến vòng có thể có dạng như sau ABCDEFGH, BCDEFGHA, CDEFGHAB ,DEFGHABC, EFGHABCD). BAliBASE sử dụng 2 định dạng file để cho phép người dùng có thể kiểm nghiệm kết quả của các chương trình trên tập dữ liệu này. Các file .tfa lưu trữ các sequence(tạo nên mỗi MSA tương ứng trong BAliBASE) theo chuẩn FASTA. Các file .msf lưu trữ các MSA theo chuẩn MSF. Việc so sánh kết quả MSA của BAliBASE với các kết quả MSA khác(được tạo ra bởi cùng 1 tập sequence đầu vào) sẽ được thực hiện thông qua chương trình bali_score (Thompson) [4]. Chương trình này sẽ cho biết MSA được đưa vào sẽ có độ chính xác bao nhiêu so với MSA của BAliBASE. Gọi độ chính xác là Δ . Tiêu chí đánh giá độ chính xác của MSA thường căn cứ vào Δ . Một số tính chất của Δ : [0,1]Δ∈ . 1Δ = có sự giống nhau hoàn toàn giữa 2 MSA. 0Δ = , 2 MSA có sự khác biệt hoàn toàn. 1Δ→ độ chính xác cao. 0Δ→ độ khác biệt cao. Chương trình MSAPR cho kết quả chạy khá tốt trên BAliBASE benchmark. 5.3. So sánh kết quả Để kiểm định kết quả của MSAPR, đề tài sử dụng các file .tfa của BAliBASE, thực hiện việc tính toán đồng thời kết quả của cả MSAPR và CLUSTALW. Ngoài ra để cung cấp một cái nhìn toàn diện hơn, chương trình có sử dụng lại các kết quả tính toán của Thompson [29] với 7 chương trình khác để thực hiện việc so sánh. Các chương trình này bao gồm: SAGA, DIALIGN, SB_PIMA, ML_PIMA, MULTALIGN, PILEUP 8, MULTAL, HMMT. Chi tiết về các chương trình và các kết quả này có thể tham khảo tại trang web Bioinformatics Platform of Strasbourg [5]. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 70 5.3.1. Giới thiệu về các chương trình được sử dụng CLUSTALW: là một chương trình mã nguồn mở được phát triển bởi Gibson T. (European Molecular Biology Laboratory-EMBL), Thompson J. (National Scientific Research Centre- CNRS (France)), Higgins D. (University College Dublin(UCD) - National University of Ireland, Dublin). CLUSTALW hiện thực bằng C và sử dụng Progressive Algorithm. Đây là chương trình cho kết quả ổn định và tốt nhất trong các chương trình phát triển theo hướng Progressive Algorithm. Phiên bản được sử dụng tính toán trong đề tài là CLUSTALW 1.83. CLUSTALX: là một phiên bản giao diện đồ họa của CLUSTALW. Phiên bản được sử dụng trong đề tài là CLUSTALX 1.83. SAGA được phát triển bởi Cédric Notredame* and Desmond G. Higgins (European Bioinformatics Institute ) sử dụng giải thuật di truyền để tìm lời giải MSA. DIALIGN được phát triển bởi Burkhard Morgenstern(University of Göttingen), DIALIGN sử dụng Progressive Algorithm.(không áp dụng gap penalty). ML_PIMA, SB_PIMA được phát triển bởi Smith, R.F và Smith,T.F. Sử dụng Progressive Algorithm. MULTALIGN: được phát triển bởi Barton G.J. và Sternberg(Laboratory of Molecular Biology Department of Crystallography Birkbeck College, London). MULTALIGN sử dụng mô hình Progressive Algorithm để tìm lời giải MSA. PILEUP 8 được phát triển bởi Genetic Computer Group(GCG) áp dụng Progressive Algorithm để tìm lời giải MSA. MULTAL được phát triển bởi Taylor, sử dụng Progressive Algorithm để hiện thực. HMMT được phát triển bởi Sean R. Eddy(Washington University School, MRC- Laboratory of Molecular Biology in Cambridge), sử dụng mô hình Markov ẩn để tìm lời giải MSA. 5.3.2. So sánh độ chính xác của kết quả Trong phần này sẽ trình bày các kết quả thu được khi chạy MSAPR, và CLUSTALW trên tập 5 nhóm dữ liệu của BAliBASE, và liệt kê thêm các kết quả khác của 7 chương trình nêu ở trên dựa trên một nghiên cứu của Thompson. Chúng ta sẽ xét kết quả của các chương trình khi sử dụng từng nhóm dữ liệu MSA của BAliBASE. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 71 Nhóm 1. Dựa vào chiều dài của các MSA, BAliBASE chia Nhóm 1 làm 3 tập con: Tập MSA có chiều dài nhỏ(từ 50-200 phần tử) Tập MSA có chiều dài trung bình (từ 200-400 phần tử) Tập MSA có chiều dài lớn( từ 500 phần tử trở lên) Căn cứ vào độ giống nhau I của các sequence tạo nên các MSA, trong mỗi tập con lại chia thành 3 hình thức, Các MSA thỏa mãn I 0.25< . Các MSA có I thỏa 0.2 I 0.4≤ ≤ và các MSA có I thỏa I 0.35≤ . Ba bảng 5.3, 5.4, 5.5 liệt kê độ chính xác của các chương trình khi sử dụng dữ liệu nhóm 1, (có độ giống nhau của các sequence I thỏa mãn I 0.25< ). Cột đầu tiên là tên của các sequence thuộc nhóm 1(I<0.25). Các cột tiếp theo lần lượt là độ chính xác của các chương trình so với kết quả MSA của BAliBASE. Kết quả chạy chương trình với tập MSA có chiều dài nhỏ(gồm 7 tập sequence). Tên MSA PR CLUST ALW SAGA DIALIG N SB_ PIMA ML_ PIMA MULTA LIGN PILE UP 8 MULT AL HMMT 1aboA 0.581 0.688 0.529 0.359 0.312 0.312 0.703 0.521 0.526 0.181 1idy 0.604 0.548 0.342 0.018 0.145 0.062 0.566 0.080 0.080 0.138 1r69 0.382 0.436 0.550 0.406 0.681 0.366 0.325 0.562 0.225 0.100 1tvxA 0.319 0.216 0.278 0.306 0.344 0.344 0.228 0.344 0.244 0.108 1ubi 0.477 0.595 0.452 0.000 0.370 0.493 0.488 0.428 0.428 0.140 1wit 0.666 0.693 0.899 0.851 0.963 0.444 0.842 0.773 0.763 0.549 2trx 0.548 0.690 0.801 0.728 0.451 0.496 0.500 0.453 0.235 0.292 Bảng 5.3 Kết quả chạy chương trình với Nhóm 1 có chiều dài nhỏ Kết quả chạy chương trình với tập MSA có chiều dài trung bình(8 tập sequence). MSA PR CLUSTA LW SAGA DIALIG N SB_ PIMA ML_PI MA MULTA LIGN PILEU P8 MUL TAL HMMT 1bbt3 0.188 0.315 0.652 0.450 0.260 0.260 0.582 0.430 0.160 0.128 1sbp 0.425 0.467 0.543 0.453 0.540 0.456 0.580 0.547 0.537 0.144 1havA 0.260 0.227 0.411 0.130 0.300 0.466 0.419 0.536 0.040 0.133 1uky 0.407 0.517 0.672 0.566 0.684 0.684 0.685 0.571 0.460 0.084 2hsdA 0.529 0.537 0.771 0.679 0.470 0.470 0.470 0.646 0.463 0.117 2pia 0.565 0.601 0.690 0.660 0.740 0.740 0.760 0.850 0.560 0.057 3grs 0.293 0.310 0.689 0.327 0.416 0.416 0.380 0.446 0.347 0.056 kinase 0.615 0.655 0.862 0.764 0.733 0.703 0.643 0.730 0.650 0.277 Bảng 5.4 Kết quả chạy chương trình với Nhóm 1 có chiều dài trung bình Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 72 Kết quả chạy chương trình với tập MSA có chiều dài lớn(8 tập sequence). Bảng 5.5 Kết quả chạy chương trình với Nhóm 1 có chiều dài lớn 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Testcase(Nhóm 1)(I<0.25) Đ ộ ch ín h xá c MSA PR CLUSTALW MULTAL Độ dài nhỏ Độ dài trung bình Độ dài lớn Hình 5.1 Đồ thị tương quan về độ chính xác của MSAPR, CLUSTALW và MULTAL MSA PR CLUST ALW SAGA DIALI GN SB_PI MA ML_PI MA MULT ALIGN PILEU P8 MULT AL HMMT 1ajsA 0.434 0.371 0.531 0.142 0.486 0.471 0.424 0.556 0.364 0.105 1cpt 0.647 0.696 0.780 0.829 0.792 0.792 0.835 0.865 0.777 0.156 1lvl 0.460 0.394 0.619 0.699 0.559 0.559 0.570 0.587 0.572 0.064 1pamA 0.389 0.433 0.596 0.694 0.513 0.549 0.596 0.641 0.204 0.034 1ped 0.732 0.748 0.748 0.743 0.756 0.756 0.727 0.723 0.730 0.032 2myr 0.448 0.394 0.285 0.284 0.670 0.613 0.422 0.621 0.547 0.050 4enl 0.547 0.562 0.414 0.529 0.701 0.701 0.754 0.669 0.787 0.044 gal4 0.360 0.518 0.500 0.581 0.445 0.445 0.368 0.543 0.406 0.055 Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 73 Nhóm 2: Bảng 5.6 liệt kê độ chính xác của các chương trình khi thực hiện việc tính toán MSA với toàn bộ dữ liệu của nhóm 2. MAS PR CLUST ALW SAGA DIALI GN HMMT SB_PI MA ML_PI MA MULT ALIGN PILE UP8 1aboA 0.759 0.850 0.489 0.384 0.724 0.391 0.220 0.528 0.000 1idy 0.899 0.949 0.548 0.000 0.353 0.000 0.000 0.401 0.000 1csy 0.626 0.804 0.154 0.000 0.000 0.000 0.000 0.154 0.114 1r69 0.887 0.916 0.475 0.675 0.000 0.675 0.675 0.675 0.450 1tvxA 0.867 0.942 0.448 0.000 0.276 0.241 0.241 0.138 0.345 1tgxA 0.737 0.786 0.773 0.630 0.622 0.678 0.543 0.696 0.318 1ubi 0.756 0.826 0.492 0.000 0.053 0.129 0.129 0.000 0.000 1wit 0.648 0.800 0.694 0.724 0.641 0.469 0.463 0.500 0.476 2trx 0.933 0.950 0.870 0.734 0.739 0.850 0.702 0.870 0.870 1sbp 0.721 0.808 0.374 0.043 0.214 0.043 0.054 0.186 0.177 1havA 0.763 0.839 0.448 0.000 0.194 0.259 0.238 0.500 0.493 1uky 0.815 0.855 0.476 0.216 0.395 0.256 0.306 0.585 0.562 2hsdA 0.796 0.836 0.498 0.262 0.423 0.390 0.561 0.593 0.278 2pia 0.803 0.821 0.763 0.612 0.647 0.730 0.695 0.765 0.766 3grs 0.737 0.803 0.282 0.350 0.141 0.183 0.211 0.192 0.159 kinase 0.827 0.914 0.867 0.692 0.749 0.755 0.651 0.830 0.799 1ajsA 0.870 0.876 0.311 0.000 0.242 0.000 0.000 0.311 0.227 1cpt 0.814 0.847 0.776 0.425 0.388 0.184 0.277 0.777 0.688 1lvl 0.799 0.836 0.726 0.783 0.539 0.620 0.688 0.614 0.678 1pamA 0.798 0.812 0.623 0.576 0.530 0.393 0.386 0.566 0.702 1ped 0.878 0.895 0.835 0.773 0.696 0.651 0.647 0.741 0.749 2myr 0.822 0.895 0.825 0.840 0.443 0.727 0.750 0.894 0.786 4enl 0.844 0.869 0.739 0.122 0.213 0.096 0.092 0.384 0.224 Bảng 5.6 Kết quả chạy của các chương trình với các sequence của nhóm 2. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 74 0 0.2 0.4 0.6 0.8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Testcase (Nhóm 2) Đ ộ ch ín h xá c MASPR CLUSTALW HMMT Hình 5.2 Đồ thị tương quan về độ chính xác của MSAPR, CLUSTALW và HMMT Nhóm 3: Bảng 5.7 liệt kê độ chính xác của các chương trình khi thực hiện việc tính toán MSA với toàn bộ dữ liệu nhóm 3 MSAPR CLUS TALW SAGA DIALI GN HMMT SB_PI MA ML_PI MA MULTA LIGN PILEU P8 1idy 0.506 0.591 0.364 0.000 0.227 0.000 0.000 0.045 0.000 1r69 0.342 0.555 0.524 0.524 0.000 0.000 0.905 0.000 0.000 1ubi 0.345 0.582 0.585 0.000 0.366 0.000 0.000 0.000 0.268 1wit 0.602 0.833 0.484 0.500 0.323 0.645 0.323 0.242 0.210 1uky 0.455 0.527 0.269 0.139 0.037 0.083 0.148 0.241 0.083 kinase 0.679 0.762 0.758 0.650 0.478 0.541 0.682 0.688 0.599 1ajsA 0.336 0.405 0.186 0.000 0.006 0.000 0.000 0.000 0.110 1 pamA 0.764 0.783 0.579 0.683 0.169 0.546 0.590 0.546 0.754 1ped 0.721 0.808 0.646 0.641 0.172 0.450 0.507 0.665 0.722 2myr 0.440 0.636 0.494 0.272 0.101 0.278 0.494 0.253 0.310 4enl 0.762 0.799 0.672 0.050 0.050 0.393 0.438 0.652 0.498 Bảng 5.7 Kết quả chạy của các chương trình với các sequence của nhóm 3. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 75 0 0.2 0.4 0.6 0.8 1 1 2 3 4 5 6 7 8 9 10 11 Testcase(Nhóm 3) Đ ộ ch ín h xá c MSAPR CLUSTALW HMMT Hình 5.3 Đồ thị tương quan về độ chính xác của MSAPR, CLUSTALW và HMMT Nhóm 4: Bảng 5.8 liệt kê độ chính xác của các chương trình khi thực hiện việc tính toán MSA với toàn bộ dữ liệu nhóm 4. MSAPR CLUSTALW SAGA DIALI GN SB_PI MA ML_PI MA MULTA LIGN PILEU P8 1dynA 0.313 0.566 0.000 0.600 0.600 0.600 0.000 0.000 1pysA 0.482 0.558 0.250 0.750 1.000 1.000 0.000 0.750 1ckaA 0.436 0.823 0.375 1.000 1.000 0.000 0.000 1.000 1csp 0.358 0.498 0.000 0.889 0.000 0.000 0.000 0.000 1lkl 0.707 0.718 0.000 1.000 1.000 1.000 0.000 1.000 1mfa 0.580 0.500 0.385 1.000 0.846 1.000 0.385 1.000 1ycc 0.783 0.785 0.485 0.727 0.970 0.818 0.485 0.455 2abk 0.470 0.469 0.000 1.000 0.471 0.471 0.000 0.471 kinase1 0.807 0.873 0.000 1.000 1.000 1.000 0.000 1.000 Bảng 5.8 Kết quả chạy của các chương trình với các sequence của nhóm 4 0 0.2 0.4 0.6 0.8 1 1 2 3 4 5 6 7 8 9 Testcase(Nhóm 4) Đ ộ ch ín h xá c MSAPR CLUSTALW SAGA Hình 5.4 Đồ thị tương quan về độ chính xác của MSAPR, CLUSTALW, SAGA. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 76 Nhóm 5 Bảng 5.9 liệt kê độ chính xác của các chương trình khi thực hiện việc tính toán MSA với toàn bộ dữ liệu nhóm 5. MSAPR CLUSTALW SAGA DIALI GN SB_PIM A ML_PI MA MULTA LIGN PILEU P8 1pysA 0.590 0.580 0.429 0.762 0.190 0.762 0.429 0.190 1eft 0.236 0.459 0.000 0.579 0.000 0.000 0.000 0.211 1ivy 0.785 0.818 0.735 1.000 1.000 0.882 0.735 1.000 1qpg 0.839 0.903 0.521 1.000 1.000 1.000 1.000 1.000 1thm1 0.714 0.706 0.765 0.765 0.765 0.412 0.412 0.765 1thm2 0.755 0.852 0.774 1.000 0.194 0.194 0.774 0.645 2cba 0.744 0.769 0.767 1.000 0.533 0.767 0.550 0.600 S51 0.627 0.796 0.831 0.646 0.338 0.631 0.646 0.646 S52 0.857 0.902 1.000 1.000 0.515 0.515 1.000 0.515 kinase1 0.807 0.817 0.484 0.806 0.677 0.677 1.000 0.677 kinase2 0.698 0.812 0.667 0.667 0.556 0.444 0.333 0.689 kinase3 0.609 0.777 0.729 0.812 0.333 0.583 0.646 0.729 Bảng 5.9 Kết quả chạy của các chương trình với các sequence của nhóm 5 0 0.2 0.4 0.6 0.8 1 1.2 1 2 3 4 5 6 7 8 9 10 11 12 Testcase(Nhóm 5) Đ ộ ch ín h xá c MSAPR CLUSTALW SAGA Hình 5.5 Đồ thị tương quan về độ chính xác của MSAPR, CLUSTALW, SAGA Như vậy thông qua kết quả kiểm thử các chương trình trên 5 nhóm dữ liệu của BAliBASE, MSAPR cho kết quả chạy ổn định, sự chênh lệch về độ chính xác(với MSA của BAliBASE) so với CLUSTALW là chấp nhận được. So với các chương trình còn lại MSAPR cũng cho những kết quả đánh giá khá tốt và khả quan. Chương trình chạy tốt cho cả tập dữ liệu có độ dài các sequence nhỏ, cũng như với các tập dữ liệu có độ dài trung bình và lớn. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 77 Phần tiếp theo chúng ta sẽ xem xét về thời gian chạy cũng như vấn đề sử dụng bộ nhớ. 5.3.3. So sánh về mặt thời gian chạy, bộ nhớ Như đã trình bày ở phần thuật toán, chương trình MSAPR nhắm đến việc tăng độ chính xác của chương trình, cũng như giảm thiểu bộ nhớ sử dụng nên so sánh về mặt thời gian MSAPR có thời gian chạy lâu hơn so với CLUSTALW. Khi các sequence có chiều dài nhỏ(50-100 phần tử), thời gian chạy của CLUSTALW và MSAPR là tương đương, khi các sequence có chiều dài trung bình thì thời gian chạy giữa MSAPR và CLUSTALW chênh nhau khoảng 1,5 lần. Khi các sequence có chiều dài lớn, thời gian chạy có thể chênh lệch từ 3-4 lần. Hầu hết các MSA trong BAliBASE có ít hơn 50 sequence, do đó thời gian chạy thường dao động từ 10 giây đến 10 phút, tùy theo chiều dài của các sequence. Khi xét tập sequence lớn từ 100 đến 500 sequence, thời gian chạy của chương trình dao động trong khoảng từ 3 giờ đến 15 giờ. 0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 S ố s e q u e n c e Th ờ i g ia n (p hú t) M S A P R C L U S T A L W Hình 5.6 So sánh thời gian thực thi của MSAPR và CLUSTALW Xét về bộ nhớ sử dụng, như đã đề cập trong phần thiết kế giải thuật, chương trình hạn chế tối đa việc cấp phát bộ nhớ. Xét trên tập kết quả từ 5 nhóm dữ liệu của BAliBASE, MSAPR chiếm dụng từ 3.5MB đến 10MB bộ nhớ. Đây là một kết quả khá tốt về mặt quản lý bộ nhớ. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 78 Chương 6. KẾT LUẬN Sinh tin học(Bioinformatics) đang có những bước phát triển đột phá, và từng bước trở thành một ngành khoa học có vai trò vô cùng quan trọng trong sự phát triển của nhân loại. Được đánh giá là một trong 10 bài toán lớn của Bioinformatics, từ khi được đặt ra cho đến hiện nay, bài toán MSA đã và vẫn đang được nghiên cứu. Nhiều giải pháp được đưa ra để giải quyết bài toán này, tuy nhiên cho đến hiện nay(2007), bài toán MSA vẫn là một bài toán mở, chưa có một lời giải nào có thể giải quyết bài toán trọn vẹn. Đứng trên góc độ của một công trình nghiên cứu, luận văn cố gắng đưa ra một giải pháp nhằm cung cấp thêm một cách thức để giải quyết bài toán này. Tiếp cận theo hướng kết hợp phương pháp Progressive Algorithm và một số kỹ thuật heuristic, luận văn đã tối ưu hóa bài toán PSA về độ chính xác, cũng như không gian nhớ sử dụng cho chương trình, thông qua việc sử dụng giải thuật chia để trị kết hợp với việc sử dụng đồng thời 3 ma trận BLOSUM và các tham số về khả năng sinh gap, để phục vụ cho việc tính toán. Cùng với việc cải thiện chất lượng bài toán PSA, luận văn cũng đã sử dụng kết quả của bài toán TSP để mô tả quá trình phân hoạch cũng như gom nhóm, để thực hiện phép toán align cho bài toán MSA. Với việc kết hợp những kỹ thuật này, chương trình hiện thực cho giải thuật được đề xuất đã cho kết quả khá tốt. Kiểm thử chương trình trên tập dữ liệu mẫu BAliBASE và so sánh kết quả của chương trình với một số phần mềm được đánh giá rất tốt trong việc giải quyết bài toán MSA: CLUSTALW, SAGA, MULTALIGN,…. Về cơ bản chương trình cho lời giải có độ ổn định cao, chính xác không thua kém CLUSTALW(phần mềm được đánh giá là cho kết quả tốt và ổn định nhất), mặc dù thời gian chạy dài hơn so với CLUSTALW tuy nhiên xét về bộ nhớ sử dụng chương trình cho kết quả sử dụng bộ nhớ khá tốt. Đây cũng là mục tiêu hướng tới của luận văn: cung cấp một giải pháp, cho phép giải bài toán MSA có độ chính xác cao, thời gian chạy chấp nhận được và tiết kiệm về mặt bộ nhớ. Thông qua một số thử nghiệm trên một số tập dữ liệu mẫu khác, kết quả thu được của luận văn hoàn toàn có thể cung cấp cho các nhà sinh học một công cụ để giải các bài toán MSA. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 79 Kết quả đạt được có thể được mở rộng thêm để cải thiện tốc độ chạy của chương trình. Hạn chế về mặt thời gian chạy của chương trình có thể được giải quyết bằng việc: Đề xuất một phương pháp song song hóa giải thuật được nêu, và triển khai bài toán trên một hệ thống tính toán song song như Cluster hoặc triển khai trên hệ thống tính toán lưới Grid. Thiết kế một giải thuật nhánh và cận nhằm tối ưu về thời gian chạy cũng như độ chính xác cho bài toán TSP khi số đỉnh của bài toán lớn. Với những sự mở rộng này chúng ta có thể xây dựng một hệ thống tính toán để giải quyết bài toán MSA một cách hữu hiệu. Đây chính là hướng phát triển của luận văn. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 80 TÀI LIỆU THAM KHẢO 1. Akutsu, T., Arimura, H., and Shimozono, S., “On Approximation Algorithms for Local Multiple Alignment”, Proceedings of the fourth annual international conference on Computational molecular biology, Tokyo, Japan, 2000. 2. Attwood, T.K., Parry D.J., “Introduction to Bioinformatics”, Prentice Hall, 1999. 3. BAliBASE HomePage, 4. Bali_Score Program HomePage, 5. Bioinformatics Platform of Strasbourg, 6. Bonizzoni, P., Vedova, G.D “The complexity of multiple sequence alignment with SP-score that is a metric”, Theoretical Computer Science 2001, 259:63-79. 7. Cormen, T.H., Leiserson, C.E., Rivest, R.L. and Clifford, S., “Introduction to Algorithm”. Chapter 16, Dynamic Programming, MIT, 2001. 8. Eddy, S.R., “Multiple Alignment using Hidden Markov Model”. Proc. Int. Conf. Intell. Syst. Mol. Biol. 1995;3:114-20. 9. European Bioinformatics Institute, “CLUSTALW, CLUSTALX”, European Bioinformatics Institute HomPage, 10. Feng, D. and Doolittle, R., “Progressive alignment of amino acid sequences and construction of phylogenetic trees from them”, Method Enzymol. , 266:368-382 11. Feng, D. and Doolittle, R., “Progressive sequence alignment as a prerequisite to correct phylogenetic trees”, J. Mol. Evol , 25:351-360 12. GALib HomePage 13. Gotoh, O., “Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments”, J. Mol. Biol. 264:823-838 14. Henikoff, S. and Henikoff, J.G., “Amino acid substitution matrices from protein block”. Proc. Nat. Acd. Sci. USA. 90:10915-10919. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 81 15. Hirschberg D.S., “A linear Space Algorithm for Computing Maximal Common Subsequences”, Communication of the ACM, Volumn 18, Number 6, 1975 16. Huang, X., and Chao, K.-M,”A generalized global alignment algorithm”, Bioinformatics, Oxford University Press, Vol. 19, no. 2, 2003 pp 228–233. 17. Korostensky, C. and Gonnet,G.H. , ”Near Optimal Multiple Sequence Alignments using a Traveling Salesman Problem approach”. Proceedings of the String Processing and Information Retrieval Symposium & International Workshop on Groupware Page, 1999, pp 105. 18. Korostensky, C. and Gonnet, G.H. , ”Using traveling salesman problem algorithms for evolutionary tree construction”. Bioinformatics, 16:619-927, 2000. 19. Lipman, D. and Pearson, W. ,” Rapid and sensitive protein similarity searches”. Science,227:1435–1441, 1985. 20. Myers, E.W., Miller W., “Optimal alignments in linear space”.Comput Appl Biosci 1988, 4:11-17. 21. NCBI HomePage, 22. Needleman, S. B. and Wunsch, C. D. , “A general method applicable to the search for similarities in the amino acid sequence of two proteins”. Journal of Molecular Biology, 48:443–453, 1970. 23. Nicholas, H.B.Jr, Ropelewski, A.J. and Deerfield, D.W., “Strategies for multiple sequence alignment”, Biotechniques, 32:572-578. 24. Notredame, C., and Higgins, D. G., “SAGA: sequence alignment by genetic algorithm”, Nucleic Acids Research, vol. 24, no. 8, 1996, pp. 1515-1524. 25. Pearson, W.R, Miller, W. , “Dynamic programming algorithms for biological sequence comparison”. Meth. Enzymol. 210:575-601, 1992. 26. Shyu, C., “Multiple Sequence Alignment with Evolutionary Computation“ ,Genetic Programming and Evolvable Machines, Vol 5, Number 2. 2005, pp 121-144. 27. Smith, T. F. and Waterman, .M. S., “Identification of common molecular subsequences”, Journal of Molecular Biology, 147(1):195–197, Mar. 1981. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 82 28. Thompson , S.M., ”Multiple Sequence Alignment & Analysis”, Florida State University School of Computational Science and Information Technology (CSIT), 2007. 29. Thompson, J.D., Plewniak, F. and Poch, O.”A comprehensive comparision of multiple sequence alignment”, Nucleic Acids Res., 27:2682-2690. 30. Tompa, M. ”Alignment by Dynamic Programming”, 31. TSPBIB HomePage, 32. Wang, L. and Jiang, T., “On the complexity of multiple sequence alignment”. Journal of Computationa Biology, 1994, pp 337–348. 33. Wallace I.M., Blackshields G., Higgins D.G., “Multiple sequence alignments” Curr Opin Struct Biol 2005, 15:261-266. 34. Wayama, W., Takahashi, K., and Shimizu, T., “An approach to amino acid sequence alignment using a genetic algorithm”. Genome Informatics, vol. 6, 1995, pp. 122-123. 35. Yang, Y., “Comparative analysis of methods for multiple sequence alignment”, Stanford University, 2001. 36. Zhong, W., “Using Traveling Salesman Problem Algorithms to Determine Multiple Sequence Alignment Orders”. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 83 Phụ lục 1. Bảng đối chiếu Thuật ngữ Anh - Việt Các thuật ngữ trong Sinh học: Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt Amino Acid Acid amin, là đơn vị cấu trúc cơ bản của protein Biology Sinh học Block Khối Chromosome Nhiễm sắc thể DNA(Deoxyribonucleic Acid) Là một phân tử nucleic acid mang thông tin di truyền mã hóa cho hoạt động sinh trưởng và phát triển của các dạng sống. DNA chứa các gene cấu trúc.(còn gọi là ADN) Evolution Tree Cây tiến hoá Genomic Công nghệ gene Gene Là một đoạn DNA mang một chức năng nhất định trong quá trình truyền thông tin di truyền Identity Giống nhau Molecular Biology Sinh học phân tử Nucleotide Nu, là các đơn phân cấu thành DNA. Gồm 4 loại A,C,G,T Parent Thế hệ cha mẹ Phylogenetic Tree Cây sinh loài Protein Hợp chất đại phân tử được tạo thành từ rất nhiều các đơn phân là các acid amin. Protein Family Họ các protein có liên quan với nhau RNA(Ribonucleic Acid) Là cơ sở di truyền ở cấp độ phân tử(còn gọi là ARN) Sequence Chuỗi trình tự Secondary Structure of Proteins Cấu trúc bậc 2 của Protein Similarity Tương đồng Transmembrane protein Loại Protein nối liền các lớp màng nhầy. Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 84 Tertiary Structure of Proteins Cấu trúc bậc 3 của Protein Các thuật ngữ trong chuyên ngành(Sinh tin học): Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt Align Thực hiện so sánh(gióng hàng, gióng cột) 2 hay nhiều trình tự. BAliBASE benchmark Dữ liệu kiểm thử BAliBASE BAliScore Độ chính xác của MSA so với MSA mẫu của BAliBASE Bioinformatics Sinh tin học BLOSUM Matrix Ma trận BLOSUM Center Star Algorithm Giải thuật chọn phần tử trung tâm Circular Tour Chu trình, lời giải bài toán TSP Crossover Phép lai ghép Deletion Sự mất đi các phần tử Deletion gap Các gap được sinh ra bằng cách xóa đi các phần tử của sequence. Divide and Conquer Algorithm Giải thuật chia để trị Distance Matrix Ma trận khoảng cách Dynamic Programming Quy hoạch động Execution Time Thời gian thực thi FASTA Chuẩn định dạng FASTA lưu trữ các sequence Fitness Function Hàm thích nghi Feng-Doolittle Algorithm Giải thuật của Feng-Doolittle GALib Thư viện hàm cho phép thiết kế, hỗ trợ lập trình các ứng dụng về thuật giải di truyền Gap Phần tử sinh ra trong quá trình so sánh các trình tự Gap Open Penalty Khả năng mở gap Gap Extension Penalty Khả năng mở rộng của gap Genetic Algorithm-GA Giải thuật di truyền Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 85 Gene Finding Problem Bài toán tìm gene Global Sequence Alignment Phép so sánh trình tự theo hướng toàn cục Guide Tree Cây mô tả quá trình so sánh của các sequence Heuristic Các kỹ thuật trong Trí tuệ nhân tạo, giúp giải quyết các bài toán 1 cách tự nhiên. Insertion Sự thêm vào các phần tử Insertion gap Các gap được sinh ra do sự thêm các phần tử vào sequence Iterative Algorithm Giải thuật tìm MSA bằng cách sinh ra 1 MSA có chất lượng thấp và cải tiến dần theo các bước lặp Local Sequence Alignment Phép so sánh trình tự theo hướng cục bộ Match Sự tương ứng, phù hợp giữa 2 thành phần của 2 sequence MSF Chuẩn định dạng MSF lưu trữ các MSA Multiple Sequence Alignment-MSA So sánh đa trình tự Mutation Phép đột biến NCBI Trung tâm quốc gia về Thông tin Công nghệ sinh học của Hoa Kỳ, cung cấp ngân hàng gene, Cơ sở dữ liệu Protein, các chương trình phục vụ cho mục đích sinh học… Near Optimal MSA MSA gần tối ưu Nondeterministic Polynomial-NP Bài toán NP, không thể tính với độ phức tạp đa thức Optimal MSA Phép so sánh đa trình tự tối ưu(tốt nhất) Order for Alignment Thứ tự so sánh của các sequence Pairwise Distance Khoảng cách của các cặp sequence Pairwise Sequence Alignment-PSA So sánh 2 trình tự Progressive Algorithm Giải thuật tìm MSA thông qua việc sử dụng bài toán PSA nhiều lần PMX(Partially Mapped Crossover) Kỹ thuật lai ghép từng phần Population Quần thể Scoring Function Hàm đánh giá Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 86 Scoring Matrix Ma trận đánh giá Scoring Method Phương pháp đánh giá Selection Phép chọn lọc Sequence Trình tự Sequence Alignment So sánh trình tự Subtitution Sự thay thế Sum of Pair Phương pháp đánh giá theo tổng các cặp trình tự Traceback Quá trình tìm alignment từ các vết Traveling Salesman Problem-TSP Bài toán người bán hàng Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 87 Phụ lục 2. Từ viết tắt Tên viết tắt Tên đầy đủ BLOSUM Block Substitution Matrix BAliBASE Benchmark Alignment DataBase CSDL Cơ sở dữ liệu DNA Deoxyribonucleic Acid GA Genetic Algorithm FASTA Fast Alignment Search Tool HMM Hidden Markov Model MSA Multiple Sequence Alignment NCBI National Center for Biotechnology Information NP Nondeterministic Polynomial NST Nhiễm Sắc Thể PSA Pairwise Sequence Alignment RNA Ribonucleic Acid SP Sum of Pair TSP Traveling Salesman Problem Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 88 Tham khảo Chỉ mục A amino acid, 6, 9, 10, 12, 13, 14, 16, 17, 20, 21, 25, 38 Average Information Content, 17 B BAliBase, 3 BaliScore, 69 Bioinformatics, iii, 1, 70, 78 block, 13 C Center Star Alignment, 33, 37 Circular Tour, 51, 52, 53, 54, 55, 56 CLUSTALW, 19, 40, 41, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78 Crossover, 57 Chromosome, 1, 57, 58, 59, 60 D DIALIGN, 19, 69, 70, 71, 72, 73, 74, 75, 76 Distance Matrix, 51, 53, 61, 65 Divide and Conquer Algorithm, 5, 43, 65 DNA, 1, 2, 6, 7, 10, 19 Dynamic Programming, 2, 18, 19, 24 E Entropy, 17 Execution Time, v, 43, 68, 77, 78, 79 F FASTA, 19, 63, 69 Feng-Doolittle Algorithm 4, 38, 39, 40 fitness function, 58 G Gap, 11, 14, 15 deletion, 11, 27, 28 insertion, 11, 27, 28 Gap Extension Penalty, 15 Gap Open Penalty, 15 gene, 1, 2, 6, 7, 10, 19, 57, 59, 60 Gene Finding Problem, 6 Genetic Algorithm, 5, 21, 57 Genomic, 1 Giải thuật 1A, 51 Giải thuật 1B, 55, 57 Giải thuật cải tiến không gian nhớ, 29 Gotoh Algorithm, 28 Guide Tree, 40, 54 H heuristic, 2, 3, 4, 18, 20, 23, 24, 33, 40, 62, 78 Hidden Markov Model, 19, 21 HMMT, 22, 69, 70, 71, 72, 73, 74, 75 I Identity, 6, 68, 71 Iterative Algorithm, 18, 19 M ML_PIMA, 69, 70, 71, 72, 73, 74, 75, 76 MSAPR, 60, 66, 67, 68, 69, 70, 72, 74, 75, 76, 77 MSF, 64, 69 MULTAL, 19, 69, 70, 71, 72 MULTALIGN, 19, 40, 69, 70, 71, 72, 73, 74, 75, 76, 78 Mutation, 58 N NCBI, 3, 63 Near Optimal Alignment, 3, 18 NP, 2, 18, 23, 51, 62 nucleotide, 9, 10, 12, 17, 21, 25 O Oder for Alignment, 5, 50, 51, 52, 54, 58, 61, 62 Optimal Alignment, 11, 24, 25, 26, 33, 36, 43, 44, 47 P Pairwise Distance, 40, 49 Parent, 57 Phylogenetic Tree, 1 PILEUP, 19, 40 PMX(Partially-Mapped Crossover), 59 Population, 21, 57, 58, 59 Progressive Algorithm 2, 3, 4, 18, 19, 23, 24, 37, 39, 40, 41, 49, 50, 52, 70, 78 protein, 1, 2, 6, 7, 9, 10, 13, 14, 19, 66, 67, 68, 69 protein family, 9 R RNA, 1, 6, 7, 83 S SAGA, 21, 69, 70, 71, 72, 73, 74, 75, 76, 78 SB_PIMA, 69, 70, 72, 73, 74, 75, 76 Scoring function, 5, 7, 12, 13, 14, 15, 16, 17, 20, 22, 25, 32, 34, 36, 38, 39, 40, 44, 48 Scoring Matrix BLOSUM, 3, 5, 13, 14, 47, 48, 61, 65, 78 Chemical Similarity Matrix, 13 Genetic Code Matrix, 13 Identity Matrix, 13 Các kỹ thuật toán học cho bài toán so sánh đa trình tự Phạm Mạnh Hùng Trang 89 Subtitution Matrix, 13 Scoring Method, 15 Sum-of-Pair, 16, 18, 32, 40, 50 Selection, 58 Sequence Alignment Global, 7 Local, 7 Multiple, 2, 3, 4, 5, 9, 10, 13, 16, 17, 18, 19, 20, 21, 22, 23, 24, 32, 33, 34, 37, 39, 41, 42, 49, 50, 60, 61, 62, 63, 65, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79 Pairwise, 2, 3, 4, 5, 7, 8, 15, 18, 23, 24, 25, 26, 33, 34, 35, 37, 38, 42, 43, 44, 48, 49, 51, 53, 57, 60, 61, 65, 78 Similarity, 7, 12, 13, 14, 16, 17, 39, 40, 51, 68 Substitution, 10, 14 T Tertiary Structure of Protein, 6, 9, 68 Traceback, 20, 26, 27, 45 transmembrane protein, 68 Traveling Salesmans Problem(TSP), 3, 5, 50, 51, 52, 53, 55, 57, 59, 60, 62, 65, 78, 79

Các file đính kèm theo tài liệu này:

Các kỹ thuật toán học cho bài toán so sánh đa trình tự.pdf