Luận văn Kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm

Đểcho kết quảđáng tin cậy hơn chúng tôisửdụng một kỹthuật thống kê rất thú vịđó là Sign Test. Phương pháp này so sánh một mô hình lớn hơn mô hình kia với một giá trịp-value cho trước bao nhiêu trường hợp.Trong chương trình chọn p-value=0.05 ứng với 5%. Điều này có nghĩa là so sánh 2 mô hình xem kết quảcủa 2 mô hình có độ chênh lệnh quá 5% (chênh lệch đáng kể) là bao nhiêu lần so với mô hình còn lại.

41 trang | Chia sẻ: lylyngoc | Lượt xem: 2680 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận văn Kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

- 1 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Duy Tùng KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIẾN ĐỔI AMINO ACID CHO VIRÚT CÚM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: khoa học máy tính HÀ NỘI - 2009 - 2 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Duy Tùng KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIẾN ĐỔI AMINO ACID CHO VIRÚT CÚM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: khoa học máy tính Cán bộ hướng dẫn: TS. Lê Sỹ Vinh HÀ NỘI - 2009 - 3 - Tóm tắt khóa luận Khóa luận với đề tài “kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm”. Đề tài này chúng tôi đã thực hiện những công việc sau: 1. Nghiên cứu tổng quan về sinh học phân tử và tin sinh học. 2. Nghiên cứu mô hình biến đổi amino acid. 3. Kiểm thứ mô hình I09 cho virút cúm và so sánh với các mô hình khác như: LG, WAG, HIVw, HIVb, JTT …… Kết quả cho thấy I09 [31] tốt hơn các mô hình khác khi áp dụng cho dữ liệu virút cúm. - 4 - Lời cảm ơn Tôi xin chân thành cảm ơn Tiến sỹ Lê Sỹ Vinh là người trực tiếp, nhiệt tình hướng dẫn tôi làm khóa luận tốt nghiệp trong thời gian qua. Tôi xin gửi lời cảm ơn tới thạc sỹ Đặng Cao Cường người đã giúp đỡ tôi rất nhiều trong quá trình làm khoán luận tốt nghiệp. Tôi xin gửi lời cảm ơn tới toàn thể các thầy giáo, cô giáo tại Trường Đại Học Công Nghệ những người đã hết lòng dạy cho tôi những kiến thức hết sức bổ ích trong 4 năm học tại trường. Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu và sự hỗ trợ tốt nhất. - 5 - Mục lục Lời nói đầu ...................................................................................................................... 1 Chương 1: Tổng quan về sinh học phân tử và .................................................................. 2 Một số khái niệm khái niệm tin sinh ................................................................................ 2 1.1 Sinh học phân tử......................................................................................................2 1.2 Sắp hàng đa chuỗi ...................................................................................................4 1.3 Cây phân loài ..........................................................................................................6 Chương 2: Mô hình thay thế nucleotide và....................................................................... 7 Mô hình thay thế amino acids .......................................................................................... 7 2.1 Mô hình của chuỗi tiến hóa .....................................................................................7 2.2 Mô hình thay thế của nucleotide..............................................................................9 2.3 Mô hình thay thế của amino acid ...........................................................................13 Chương 3: Virút............................................................................................................. 17 3.1 Khái niệm cơ bản về virút .....................................................................................17 3.2 Phân loại Virút ......................................................................................................17 3.3 Virút cúm ..............................................................................................................18 Chương 4: Quá trình thực hiện kết quả .......................................................................... 21 4.1 Sơ lược về chương trình ........................................................................................22 4.2 Những điểm cần chú ý trong chương trình.............................................................22 4.3 Quá trình thực hiện................................................................................................24 Kết luận ......................................................................................................................31 Chương 5: Tổng kết – Đánh giá ..................................................................................... 32 5.1 Tổng kết ................................................................................................................32 5.2 Những đóng góp....................................................................................................32 5.3 Hướng phát triển ...................................................................................................32 Tài liệu tham khảo ......................................................................................................... 33 Hình tham khảo ............................................................................................................. 36 - 1 - Lời nói đầu Tin sinh (Bioinformatics), Bio:sinh học phân tử (Molecular Biology), Informatics (Khoa học máy tính). Bioinformatics: giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học máy tính. Với sự phát triển mạnh mẽ của công nghệ sinh học, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National center for biotechnology information). Tin sinh học hiện đang được ứng dụng phổ biến trong sinh học phân tử, nông nghiệp, công nghệ thực phẩm, môi trường, y - dược học, và kiểm soát bệnh. Trong những năm gần đây trên toàn cầu đã bùng nổ những đại dịch cúm như đại dịch H5N1 và gần đây nhất mới phát hiện ra đại dịch mới do chủng H1N1 (đã đột biến) gây ra, có thể lây từ người sang người. Các nhà khoa học trên toàn thế giới đang ra sức nghiên cứu, tìm hiểu về loại virút cúm mới này. Vì vậy việc tìm ra một mô hình thay thế amino acid tốt nhất để giúp các nhà khoa học nghiên cứu tốt hơn các loại virút cúm là rất cần thiết. Với đề tài khóa luận tốt nghiệp “Kiểm định và so sánh các mô hình biến đổi Amino Acid cho virút cúm” chúng tôi hi vọng sẽ có những đóng góp vào việc sản xuất và điều chế ra vacxin điều trị cúm. Sau quá trình nghiên cứu và kiểm tra chúng tôi đã thu được một số kết quả sau. Chúng tôi đã tìm ra mô hình I09 [31] là tốt nhất để nghiên cứu các loại dữ liệu virút cúm. Mặc dù mô hình này mới ở giai đoạn đầu phát triển nhưng nó đã có những thuộc tính nổi trội cao so với các mô hình khác. Kiểm tra giá trị log likelihood trên 489 aligment độc lập đã cho chúng ta những kết quả như sau: I09 tốt hơn HIVb 455 bộ trên 489 aligmenent, tồi hơn 34 bộ, và I09 tốt hơn HIVw 476 bộ trên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên 489 aligmenent và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và tồi hơn 21 bộ. - 2 - Chương 1: Tổng quan về sinh học phân tử và Một số khái niệm khái niệm tin sinh 1.1 Sinh học phân tử Mọi cơ thể sống đều cấu tạo từ các tế bào. Tế bào có cấu tạo gồm: vỏ, nhân. Nhân tế bào đều chứa acid nucleic. Đó là những phân tử lớn gồm nhiều các nucleotide. Có hai loại nucleic: DNA và RNA. Để dễ hình dung hơn chúng ta có thể xem hình 1 thể hiện mô hình của một tế bào được phóng to ra. Hình 1: Cấu tạo tế bào. ADN (Acid deoxyribonucleic): là chuỗi xoán kép, mang thông tin di truyền, được cấu tạo từ 4 thành phần cơ bản sau: Adenine (A), Cytosine (C), Guanine (G), Thymine (T). Những đặc điểm này được thể hiện ở hình 2, hình này mô tả chuỗi xoán kép DNA và các liên kết A-T và C-G. Hình 2: Cấu trúc xoắn kép của DNA. - 3 - Trật tự các base dọc theo chiều dài của chuỗi DNA gọi là trình tự, trình tự này rất quan trọng vì nó chính là mật mã nói lên đặc điểm hình thái của sinh vật. Tuy nhiên, vì mỗi loại base chỉ có khả năng kết hợp với 1 loại base trên sợi kia, cho nên chỉ cần trình tự base của 1 chuỗi là đã đại diện cho cả phân tử DNA. Đột biến hiểu đơn giản là hậu quả của những sai sót hoá học trong quá trình nhân đôi. Bằng cách nào đó, một base đã bị bỏ qua, chèn thêm, bị sao chép nhầm hay có thể chuỗi DNA bị đứt gẫy hoặc gắn với chuỗi DNA khác. Về mặt cơ bản, sự xuất hiện những đột biến này là ngẫu nhiên và xác suất rất thấp. - Sự thay thế: thay thế một nucleotide bởi cái khác trong chuỗi. - Sự bỏ đi: xóa một hoặc nhiều hơn nucleotide từ chuỗi. - Thêm vào: thêm một hoặc nhiều nucleotide trong chuỗi. - Transitions: thay thế một purine trong purine khác (A  G) hoặc một pyrimidine trong pyrimidine (CT). - Transversion: thay thế một purine trong một pyrimidine AC, AT, GC, GT. RNA cũng tương tự như DNA nhưng trong thành phần cơ bản của nó thì T được thay bằng U (Uracil). Mối quan hệ của DNA, RNA, Protein được thể hiện qua sơ đồ sau: DNA tmRNA Protein Protein là thành phần quan trọng trong tế bào của virút. Protein được cấu tạo từ 20 loại amino axit. Sự khác nhau về lượng và trình tự sắp xếp các amino axit tạo thành các protein khác nhau. Transcription Translation - 4 - 20 loại amino axit: một bộ ba các A, C, G, T tương ứng với một amino acid gọi là bộ ba mã hóa (codon). Các bộ ba này ứng với các amino acid thể hiện trong hình 3, với các loại amino acid như sau: Phe, Leu, Ser, Tyr, Cys, Trp, Pro, His, Gln, Arg, lle, Thr, Asn, Lys, Arg, Val, Ala, Asp, Glu, Gly. Hình 3: 20 amino acid. Trong quá trình tiến hóa và biến đổi của các chuỗi DNA, RNA, có xảy ra những những đột biến (thêm vào, chèn, xóa – đã được định nghĩa trong phần 1.1). Chính vì vậy đã tạo ra sự khác nhau của các cuỗi DNA, RNA của cùng một loài. Vì vậy để nghiên cứu được về các chuỗi này điều đầu tiên chúng ta cần làm là sắp hàng các chuỗi này. 1.2 Sắp hàng đa chuỗi Sắp hàng đa chuỗi (gióng hàng đa chuỗi) là cách sắp hàng các chuỗi DNA, RNA hay protein sao cho chúng giống nhau nhất. Các chuỗi này sau khi sắp hàng sẽ có cùng chiều dài. Một số chương trình dùng để sắp hàng đa chuỗi như: CLUSTALW [28], T- COFFEE [17], hoặc MUSCLE [5]. Sắp hàng 2 chuỗi: là trường hợp riêng của sắp hàng đa chuỗi.Ví dụ chúng ta có hai chuỗi DNA của người và tinh tinh: - 5 - 1 2 3 4 5 6 7 8 9 10 11 12 Người A A C C T T T C C C T T Tinh Tinh A C C T T T C C C T T Sau khi sắp hàng ta có kết quả: 1 2 3 4 5 6 7 8 9 10 11 12 Người A A C C T T T C C C T T Tinh Tinh A C C - T T T C C C T T Sắp hàng đa chuỗi thay vì so sánh 2 cặp thì là việc tìm sự giống nhau của đồng thời nhiều chuỗi. Ví dụ: có sắp hàng đa chuỗi của 7 chuỗi sau: Sau khi các chuỗi được sắp hàng xong chúng sẽ được sử dụng với nhiều mục đích khác nhau. Một trong những mục đích quan trọng là xây dựng cây phân loài. 1 2 3 4 5 6 7 8 9 10 11 12 Người A A C C T T T C C C T T Tinh Tinh G A C - T T T C C C T T Khỉ đột C A C C T T T C C C T T Bò T C C - T T T C C C T T Chó T C C - T T T C C C T T Chuột T G C - T T T C C C T T Chim T G T - T T T C C C T T - 6 - 1.3 Cây phân loài Cây phân loài biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật. Có nhiều phương pháp để xây dựng cây phân loài như Maximum parsimony, Distance Based, hay Maximum Likelihood [15]. Nhưng ngày nay, phương pháp Maximum Likelihood được sử dụng phổ biến nhất. Sử dụng phần mềm PhyML [23] để xây đựng cây phân loài bằng phương pháp Maximum Likelihoood. Hình 4 là một ví dụ về cây phân loài của 4 loài: người, tinh tinh, gorilla, khỉ Rhesus. Hình 4: Ví dụ về cây phân loài Muốn xây dựng những cây phân loài tốt và chuẩn xác thì cần phải có những kiến thức cơ bản về những mô hình thay thế nucleotide hoặc mô hình thay thế amino acid. Những mô hình này là nền tảng của việc xây dựng nên cây phân loài. Lựa chọn được mô hình tốt sẽ dẫn tới việc có cây phân loài tốt. Phần tiếp theo sẽ nói chi tiết hơn về các mô hình thay thế nucleotide và mô hình thay thế amino acid. - 7 - Chương 2: Mô hình thay thế nucleotide và Mô hình thay thế amino acids Sau đây chúng tôi trình bày tổng quan về mô hình tiến hóa, mô hình thay thế của nucleotide, mô hình thay thế của amino acid. Chi tiết có thể tham khảo tại [15, 29]. 2.1 Mô hình của chuỗi tiến hóa Sau khi đã được chuỗi sắp hàng đồng nhất, mối quan hệ có thể được phân tích trên các ký tự đồng nhất của chúng. Ước lượng của sắp cặp khoảng cách (khoảng cách tiến hóa) giữa chuỗi là nhiệm vụ cơ bản và quan trọng trong phân tích chuỗi chẳng hạn như tìm kiếm có liên quan chặt chẽ đến chuỗi trong cơ sở dữ liệu và xây dựng lại khoảng cách cơ bản của cây phân loài [24]. Chính xác, Chúng ta có A= {A, C, G, T} theo thứ tự là 4 nucleotide tình trạng có thể thực hiện được. Giống nhau, của 20 trạng thái amino acid viết tắt với A= {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}. Nhìn 2 sắp hàng chuỗi (Nucleotide hoặc amino acids) x=(x1, x2,…, xm) và y=(y1, y2, ….,ym) khi xi, yiA với i=1 …m. Hình 5: quan hệ giữa khoảng cách quan sát và khoảng cách gen giữa 2 chuỗi. - 8 - Nếu khoảng cách gen là nhỏ, nó có thể ước lượng bởi khoảng cách quan sát. Tuy nhiên, khoảng cách quan sát tăng lên thì bão hòa và đó là giới hạn của nó. Bởi vậy, khoảng cách quan sát đánh giá bởi khoảng cách gen. Định nghĩa: Khoảng cách gen dg(x,y) giữa 2 chuỗi tương đồng x=(x1,x2,….,xm) và y=(y1,y2…..,ym) A với i=1 …. m là số thay thế có thật giữa x và y trên site. Ước lượng khoảng cách gen giữa chuỗi điển hình phụ thuộc vào thống kê mô tả của xử lý thay thế giữa nucleotie hoặc amino acids, gọi là mô hình thay thế. Trước khi miêu tả mô hình, chẳng hạn một sự đi chệch trong khoảng cách quan sát 2 chuỗi cái mà đơn giản nhất và thuộc về ước lượng trực giác của khoảng cách gen [24]. Định nghĩa: khoảng cách nhìn thấy d0(x,y) giữa chuỗi đồng nhất x=(x1, x2, …..,xn) và y=(y1,y2, … ,ym) với xi,yi A với i=1,… m là tỷ lệ của vị trí không ghép đôi trong sắp cặp chuỗi tương ứng. Toán học, do (x,y)= 1 ( )m i ii x y m   (2.1) Hình 6: Tiến hóa của 2 chuỗi từ chuỗi tổ tiên khi - 9 - nếu khoảng cách gen dg(x,y) là nhỏ, nó đã ước lượng một cách đúng đắn bởi khoảng cách quan sát do(x,y) như biểu đồ minh họa hình 5. Tuy nhiên, một tỷ lệ thay thế cao hoặc một thời gian tiến hóa giữa chuỗi có thể là nguyên nhân không đánh giá được khoảng cách gen từ khoảng cách quan sát. Rõ ràng hơn ở hình 6 hiển thị ví dụ về nhiều thay thế, thay thế song song và thay thế sau, trong cái khoảng cách quan sát giữa 2 chuỗi là nhỏ hơn số của thay thế thực tế giữa chúng. Nhiều thay thế (multiple subsituations): có 2 hoặc nhiều hơn thay thế xảy ra tại vị trí giống nhau. Tuy nhiên, một thay thế quan trọng là có thể nhìn thấy tại vị trí trong sắp cặp trình tự (vị trí 1 hình 6). Thay thế song song (parallel substitution): thay thế giống nhau có xảy ra tại vị trí giống nhau trong 2 chuỗi. Bởi vậy, chúng ta không quan sát thấy thay thế giữa 2 ký tự tại vị trí trong sắp cặp trình tự (vị trí 3 hình 6). Thay thế sau (Back subsituations): có 2 hoặc nhiều hơn thay thế xảy ra tại vị trí giống nhau trong một chuỗi.Tuy nhiên, ký tự cuỗi cùng có trạng thái như trạng thái ban đầu.Vậy kết quả là không thể quan sát được thay thế tại vị trí sắp cặp trình tự (vị trí 5 hình 6). Để giải quyết vấn đề này, chúng ta sử dụng mô hình xử lý thay thế giữa nuclotides và mô hình xử lý thay thế giữa amino acid. 2.2 Mô hình thay thế của nucleotide Xử lý thay thế giữa nucleotides là mô hình như một thời gian đồng nhất, thời gian tiến hành không dịch chuyển của xử lý Markov [27, 24]. Thành phần trung tâm của xử lý là thay thế ngay lập tức tỷ lệ thay thế ma trận. (2.3) (2.2) - 10 - Khi Qij là số của thay thế từ nucleotide i thành nucleotide j trên thời gian. Tham số a, a’, b, b’, c, c’, d, d’, e, e’, f, f’ phù hợp có liên quan tới tỷ lệ thay thế từ một nucleotide với nucleotide khác. Cuối cùng, tham số , , ,A C G T    miêu tả tần số của nucleotides A, C, G, T, miêu tả tần số của nucleotide A, C, G, T theo thứ tự định sẵn. Chú ý rằng thành phần đường chéo Qii là phân chia như tổng của các thành phần của hàng và kết quả bằng 0. Thời gian thuận nghịch giả định thường xuyên áp đặt với suy ra sự phân loài, cái có liên quan đến tỷ lệ thay thế giữa nucleotide i và nucleotide j là giống nhau trong cả 2 phương hướng. Rõ ràng, tỷ lệ thay thế tương đối a’=a, b’=b, c’=c, d’=d, e’=e và f’=f. Bời vậy, phổ biến thời gian thuận nghịch (GTR) [27] là: Mô hình áp đặt 4 điều kiện: - Tỷ lệ của thay thế từ nucleotide i với nucleotide j phụ thuộc vào lịch sử của nucleotide i (đặc tính Markov). - Tỷ lệ thay thế là bất biến với thời gian (đồng nhất thời gian). - Thay thế giữa nucleotide có thể xuất hiện tại thời gian trong xử lý (thời gian liên tục). - Tần số  = ( , , ,A C G T    ) của nucleotide A, C, G, T. Tỷ lệ thay thế tức thời ma trận Q có thể tách rời trong có liên quan đến tỷ lệ thay thế của ma trận R= {Rij} và tần số nucleotie  như: Khi quan hệ ma trận tỷ lệ thay thế là: (2.5) (2.4) - 11 - Một ma trận tỷ lệ thay thế tức thời Q lý thuyết gọi là ma trận khả năng thay thế P(t)={Pij(t)} trong này Pij(t) là xác suất thay đổi từ nucleotide i thành nucleotide j trong thời gian tiến hóa t có thể tính toán bởi: Chúng ta phải chú ý rằng ma trận tỷ lệ thay thế tức thời Q là điển hình như số trông đợi của thay thế trên đơn vị thời gian gọi là tốc độ thay thế là: Bởi vậy, Pij (t) là xác suất của thay thế từ nucleotide i thành nucleotide j sau t thay thế (t có thể là giá trị phân số). Mô hình đảo ngược phổ biến Q là chéo hóa (Keilson [12]; Gu and Li [8] ), P (t) có thể tính toán hiệu quả sử dụng sự phân ly của Q .Công thức hoặc chính xác hơn, Khi đó (2.6) (2.7) (2.8) (2.9) (2.10) - 12 - Hình 7: sự khác nhau giữa các mô hình thay thế nucleotide là số tham số tự do (Free parameters). |A|=4 là số trạng thái có thể thực hiện được =diag { 1 2, ,...., A   } là |A| |A| ma trận đường chéo tương ứng với giá trị đặc trưng của mà trận 1 2, ,...., A   của Q U= {u1, u2, ... , u|A|} là ma trận tương ứng với đặc trưng của Q và U-1 là ma trận nghịch đảo Sự khác nhau của các ma trận Q là 8 tham số tự do. Tuy nhiên có thể tìm hiểu rõ hơn về những tham số tự do này thông qua các mô hình như sau: JC69 [11], F81 [7], K2P [13], HKY85 [9], TN93 [26]. Hình 7 hiển thị sự khác nhau của mô hình thay thế nucleotide cũng như số các tham số tự do của chúng. Tham số tự do của mô hình thường ước lượng dữ liệu sử dụng chương trình tính toán như là PAUP* [25], TREE-PUZZLE [20], MRBAYES [19], PHYML [23]. - 13 - 2.3 Mô hình thay thế của amino acid Chuỗi amino acid là bao gồm loại dữ liệu phân tử sử dụng để nghiên cứu quan hệ giữa loài năm 1960 bởi Eck và Dayhoff [4]. Giống nhau với nucleotides, thay thế xử lý giữa amino acid là không có thật với một đồng nhất thời gian thời gian liên tiếp thời gian đảo ngược không đổi xử lý Markov. Tuy nhiên, 20 trạng thái amino acid cần đến C202 mô hình thay thế tham số với ước lượng. Bởi vậy, tham số là đặc trưng nhận được từ kinh nghiệm nghiên cứu cơ bản trên số lượng dữ liệu rộng lớn [3, 10, 1, 16, 22]. Sau đây, mô hình thay thế của amino acid gọi là mô hình thay thế kinh nghiệm. Dayhoff (1978) [3] là mô hình thay thế amino acid đầu tiên. Họ sử dụng 71 bộ protein có quan hệ chặt chẽ với nhau và quan sát 1572 thay thế giữa các amino acid. Họ sưu tập thay thế này trong xác suất phổ biến của ma trận sự thay thế đã được thừa nhận (PAM) hoặc mô hình Dayhoff. PAM-001 là ma trận quan trọng nhất PAM cái biểu hiện xác suất của sự thay thế từ một amino acid với amino acid khác. Nếu một phần trăm của amino acid có thay thế giữa chúng. Phổ biến hơn là PAM-t là xác suất của thay thế từ một amino acid tới cái khác nếu số lượng của thay thế giữa chúng là t phần trăm. PAM-t có thể tính toán dễ dàng bởi sự tăng ma trận PAM-001 với số mũ t [6]. Jones et al (1992) [10] ứng dụng phương pháp giống như của Dayhoof et al (1978) nhưng với giá trị lớn hơn về số bộ dữ liệu để lập bảng xác suất của ma trận biến đổi công nhận có tên là ma trận JTT. Một thiếu sót của ma trận PAM là chúng chỉ thống kê trên một chuỗi protein có quan hệ mật thiết với nhau.Muller và Vingrron (2000) giới thiệu một cải tiến ước lượng, gọi là phương thức giải thức, chiến thắng cái sự hạn chế.Sau đó, họ tính toán gọi là ma trận VT cơ bản trên chuỗi protein của mức độ biến đổi của sự khác nhau từ dữ liệu SYSTERS [14]. Adachi và Hasegawa (1996) [1] nghiên cứu sự thay thế acmino acid xử lý trong ngữ cảnh của mtDNA- mã hóa protein. Họ xây dựng một ma trận xác suất chuyển đổi, - 14 - đó là ma trận mtREV, sử dụng ma trận maximum likelihood cơ bản trên 20 động vật có xương sống mtDNA giải mã chuỗi protein. Tác giả đưa ra kết quả: mtREV thực sự tốt hơn mô hình khác khi xử lý mối quan hệ phân loài trong loài căn cứ trên mtDNA giải mã chuỗi protein của họ. Whelan và Goldman (2001) [22] sử dụng một ma trận gần đúng phương thức likelihood để ước lượng một mô hình mới của thay thế amino acid, tên là WAG, căn cứ trên 3,905 chuỗi protein dạng cầu từ 182 họ protein. Họ đưa ra kết quả: WAG là tốt hơn phương thức Dayhoff với chi tiết của ma trận giá trị likelihood từ một số lớn của họ protein cầu. David C.Nickle và các đồng nghiệp (2007) [2] đã đưa ra 2 mô hình theo kinh nghiệm HIVb và HIVw. Mô hình này nghiên cứu về virút HIV trên người (HIV-1). Ngoài ra tác giả còn khẳng định rằng mô hình của họ còn có thể áp dụng với virút viêm gan C, và virút cúm A. Mô hình HIVw sử dụng sắp hàng chuỗi của 48 cặp tương ứng với tổng số 6,328 cặp amino acid khác nhau. Mô hình HIVb sử dụng 8 bộ dữ liệu với tổng cộng 7,189 amino acid khác nhau. Số bộ dữ liệu này khá là tuyệt vời lớn hơn 1,700 amino acid so với Dayhoff sử dụng và gấp 2 lần so với rtREV và C.Nickle cũng sử dụng phương thức ước lượng cực đại giống của Whelan và Goldman để suy ra mô hình. Kết quả họ thu được là khả thi hơn các mô hình trước đó được tổng kết tại bảng 1.Từ bảng 1 ta có thể thấy được rằng HIV-Wm đứng nhất 44 lần trên 47 cặp, đứng thứ 2: 2 lần trên tổng số 47 cặp.Với kết quả này ta thấy được sự vượt trội của HIV với những mô hình trước đó. - 15 - Bảng 1: Kết quả so sánh 19 model trên 47 cặp alignment giống nhau Lê Sĩ Quang và Olivire Gascuel (2008 )[21] đã công bố một mô hình mới đó là mô hình LG. Mô hình này chạy tốt trên nhiều loại amino aicds khác nhau. Phương phát để suy ra mô hình này là: tác giả cải tiến mô hình WAG của Whelan và Goldman (2001) bằng cách sử dụng ước lượng cực đại (maximum likelihood) kết hợp chặc chẽ tính biến đổi của tỷ lệ tiến hóa vị trí xoắn trong ma trận ước lượng. Tác giả đã kết hợp với phần mềm XRATE và 3,912 aligment từ Pfam, bam gồm 50,000 chuỗi và 6.5 triệu amino acid.Và tác giả đã sử dụng lấy mẫu độc lập của 59 alignments từ TreeBase để so sánh kết quá như bảng thống kê ở bảng 2 bên dưới. - 16 - Bảng 2: So sánh các mô hình với 59 alignments từ TreeBase Một số kết luận trong bài báo của tác giả: - Giá trị trung bình AIC (average Akaike information criterion gain per site) cung cấp tăng hơn là 0.25 và 0.42 so với WAG và JTT theo thứ tự lần lượng. - LG tốt hơn đáng kể so với WAG tới 38 alignemnt (trên 59 bộ alignments) và tồi hơn chỉ duy nhất 2 bộ. - Mô hình cây suy ra với LG , WAG và JTT tấn số khác nhau, biểu thị rằng sử dụng LG không những ảnh hưởng duy nhất tới giá trị likelihood mà ảnh hưởng cả tới cây sinh ra. Qua những phần trình bày ở chương 2 chúng ta đã có một cái nhìn tổng quan về các mô hình biến đổi nucleotide và các mô hình biến đổi amino acid. Những mô hình đó được sử dụng để nghiên cứu với DNA và RNA của nhiều loài sinh vật trên thế giới. Chương tiếp theo sẽ nói chi tiếp tới đối tượng mà chúng tôi đã lựa chọn để nghiên cứu ngay từ ban đầu đó là virút cúm (Influenza). - 17 - Chương 3: Virút 3.1 Khái niệm cơ bản về virút Virút là một vật thể nhỏ xâm nhiễm vào cơ thể sống. Virút có tính kí sinh nội bào bắt buộc; chúng chỉ có thể sinh sản bằng cách xâm chiếm tế bào khác vì chúng thiếu bộ máy ở mức tế bào để tự sinh sản. Có thể thấy hình dạnh 3 loại virút ký sinh trên vi khuẩn, động vật, và loại virút cúm ở hình 8. Hình 8: Ba loại virút: virút của vi khuẩn, còn gọi là thực khuẩn thể (trái); virút của động vật (phải trên); và retrovirút (phải dưới). 3.2 Phân loại Virút DNA virút: do cơ chế tự sửa lỗi trong quá trình sao chép, nên loại DNA virút này không có khả năng gây ra đột biến.Vì vậy nó ít gây ra sự nguy hiểm. RNA virút: nó phát sinh dựa trên cơ chế của tổng hợp RNA, sau khi tấn công vào vật chủ thì nó chuyển đổi thành DNA và sau đó tái tạo lại RNA. Trong quá trình chuyển đổi này thì có thể tạo ra những thay đổi làm cho virút trở nên nguy hiểm hơn do các kháng thể không thể tiêu diệt được chúng. - 18 - 3.3 Virút cúm Cái gì là bệnh cúm của loài chim Cúm của chim là một loại cúm gây ra bởi virút cúm. Virút cúm này tìm thấy trong một loài chim. Loài chim hoang rã có trên toàn thế giới mang virút trong ruột của chúng, nhưng thường không làm cho chúng bị ốm. Tuy nhiên, cúm chim là dễ lây qua các loài chim khác và có thể lây sang một số gia cầm đã thuần hóa bao gồm, gà, vịt, gà tấy gây ra ốm và có thể giết chúng. Có mấy loại virút cúm - Loại A: có thể lây cho người, chim, lợn, ngựa, hải cẩu, các voi và các động vật khác, những động vật hoang dã lưu trữ virút này tự nhiên. Loại này có thể gây ra đại dịch. - Loại B: virút loại B là bình thường được tìm thấy duy nhất trên người. Mặc dù virút loại B có thể là nguyên nhân bệnh dịch ở người, chúng không gây ra các đại dịch. - Loại C: virút loại C là nguyên nhân gây ra các loại cúm nhẹ ở người, và nó không gây ra bệnh dịch hoặc không gây ra đại dịch. Virút cúm A Virút cúm nhóm A được chia thành các phân nhóm dựa vào loại protein: hemagglutinin (H) và neuraminidase (N) nằm trên lớp vỏ protein bao bọc lõi virút. Có 16 loại HA và 9 loại NA, như vậy tổ hợp lại thì có khả năng tạo ra 144 phâm nhóm cúm A khác nhau, hemagglutin có nhiệm vụ kết nối virút với tế bào chủ, neuraminidase có dạng nút lồi hình nấm trên bề mặt virút cúm và có vai trò hỗ trợ giải phóng virút khỏi tế bào vật chủ. Duy nhất một số kiểu cúm A (H1N1, H1N2, H5N1 và H3N2) hiện nay hiện diện trên cơ thể người. Các kiểu khác không được tìm thấy thường có ở các động vật đặc biệt. Ví dụ H7N7 và H3N8 virút gây ốm ở ngựa. “virút H7N2 “ được biết là một loại cúm A có HA 7 protein và một NA 2 protein. Giống nhau với virút H5N1 có HA 5 protein và NA 1 protein - 19 - Bộ gen di chuyền virút cúm A gồm có 8 đoạn, chuỗi RNAs đơn có thể nằm giữa 890 và 2340 nucleotide. Những chuỗi này được thể hiển trong hình 9. Hình 9: Bộ gen của virút cúm A Tại sao lại khẳng định virút cúm là nguy hiểm. Điều này cũng dễ hiểu khi chúng ta nhìn vào hình 10, nó thể hiện sự lây lan của virút cúm vào các năm 1918, 1957, 1968, 1977, 2003, 2004 Các thống kê sự lây lan của virút Hình 10: Sự lây lan của virút cúm - 20 - Như chúng ta thấy với sự lây lan của virút cúm như ở hình 10, cho chúng ta thấy đượng sự nguy hiểm của virút cúm đối với sức khỏe con người. Vì vậy việc tìm ra một mô hình thay thế amino acid để giúp các nhà khoa học nghiên cứu tốt hơn về các chủng virút cúm là rất quan trong. Sau đây sẽ là những giới thiệu về một mô hình mới như vậy, mô hình này ra đời nhằm phục vụ cho việc nghiên cứu virút cúm. Giới thiệu về mô hình nghiên cứu với virút cúm Mô hình I09 [31] đang trong giai đoạn dầu phát triển (2009). Mô hình này xây dựng để phục vu cho việc nghiên cứu các chủng virút cúm. Phương pháp xây dựng được thực hiện theo các bước của mô hình LG nhưng với một bộ dữ liệu được xây dựng kỳ công và nhiều công sức về virút cúm. Chính vì vậy cho ra kết quả rất đáng chú ý. Với việc so sánh giá trị log likelihood của các alignment có những kết quả sau: I09 tốt hơn HIVb 455 bộ trên 489 aligmenent, tồi hơn 34 bộ, và I09 tốt hơn HIVw 476 bộ trên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên 489 aligmenent và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và tồi hơn 21 bộ. Những kết quả này sẽ được trình bày rõ hơn ở chương 4 của khóa luận này. Chương 4 là chương nói lên toàn bộ quá trình thực hiện việc kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm. - 21 - Chương 4: Quá trình thực hiện kết quả Hình 11: Sơ lược quá trình kiểm định và so sánh các mô hình biến đổi Amino Acid cho virút cúm PhyML chương trình xử lý các chuỗi amino acid để đưa ra 3 thư mục: lk (chứa các file loglikelihood cử từng vị trí, stats: tên file, Tên mô hình, số taxa, giá trị log- likelihood của alignment, tree size, gama shape parameter, tỷ lệ thay đổi, thời gian - 22 - chạy của alignment. tree cung cấp hình dạng cây phân loài của alignment dưới dạng chuỗi. 4.1 Sơ lược về chương trình Bài toán kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm được sử dụng ngôn ngữ Perl kết hợp với MySQL để tiến hàng. Ngoài ra còn sử dụng tới một chương trình rất nổi tiếng trong quá trình xử lý các mô hình amino acid đó là chương trình PhyML phiên bản 3.0. [23] 4.2 Những điểm cần chú ý trong chương trình Giới thiệu về chương trình PhyML PhyML là một chương trinh rất chính xác sử dụng khoảng cách tối đa (maximum likelihood), một chương trình được nhiều chuyên gia trong lĩnh vực Tin Sinh thường xuyên sử dụng vì nó cho kết quả chính xác nhất [23].Đầu vào của chương trình là chuỗi sắp hàng có định dạng PHILIP. Định dạng PHILIP File định dạnh PHILIP như sau: 100 342 ABB87822 DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIEKICTQGKRPTDL GQCGLLGTLI………… ACF47475 DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIKKICTQGKRPTDLGQC………………… ……………. Ý nghĩa của các phần: 100: alignment gồm có 100 chuỗi (ABB87822, ACF47475….) 342: Mỗi chuỗi có 342 ký tự (site) ABB87822, ACF47475: tên các chuỗi trong alignment - 23 - Các ký tự (DKICLGHHAVANGTK……) là ký hiệu của các amino acid trong chuỗi Các tham số sử dụng để chạy PhyML Một dòng lệnh để chạy chương trình PhyML như sau: phyml -i aln.1.Influenza.TypeA.txt_muscle-gb.phylip -d aa -q -c 4 -a e -- print_site_lnl -v e -m I09_it1_new_03_04_PAML.txt -i input (giá trị vào tên alignment định dạng PHILIP). -d aa chuyển đổi chương trình sang dạng xử lý với amino acid, dạng mặc định của chương trình là xử lỳ với nucleotide. -q: Thay đổi định dạng interleaved (mặc định) để định dạng sequential. -c 4: tỷ lệ thay đổi là 4. -a e : đặt giá trị gama shape parameter là ước lượng cực đại. --print site lnl: in các giá trị likelihood của các vị trí (site) ra file * phyml lk.txt. -v e :tỷ lệ các của vị trí không thay đổi đặt với ước lượng cực đại. -m tên mô hình amino acids cần chạy. Với tất cả các mô hình amino acids và tất cả alignments của virút cúm ta đều chạy với cùng các tham số như trên để cho tiện với việc so sánh. Các tham số trên đều được lựa chọn phù hợp với những mục tiêu đã đề ra ngay từ ban đầu. Các mô hình amino acid: theo chương trình PhyML [23] có tất cả 14 mô hình Amino-acids: LG (default) WAG | JTT | MtREV | Dayhoff | DCMut | RtREV | CpREV | VT | Blosum62 | MtMam | MtArt | HIVw | HIVb | và thêm 1 mô hình mới nghiên cứu là I09 [31]. Vậy sẽ kiểm định và so sánh 15 mô hình amino acid trên với virút cúm. Giới thiệu bộ dữ liệu dùng để chạy PhyML Bộ dữ liệu được xây dựng bởi thạc sỹ Đặng Cao Cường với sự tỷ mỷ nghiên cứu và tìm kiếm trong nhiều tháng. Bộ dữ liệu được thu thập từ ngân hàn Gen lớn NCBI - 24 - (ngân hàng gen lớn nhất của thế giới NCBI (ngân hàng gen lớn nhất của thế giới) nên mức độ chuẩn xác là rất tin cậy. Thông tin chi tiết từ bộ dữ liệu: Nguồn được lấy từngày 03/04/2009 (rất cập nhập và chính xác) - Số lượng: 101,707 chuỗi - Type A: 92866 - Type B: 7396 - Type C: 932 - Không định nghĩa: 513 Sau khi sử dụng các chương trình MUSCLE, GBLOCKS để làm mịn dữ liệu ta thu được 978 alignment số alignment này được chia làm đôi (mỗi phần gồm 489 alignment) 1 phần dùng để huấn luyện tạo ra mô hình mới I09 một phần còn lại sử dụng để kiểm tra với 15 mô hình amino acid đã nêu ở trên. Số site của bộ dữ liệu kiểm tra là: 205337 4.3 Quá trình thực hiện Sau khi có 489 alignment của virút cúm ở dạng PHILIP (phần 4.2 đã nói rõ về định dạnh PHILIP), ta sử dụng PhyML để chạy với 15 mô hình amino acid đã nói ở trên với các tham số như ở phần 4.2 đã nói. Quá trình chạy rất lâu mỗi mô hình chạy hết khoảng 24 tiếng trên máy tính: cpu intel core 2 duo 4400 (2.0 GHz), RAM 1G và chạy trên may ao linux ubuntu 8.04 256 ram. Kết quả thu được sau khi chạy PhyML, ứng với mỗi mô hình ta sẽ có 3 thư mục tương ứng lk, stats, tree. Thư mục lk sẽ cung cấp cho ta giá trị likelihood của từng vị trí (site) đối với mỗi alignment. Thư mục stats cung cấp cho ta rất nhiều thông tin như : tên file, Tên mô hình, số taxa, giá trị log-likelihood của alignment, tree size, gama shape parameter , tỷ lệ thay đổi, thời gian chạy của alignment. Thư mục tree cung cấp hình dạng tree của alignment dưới dạng chuỗi. Chạy 15 mô hình amino acid, mỗi mô hình sẽ cho 3 thư mục, mỗi thư mục sẽ có 489 file ghi kết quả tương ứng của 489 alignment. - 25 - Sử dụng chương trình viết bằng Perl kết hợp với MySQL để xử lý. So sánh giá trị trung bình loglikelihood trên (205337 site) của 15 mô hình sẽ được thể hiện ở bảng 3. Cách tính giá trị trung bình loglikelihood trên site: bằng tổng tất cả loglikelihood của 489 alignment trên 205337 site. Các giá trị xếp theo thứ tự giảm dần. Ta so sánh giá trị trung bình loglikelihood, giá trị trung bình loglikelihood của mô hình nào càng lớn thì mô hình đó càng tốt. Qua bảng 3 ta thấy được rằng giá trị trung bình loglikelihood của I09 là tốt nhất lớn hơn HIVb đứng thứ 2 là 0.0623 và Hibw đứng thứ 3 là 0.06615. Bảng 3: Giá trị trung bình log likelihood/site của 15 mô hình amino acid. Model Average log_likelihood/site (205337site) I09 -5.73055 HIVb -5.79285 HIVw -5.7967 JTT -5.83168 CpREV -5.88387 WAG -5.91403 LG -5.91724 VT -5.96466 Dayhoff -5.97079 DCMut -5.9708 RtREV -5.9814 Blosum62 -5.98325 MtREV -6.14294 MtMam -6.16878 MtArt -6.24941 - 26 - Tiếp tục thực hiện một so sánh nữa, ứng với mỗi aligment ta sẽ so sánh kết quả loglikelihood của từng alignement ứng với 15 mô hình. Sau khi so sánh 489 alignment ra xem xem mội mô hình đứng đầu bao nhiều lần, đứng thứ 2, 3 ….15 bao nhiêu lần.Và ta có kết quả như sau: Bảng 4: Bảng kết quả so sánh thứ hạng của 15 mô hình amino acid với giá trị loglikelihood Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 I09 434 31 5 4 7 1 3 1 2 0 1 0 0 0 0 HIVb 23 191 213 34 14 9 2 2 0 0 0 1 0 0 0 HIVw 13 196 79 75 25 23 7 9 17 26 2 16 0 0 1 LG 11 21 14 34 69 95 138 9 86 7 4 1 0 0 0 JTT 5 45 155 273 8 2 1 0 0 0 0 0 0 0 0 CpREV 2 2 14 48 293 78 21 23 3 2 2 1 0 0 0 Blosum62 1 1 2 4 3 20 25 37 70 88 78 152 6 1 1 MtArt 0 0 1 0 0 0 0 0 0 1 0 1 20 53 413 MtMam 0 0 0 1 0 1 0 2 1 2 3 5 45 358 70 VT 0 0 3 9 20 24 30 121 59 111 78 29 3 2 0 WAG 0 1 3 5 45 214 148 52 12 4 0 4 1 0 0 DCMut 0 0 0 0 0 4 19 90 91 50 87 142 3 2 1 Dayhoff 0 0 0 0 2 9 81 87 59 80 142 21 4 4 0 MtREV 0 0 0 1 1 0 0 5 3 3 4 8 398 64 2 RtREV 0 1 0 1 2 9 14 51 86 115 88 108 9 5 0 với cột đầu tiên là tên mô hình amino acid, cột 1 nghĩa là số lần các mô hình đứng đầu trong khi so sánh giá trị loglikelihood của 489 alignment, cột 2,…, cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với các mô hình thay thế amino acid giao điểm của cột và hàng là số lần đứng các vị trí 1,2,…., 15. Bảng 4 đã thể hiện một cách đầy đủ nhất thứ tự của các mô hình trong khi so sánh giá trị loglikelihood của 489 alignement. Ta thấy được mô hình I09 [31] có 434 Rank - 27 - lần đứng đầu trong 489 alignement so sánh, và 31 lần đứng thứ 2, 5 lần đứng thứ 3. Mô hình có nhiều số lần đứng đầu sau I09 đó là HIVb và HIVw [2] có số lần đứng đầu lần lượt là 23 và 13 trên tổng số 489 alignment so sánh 2 mô hình này được xây dựng để nghiên cứu virút HIV ở người vì cùng là nghiên cứu về virút nên có độ tương đồng cao. Vì vậy chúng đứng vị trí thứ 2 và thứ 3 là hoàn toàn hợp lý. Những kết quả cho thấy I09 chiếm 89% số lần đứng đầu trong các lần chạy chuỗi alignement. Sign Test Để cho kết quả đáng tin cậy hơn chúng tôi sử dụng một kỹ thuật thống kê rất thú vị đó là Sign Test. Phương pháp này so sánh một mô hình lớn hơn mô hình kia với một giá trị p-value cho trước bao nhiêu trường hợp.Trong chương trình chọn p-value=0.05 ứng với 5%. Điều này có nghĩa là so sánh 2 mô hình xem kết quả của 2 mô hình có độ chênh lệnh quá 5% (chênh lệch đáng kể) là bao nhiêu lần so với mô hình còn lại. Phương pháp Sign test này được sử dụng để so sánh mô hình đứng đầu với một số mô hình đứng ngay sau đó để khẳng định một điều là mô hình đứng đầu thực sự tốt hơn so với mô hình đứng thứ 2 và thứ 3 … Sau khi thực hiện sign test (so sánh I09 với từng mô hình HIVb, HIVw, JTT, LG) ta có kết quá sau: với 489 alignments. I09 lớn hơn JTT 464 alignement trong đó có 448 alignement thực sự lớn hơn (độ chênh lệch là 5% ) và có chỉ có 1 giá trị JTT thực sự lớn hơn I09 (độ chệnh lệch lớn hơn 5%). Tương tự với các cặp còn lại I09 với LG, I09 với HIVw, I09 với HIVb, những kết quả này được thống kê ở bảng 5 với #M1> M2: số lần mô hình M1 > M2 trong 489 alignment, #M1>M2 (pM2 có chênh lệch 5%, #M1<M2 (p<0.05): số lần mô hình M1<M2 có chênh lệch 5%. Bảng 5: Kết quả so sánh sign test của I09 với các mô hình JTT, LG, HIVw, HIVb M1 M2 #M1 > M2 #M1 > M2 #M1 < M2 (p < 0.05) (p < 0.05) I09 JTT 464 448 1 I09 LG 468 247 71 I09 HIVw 476 470 0 I09 HIVb 455 184 47 - 28 - Ngoài ra còn một số so sánh về các giá trị khác như treesize, gamma shape parameter, những giá trị này chỉ mang ý nghĩa tham khảo đối với những người quan tâm tới treesize và gamma shape parameter. Mục đích chính vẫn là so sánh loglikelihood mà ở phần trên đã trình bày. Thực hiện một so sánh nữa, ứng với mỗi aligment ta sẽ so sánh kết quả treesize của từng alignement ứng với 15 mô hình. Sau khi so sánh 489 alignment ra xem xem mội mô hình đứng đầu bao nhiều lần, đứng thứ 2, 3,...,15 bao nhiêu lần. Và ta có kết quả như sau: Bảng 6: Bảng kết quả so sánh thứ hạng của 15 mô hình amino acid với giá trị treesize Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 MtArt 306 150 9 5 3 7 4 3 0 1 0 0 0 0 1 MtMam 148 311 6 6 4 3 2 2 4 0 0 1 0 1 0 MtREV 8 3 416 19 23 4 6 3 1 1 2 1 2 0 0 HIVw 7 0 30 114 93 40 15 34 19 16 25 26 26 28 16 HIVb 5 6 3 6 12 78 56 40 19 42 28 30 37 60 67 CpREV 5 5 5 4 13 8 22 29 32 50 48 46 59 50 113 Blosum62 3 3 4 2 6 33 78 47 43 31 36 21 16 24 142 I09 3 3 9 68 112 66 19 32 40 23 10 17 27 26 34 VT 2 0 0 251 43 56 47 22 20 22 13 7 3 2 1 WAG 2 6 6 2 6 2 8 17 37 49 44 60 49 166 35 DCMut 0 0 0 3 13 24 35 39 75 72 56 51 66 28 27 Dayhoff 0 1 0 4 22 36 34 74 61 52 56 51 39 47 12 JTT 0 0 0 1 5 30 13 38 51 61 91 88 64 29 18 LG 0 0 0 2 104 70 112 68 40 41 23 19 7 3 0 RtREV 0 1 1 2 30 32 38 41 47 28 57 71 94 25 22 với cột đầu tiên là tên mô hình amino acid, cột 1 nghĩa là số lần các mô hình đứng đầu trong khi so sánh giá trị treesize của 489 alignment, cột 2,…, cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với các mô hình thay thế amino acid giao điểm của cột và hàng là số lần đứng các vị trí 1,2, …..,15. Rank - 29 - Theo bảng so sánh giá tri treesize thì ta thu được những kết quả sau. Mô hình thay thế amino acid MtArt là đứng đầu với 306 lần đứng đầu trên tổng số 489 alignment.Đứng thứ 2 và thứ 3 là các mô hình MtMan và MtREV với số lần đứng đầu lần lượt là 148 và 8. Thực hiện một so sánh nữa, ứng với mỗi aligment ta sẽ so sánh kết quả gamma shape parameter của từng alignement ứng với 15 mô hình. Sau khi so sánh 489 alignment ra xem xem mội mô hình đứng đầu bao nhiều lần, đứng thứ 2, 3 ….15 bao nhiêu lần.Và ta có kết quả như sau: Bảng 7: Bảng kết quả so sánh thứ hạng của 15 mô hình amino acid với giá trị gamma shape parameter Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Blosum62 65 51 40 52 40 42 39 36 28 23 21 18 15 12 7 HIVw 51 22 27 20 18 22 26 26 27 23 28 44 74 28 53 WAG 50 65 60 47 48 31 39 28 24 23 23 17 21 11 2 I09 44 34 33 30 23 25 19 35 38 40 57 58 30 18 5 JTT 44 46 62 66 41 48 35 40 27 23 21 14 8 7 7 CpREV 31 36 46 37 54 47 43 41 36 42 27 23 8 9 9 Dayhoff 30 35 22 34 40 27 39 45 43 33 29 37 30 23 22 VT 30 31 19 27 36 28 31 26 41 48 52 70 25 13 12 MtREV 28 10 26 23 24 27 11 19 29 24 36 54 159 15 4 HIVb 24 35 36 35 34 31 50 41 33 42 46 37 11 17 17 DCMut 19 41 43 35 32 41 43 38 36 37 40 28 22 24 10 MtMam 19 22 9 14 13 11 10 7 9 9 21 20 29 157 138 MtArt 19 20 9 10 9 10 12 11 12 14 9 11 28 135 180 RtREV 19 19 26 25 39 50 40 47 43 48 48 37 17 15 16 LG 16 22 31 34 38 49 52 49 63 60 31 21 12 5 6 với cột đầu tiên là tên mô hình amino acid, cột 1 nghĩa là số lần các mô hình đứng đầu trong khi so sánh giá trị gamma shape parameter của 489 alignment, cột 2, … , cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với các mô hình thay thế amino acid giao điểm của cột và hàng là số lần đứng các vị trí 1,2 ...15. Rank Rank - 30 - Với gamma shape parameter ta so sánh giá trị trung bình của gamma shape parameter trên site của 15 mô hình thay thế amino acid và có được bản kết quả sau: sắp theo thứ tự giảm dần.Tính giá trị trung bình của gamma shape parameter ta cũng cộng tổng tất cả các giá trị gama shape parameter của 489 alignment chia cho tổng số site (205337 site) Bảng 8: Giá trị trung bình gamma shape parameter /site của 15 mô hình amino acid. Model average gamma shape parameter/site (205337site) WAG 0.0681385 DCMut 0.0583194 Dayhoff 0.0576008 HIVw 0.0522065 MtArt 0.0466356 Blosum62 0.030153 JTT 0.0273762 RtREV 0.0238494 CpREV 0.0237556 LG 0.022444 HIVb 0.0207305 I09 0.0190945 VT 0.0184902 MtREV 0.0164782 MtMam 0.00880454 - 31 - Kết luận Với những so sánh kiểm định của 15 mô hình amino acid đã nêu trên.Có thể đưa ra kết luận cuối cùng như sau. Mô hình I09 là mô hình rất đáng để các nhà nghiên cứu về virút cúm quan tâm. Họ có thể sử dụng I09 trong nhiều trường hợp, ví dụ như sử dụng chúng để chạy với PhyML sẽ cho ra những giá trị liên quan, và cây phân loài chính xác nhất, từ cây phân loài có thể biết được rất nhiều điều như: Nguồn gốc, sự tương đồng giữa các gen …. từ những hiểu biết này có thể thuận lợi trong việc nghiên cứu và điều chế ra những loại vácxin cho virút cúm phù hợp nhất và nhanh nhất. - 32 - Chương 5: Tổng kết – Đánh giá Chương này sẽ tổng kết lại những việc đã làm được, sau đó đưa ra những đóng góp của khóa luận và hướng phát triển của luận văn. 5.1 Tổng kết Trong giai đoạn hiện nay, nhiều loại dịch cúm xảy ra ở khắp mọi nơi trên thế giới như cúm H5N1, H1N1 … vì vậy việc tìm ra một loại mô hình amino acid tốt nhất để nghiên cứu virút cúm là rất cần thiết và thực tiễn. Chúng tôi đã tìm ra mô hình I09 [31] là tốt nhất để nghiên cứu các loại virút cúm. 5.2 Những đóng góp Khóa luận là tài liệu tham khảo cho những ai muốn nghiên cứu về virút cúm và các mô hình để xử lý virút cúm. Tìm ra I09 là tốt nhất trong tất cả các mô hình amino acid ước lượng cho virút cúm đã quan trọng nhưng để ứng dụng nó vào trong thực tiễn còn đòi hỏi rất nhiều tới các nhà khoa học Việt Nam. Hiện nay lĩnh vực tin sinh ở Viết Nam mới trong giai đoạn đầu vì vậy việc nghiên cứu tìm hiểu về vácxin phòng chống cúm là còn rất ít. Với mong muốn phổ biến I09 trên toàn thế giới tác giả của mô hình amino acid này đang hoàn thiện hơn các dữ liệu để viết bài đăng trên các tạp trí khoa học nổi tiếng của thế giới.Và những đánh giá và kiểm định này cũng được góp một phần trong những dữ liệu mà tác giả của I09 sử dụng để viết bài. 5.3 Hướng phát triển Khóa luận này đã đưa ra được mô hình tốt nhất để nghiên cứu với dữ liệu virút cúm. Hướng phát triển rất rõ ràng của khóa luận là: Không chỉ dừng lại ở virút cúm mà các kiểm định thống kê này còn hướng tới áp dụng trên nhiều loại amino acid khác nhau (HIV, viêm gan C,…) để đưa ra các mô hình amino acid tốt nhất giúp cho các nhà khoa học thuận lợi hơn trong quá trình nghiên cứu. - 33 - Tài liệu tham khảo Tiếng Anh: [1] Adachi, J. and Hasegawa, Model of amino acid substitution in proteins encoded by mitochondrial DNA. J. Mol. Evol., 1996, pages. 459–468. [2] David C. Nickle, HIV-Specific Probabilistic Models of Protein Evolution, 2007, pages. 1-11. [3] Dayhoff, M. O., Schwartz, R. M. and Orcutt, A model of evolutionary change in proteins. In Dayhoff et al. (1978),1978, pages 345–352. [4] Eck, R. and Dayhoff, In Atlas of protein sequence and structure. National Biomedical Research Foundation, Silver Spring, Maryland, USA, 1966. [5] Edgar, R. C, MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucl. Acids Res., 2004, pages. 1792–1797. [6] Felsenstein, Infering Phylogenies. Sinauer Associates, Sunderland, Massachusetts, 2004 [7] Felsenstein, Evolutionary trees from gene frequencies and quantitative characters:Finding maximum likelihood estimates. Evolution, 1981, pages. 1229–1242. [8] Gu, X. and Li, A general additive distance with time-revesibility and rate variation among nucleotide sites. Proc. Natl. Acad. Sci. USA, 1996, pages. 4671– 4676. [9] Hasegawa, M., Kishino, H. and Yano,Dating of the human–ape splitting by a molecular clock of mitochondrial DNA. J. Mol. Evol., 1985, pages.160–174. [10] Jones, D. T., Taylor, W. R. and Thornton, The rapid generation of mutation data matrices from protein sequences. Comput. Appl. Biosci., 1992,pages. 275– 282. - 34 - [11] Jukes, T. H. and Cantor, Evolution of protein molecules. In Munro, H. N. (ed.), Mammalian Protein Metabolism, vol. 3, 1969, pages 21–123, Academic Press, New York. [12] Keilson, Markov chain models: rarity and exponentially. Spinger, New York, USA., 1979. [13] Kimura, A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. J. Mol. Evol., 1980, pages. 111–120. [14] Krause, A., Nicod`eme, P., Bornberg-Bauer, E., Rehmsmeier, M. and Vingron, WWW-access to the SYSTERS protein sequence cluster set. Bioinformatics, 1999, pages. 262–263. [15] Marco salemi Anne –Mieke Vandamme, “The Phylogenetic Handbook”, 2003, pages. 1 -160. [16] M¨uller, T. and Vingron, Modeling amino acid replacement. J. Comput. Biol., 2000,pages. 761–776. [17] Notredame, C, Higgins, D. and Heringa, J., T-COFFEE: A novel method for multiple sequence alignments. Journal of Molecular Biology, 2000, pages. 205– 217. [18] Press, W. H., Teukolsky, S. A., Vetterling, W. T. and Flannery, Numerical Repcipes in C: The art of scientific computing. Cambridge University Press, New York, 2002. [19] Ronquist, F. and Huelsenbeck, MRBAYES 3: Bayesian phylogenetic inference under mixed models. Bioinformatics, 2003, pages. 1572–1574. [20] Schmidt, H. A., Strimmer, K., Vingron, M. and von Haeseler, TREE-PUZZLE: Maximum likelihood phylogenetic analysis using quartets and parallel computing. Bioinformatics, 2002, pages. 502–504. [21] Si Quang Le and Olivier Gascuel, An Improved General Amino Acid Replacement Matri, 2008, pages. 1-14. - 35 - [22] Simon Whelan and Nick Goldman, A General Empirical Model of Protein Evolution Derived from Multiple Protein Families Using a Maximum-Likelihood Approach, 2001, pages. 1-9. [23] St´ephane Guindon, PhyML – Manual, A simple, fast and accurate algorithm to estimate large phylogenies by maximum likelihood,Version 3.0, September 17, 2008, pages.1-31. [24] Strimmer, K. and von Haeseler, A. Nucleotide substitution models. In Salemi, M. and Vandamme, A.-M. (eds.), The Phylogenetics Handbook A Practical Approach to DNA and Protein Phylogeny, 2003,pages. 72–100, Cambridge University Press, Cambridge. [25] Swofford, PAUP*: Phylogenetic analysis using parsimony (and other methods).Sinauer Associates, Sunderland, MA, 2002. [26] Tamura, K. and Nei, Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees. Mol. Biol. Evol., 1993, pages 512–526. [27] Tavar´e, Some probabilistic and statistical problems on the analysis of DNA sequences. Lec. Math. Life Sci., 1986, pages. 57–86. [28] Thompson, J. D, Higgins, D. G. and Gibson, T. J., CLUSTALW: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice, 1994, Nucleic Acids Res, 22. [29] Lê Sỹ Vinh, Luận Văn tiến sỹ, 2005, pages.1-28. Tiếng Việt [30] Nguyên Văn Sáu - Khóa luận tốt nghiệp, 2009, tr.1-4. [31] Lê Sỹ Vinh và Đặng Cao Cường, Mô hình I09 đang phát triển, 2009. - 36 - Hình tham khảo Hình 1: Hình 2: Hình 3: Hình 4: Hình 5, 6, 7: [29] Hình 8: Hình 10:

Các file đính kèm theo tài liệu này:

LUẬN VĂN-KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIẾN ĐỔI AMINO ACID CHO VIRÚT CÚM.pdf