TÓM TẮT KHOÁ LUẬN
“XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 VÀ REVERSE 
TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT” 
 Với sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene hsp-70 và RT- 
RNaseH đã được giải trình tự. Những trình tự gene này được lưu trữ trong CSDL sinh 
học lớn như NCBI, EMBL, DDBj, Vì các CSDL này quá lớn và chứa rất nhiều thông 
tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc 
truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, mục 
tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse 
transcriptase-RNaseH ở một số loài virus thực vật. 
 Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau: 
 Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ 
 trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide). 
 Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH 
 (RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus. 
 Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu trữ dữ 
 liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này. 
 Dùng Perl script để chuyển tự động các dữ liệu vào CSDL. 
 Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang 
 web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus 
 Closteroviridae và Caulimoviridae. 
Sau khi thực hiện các nội dung trên chúng tôi đạt được những kết quả như sau: 
 Chúng tôi đã tải được 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ 
 liệu NCBI. 
Thông qua việc tìm hiểu về hai họ virus, trình tự gene tương đồng, trình tự 
 protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định được vị trí 
 gene hsp-70 và RT-RNaseH trong ORF hay nằm trong genome của chúng. 
 CSDL có 325 trình tự được tích hợp với Web. 
 Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là 
 HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra, 
 từ những trang web chính này còn có thể kết nối đến những trang phụ khác để 
 cung cấp những tiện ích cho người dùng. Từ các trang web này, người sử 
 dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự 
 trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc 
 tính của loài, 
 MỤC LỤC 
Nội dung Trang 
Trang bìa .i 
Trang trong ii 
Lời Cảm Tạ iii 
Tóm Tắt Luận Văn .iv 
Mục Lục vi 
Danh Sách Các Bảng ix 
Danh Sách Các Hình .x 
Danh Sách Các Chử Viết Tắt xii 
Phần 1. LỜI MỞ ĐẦU 1 
Phần 2. TỔNG QUAN TÀI LIỆU 4 
 2.1. SƠ LưỢC VỀ CƠ SỞ DỮ LIỆU 4 
 2.1.1. Định nghĩa 4 
 2.1.2. Hệ quản trị CSDL .4 
 2.1.3. Các mô hình dữ liệu 5 
 2.1.3.1. Định nghĩa 5 
 2.1.3.2. So sánh các mô hình dữ liệu 5 
 2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB 6 
 2.2.1. Perl 6 
 2.2.1.1. Tóm tắt lịch sử phát triển 6 
 2.2.1.2. Ứng dụng 7 
 2.2.1.3. Một số module của Perl thường được sử dụng .7 
 2.2.2. Giới thiệu về mạng Internet .8 
 2.2.2.1. Tóm lược lịch sử phát triển .8 
 2.2.2.2. Một số khái niệm 9 
 2.2.3. Web .9 
 2.2.3.1. Tóm lượt lịch sử phát triển .9 
 2.2.3.2. Tích hợp CSDL với web dùng CGI 10 
 2.3. CƠ SỞ DỮ LIỆU SINH HỌC .11 
 2.3.1. NCBI .11 
 2.3.1.1. Vài nét về NCBI .11 
 2.3.1.2. Một số cơ sở dữ liệu trong NCBI 11 
 2.3.1.3. Một số công cụ trong NCBI 12 
 2.3.2. EBI 13 
 2.3.2.1. Vài nét về EBI .13 
 2.3.2.2. Một số cơ sở dữ liệu trong EBI .13 
 2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học 14 
 2.3.3. SIB .15 
 2.3.4. DDJB và PDBj 15 
 2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE .18 
 2.4.1. CAULIMOVIRIDAE .19 
 2.4.1.1. Khái quát 19 
 2.4.1.2. Cấu tạo .20 
 2.4.1.3. Đặc tính sinh học .20 
 2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ 20 
 2.4.2. CLOSTEROVIRIDAE .21 
 2.4.2.1. Khái quát 21 
 2.4.2.2. Cấu tạo .21 
 2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ 22 
 2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH 23 
 2.5.1. Gene Reverse transciptase-RNaseH .23 
 2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome 23 
 2.5.2.2. Chức năng của protein .23 
 2.5.2. Gene hsp-70 24 
 2.5.1.1. Vị trí gene hsp-70 nằm trong genome .24 
 2.5.1.2. Chức năng 24 
PHẦN 3. PHưƠNG PHÁP VÀ CHưƠNG TRÌNH SỬ DỤNG .25 
 3.1. Các chương trình và ngôn ngữ lập trình được sử dụng 25 
 3.1.1. Hệ điều hành .25 
 3.1.2. Các chương trình phân tích trình tự .25 
 3.1.2.1. Chương trình so sánh trình tự ClustalW 25 
 3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST .25 
 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL 26 
 3.1.2.4. Apache web Server 27 
 3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng 27 
 3.2. Phương pháp .28 
 3.2.1. Thu nhận trình tự 28 
 3.2.2. Xác định gene và protein trong bộ gene virus 29 
 3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH 32 
 3.2.3.1. Phân tích dữ liệu 32 
 3.2.3.2. Thiết kế CSDL dạng bảng .34 
 3.2.3.3. Lưu trữ các thông tin vào CSDL .35 
 3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web 37 
Phần 4. KẾT QUẢ VÀ THẢO LUẬN .39 
 4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae 39 
 4.2. Kết quả thu nhận trình tự hai gene hsp-70 vàReverse transcriptase-RNaseH .41 
 4.3. CSDL trình tự gene hsp-70 và RT-RNaseH 42 
 4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH .46 
 4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH 47 
 4.4.2. Trang tìm kiếm 47 
 4.4.3. Trang công cụ 49 
 4.4.4. Trang cây phân loài .52 
 4.4.4.1. Trang Caulimoviridae .52 
 4.4.4.2. Trang Closteroviridae .54 
 4.4.5. Trang liên kết .54 
 4.4.6. Trang thông tin về bộ môn công nghệ sinh học 54 
PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ .55 
 4.1. KẾT LUẬN 55 
 4.2. ĐỀ NGHỊ .55 
PHẦN 6. TÀI LIỆU THAM KHẢO 57 
PHỤ LỤC .59
                
              
                                            
                                
            
 
            
                
72 trang | 
Chia sẻ: lvcdongnoi | Lượt xem: 3603 | Lượt tải: 0
              
            Bạn đang xem trước 20 trang tài liệu Xây dựng cơ sở dữ liệu hai gene hsp - 70 và reverse transcripte - RNaseH ở một số loài virus thực vật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
 TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH 
BỘ MÔN CÔNG NGHỆ SINH HỌC 
 ***000*** 
KHÓA LUẬN TỐT NGHIỆP 
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 
và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ 
LOÀI VIRUS THỰC VẬT 
Nghành học: CÔNG NGHỆ SINH HỌC 
Niên khóa: 2001-2005 
Sinh viên thực hiện: NGUYỄN VĂN THÁI 
Thành phố Hồ Chí Minh 
Tháng 8/2005 
 BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH 
BỘ MÔN CÔNG NGHỆ SINH HỌC 
************ 
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 
và REVERSE TRANSCRIPTASE-RNaseH Ở MỘT 
SỐ LOÀI VIRUS THỰC VẬT 
Giáo viên hƣớng dẫn: 
TS. TRẦN THỊ DUNG 
Cử Nhân. LƢU PHÚC LỢI 
Thành phố Hồ Chí Minh 
Tháng 8/2005 
Sinh viên thực hiện: 
NGUYỄN VĂN THÁI 
 iii 
LỜI CẢM TẠ 
Thành kính ghi ơn công lao dạy dỗ, tận tụy suốt đời vì 
con của cha mẹ. 
Xin bày tỏ lòng biết ơn sâu sắc đến: 
 TS. Trần Thị Dung 
 Cử Nhân. Lưu Phúc Lợi 
Đã tận tụy hướng dẫn, truyền đạt kiến thức cho tôi 
hoàn thành khóa luận này, đặc biệt là thầy Lưu Phúc Lợi đã 
trang bị cho tôi những kiến thức quí báu và là người đầu 
tiên đưa tôi đến với Bioinformatics. 
Xin chân thành cảm ơn đến quí thầy cô bộ môn Công Nghệ 
Sinh Học, khoa Công Nghệ Thông Tin. Đã nhiệt tình giúp đỡ, 
khuyên bảo, tạo điều kiện thuận lợi và đóng góp ý kiến 
chân thành cho tôi trong suốt thời gian làm khóa luận này. 
Xin gởi lời cảm ơn đến tập thể lớp Công Nghệ Sinh Học 
K27 đã động viên, giúp đỡ và luôn ở bên cạnh tôi trong 
những lúc khó khăn trong suốt thời gian học đại học. 
 Nguyễn Văn Thái 
 iv 
 TÓM TẮT KHOÁ LUẬN 
NGUYỄN VĂN THÁI, Đại học Nông Lâm TP. Hồ Chí Minh. Tháng 8/2005. 
“XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 VÀ REVERSE 
TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT” 
Hội đồng hƣớng dẫn: 
 TS. Trần Thị Dung 
 Cử Nhân. Lƣu Phúc Lợi 
Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học. Trƣờng Đại Học 
Nông Lâm TP. Hồ Chí Minh. Trong khoảng thời gian từ tháng 3/2005 đến 8/2005. Với 
sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT-
RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh 
học lớn nhƣ NCBI, EMBL, DDBj,…Vì các CSDL này quá lớn và chứa rất nhiều thông 
tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc 
truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, mục 
tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse 
transcriptase-RNaseH ở một số loài virus thực vật. 
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau: 
 Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ 
trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide). 
 Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH 
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus. 
 Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ 
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này. 
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL. 
 Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang 
web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus 
Closteroviridae và Caulimoviridae. 
 v 
Sau khi thực hiện các nội dung trên chúng tôi đạt đƣợc những kết quả nhƣ sau: 
 Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ 
liệu NCBI. 
 Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự 
protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí 
gene hsp-70 và RT-RNaseH trong ORF hay nằm trong genome của chúng. 
 CSDL có 325 trình tự đƣợc tích hợp với Web. 
 Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là 
HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra, 
từ những trang web chính này còn có thể kết nối đến những trang phụ khác để 
cung cấp những tiện ích cho ngƣời dùng. Từ các trang web này, ngƣời sử 
dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự 
trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc 
tính của loài,… 
 vi 
MỤC LỤC 
Nội dung Trang 
Trang bìa ........................................................................................................................... i 
Trang trong ...................................................................................................................... ii 
Lời Cảm Tạ .................................................................................................................... iii 
Tóm Tắt Luận Văn ......................................................................................................... iv 
Mục Lục .......................................................................................................................... vi 
Danh Sách Các Bảng ...................................................................................................... ix 
Danh Sách Các Hình ....................................................................................................... x 
Danh Sách Các Chử Viết Tắt ........................................................................................ xii 
Phần 1. LỜI MỞ ĐẦU .................................................................................................. 1 
Phần 2. TỔNG QUAN TÀI LIỆU ................................................................................ 4 
 2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU .......................................................................... 4 
 2.1.1. Định nghĩa .................................................................................................... 4 
 2.1.2. Hệ quản trị CSDL ......................................................................................... 4 
 2.1.3. Các mô hình dữ liệu ...................................................................................... 5 
 2.1.3.1. Định nghĩa ........................................................................................ 5 
 2.1.3.2. So sánh các mô hình dữ liệu………………………………………..5 
 2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB .................... 6 
 2.2.1. Perl ................................................................................................................ 6 
 2.2.1.1. Tóm tắt lịch sử phát triển .................................................................. 6 
2.2.1.2. Ứng dụng .......................................................................................... 7 
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng ................................. 7 
 2.2.2. Giới thiệu về mạng Internet ......................................................................... 8 
2.2.2.1. Tóm lƣợc lịch sử phát triển ............................................................... 8 
2.2.2.2. Một số khái niệm .............................................................................. 9 
2.2.3. Web ............................................................................................................... 9 
2.2.3.1. Tóm lƣợt lịch sử phát triển ............................................................... 9 
2.2.3.2. Tích hợp CSDL với web dùng CGI ................................................ 10 
2.3. CƠ SỞ DỮ LIỆU SINH HỌC ........................................................................... 11 
 2.3.1. NCBI ........................................................................................................... 11 
 vii 
2.3.1.1. Vài nét về NCBI ............................................................................. 11 
2.3.1.2. Một số cơ sở dữ liệu trong NCBI.................................................... 11 
2.3.1.3. Một số công cụ trong NCBI ............................................................ 12 
 2.3.2. EBI .............................................................................................................. 13 
2.3.2.1. Vài nét về EBI ................................................................................. 13 
2.3.2.2. Một số cơ sở dữ liệu trong EBI ....................................................... 13 
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học .......................... 14 
 2.3.3. SIB ............................................................................................................. 15 
 2.3.4. DDJB và PDBj ............................................................................................ 15 
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE ................................... 18 
 2.4.1. CAULIMOVIRIDAE ................................................................................... 19 
2.4.1.1. Khái quát .......................................................................................... 19 
2.4.1.2. Cấu tạo ............................................................................................. 20 
2.4.1.3. Đặc tính sinh học ............................................................................. 20 
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 20 
 2.4.2. CLOSTEROVIRIDAE ................................................................................. 21 
2.4.2.1. Khái quát .......................................................................................... 21 
2.4.2.2. Cấu tạo ............................................................................................. 21 
2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 22 
2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH ................................................ 23 
2.5.1. Gene Reverse transciptase-RNaseH ........................................................... 23 
2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome .................................... 23 
2.5.2.2. Chức năng của protein ..................................................................... 23 
 2.5.2. Gene hsp-70 ................................................................................................ 24 
2.5.1.1. Vị trí gene hsp-70 nằm trong genome ............................................. 24 
2.5.1.2. Chức năng ........................................................................................ 24 
PHẦN 3. PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG ............................. 25 
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng...................................... 25 
3.1.1. Hệ điều hành ............................................................................................... 25 
3.1.2. Các chƣơng trình phân tích trình tự ........................................................... 25 
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW .......................................... 25 
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST ............. 25 
 viii 
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL .................................................. 26 
3.1.2.4. Apache web Server .......................................................................... 27 
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng .................................... 27 
3.2. Phƣơng pháp ....................................................................................................... 28 
 3.2.1. Thu nhận trình tự ........................................................................................ 28 
 3.2.2. Xác định gene và protein trong bộ gene virus ............................................ 29 
 3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH ................ 32 
3.2.3.1. Phân tích dữ liệu .............................................................................. 32 
3.2.3.2. Thiết kế CSDL dạng bảng ............................................................... 34 
3.2.3.3. Lƣu trữ các thông tin vào CSDL ..................................................... 35 
 3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web .................... 37 
Phần 4. KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 39 
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae .......... 39 
4.2. Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH ... 41 
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH ........................................................ 42 
4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH ..................... 46 
 4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH .................... 47 
 4.4.2. Trang tìm kiếm ............................................................................................ 47 
 4.4.3. Trang công cụ .............................................................................................. 49 
 4.4.4. Trang cây phân loài ..................................................................................... 52 
4.4.4.1. Trang Caulimoviridae ..................................................................... 52 
4.4.4.2. Trang Closteroviridae ..................................................................... 54 
 4.4.5. Trang liên kết ............................................................................................... 54 
 4.4.6. Trang thông tin về bộ môn công nghệ sinh học .......................................... 54 
PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ ......................................................................... 55 
4.1. KẾT LUẬN ........................................................................................................ 55 
4.2. ĐỀ NGHỊ ........................................................................................................... 55 
PHẦN 6. TÀI LIỆU THAM KHẢO .......................................................................... 57 
PHỤ LỤC ..................................................................................................................... 59 
 ix 
DANH MỤC BẢNG 
Trang 
Bảng 2.1. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng ........................... 17 
Bảng 2.2. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng.(tiếp theo) .......... 18 
Bảng 3.1. Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism) .............. 33 
Bảng 3.2. Các đối tƣợng phụ dựa trên đối tƣợng chính trình tự (Sequence) ................ 34 
Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH ........................... 43 
Bảng 4.2 Số trình tự gene hsp-70 .................................................................................. 43 
Bảng 4.3 Số trình tự gene RT-RNaseH .......................................................................... 43 
 x 
DANH MỤC HÌNH 
Trang 
Hình 1.1 Định nghĩa Bioinformatics theo NCBI ............................................................. 1 
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng ........................................................ 2 
Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS .......................................... 8 
Hình 2.2 Tƣơng quan giữa NCBI, NLM ....................................................................... 11 
Hình 2.3 Một số cơ sở dữ liệu trong NCBI ................................................................... 14 
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm 
tƣơng ứng……………………………………………………………………………...16 
Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB .................................... 16 
Hình 2.6 Tổ chức genome của virus CaMV .................................................................. 19 
Hình 2.7 Một số loài trong họ Caulimoviridae ............................................................. 20 
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA ......... 21 
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus ...................... 22 
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus 
 (+)ssRNA ...................................................................................................................... 22 
Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic 
virus ...................................................................................................................... 23 
Hình 2.12. Protein reverse transcriptase ........................................................................ 24 
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus .............. 24 
Hình 2.14 Protein HSP-70 ............................................................................................. 24 
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự ....................................................... 28 
Hình 3.2 Sơ đồ xác định gene trong genome virus ....................................................... 29 
Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự ............................ 30 
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT-
RNaseH trong ORF hay genome của virus .......................................................... 31 
Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH ........................ 32 
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus ........................... 37 
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và 
RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38 
Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus.......... 39 
 xi 
Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên 
NCBI………..40 
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV………………..41 
Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH ................. 46 
Hình 4.5 Trang HOME PAGE ...................................................................................... 47 
Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER ............................ 48 
Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER ..................... 48 
Hình 4.8 Trang tìm kiếm trình tự tƣơng đồng bằng Alignment .................................... 50 
Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự…………………..51 
Hình 4.10 Trang tìm kiếm trình tự tƣơng đồng bằng BLAST ...................................... 51 
Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae ............ 52 
Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ…………………………53 
 xii 
DANH SÁCH CÁC CHỮ VIẾT TẮT 
CSDL Cơ sở dữ liệu. 
RT-RNaseH Reverse transcriptase-RnaseH 
hsp-70 Heat sock protein 70. 
Perl Practical Extraction and Report Language 
CGI Common Gateway Interface 
DBI Database Interface 
DBD Datadbase Driver 
WWW World Wide Web 
HTML Hypertext Markup Language 
HTTP Hypertext Transfer Protocol 
NCBI Center for Bioinformatic Information 
BLAST Basic Local Alignment Search Tool 
EBI European Bioinformatics Insiture 
EMBL European Molecular Biology Laboratory 
SIB Swiss Insitute of Bioiformatics 
DDBJ DNA Data Bank Japan 
PDBj Protein Database Japan 
CaMV Caulimoflower mosaic virus 
1 
PHẦN 1 
LỜI MỞ ĐẦU 
Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật 
sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự 
đƣợc giải. Đòi hỏi có sự lƣu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình 
tự thu đƣợc này ngày càng hiệu quả và nhanh chóng hơn. Vì vậy, cần có sự hỗ trợ đắc 
lực của các nghành khoa học khác.Với khả năng xử lý, lƣu trữ, liên kết và truy xuất 
một lƣợng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một 
công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học. Sự kết hợp giữa ngành 
tin học và sinh học dẫn đến cho ra đời một công cụ mới, phục vụ cho việc nghiên cứu 
trong sinh học đó là Tin - sinh học. Mặc dù Tin - sinh học là một lĩnh vực mới ra đời 
nhƣng triển vọng của nó phục vụ cho nghiên cứu sinh học rất lớn. 
KHÁI NIỆM VỀ TIN - SINH HỌC 
Sự kết hợp, liên thông giữa các ngành khoa học giúp cho khoa học có những 
bƣớc phát triển mới.Trong thời đại khoa học hiện nay, sự kết hợp giữa các ngành lại 
với nhau là hết sức cần thiết. Không một ngành khoa học nào có thể phát triển mà 
không cần sự hổ trợ của ngành khác.Với những bƣớc đột phá mạnh mẽ trong lĩnh vực 
công nghệ thông tin và một số thành tựu mới trong nghiên cứu sinh học (giải mã toàn 
bộ genome của ngƣời và một số loài khác) thì sự kết hợp này cho ra đời một lĩnh vực 
nghiên cứu mới – Bioinformatics hay Tin - sinh học là một ví dụ điển hình cho sự liên 
kết này. 
Nhƣ vậy, bioinformatics là gì? Có nhiều định nghĩa khác nhau về thuật ngữ 
này. Có thể định nghĩa một cách ngắn gọn thuật ngữ này nhƣ sau “Bioinformatics là sự 
kết hợp giữa công nghệ sinh học và công nghệ thông tin với mục tiêu giúp hiểu biết và 
khám phá những nguyên lý trong sinh học” (theo trang web NCBI). [7, 22] 
Công nghệ sinh học 
Bioinformatics: 
giúp hiểu biết và 
khám phá những 
nguyên lý trong 
sinh học 
Hình 1.1 Định nghĩa Bioinformatics theo NCBI. 
Công nghệ tin học 
2 
TOÁN HỌC 
KHOA HỌC MÁY TÍNH 
THỐNG KÊ 
SINH HỌC 
HÓA HỌC 
VẬT LÝ 
Bioinformatics 
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng 
Thật vậy, sự kết hợp này đã giải quyết hàng loạt những nghiên cứu trong sinh 
học mà đòi hỏi thời gian khá dài hay khó có thể thực hiện bằng tay và mắt thƣờng 
đƣợc. 
Nhƣng định nghĩa trên chƣa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn 
thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp 
của nhiều ngành khoa học khác nhau nhƣ toán học, thống kê, khoa học máy tính, sinh 
học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tƣơng hỗ với nhau. Vì 
thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh 
học mà còn cho các ngành khác. Một ví dụ rõ ràng nhất là trong qui trình nghiên cứu 
về hệ thần kinh của động vật, con ngƣời đã phát hiện ra neuron thần kinh và cách xung 
thần kinh đƣợc dẫn truyền các tính hiệu qua các tế bào thần kinh. Kết hợp với những 
tính toán vật lý, trí tuệ nhân tạo, những lý thuyết sinh học trên đƣợc áp dụng vào tin 
học, để hình thành một mạng tính toán (Neuron network). Một ví dụ khác là thuật giải 
di truyền (GA - Genetic Algorithm) giúp giải những bài toán gần đúng có tính chính 
xác cao, dựa trên lý thuyết tiến hóa trong sinh học của Darwin. Nhƣ vậy, sơ đồ trên 
cần đƣợc bổ sung nhƣ sau: 
3 
Hầu hết, các nhà tin – sinh học trên thế giới hiện nay đang phát triển 
bioinformatics theo hƣớng nhƣ định nghĩa ban đầu (theo trang NCBI) do công nghệ 
sinh học là ngành khoa học mũi nhọn của thế kỷ 21. 
Sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và 
RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL 
sinh học lớn nhƣ NCBI, EMBL, DDBj,… Vì các CSDL này quá lớn và chứa rất nhiều 
thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện 
việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt 
Vì vậy, khóa luận đƣợc thực hiện với các mục tiêu lần lƣợt nhƣ sau. Một là xây 
dựng cơ sở dữ liệu (CSDL) về trình tự nucleotide và protein của 2 gene hsp-70 và 
Reverse transcriptase-RNaseH (RT-RNaseH). Hai là dùng giao diện web để truy xuất 
thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó. 
Để đạt đƣợc mục tiêu này, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau: 
 Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ 
CSDL GenBank (NCBI cơ sở dữ liệu nucleotide). 
 Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH 
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus. 
 Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ 
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này. 
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL. 
 Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang 
web CSDL về hai gene hsp-70 và RT-RNaseH trên hai họ virus Closteroviridae 
và Caulimoviridae. 
4 
PHẦN 2 
TỔNG QUAN TÀI LIỆU 
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU 
2.1.1. Định nghĩa [3, 8] 
Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu đƣợc tổ chức theo một cấu trúc 
chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc. Tập hợp 
dữ liệu sẽ đƣợc lƣu trữ trên các thiết bị lƣu trữ thông tin thứ cấp nhƣ băng từ, đĩa từ,… 
để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều ngƣời sử dụng hay nhiều 
chƣơng trình ứng dụng với nhiều mục đích khác nhau. 
 Nhƣ vậy, các đặc tính của một CSDL là: 
 Tính nhất quán 
 Tính toàn vẹn 
 Tính tích hợp 
 Tính chia sẻ 
 Tính độc lập dữ liệu 
 Tính an toàn 
 Tính bảo mật 
2.1.2. Hệ quản trị CSDL (Database Management System – DBMS) 
Là một hệ thống phần mềm cho phép các nhà phân tích và thiết kế CSDL 
cũng nhƣ ngƣời khai thác CSDL đƣợc thuận lợi trong quá trình định nghĩa, thao tác, 
truy xuất và quản lý dữ liệu. 
Hệ quản trị CSDL đầu tiên ra đời vào đầu những năm 60 dựa trên mô hình dữ 
liệu phân cấp và mô hình mạng. Năm 1976 đánh dấu sự ra đời hệ quản trị CSDL đầu 
tiên dựa trên mô hình quan hệ mang tên System-R. Đến những năm 90, bắt đầu xuất 
hiện các hệ quản trị CSDL dựa trên mô hình hƣớng đối tƣợng,… Tuy nhiên chúng vẫn 
dựa chủ yếu vào nền tảng là mô hình quan hệ. Hệ quản trị ODMG ra đời năm 1996 
đƣợc coi là hệ quản trị thuần hƣớng đối tƣợng nhất. 
Hiện nay, một số hệ quản trị CSDL mạnh đang đƣợc đƣa ra thị trƣờng nhƣ 
Visual FoxPro, SQL-Server, Oracle,… 
5 
Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề: 
 Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu 
và tính chính xác của dữ liệu. 
 Tính bảo mật và quyền khai thác thông tin của ngƣời sử dụng. 
 Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều ngƣời cùng truy cập 
vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị 
CSDL phải có cơ chế ƣu tiên truy cập dữ liệu. Cơ chế ƣu tiên có thể đƣợc thực 
hiện bằng cách cấp quyền ƣu tiên cho ngƣời khai thác (ngƣời đƣợc cấp quyền 
hạn ƣu tiên cao hơn thì đƣợc phép truy cập dữ liệu trƣớc) hay dựa vào thời điểm 
truy cập (ngƣời truy xuất trƣớc thì có quyền truy cập dữ liệu trƣớc). 
 Phục hồi dữ liệu khi có sự cố. 
2.1.3. Các mô hình dữ liệu [2, 3] 
 2.1.3.1. Định nghĩa 
Mô hình dữ liệu là sự trừu tƣợng hóa thế giới thực, là sự biểu diễn dữ liệu 
mức quan niệm. Mô hình dữ liệu đƣợc phân loại dựa trên các cách tiếp cận dữ liệu 
khác nhau của các nhà phân tích, thiết kế CSDL. Mô hình dữ liệu hoàn toàn độc lập 
giữa hệ thống máy tính và cấu trúc dữ liệu. 
Hiện nay, có năm loại mô hình dữ liệu chính. Đó là: 
 Mô hình dữ liệu mạng: thập niên 60-70. 
 Mô hình dữ liệu phân cấp: thập niên 60-70. 
 Mô hình dữ liệu quan hệ: thập niên 80. 
 Mô hình dữ liệu thực thể kết hợp: thập niên 90. 
 Mô hình dữ liệu hƣớng đối tƣợng: thập niên 90. 
 2.1.3.2. So sánh các mô hình dữ liệu [2] 
Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục đƣợc những khó 
khăn khi thiết kế và quản lí CSDL theo mô hình mạng và mô hình phân cấp. 
 Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý chủ 
nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp xếp và sau 
khi thiết kế xong muốn sửa đổi rất phức tạp, hầu nhƣ phải làm lại từ đầu. 
Mô hình quan hệ tổ chức dữ liệu dƣới dạng bảng dễ hiểu và đơn giản hơn 
6 
trong việc thiết kế và sửa đổi sau này. Ngoài ra, việc thiết kế mô hình quan 
hệ hoàn toàn độc lập với hệ quản trị CSDL. 
 Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô hình 
mạng và mô hình phân cấp rất khó sử dụng. Ví dụ khi sử dụng hệ quản trị 
IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu tích hợp và các 
trình biên dịch lƣợc đồ và lƣợc đồ con. Trong khi đó, các hệ quản trị theo 
mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn ngữ truy vấn dữ liệu ở 
mức độ cao nhƣ SQL,… 
Do những ƣu điểm trên CSDL quan hệ ngày càng đƣợc sử dụng rộng rãi. Tuy 
nhiên, trong một số trƣờng hợp, mô hình quan hệ trở nên không thích hợp, nhất là khi 
sử dụng nó để thể hiện những dữ liệu có quan hệ cấu trúc nhƣ cây hệ thống sinh học. 
đối với những loại dữ liệu loại này, sử dụng mô hình dữ liệu hƣớng đối tƣợng là thích 
hợp nhất. 
Khi một CSDL đƣợc xây dựng xong, thì việc tiếp theo là làm sao để có thể 
truy xuất thông tin từ CSDL này, nghĩa là ngƣời dùng có thể nhận đƣợc các thông tin 
mà họ cần hay có thể bổ sung thêm một vài thông tin qua một giao diện thân thiện. 
Hơn thế nữa, ngƣời dùng còn muốn chia sẻ thông tin với các nơi khác. Để thực hiện 
đƣợc điều đó, ngƣời ta thƣờng chọn giao thức CGI, hiển thị những đòi hỏi thông tin về 
CSDL của ngƣời dùng thông qua dịch vụ web. 
2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB 
2.2.1. Perl [19] 
2.2.1.1. Tóm tắt lịch sử phát triển 
Perl là chữ viết tắt của “Practical Extraction and Report Language”. Larry 
Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn. 
Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hƣởng bởi ngôn ngữ khác 
nhƣ BASIC, awk, sed và UNIX shell. 
Năm 1987, Perl 1.0 ra đời. 
Năm 1988, Perl 2.0 phát hành và đƣợc các nhà quản trị UNIX sử dụng rộng 
rãi. 
7 
Năm 1989, Perl 3.0 ra đời, nhƣng phiên bản này đƣợc phát hành dƣới bản 
quyền đƣợc bảo vệ của GNU. Với phiên bản này Perl nhanh chóng trở thành tiêu 
chuẩn để viết CGI script dùng cho việc xử lý dữ liệu đƣợc gửi trên Internet. 
Năm 1991, phiên bản 4.0 đƣợc đƣa ra vào tháng 3. Đến thời điểm này, Perl đã 
trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số khuyết điểm nhỏ. 
Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI (Database 
Interface) và DBD (Datadbase Driver) cho hệ quản trị CSDL Oracle của Tim Bunce. 
Từ đó, các DBD của các hệ quản trị CSDL khác cũng dần xuất hiện. 
Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3. Phiên bản này đã chuyển 
sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8. 
Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới đƣợc bổ 
sung. 
2.2.1.2. Ứng dụng [6] 
Perl đƣợc dùng để xử lý tập tin, truy cập dữ liệu và đƣợc dùng cho giao diện 
cổng chung (Common Gateway Interface – CGI), tiến hành tạo script của Microsoft 
Windows, tạo giao diện ngƣời dùng đồ họa (graphical user interface – GUI). 
Ƣu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn bản thuần 
túy, đƣợc sự hổ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngôn ngữ lập trình thích 
hợp cho các nhà tin – sinh học vì nó có thể giúp cho việc thao tác trên các chuỗi trình 
tự sinh học, tạo CSDL sinh học dễ dàng hơn. Ngoài ra, Perl còn đƣợc sự hỗ trợ module 
(tập các hàm) giúp kết nối, truy xuất CSDL với trang Web, tạo ra trang web động. 
Nhƣợc điểm: chỉ có thể dùng để viết các chƣơng trình, script nhỏ. 
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng [20, 21] 
Mudule CGI (Common Gateway Interface – CGI) của Perl: do Lincoln D. 
Stein viết và bổ sung, nâng cấp thêm các tính năng từ version 1.44 đến version 3.04. 
Module này gồm các hàm giúp viết kịch bản Perl theo giao thức CGI. Các script này 
giúp lấy thông tin từ trình diệt khách gởi đến máy chủ, đƣa vào chƣơng trình sử lý và 
đƣa lại thông tin kết quả đến máy khách. 
Module DBI (Database Interface) của Perl: là tập các hàm, biến và những 
qui ƣớc cần thiết cho việc tƣơng tác với một CSDL nhất định thông qua Perl script, 
hoàn toàn độc lập với hệ quản trị CSDL (do tác giả của DBI, Tim Bunce, định nghĩa). 
8 
Những tƣơng tác có thể nhập, nâng cấp, xử lý, rút trích,…dữ liệu vào hay ra khỏi 
CSDL. Phiên bản hiện tại là 1.48. 
Module DBD (Datadbase Driver) của Perl: là một module phụ thuộc loại hệ 
quản trị CSDL và liên kết với module BDI để truy cập vào một loại hệ quản trị CSDL 
nhất định. Nhƣ vậy tƣơng ứng với một hệ quản trị CSDL có một loại DBD. Ví dụ nhƣ 
hệ quản trị MySQL có Database Driver là DBD::MySQL. 
2.2.2. Giới thiệu về mạng Internet [2] 
2.2.2.1. Tóm lƣợc lịch sử phát triển 
Năm 1957, Bộ quốc phòng Mỹ thành lập cơ quan nghiên cứu các dự án kỹ 
thuật cao ARPA (Advanced Research Projects Agency), thuộc một bộ phận trong bộ 
quốc phòng. Chỉ một thập niên sau, năm 1969, ARPA thiết lập mạng ARPANET – 
tiền thân của Internet ngày nay. ARPANET là một mạng máy tính nối bốn máy chủ tại 
các trƣờng đại học California – Los Angeles, đại học California – Santa Barbara, viện 
nghiên cứu Standford và đại học Utah lại với nhau. 
Từ năm 1969 đến 1986, số lƣợng máy chủ tăng lên khoảng năm ngàn. 
Đến năm 1973, mạng xuyên quốc gia đầu tiên đƣợc thiết lập giữa hai nƣớc 
Anh và Na Uy. 
Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao thức 
chuẩn. 
Internet dần dần đƣợc phát triển và đột phá từ khi có sự ra đời của dịch vụ 
WWW (World Wide Web). Và từ đây, Internet đƣợc mở rộng sử dụng cho các ngành 
nghiên cứu khác và trở thành một công cụ có mụch đích thƣơng mại. 
P
E
R
L 
S
C
R
I
P
T 
D
B
I 
S
w
it
c
h 
DBD 
DBD 
DBD 
RDBMS 
RDBMS 
RDBMS 
 Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS 
RDBMS (Relational Database Management Systems): hệ quản trị CSDL quan hệ 
9 
2.2.2.2. Một số khái niệm 
Internet là một mạng toàn cầu, kết nối các mạng máy tính theo cùng một giao 
thức chung TCP/IP. 
Giao thức là cách thức đóng gói, mã hóa dữ liệu truyền trên đƣờng mạng và 
các qui tắc để thiết lập và duy trì quá trình trao đổi dữ liệu. 
Giao thức TCP/IP là giao thức dùng cho hệ mạng Internet/Intranet. 
2.2.3. Web [2, 4] 
2.2.3.1. Tóm lƣợt lịch sử phát triển 
Năm 1991, WWW đƣợc phát triển đầu tiên ở Thụy Sỹ và trở thành dịch vụ 
thông dụng trên mạng Internet. Tim Berners – Lee và các cộng sự tại phòng thí 
nghiệm Vật lý Phân tử Châu Âu đã phát minh ra giao thức truyền thông trên cơ sở các 
thông tin dạng siêu văn bản (Hypertext). 
Từ đó, một loạt các thuật ngữ lần lƣợt ra đời nhƣ webServer, webClient, 
webPage, webSite, URL: 
 WebServer: máy cung cấp thông tin dạng web. 
 WebClient: máy truy xuất thông tin từ web server. 
 WebSite: tập hợp các trang web của một tổ chức, một website có thể có 
nhiều web server. 
 WebPage: một trang tự liệu web. 
 URL (Uniform Resource Locator) đƣờng dẫn chỉ đến một tập tin trong 
một máy chủ trên Internet. 
Để truy xuất các thông tin trên web server, các web client phải sử dụng một 
chƣơng trình để duyệt các thông tin này gọi là web browser. Đến năm 1993, trung tâm 
ứng dụng siêu máy tính quốc gia NCSA (National Center Supercomputer Application) 
xây dựng trình duyệt web, có tên là Mosaic, đầu tiên có giao diện đồ họa. 
Năm 1995, đánh dấu sự ra đời của trình duyệt Netscape và sau đó là 
Microsoft Internet Explorer. Các trình duyệt này cho phép truy xuất dữ liệu khu trú 
trên máy WWW. Hai công cụ hỗ trợ WWW là ngôn ngữ đánh dấu siêu văn bản 
HTML (Hypertext Markup Language) dùng để tạo ra các trang web và giao thức 
truyền siêu văn bản HTTP (Hypertext Transfer Protocol). 
10 
Tuy nhiên, các trang web này chỉ là những trang web tĩnh. Khi nhu cầu trao 
đổi thông tin ngƣời sử dụng và các nhà cung cấp thông tin ngày càng tăng, các trang 
web động dần dần thay thế các trang web tĩnh. Trang web động là trang web đƣợc tạo 
ra để đáp ứng các dữ liệu nhập vào của ngƣời dùng trực tiếp hay gián tiếp và trả lại kết 
quả thông qua sự tƣơng tác với hệ thống CSDL. 
Có nhiều kỹ thuật đƣợc dùng để tích hợp CSDL với web để tạo ra trang web 
động nhƣ CGI, PHP, ASP, JSP, Coldfusion. Trong đó: 
 CGI (Common Gateway Interface): là kỹ thuật ra đời sớm nhất và 
đƣợc các nhà tin – sinh học sử dụng. Cụ thể CGI đƣợc định nghĩa là 
một cách thức mà web server chạy một chƣơng trình một cách cục bộ 
và trả lại kết quả thông qua máy server về trình duyệt web (ở máy 
client) của ngƣời dùng yêu cầu nội dung động. Nhiều ngôn ngữ lập 
trình đƣợc sử dụng để viết CGI nhƣ Perl, C, C++. 
 ASP (Active Server Page): là kỹ thuật của Microsoft sử dụng Visual 
Basic hay các ngôn ngữ khác để viết, thƣờng chỉ ứng dụng trên hệ điều 
hành Windows. 
 JSP (Java Server Page): là thuật ngữ dùng Java để viết, có thể chạy trên 
các hệ điều hành nhƣ Unix, Linux, Windows, Mac,… 
 PHP (Hypertext Preprocessior): là dự án của Apache Software 
Foundation. Tƣơng tự nhƣ ASP và JSP, PHP có một tập các thẻ mã 
chƣơng trình đặt bên cạnh các thẻ HTML. 
2.2.3.2. Tích hợp CSDL với web dùng CGI [2] 
Gồm ba bƣớc: 
Bƣớc 1: từ trình duyệt web (trên máy client) gởi đi những yêu cầu của 
ngƣời dùng đến máy server. Ở máy server, thông qua trình ứng dụng CGI chuyển 
những yêu cầu đó thành những câu truy vấn SQL. 
Bƣớc 2: kết nối CSDL, thực hiện những câu truy vấn đó. 
Bƣớc 3: thu lấy kết quả truy vấn, thông qua trình ứng dụng CGI chuyển kết 
quả thu đƣợc từ CSDL thành định dạng HTML, rồi trả về máy client. 
11 
NLM 
NCBI 
NIH 
Hình 2.2 Tƣơng quan giữa NCBI, NLM (National Library of Medicine và NIH) 
2.3. CƠ SỞ DỮ LIỆU SINH HỌC 
Dữ liệu sinh học ngày càng tăng theo cấp số mũ qua các dự án giải trình tự bộ 
gene, do sự phát triển của kỹ thuật và thiết bị thí nghiệm nhƣ kỹ thuật DNA micro 
array, kỹ thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh học trong 
chốc lát. Nhƣ vậy vấn đề đặt ra là cần phải có biện pháp lƣu trữ, quản lý, sử dụng và 
chia sẽ nguồn dữ liệu này. Do đó cần xây dựng các dữ liệu này thành một CSDL hoàn 
chỉnh để có thể thực hiện đƣợc mục đích trên. Hơn thế nữa, với việc hệ thống hóa toàn 
bộ dữ liệu trên, chúng ta dễ dàng thực hiện việc chia sẽ những thông tin ấy qua mạng 
Internet hay kết nối thêm vào những tập dữ liệu ở nơi khác. 
Một số CSDL lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin cho các 
nhà nghiên cứu sinh học nhƣ NCBI, EBI, SIB, DDBJ,… 
2.3.1. NCBI (National Center for Bioinformatic Information) [22] 
2.3.1.1. Vài nét về NCBI 
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là trung 
tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH – 
National Insitute of Health). NCBI chính thức đƣợc thành lập vào ngày 4/10/1988. 
Đến năm 1991, NCBI đảm nhiệm việc quản lý CSDL trình tự DNA và từ đó NCBI 
còn đƣợc gọi là GenBank. 
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông 
qua những CSDL trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh 
học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ 
gene, protein,… 
2.3.1.2. Một số cơ sở dữ liệu trong NCBI 
Nucleotide (GenBank): là CSDL về trình tự nucleotide. 
Protein: là CSDL về trình tự amino acid. 
Genome: trình tự toàn bộ genome của một số sinh vật. 
12 
Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database) 
chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi 
nucleotide. 
Ngoài ra, NCBI còn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc 
tạo thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến các CSDL 
khác. 
2.3.1.3. Một số công cụ trong NCBI 
 Công cụ khai thác dữ liệu 
o Tìm kiếm thông tin sinh học dựa trên từ khóa có dạng văn bản: 
Entrez: chứa các phƣơng thức tìm kiếm nhƣ tìm kiếm dựa trên accession 
number, hay dựa theo tên sinh vật, tên gene, tên protein,… trên tất cả các CSDL đã đề 
cập ở phần 2.3.1.2. 
o Tìm kiếm trình tự tƣơng đồng: có phần mềm điển hình nhƣ: 
BLAST (Basic Local Alignment Search Tool): có BLAST Homepage là nơi 
cung cấp thông tin hƣớng dẫn về BLAST, chƣơng trình BLAST,… 
Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có trong mọi CSDL 
protein Entrez. 
Network-client BLAST: client BLAST (blastcl3) có thể thâm nhập vào bộ 
máy BLAST của NCBI. Blastcl3 này có thể tìm kiếm tất cả các trình tự dƣới dạng file 
FASTA và tạo sự gióng cột một-nhiều trình tự, sau đó lƣu dƣới dạng file text hay 
HTML. Ngoài ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều CSDL. 
Stand-alone BLAST: là phần mềm có thể tải về từ NCBI. Phần mềm này 
thực hiện việc tìm kiếm các trình tự tƣơng tự trên CSDL trình tự cục bộ. 
o Phân loại sinh vật: 
Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên CSDL Taxonomy. 
Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tƣơng đồng khi thực 
hiện BLAST, tùy thuộc vào sự phân loại của chúng trong CSDL Taxonomy. 
TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với CSDL Taxonomy và 
hiển thị mối quan hệ giữa sinh vật này với sinh vật khác bằng các biểu đồ màu. 
13 
 Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS, 
…lên NCBI 
Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo ra những 
file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu trúc theo khuôn mẫu. Trong 
phần mềm này còn kèm theo một số công cụ nhỏ nhƣ công cụ tìm khung đọc mở, công 
cụ gióng cột trình tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một 
lúc. 
 NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích 
trình tự DNA, protein nhƣ: 
 BanklIt, ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene, 
COGs, COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink,… 
2.3.2. EBI (European Bioinformatics Insiture) [23] 
2.3.2.1. Vài nét về EBI 
EBI là viện Tin - sinh học của Cộng đồng chung Châu Âu, EBI đặt tại 
Welcome Trust Genome Campus nƣớc Anh, thành lập năm 1992. EBI bắt nguồn từ 
EMBL (European Molecular Biology Laboratory). EBML đƣợc thành lập năm 1980 
tại phòng thí nghiệm sinh học phân tử Heidelberg của Đức và đây là CSDL trình tự 
nucleotide đầu tiên của thế giới. 
EBI phục vụ cho việc nghiên cứu trong các lĩnh vực nhƣ sinh học phân tử, di 
truyền, y học, nông nghiệp,… bằng cách xây dựng, duy trì những CSDL chia sẻ trực 
tuyến thông tin cần thiết. Bên cạnh đó, EBI còn thực hiện những nghiên cứu trong lĩnh 
vực Tin-sinh học và sinh học phân tử tính toán. 
2.3.2.2. Một số cơ sở dữ liệu trong EBI 
EMBL (European Molecular Biology Laboratory): còn đƣợc gọi là EMBL-
BANK chứa CSDL về trình tự DNA, RNA. 
MSD (Macromolecular Structure Database): chứa thông tin cấu trúc của các 
đại phân tử sinh học nhƣ protein, DNA, RNA,… 
ArrayExpress: tích trữ nguồn dữ liệu về sự biểu hiện của gene dựa trên kỹ 
thuật microArray. 
TrEMBL (Translate EMBL): là cơ sở dữ liệu về protein. Do lƣợng trình tự 
này ngày càng nhiều và để quản lý tốt hơn, TrEMBL đã kết hợp với Swiss-Prot (CSDL 
14 
Cơ sở dữ liệu về 
protein của Thụy 
Sỹ đặt tại Genva 
Cơ sở dữ liệu về protein 
của trƣờng đại học Y 
Georgetown (Mỹ) 
Hình 2.3 Một số cơ sở dữ liệu trong EBI 
về trình tự protein của Thụy Sỹ), PIR (CSDL về protein của trƣờng đại học Y 
Georgetown, Hoa Kỳ) tạo thành CSDL UniProt. 
Ngoài ra, EBI còn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc tạo 
thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến CSDL khác 
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học 
FASTA: Do Smith và Waterman tạo ra năm 1981, là chƣơng trình tìm kiếm 
những trình tự tƣơng đồng, có thể là trình tự DNA hay trình tự protein, trong CSDL đã 
chọn. 
BLAST: chủ yếu là phần mềm WU-BLAST (Washington University Bacis 
Local Alignment Tool version 2.0). Đặc điểm chính của công cụ này là tìm kiếm vùng 
trình tự tƣơng đồng nhanh chóng. 
ClustalW: là công cụ dành cho việc sắp gióng cột ở hai hay nhiều trình tự 
sinh học (cả protein và DNA), công cụ này cho ra kết quả có ý nghĩa sinh học cao. 
15 
2.3.3. SIB (Swiss Insitute of Bioiformatics) [32] 
Là viện Tin-sinh học của Thụy Sỹ đặt tại Genva, nơi cung cấp dịch vụ trên 
web chất lƣợng cao cho cộng đồng khoa học thế giới qua trang ExPASy (Expert 
Protein Analyis System). 
Một số CSDL trong ExPASy: 
SWISS-PROT: là CSDL protein, đƣợc thành lập năm 1986. Nhƣng kể từ 
năm 1987, SWISS-PROT liên kết với EBI. 
SWISS-2DPAGE (2-dimensional polyacrylamide gel electrophoresis 
database): chứa dữ liệu điện di hai chiều từ protein của ngƣời, chuột, E.coli,… 
PROSITE: tích trữ về các họ protein có cùng chức năng. 
ENZYME (enzyme nomenclature): cung cấp thông tin về danh pháp của 
enzyme. 
SWISS-3DIMAGE: lƣu trữ hình ảnh chất lƣợng cao của các đại phân tử sinh 
học đã biết cấu trúc không gian ba chiều. 
2.3.4. DDBJ (DNA Data Bank Japan) và PDBj (Protein Database Japan) [25] 
DDBJ là CSDL về trình tự DNA của Nhật Bản, chính thức đi vào hoạt động 
năm 1986, đặt tại viện di truyền quốc gia (NIG). Đến năm 2001, trung tâm thông tin về 
sinh học ở NIG đƣợc tổ chức lại với cái tên là CIB (Center Information Biology) kết 
hợp với DDBJ, viết tắt CIB/DDBJ. 
PDBj là CSDL của Nhật Bản, tích trữ dữ liệu về cấu trúc, chức năng protein. 
DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba CSDL về 
trình tự nucleotide lớn, mang tính chất toàn cầu và ba cơ sở dữ liệu này có sự hợp tác, 
trao đổi qua lại dữ liệu. Từ đó càng làm cho dữ liệu về trình tự nucleotide trở nên 
phong phú hơn. 
16 
Các tổ chức này đều xây dựng công cụ tìm kiếm trong CSDL của họ. Với 
NCBI là Entrez, EBI là SRS và CIB là getentry. Nhƣ vậy để có thể khai thác hiệu quả 
các CSDL này thì việc đầu tiên cần thực hiện là nắm vững các hoạt động của công cụ 
tìm kiếm (“search engines”) này. 
Ngoài ra, cũng có sự kết hợp của các CSDL protein trên thế giới để tạo ra một 
CSDL thống nhất wwPDB (world wide Protein Database). 
EB
I 
GenBank 
DDBJ 
EMB
L 
EMB
L 
Entrez 
SRS 
getentry 
NIG 
CI
B 
NCB
I 
NI
H 
•Submissions 
•Updates 
•Submissions 
•Updates 
•Submissions 
•Updates 
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB -DDB) và 
công cụ tìm kiếm tƣơng ứng. 
Hình 2.5 Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB 
17 
Bảng 2.1. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG. 
STT Tổ chức 
Tên cơ sở dữ 
liệu 
Địa chỉ trang web 
1 
EBI 
(
ww.ebi.a
c.uk/) 
EMBL-BANK  
TrEMBL  
MSD  
Ensembl  
ArrayExpress  
2 
NCBI 
(
ww.ncbi.
nlm.nih.
gov) 
OMIM  
GenBank  
Protein  
Genome  
MMDB  
Taxonomy  
dbSNP  
CDD  
Pubmed  
Cancer 
Chromosomes 
Chromosomes 
dbEST  
dbSTS  
DbGSS  
18 
Bảng 2.2. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG 
(tiếp theo) 
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE 
Giới thiệu chung [1] 
Bệnh hại do virus thực vật gây ra cho nền nông nghiệp rất lớn. Nhƣng xác 
định đúng tác nhân gây ra những thiệt hại này đối với từng loại cây trồng gặp nhiều 
khó khăn vì bệnh do virus gây ra thƣờng rất khó xác định, do kích thƣớc của chúng 
quá bé, do biến chuyển của quá trình gây bệnh thƣờng rất phức tạp và chịu ảnh hƣởng 
của nhiều điều kiện khác nhau. 
Ví dụ: Theo J.S.Hu và cộng sự, bệnh héo do virus (Mealybug wilt of 
pineapple- MWP) là bệnh gây thiệt hại ở nhiều khu vực trồng dứa trên thế giới. Các 
nghiên cứu đã chứng minh rằng một yếu tố tiềm tàng liên quan đến bệnh là virus. Một 
dạng closterovirus hình que gấp khúc đƣợc phân lập từ những cây có triệu chứng 
MWP ở Hawaii. Tuy nhiên sau đó những tiểu phần closterovirus cũng đƣợc tìm thấy ở 
cả cây dứa có và không có thể hiện triệu chứng trên phạm vi thế giới. Virus liên quan 
đến bệnh héo ở dứa (PMWaV) thực chất là phức hợp của 2 loại virus PMWaV-1 và 
PMWaV-2. Vì tác nhân không biểu hiện ra ngoài không gây ảnh hƣởng đến sự sinh 
trƣởng và phát triển của dứa, để phát hiện phân biệt hai tác nhân này ở những cây 
không và có biểu hiện ra ngoài là rất khó khăn. 
STT Tổ chức Tên cơ sở dữ liệu Địa chỉ trang web 
3 SIB 
(
asy.org) 
SWISS-PROT  
SWISS-2DPAGE  
PROSITE  
ENZYME  
SWISS-3DIMAGE  
CD40L  
4 CIB/DDBJ DDBJ  
5 Pdbj Pdbj  
6 PDB PDB  
7 wwPDB wwPDB  
19 
Trong đó: 
ORF I Movement protein 
ORF II Insect transmission factor 
ORF III 
ORF IV Capsid protein 
ORF V Protease, reverse transcriptase and RNaseH 
ORF VI Translational activator / Inclusion body protein 
ORF VII Unknown (dispensable) 
Hình 2.6 Tổ chức genome của virus CaMV (Caulimoflower mosaic virus) 
2.4.1. CAULOMOVIRIDAE [29] 
2.4.1.1. Khái quát 
Caulimoviriruse là họ virus thực vật có genome chứa dsDNA. Đƣợc chia ra 
làm năm nhóm gồm: 
 Caulimovirus (loài đặc trƣng: cauliflower mosaic virus). 
 Soymovirus (loài đặc trƣng: Soybean chlorotic mottle-like viruses). 
 Cavemovirus (loài đặc trƣng: Cassava vein mosaic-like viruses). 
 Tungrovirus (loài đặc trƣng: Rice tungro bacilliform-like viruses). 
 Badnavirus (loài đặc trƣng: Cammelina yellow mottle virus). 
 Petuvirus (loài đặc trƣng: Petunia vein clearing-like virus). 
 Trong đó, Virion của các loài Caulimovirus, Soymovirus, Cavemovirus, 
Petuvirus có đƣờng kính khoảng 50 nm. Còn Tungrovirus và Badnavirus có chiều dài 
110-400 và 130 nm, đƣờng kính khoảng 30-35 và 30-35 nm tƣơng ứng. Các loài trong 
họ có kích thƣớc genome khoảng 7,5-8 kb và tổ chức genome gồm 9 ORF (Open 
Reading Frame) trong ORF1 gồm có ORF1a và ORF1b). Sự sao mã genome của virus 
trong tế bào ký chủ phụ thuộc vào gene reverse transcriptase (gene này không chèn 
vào DNA của tế bào ký chủ trong quá sao mã và dịch mã) 
20 
2.4.1.2. Cấu tạo 
Virion có cấu trúc đơn giản gồm một lớp vỏ capsid. Viron không có áo 
(enveloped) bao bọc bên ngoài. Capsid có hình cầu hoặc dạng bacilliform. Ở dạng cầu 
có đƣờng kính khoảng 35-47.52-50 nm. Các lớp vỏ (shell) capsid của virion là tổ hợp 
của những màng đa, sự sắp xếp của capsomer không có sự phân biệt. Còn ở dạng 
bacilliform thì capsid có độ dài 130 nm hoặc 60-900 nm và có đƣờng kính 24-30-35 
nm. 
2.4.1.3. ĐẶC TÍNH SINH HỌC 
 Dãy ký chủ tự nhiên 
Ký chủ của virus liên quan đến Domain Eucarya. 
 Mối quan hệ vector và ký chủ trung gian 
Virus có thể đƣợc vận chuyển bởi một số nhân tố sau: vector, hạt, 
phấn hoa, sự cọ sát giữa hai ký chủ,… 
 Vùng phân bố 
Phân bố khắp nơi nhƣ châu Phi, Mỹ, Á,… 
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [1
            Các file đính kèm theo tài liệu này:
khoa luan tot nghiep - Thai CNSH27.pdf