Khai thác dữ liệu ests (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử ssr (simple sequence repeats)

Mục Lục LỜI CẢM ƠN iii TÓM TẮT KHOÁ LUẬN .iv ABSTRACT vi DANH SÁCH CÁC TỪ VIẾT TẮT xi Chương 1 1 MỞ ĐẦU . 1 1.1 Đặt vấn đề 1.2.Mục tiêu của khóa luận Chương 2 3 TỔNG QUAN TÀI LIỆU .3 2.1 Giớ thiệu về chi cam chanh .3 2.1.1 Vị trí phân lọai .3 2.1.2 Đặc điểm 4 2.1.3 Sâu hại và bệnh tật 6 2.2 EST .7 2.3.1 Sơ lược về EST 7 2.3.2 Nguồn gốc của EST .7 2.3.Sơ lược về phương pháp Microsatellite (SSR) .8 2.3.1Những khái niệm về kỹ thuật microsatellite .8 2.3.2 Giới thiệu chung .9 2.3.2.1 Tính chất 9 2.3.2.2 Khuếch đại của microsatellites . 10 2.3.2.3 Những giới hạn của microsatellite 11 2.3.3 Các loại microsatellite . 12 2.3.4 Cơ chế hình thành microsatellite . 12 viii 2.3.5 Vai trò của microsatellite . 13 2.4 Phương pháp xác định microsatellite truyền thống . 15 2.5 Phương pháp phát hiện microsatellite sử dụng . 16 2.6 Ứng dụng . 18 2.7 Cơ sở dữ liệu sinh học . 18 2.7.1 NCBI 19 2.7.1.1 Vài nét về NCBI 19 3.1.1.2 Một số cơ sở dữ liệu trong NCBI 19 Chương 3 . 20 VẬT LIỆU VÀ PHưƠNG PHÁP 20 3.1 Các chương trình và ngôn ngữ lập trình được sử dụng . 20 3.1.1 Hệ điều hành 20 3.1.2 Các chương trình phân tích trình tự .20 3.1.2.1 Chương trình Perl ssrfinder_1 20 3.1.2.2 Chương trình tìm kiếm các trình tự tương đồng – BLAST 22 3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS .23 3.1.2.4 Egassembler 23 3.1.3 Apache web Server 24 3.4 CÁC BưỚC TIẾN HÀNH .25 Chương 4 37 KẾT QUẢ VÀ THẢO LUẬN 37 4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST .37 4.2 Loại các dữ liệu nhiễu và dư bằng công cụ EGassembler bao gồm các bước sau: .38 4.2.1 Làm sạch trình tự .38 4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors .39 4.2.3 Dấu những vùng trình tự nhiễu của các bào quan 39 ix 4.3 Assembling 41 4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder 42 4.4.1 BLASTn: .43 4.5.Thiết kế và kiểm tra primer .45 4.6 tBLASTx .48 4.7. Đưa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ dàng truy xuất thông tin. 49 4.8 Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia sẽ thông tin qua mạng. 49 4.8.1 Trang chủ (HOME PAGE) 49 4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) .50 Chương5 .52 KẾT LUẬN VÀ ĐỀ NGHỊ .52 5.1. Kết luận 52 5.2. Đề nghị .53 TÀI LIỆU THAM KHẢO .54 Phụ Lục .57 xi DANH SÁCH CÁC BẢNG Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI 26 Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI 26 Bảng 3.3 Nội dung tblStrain .34 Bảng 3. 4 Nội dung tblMotifLengthGroup .34 Bảng 3.5 Nội dung tblSSR 34 Bảng 4.1 số lượng ESTs của từng loài thu nhận được từ NCBI .37 Bảng 4.2 Số trình tự bị lọai bỏ ở bước 2.1 .38 Bảng 4.3 số trình tự bị lọai bỏ ở bước 2.3 .39 Bảng 4.4 số trình tự bị lọai bỏ ở bước 2.4 .39 Bảng 4.5 số lượng Contigs thu được ở mỗi lòai sau khi assembling 41 Bảng 4.6 Tổng số lượng SSRs thu nhận được 42 Bảng 4.7 Lượng trình tự ESTs và số primer mới được tạo thành .43 Bảng 4.8 Tổng số primer thiết kế được .45 Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra 45 Bảng 4.10 Các trình tự tương đồng với gene kháng virus tristeza 48 Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu .50 Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu 51 xii DANH SÁCH CÁC HÌNH Hình 2.1. CTV dưới KHV điện tử . 6 Hình 2.2: Nguồn gốc của EST 8 Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân . 12 Hình 2.4 Cơ chế trượt lỗi trong quá trình sao mã . 13 Hình 2.5: Phương pháp phân lập microsatellite truyền thống 16 Hình 2.6 Tương quan giữa NCBI (National Library of Medicine và NIH) 19 Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI (nguồn www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) 27 Hình 3.2 : Các bước thực hiện của Egassembler 29 Hình 3.3 phân biệt giữa Contig và Singleton 30 Hình 3.4 nội dung tập tin “ssrout20030101.txt” .31 Hình 3.5 nội dung tập tin “labdbout20030101.txt” .31 Hình 3.6 Nội dung tập tin “new_ids20030101.txt” .32 Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn: http://www.ncl- india.org/ssr/ssr.htm) .36 Hình 4.1: Sơ đồ so sánh lượng ESTs của từng loài 37 Hình 4.2: Bảng so sánh dữ liệu ESTs trước và sau khi lọai nhiễu .40 Hình 4.3: Bảng so sánh lượng Contigs và ESTs .41 Hình 4.4: Biểu đồ so sánh lượng SSRs phân lập và lượng ESTs ban đầu .42-43 Hình 4.5: Biểu đồ so sánh lượng noneprimers và ESTs, Primers mới 44 Hình 4.6: Bảng so sánh lượng Primers trước và sau khi kiểm tra 46 Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế được 47 Hình 4.8 : Mối quan hệ giữa các bảng 49 Hình 4.9: Tổng quan về Website 49 Hình 4.10 Trang cơ sở dữ liệu SSRs (All) 50 Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và “Motif Length Group ID” là 3 51

pdf71 trang | Chia sẻ: lvcdongnoi | Lượt xem: 3026 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Khai thác dữ liệu ests (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử ssr (simple sequence repeats), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ************ KHÓA LUẬN TỐT NGHIỆP KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS) Ngành học: CÔNG NGHỆ SINH HỌC Niên khóa: 2003-2007 Sinh viên thực hiện: LƢU TRẦN CÔNG HUY Thành phố Hồ Chí Minh Tháng 9/2007 ii LỜI CẢM ƠN Xin gửi lòng biết ơn sâu sắc đến ba mẹ và gia đình đã hết lòng hỗ trợ, động viên về mọi mặt để tôi hoàn thành đề tài. Xin chân thành cảm tạ Ban Giám hiệu Trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh Ban chủ nhiệm Bộ Môn Công nghệ Sinh Học cùng tất cả quý thầy cô đã truyền đạt kiến thức cho tôi trong suốt quá trình học tại trƣờng. Chân thành cảm ơn TS. Trần Thị Dung đã tận tình hƣớng dẫn, giúp đỡ tôi trong suốt thời gian thực hiện đề tài tốt nghiệp. Xin cảm ơn CN. Lƣu Phúc Lợi đã giúp đỡ, hỗ trợ kiến thức và tài liệu chuyên môn. Xin cảm ơn bạn bè thân yêu của lớp DH03SH đã chia sẻ cùng tôi những vui buồn trong thời gian học cũng nhƣ hết lòng hỗ trợ, giúp đỡ tôi trong thời gian thực hiện đề tài. Tp. Hồ Chí Minh tháng 08 năm 2007 Sinh viên thực hiện Lƣu Trần Công Huy iii TÓM TẮT KHOÁ LUẬN LƢU TRẦN CÔNG HUY, Đại Học Nông Lâm TP. Hồ Chí Minh, tháng 07/2007. “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” Hội đồng hƣớng dẫn TS. Trần Thị Dung Cử Nhân. Lƣu Phúc Lợi Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học, trƣờng đại học Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2007 đến 8/2007. Trong những năm qua, sinh học không ngừng phát triển và đã tạo ra những kho dữ liệu miễn phí và trực tuyến rất lớn về trình tự gene, protein, bộ gene ... của thực vật lẫn động vật nhƣ các cơ sở dữ liệu sinh học lớn nhƣ NCBI, EMBL, DDBj…. Một trong những CSDL lớn đó là ESTs (Expressed Sequence Tags), trong đó có ESTs của chi cam chanh (citrus). Những trình tự ESTs này có thể đƣợc sử dụng để khai thác các SSRs (Simple Sequence Repeats). Những SSRs này rất hữu ích vì chúng có rất nhiều ứng dụng nhƣ genome mapping, phenotype mapping và chọn giống thực vật nhờ marker phân tử. Hơn thế nữa, việc phát triển marker SSR từ EST có chi phí rất thấp so với phƣơng pháp phân lập SSR truyền thống. Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện những nội dung nhƣ sau: 1) Dùng Perl script để thu nhận trình tự các nucleotide của ESTs của Citrus vừa tìm từ trang cơ sở dữ liệu GenBank NCBI. 2) Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen. 3) Tìm SSR nằm trên vùng gen kháng virus Tristeza iv 4) Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ liệu các trình tự nucleotide và trình tự SSRs của chi cam chanh (Citrus), và tạo cơ sở dữ liệu chứa những trình tự này. Sau đó đƣa các dữ liệu này vào cơ sở dữ liệu chính. 5) Trang web đƣợc thiết kế để chia sẻ thông tin trực tuyến với ngƣời dùng Kết quả Thu nhận đƣợc 191.110 trình tự ESTs của các loài Citrus đƣợc thu thập từ CSDL dbEST và CoreNucleotide của GenBank. Những trình tự ESTs này đƣợc tìm các vùng lặp lại, từ đó xác định đƣợc 28.241 SSRs trong 190412 ESTs . 19755 primers đƣợc thiết kế trên vùng flanking của các SSRs. Các primers này đã đƣợc kiểm tra sự lặp lại và sự bắt cặp đặc hiệu bằng BLAST. Cơ sở dữ liệu có 28241 trình tự SSRs đƣợc chuyển vào CSDL quan hệ và tích hợp vào website BUILDING SSRs DATABASE of Citrus. Sau khi đƣợc loại bỏ các trình tự tạp, nhiễu và dấu các trình tự ở các bào quan, trình tự lặp lại và trình tự vector, các trình tự ESTs đƣợc phân nhóm thành 2 nhóm Contigs và Singletons. Việc nhóm các trình tự giúp ích cho việc giảm bớt các trình tự dƣ thừa, kéo dài các EST-SSR và xác định các trình tự bảo tồn. Kết quả là thêm 1071 primers đƣợc thiết kế cho các EST-SSR đƣợc kéo dài. Ngoài ra, chúng tôi cũng xác định đƣợc 33 EST-SSRs tƣơng đồng gene kháng virus Tristeza bằng công cụ BLAST với ngƣỡng e-value = 10-10 v ABSTRACT LUU TRAN CONG HUY, NONG LAM UNIVERSITY, DATA MINING FOR DEVELOPING SIMPLE SEQUENCE REPEATS (SSR) MARKER IN EXPRESSED SEQUENCE TAGS (ESTs) FROM CITRUS Supervisor: Dr Trần Thị Dung Bsc Lƣu Phúc Lợi The research was carried out at the department of biotechnology at Nong Lam University. Recent advances in genomic technologies have generated a vast amount of publicly available expressed sequence tags (ESTs) in Citrus. These data can be mined to identify Simple sequence repeats (SSRs) or microsatellites. These SSRs are useful because of a broad range of application, such as genome mapping and characterization, phenotype mapping, marker assisted selection of plant breeding, additional map-based cloning of important genes. Moreover, this method of developing SSR marker from ESTs is inexpensive comparing to the traditional methods. Methodology 1) We used perl script to receive EST sequences from database NCBI 2) Finded and separated SSRs include in ESTs database 3) We were learning about relationship database model to used to saved nucleotide, SSRs citrus sequences data and created database contain them. 4) Finding SSR which are homologous with tristeza virus resistance gene. 5) Designed web that contain database control software to share information with users Results: 28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing 191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank. 19,755 primers, which were filtered with repetition checking and BLAST checking, vi were designed in flanking regions of SSRs. These data were put into relational database and integrated SSR finder tool into the BUILDING SSRs DATABASE of Citrus Website. After cleaning, masking repeat, vector and organelle sequences, the EST-SSR sequences and the related EST sequences without SSRs were assembled into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer designed and to develop consensus sequences. As a result, more 1071 primers were design for these enlarged EST-SSRs. Using a stringent BLAST search with a threshold e-value = 10 -10 against typical pathogen resistance gene database in Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus resistance gene. vii Mục Lục LỜI CẢM ƠN .................................................................................................... iii TÓM TẮT KHOÁ LUẬN ................................................................................. iv ABSTRACT ...................................................................................................... vi DANH SÁCH CÁC TỪ VIẾT TẮT ................................................................ xi Chƣơng 1 ............................................................................................................ 1 MỞ ĐẦU ............................................................................................................. 1 1.1 Đặt vấn đề 1.2.Mục tiêu của khóa luận Chƣơng 2 ............................................................................................................ 3 TỔNG QUAN TÀI LIỆU ................................................................................... 3 2.1 Giớ thiệu về chi cam chanh ........................................................................... 3 2.1.1 Vị trí phân lọai ........................................................................................... 3 2.1.2 Đặc điểm .................................................................................................... 4 2.1.3 Sâu hại và bệnh tật .................................... 6 2.2 EST ............................................................................................................... 7 2.3.1 Sơ lƣợc về EST .......................................................................................... 7 2.3.2 Nguồn gốc của EST ................................................................................... 7 2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) ............................................. 8 2.3.1Những khái niệm về kỹ thuật microsatellite ............................................... 8 2.3.2 Giới thiệu chung ......................................................................................... 9 2.3.2.1 Tính chất .................................................................................................. 9 2.3.2.2 Khuếch đại của microsatellites ............................................................. 10 2.3.2.3 Những giới hạn của microsatellite ........................................................ 11 2.3.3 Các loại microsatellite ............................................................................. 12 2.3.4 Cơ chế hình thành microsatellite ............................................................. 12 viii 2.3.5 Vai trò của microsatellite ......................................................................... 13 2.4 Phƣơng pháp xác định microsatellite truyền thống..................................... 15 2.5 Phƣơng pháp phát hiện microsatellite sử dụng ........................................... 16 2.6 Ứng dụng ..................................................................................................... 18 2.7 Cơ sở dữ liệu sinh học ................................................................................. 18 2.7.1 NCBI ........................................................................................................ 19 2.7.1.1 Vài nét về NCBI .................................................................................... 19 3.1.1.2 Một số cơ sở dữ liệu trong NCBI .......................................................... 19 Chƣơng 3 ......................................................................................................... 20 VẬT LIỆU VÀ PHƢƠNG PHÁP .................................................................... 20 3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng............................. 20 3.1.1 Hệ điều hành ............................................................................................ 20 3.1.2 Các chƣơng trình phân tích trình tự ......................................................... 20 3.1.2.1 Chương trình Perl ssrfinder_1 .................................................. 20 3.1.2.2 Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST .................. 22 3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS ..................................... 23 3.1.2.4 Egassembler .......................................................................................... 23 3.1.3 Apache web Server .................................................................................. 24 3.4 CÁC BƢỚC TIẾN HÀNH ......................................................................... 25 Chƣơng 4 .......................................................................................................... 37 KẾT QUẢ VÀ THẢO LUẬN .......................................................................... 37 4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST ....................................... 37 4.2 Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler bao gồm các bƣớc sau: ........................................................................................................................... 38 4.2.1 Làm sạch trình tự ..................................................................................... 38 4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors ........................... 39 4.2.3 Dấu những vùng trình tự nhiễu của các bào quan .................................... 39 ix 4.3 Assembling .................................................................................................. 41 4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder .............................. 42 4.4.1 BLASTn: ................................................................................................. 43 4.5.Thiết kế và kiểm tra primer ......................................................................... 45 4.6 tBLASTx ..................................................................................................... 48 4.7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ dàng truy xuất thông tin. ............................................................................................ 49 4.8 Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia sẽ thông tin qua mạng. .......................................................................................... 49 4.8.1 Trang chủ (HOME PAGE) ...................................................................... 49 4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) ................................................. 50 Chƣơng5 ........................................................................................................... 52 KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................... 52 5.1. Kết luận ...................................................................................................... 52 5.2. Đề nghị ....................................................................................................... 53 TÀI LIỆU THAM KHẢO ................................................................................. 54 Phụ Lục ............................................................................................................. 57 x DANH SÁCH CÁC TỪ VIẾT TẮT BLAST Basic Local Alignment Search Tool CGI Common Gateway Interface CSDL Cơ sở dữ liệu DBD Database Driver DBI Database Interface DNA deoxyribonucleic acid EST Expressed Sequence Tag HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine Perl Practical Extraction and Report Language PHP Hypertext Preprocessior RDBMS Relational Database Management System SNP Single Nucleotide Polymorphism SSCP Single- Strand Conformation Polymorphism SSR Simple Sequence Repeats STS Sequence Tagged Site xi DANH SÁCH CÁC BẢNG Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI .................. 26 Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI ............................ 26 Bảng 3.3 Nội dung tblStrain ............................................................................. 34 Bảng 3. 4 Nội dung tblMotifLengthGroup ....................................................... 34 Bảng 3.5 Nội dung tblSSR ................................................................................ 34 Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI ....................... 37 Bảng 4.2 Số trình tự bị lọai bỏ ở bƣớc 2.1 ....................................................... 38 Bảng 4.3 số trình tự bị lọai bỏ ở bƣớc 2.3 ....................................................... 39 Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4 ....................................................... 39 Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling ................ 41 Bảng 4.6 Tổng số lƣợng SSRs thu nhận đƣợc .................................................. 42 Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành ..................... 43 Bảng 4.8 Tổng số primer thiết kế đƣợc ............................................................. 45 Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra ............................................ 45 Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza.................... 48 Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu ..................................... 50 Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu ................................................ 51 xii DANH SÁCH CÁC HÌNH Hình 2.1. CTV dƣới KHV điện tử ..................................................................... 6 Hình 2.2: Nguồn gốc của EST ............................................................................ 8 Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân ................................................. 12 Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã ............................................. 13 Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống .......................... 16 Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH) ...... 19 Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI (nguồn www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) ............................ 27 Hình 3.2 : Các bƣớc thực hiện của Egassembler .............................................. 29 Hình 3.3 phân biệt giữa Contig và Singleton .................................................... 30 Hình 3.4 nội dung tập tin “ssrout20030101.txt” ............................................... 31 Hình 3.5 nội dung tập tin “labdbout20030101.txt” ........................................... 31 Hình 3.6 Nội dung tập tin “new_ids20030101.txt” ......................................... 32 Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn: india.org/ssr/ssr.htm) ......................................................................................... 36 Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng loài .......................................... 37 Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu ................... 40 Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs ............................................... 41 Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu ... 42-43 Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới ............ 44 Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra .................... 46 Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc .............. 47 Hình 4.8 : Mối quan hệ giữa các bảng .............................................................. 49 Hình 4.9: Tổng quan về Website ...................................................................... 49 Hình 4.10 Trang cơ sở dữ liệu SSRs (All) ........................................................ 50 Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và “Motif Length Group ID” là 3 ...................................................................................... 51 Chƣơng 1 MỞ ĐẦU 1.1 Đặt vấn đề Công tác bảo tồn chọn giống ngày càng cần thiết do quá trình thoái hóa diễn ra ngày càng nhanh và phức tạp vì vậy đòi hỏi phải có nhiều công cụ, phƣơng pháp đắc lực hỗ trợ. Hiện nay, SSR đã và đang là 1 trong những công cụ đắc lực phục vụ cho qui trình này  việc phát triển maker SSR rất cần thiết Tình hình bệnh ở cây trồng diễn biến ngày càng phức tạp, nghiêm trọng. Chúng ta phải sử dụng các lọai marker khác nhau để chuẩn đoán, phát hiện bệnh sớm nhằm tìm biện pháp khắc phục.Hiện nay, maker có độ tin cậy cao nhất là Microsatellite. SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm. Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có và ta có thể sử dụng miễn phí Lƣợng trình tự EST đƣợc giải mã và công bố ngày càng nhiều, tính đến nay có khỏang 46159508 trình tự EST đƣợc công bố (theo NCBI) Hiện nay các cây thuộc họ chi cam chanh đƣợc quan tâm nghiên cứu nhiều do những giá trị mà nó mang lại nhƣ giá trị thƣơng phẩm, dƣợc phẩm… 1.2.Mục tiêu của khóa luận Xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa dạng và quan hệ di truyền, phân biệt loài và cá thể, lập bản đồ di truyền, xác định gen, chọn giống nhờ chỉ thị phân tử. 2 Vì vậy, khóa luận “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” đƣợc thực hiện với các mục tiêu lần lƣợt nhƣ sau: 1. Thu nhận trình tự EST của chi cam chanh từ CSDL ESTs đƣợc lấy tại trang chính NCBI. 2. Dùng Egassembler để để phân tích làm sạch trình tự, dấu những vùng lập lại, dấu những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu của các bào quan, sắp gióng cột và assembly các đọan ESTs 3. Dùng Perl script thu nhận các SSR có trong cơ sở dữ liệu ESTs vừa thu đƣợc từ đó thiết kế mồi trên vùng FLANKING của SSRs 4. Kéo dài các EST-SSR và xác định các trình tự bảo tồn bằng cách thực hiện BLAST trên các Contigs (thu nhận đƣợc bằng assembly ở Website Egassembler) 5. Tìm kiếm những SSR có độ tƣơng đồng cao so với các SSR có trong các gene kháng bệnh ở thực vật 6. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. 7. Dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó, giúp cho việc tìm kiếm, quản lý thông tin đƣợc tốt hơn . 3 Chƣơng 2 TỔNG QUAN TÀI LIỆU 2.1 Giới thiệu về chi cam chanh Chi Cam chanh (Citrus) là một chi thực vật có hoa trong họ Cửu lý hƣơng (Rutaceae), có nguồn gốc từ khu vực nhiệt đới và cận nhiệt đới ở đông nam châu Á. Các loại cây trong chi này là các cây bụi lớn hay cây thân gỗ nhỏ, cao tới 5-15 m tùy loại, với thân cây có gai và các lá thƣờng xanh mọc so le có mép nhẵn. Hoa mọc đơn hay thành ngù hoa nhỏ, mỗi hoa có đƣờng kính 2-4 cm với 5 (ít khi 4) cánh hoa màu trắng và rất nhiều nhị hoa. Hoa thông thƣờng có mùi thơm rất mạnh. Quả là loại quả có múi, một dạng quả mọng đặc biệt, hình cầu hay cầu thuôn dài, chiều dài 4-30 cm và đƣờng kính 4-20 cm, bên trong quả khi bóc lớp vỏ và cùi sẽ thấy lớp vỏ mỏng, dai, màu trắng bao quanh các múi bên trong chứa nhiều tép mọng nƣớc. Chi này là quan trọng về mặt thƣơng mại do nhiều loài (hoặc cây lai ghép) đƣợc trồng để lấy quả. Quả đƣợc ăn tƣơi hay vắt, ép lấy nƣớc. 2.1.1 Vị trí phân lọai Giới Plantae Ngành Magnoliophyta Lớp Magnoliopsida Phân lớp Rosidae Bộ Sapindales Họ Rutaceae Chi Citrus 4 2.1.2 Đặc điểm Quả của chi Citrus đáng chú ý vì mùi thơm của chúng, một phần là do các terpen chứa trong lớp vỏ, và chủ yếu là do nó chứa nhiều nƣớc. Nƣớc quả có hàm lƣợng axít citric cao, tạo ra hƣơng vị đặc trƣng của chúng. Chúng cũng là nguồn cung cấp vitamin C và các flavonoit đáng chú ý. Sự phân loại nội bộ trong chi này rất phức tạp và hiện nay ngƣời ta vẫn không biết chính xác số lƣợng loài có nguồn gốc tự nhiên, do nhiều loài đƣợc coi là có nguồn gốc lai ghép. Các loại cây trong chi Citrus đƣợc trồng có thể là con cháu của chỉ 3 loài tổ tiên. Hiện nay có hàng loạt các loại cây lai ghép tự nhiên hay do con ngƣời nuôi trồng, bao gồm nhiều loại quả có giá trị thƣơng mại nhƣ cam ngọt, chanh tây, bƣởi chùm, chanh ta, quít, bƣởi v.v. Các nghiên cứu gần đây cho rằng các chi có quan hệ họ hàng gần nhƣ Fortunella, và có lẽ cả Poncirus, Microcitrus, Eremocitrus, cần đƣợc gộp lại trong chi Citrus. Citrus sinensis x Poncirus trifoliata Citrus aurantium 5 Citrus Unshiu Citrus x paradisi Citrus Sinensis Citrus Clementina 6 2.1.3 Sâu hại và bệnh tật Bệnh do virus Virus citrus là loài rất nhỏ chỉ có thể nhân lên trong tế bào sống. Trong tế bào của citrus, virus di chuyển theo dòng tế bào chất hoặc di chuyển theo dòng nhựa nguyên và nhựa luyện của cây. Theo các mạch dẫn, virus đƣợc truyền trong cây từ vùng này sang vùng khác và nhờ cầu nối nguyên sinh virus có thể di chuyển từ tế bào này sang tế bào khác. Virus cũng có thể nhân lên trong cơ thể của aphid hoặc một vài loài khác làm môi giới truyền bệnh (vectơ truyền bệnh). Khi cây nhiễm virus, nó có thể là tác nhân nhiễm bệnh cho các cây khác. Bệnh virus thƣờng không lây qua hạt. Một vài loài virus chỉ nhiễm trên một vài loài citrus. Virus có thể nhiễm vài tháng hoặc vài năm trƣớc khi có một vài triệu chứng xuất hiện. Virus Tristeza (CTV) Có nguồn gốc từ nhiều năm trƣớc ở Trung Quốc. Tristeza là bệnh tàn phá rất lớn trên citrus ở Bắc và Nam Mỹ, có khoảng phân bố rất rộng trên thế giới, là bệnh nguy hiểm ở Nhật Bản. Bệnh Tristeza đƣợc xác định là có hiện diện ở nƣớc ta. Virus Tristeza dạng hình sợi dài (2 x 10 – 11 nm), tập trung và làm hỏng mạch dẫn nhựa libe trong cây, xuống rể và làm suy dinh dƣỡng nhƣ rụng lá, chết đọt, lùn cây và thƣờng thối rễ. Bệnh có thể lộ ra ở cây con mới trồng hay ở cây lớn bị suy dinh dƣỡng. Cây có mang mầm bệnh có thể vẫn thấy khoẻ mạnh trong liếp ƣơm nhƣng sớm lộ triệu chứng ngay sau khi trồng. Cây mang bệnh mãn tính sẽ bị lùn, phù gốc do mắt tháp phát triển quá khổ. Hình 2.1. CTV dƣới KHV điện tử 7 Hầu hết các giống cam quýt đều có triệu chứng sọc lõm ở gỗ thân và cành (stem pitting). Một dạng đặc trƣng của bệnh là triệu chứng tổ ong khi dùng cam chua làm gốc ghép: khi tách vỏ ở vùng bên dƣới mắt tháp sẽ thấy nhiều lỗ nhỏ xếp cụm trong gỗ. Vector chính truyền bệnh do virus Tristeza là loài aphid có tên Toxoptera citricida Kirkaldy. Kiểm tra thấy rằng nếu có 5 aphid tấn công cây thì 50% cây sẽ bị nhiễm và nếu có 15 aphid tấn công cây thì 70% cây sẽ bị nhiễm. Ngƣời ta cũng nhận thấy rằng các type khác nhau của virus này đều gây bệnh đƣợc. CTV nhiễm trên tất cả các loại (nhân giống và tháp ghép) của cây citrus. Nó đƣợc tìm thấy trên toàn thế giới và có nhiều giống khác nhau, trong các type khác nhau đó có các type tàn phá rất lớn. Bệnh chịu ảnh hƣởng bởi điều kiện môi trƣờng, các dạng khác nhau của cây citrus và các nòi virus khác nhau. Khi cây đƣợc ghép trên gốc kháng thì nó có khả năng phục hồi lại sau đó. 2.2 EST 2.3.1 Sơ lƣợc về EST Expressed Sequence Tag là một phần nhỏ của toàn bộ gen mà nó có thể đƣợc sử dụng để nhận biết những gen chƣa biết và xác lập vị trí của chúng trong bộ gen. ESTs cung cấp một phƣơng pháp nghiên cứu nhanh chóng và không tốn kém đối với việc khám phá ra các gen mới, tính bảo toàn của gen về biểu hiện và điều khiển hoạt động, và xây dựng bản đồ di truyền. 2.3.2 Nguồn gốc của EST ESTs là những mảnh nhỏ của cấu trúc DNA (thƣờng có chiều dài từ 200 đến 500 Nucleotide), chúng đƣợc hình thành bởi một phần hay toàn bộ cấu trúc của một gen biểu hiện. Đó là sự kết hợp những phần nhỏ DNA của gen nằm trong các tế bào, mô, cơ quan của những sinh vật khác nhau và sử dụng những “tags” này để thiết lập một gen nằm ngoài vị trí của chromosome bằng cách bắt cặp với các cặp base. Đây là sự kết hợp khó khăn của những gen đã biết từ các bộ gen khác nhau giữa các loài sinh vật và phụ thuộc vào kích thƣớc của bộ gen khi có mặt hay không 8 có mặt của các intron, sự can thiệp của cấu trúc DNA làm gián đoạn cấu trúc của gen quy định protein. Hình 2.2: Nguồn gốc của EST 2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) 2.3.1Những khái niệm về kỹ thuật microsatellite Microsatellite: Một dạng của VNTR (variable number of tandem repeats) (q.v.). Một đoạn DNA đƣợc mô tả đặc điểm bởi sự xảy ra của số lƣợng bản copy biến thiên (từ một vài bản lên đến 30 hay nhiều hơn) của dãy trong vòng 5 hoặc số bases ít hơn (đƣợc gọi là đơn vị lặp lại, q.v). Một microsatellite điển hình có đơn vị lặp lại AC, xảy ra ở khoảng 100 000 vị trí khác nhau trong bộ genome động vật điển hình. Ở bất kì một vị trí nào (locus), thƣờng xuyên có khoảng 5 – 7 “alleles” khác nhau, mà mỗi alleles có thể nhận biết tuỳ thuộc vào số đơn vị lặp lại. Những alleles này có thể phát hiện bởi PCR (q.v), sử dụng primers đƣợc thiết kế từ một dãy đơn và cũng có trên cả mặt kia của microsatellite. Khi sản phẩm PCR đƣợc chạy trên gel điện di, alleles đƣợc ghi nhận khác biệt về độ dài trong giá trị đến kích cỡ của đơn vị lặp lại, e.g., nếu primers tƣơng ứng với dãy duy nhất trực tiếp trên cả 2 mặt của microsatellite và là đoạn dài 20 base, và một cá thể là dị hợp tử cho một 9 microsatellite AC với một alleles bao gồm sự lặp lại 5 lần và một alleles khác lặp lại 6 lần, sự dị hợp sẽ tạo ra 2 bands trên gel, một band dài 20 + (2x5) +20 =50 bases, và allele khác dài 20 + (2x6) + 20 = 60 bases. Microsatellites là một marker DNA chuẩn: chúng đƣợc phát hiện dễ dàng bằng PCR, và chúng có khuynh hƣớng xác định vị trí bằng nhau từ đầu đến cuối của genome. Hàng ngàn SSR đã đƣợc lập bản đồ trong nhiều loài khác nhau. Tóm lại, microsatellite ngày nay trở thành một thuật ngữ chung nhất để miêu tả các trình tự lặp lại ngắn và ngẫu nhiên, thay vì sử dụng các thuật ngữ STR (short tandem repeats, Edward; 1991) hay VNTR (variable number of tandem repeats). Microsatellite bao gồm các đoạn lặp lại ngắn từ 2 - 6 bp và kích thƣớc tại mỗi locus là 20 - 100 bp. Microsatellite đƣợc tìm thấy trong tất cả cơ thể sống, đặc biệt là ở những cơ thể sống có bộ gen lớn và phân bố đều trên genome. Microsatellite có tính đa hình rất cao (đa hình theo chiều dài), là những codominant-al hay al đồng trội (bao gồm 2 loại: al đồng hợp và al dị hợp), nó có các tính chất cần thiết cho một marker. Tần số đột biến từ 104 - 5.10-6, nó tuân theo định luật Mendel. Vị trí của microsatellite trên nhiễm sắc thể có thể đƣợc xác định bằng PCR từ một lƣợng DNA rất nhỏ. Xác định microsatellite PCR trên một loài nào đó thì có thể áp dụng trên những loài khác có quan hệ họ hàng. 2.3.2 Giới thiệu chung 2.3.2.1 Tính chất Một ví dụ điển hình của microsatellite là sự lặp lại (CA)n, với n là sự biến thiên giữa những alleles. Những markers này thƣờng hiện diện với mức độ cao của hiện tƣợng đa hình, đặc biệt khi số lần lặp lại lớn hơn hoặc bằng 10. Trình tự đƣợc lặp lại thƣờng đơn giản, bao gồm 2, 3 hoặc 4 nucleotides (tƣơng ứng với việc lặp lại di-, tri-, và tetranucleotide), và có thể đƣợc lặp lại từ 10 đến 100 lần. Sự lặp lại của nucleotide CA xảy ra rất thƣờng xuyên trong bộ gene ngƣời và các loài khác, và đƣợc hiện diện trong khoảng vài ngàn bases pair. Nhƣ vậy có sự xuất hiện thƣờng xuyên của nhiều alleles tại vị trí microsatellite, kiểu gene trong phả hệ thƣờng cung cấp đầy đủ thông tin về di truyền, trong đó alleles đặc thù của tổ tiên có thể đƣợc 10 nhận biết dễ dàng. Bằng cách này, microsatellite là lý tƣởng để xác định nguồn gốc, nghiên cứu di truyền quần thể và bản đồ tái tổ hợp. Nó còn là marker phân tử dùng để cung cấp đầu mối về những alleles có mối quan hệ gần nhau hơn. Microsatellite có đƣợc tính hay thay đổi với tỉ lệ đột biến tăng dần so với vùng trung tính khác của DNA. Tỉ lệ đột biến cao này có thể đƣợc giải thích bởi sự bắt cặp sai trong bộ phận trƣợt (slipped strand mispairing - sự giữ không đúng mục tiêu) trong suốt quá trình sao chép DNA trên một chuỗi đơn xoắn kép. Sự đột biến cũng xảy ra suốt quá trình tái tổ hợp trong quá trình giảm phân. Một vài lỗi sai mục tiêu đƣợc sửa bởi cơ chế đọc và sửa trong nhân, thế nhƣng một vài đột biến có thể không đƣợc sửa chữa. Kích thƣớc của đơn vị lặp lại, số lần lặp lại và sự hiện diện của sự lặp lại khác nhau là tất cả các yếu tố, cũng nhƣ là tính thƣờng xuyên của sự dịch mã trong khu vực của DNA lặp lại. Sự gián đoạn của microsatellites, có thể do đột biến, có thể là nguyên nhân trong việc giảm sự đa hình. Tuy nhiên, cơ chế tƣơng tự này thỉnh thoảng có thể dẫn đến sự khuếch đại không chính xác của microsatellites; nếu sự sai mục tiêu xảy ra sớm trong suốt quá trình PCR, thì chiều dài không chính xác của microsatellites có thể đƣợc khuếch đại. 2.3.2.2 Khuếch đại của microsatellites Microsatellites có thể đƣợc khuếch đại để nhận biết bằng việc sử dụng PCR, sử dụng mẫu của những vùng lân cận (primer). DNA đƣợc biến tính ở nhiệt độ cao, tách ra làm hai dãy, cho phép sự bắt cặp của primer và sự kéo dài của trình tự nucleotide dọc theo chuỗi đối diện ở nhiệt độ thấp. Kết quả của quá trình này là có đủ hàm lƣợng DNA để có thể nhìn thấy đƣợc trên gel agarose hay arcrylamide, một số lƣợng nhỏ DNA cần thiết cho việc khuếch đại kết hợp với chu trình nhiệt cách hợp lí để tạo ra sự tăng lên theo số mủ trong đoạn đƣợc sao chép. Với sự phong phú của kỹ thuật microsatellite, primer liên kết với vị trí microsatelltes thì đơn giản và đƣợc sử dụng nhanh chóng, tuy nhiên sự phát triển của những primers nhƣ vậy thƣờng là một quá trình tốn kém và đơn điệu. 11 2.3.2.3 Những giới hạn của microsatellite Microsatellite đƣợc chứng tỏ là marker phân tử hữu hiệu, đặc biệt là trong nghiên cứu quần thể, thế nhƣng chúng không phải là không có hạn chế. Microsatellite đƣợc phát triển cho những chủng đặc trƣng có thể đƣợc ứng dụng thƣờng xuyên với những chủng có mối quan hệ họ hàng gần nhau, tuy nhiên tỉ tệ phần trăm vị trí di truyền đƣợc khuếch đại thành công có thể bị giảm bởi sự gia tăng khoảng cách di truyền. Điểm đột biến trong vị trí bắt cặp của primer trong một loài nào đó có thể dẫn đến sự cố „alleles không giá trị‟ (null alleles), nơi mà primer microsatellite không thể đáp ứng để khuếch đại trong thí nghiệm PCR. Null alleles có thể đóng góp vào một vài hiện tƣợng. Sự phân kì trong trình tự ở vùng liên kết có thể dẫn đến sự bắt cặp nghèo nàn của primer, đặc biệt ở vùng 3‟ nơi mà sự kéo dài bắt đầu, sự khuếch đại ƣu tiên của vị trí alleles đặc thù do sự cạnh tranh tự nhiên của PCR có thể dẫn đến việc cá thể dị hợp tử đƣợc ghi nhận từ đồng hợp tử (bộ phận không có giá trị). Sự thất bại của phản ứng PCR có thể thu nhận kết quả khi sự sai khác ở vị trí đặc thù đƣợc khuếch đại. Tuy nhiên, ảnh hƣởng sai khác của quần thể nhỏ và khả năng của sự liên kết giới tính cũng cần đƣợc xem xét để không đƣa ra giá trị sai của alleles không giá trị do sự tăng tính đồng hình trong phân tích quần thể. Sự khác nhau trong kích thƣớc alleles cũng không phản ánh sự khác nhau thật sự đột biến có thể có từ sự thêm vào hay mất đi của bases và toàn bộ microsatellite có thể chịu sự nén chặt về chiều dài. Tỉ lệ đột biến thì không có tiêu chuẩn để đánh giá. Vùng trung tính của một số vùng microsatellite còn đang nghi vấn, có lẽ do sự biến thiên tính trạng số lƣợng hoặc sự cố trong vùng exon của genes dƣới sự chọn lọc. Khi sử dụng microsatellite để so sánh loài, vị trí đồng hình có thể dễ dàng khuếch đại trong những loài có quan hệ, thế nhƣng số vị trí khuếch đại thành công trong suốt phản ứng PCR có thể giảm do sự tăng khoảng cách di truyền giữa các loài nghi vấn. Đột biến trong alleles microsatellite có thể bị ảnh hƣởng xấu trong trƣờng hợp có một đoạn alleles lớn hơn chứa nhiều bases hơn, và do đó có thể đƣợc dịch sai trong quá trình phiên mã DNA. Một alleles nhỏ hơn tham gia vào việc làm tăng kích thƣớc, trong khi một alleles lớn hơn tham gia để làm giảm kích thƣớc, khi 12 mà chúng có thể là nguyên nhân cho sự giới hạn trên về kích thƣớc, sự ép buộc này đã đƣợc xác định nhƣng giá trị khẳng định là chƣa chuyên biệt. Nếu có một sự khác biệt lớn về kích cỡ giữa alleles của cá thể, điều đó có thể làm tăng sự không bền vững trong sự tái tổ hợp ở quá trình giảm phân. Trong tế bào khối u, nơi mà sự kiểm soát trên phiên mã bị phá hủy, microsatellite có thể tăng thêm hay mất đi thƣờng xuyên ở tỉ lệ đặc biệt cao trong mỗi chu kỳ nguyên phân. Do đó một dòng tế bào khối u có thể chỉ ra những đặc điểm khác biệt di truyền từ những mô kí chủ đó. 2.3.3 Các loại microsatellite Căn cứ vào cấu tạo của đơn vị lặp lại (2-6 lần) chúng ta có : Dinucleotide SSR (GT)6 GTGTGTGTGTGT Trinucleotide SSR (CTG)4 CTGCTGCTGCTG Tetranucleotide SSR (ACTC)4 ACTCACTCACTCACTC Trinucleotide SSR xuất hiện ít hơn dinucleotide SSR khoảng 10 lần, và tetranucleotide SSR còn hiếm hơn nữa (Ma và ctv., 1996). 2.3.4 Cơ chế hình thành microsatellite Cơ chế đột biến hình thành microsatellite vẫn chƣa đƣợc hiểu biết một cách đầy đủ. Tuy nhiên di truyền học và các nghiên cứu khác cho rằng cơ chế xuất hiện và hình thành microsatellite là do 2 quá trình sau: Quá trình bắt chéo lỗi trong quá trình giảm phân (unequal crossing- over during meiosis) . Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân 13 Quá trình trƣợt lỗi trong sao mã (replication slippage) Đây đƣợc coi là nguyên nhân chủ yếu và nó xảy ra trên mạch chậm (lagging strand). Quá trình này liên quan đến quá trình trƣợt lỗi của enzyme polymerase trên phân tử DNA mới tổng hợp. Sự trƣợt lỗi này tạo ra một chỗ phình nhất thời có thể bị loại bỏ trong quá trình sửa lỗi hoặc là có thể kéo dài thêm ở mạch đối diện tạo thành một đoạn lặp lại dài hơn. Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã 2.3.5 Vai trò của microsatellite Rất nhiều microsatellite đã đƣợc tìm thấy ở vùng phía trên của các vùng khởi đầu sao mã của vùng mang mã. Chức năng rõ rệt của những vùng nhƣ vậy vẫn còn chƣa rõ ràng, mặc dù ngƣời ta tìm thấy chúng tồn tại giữa các vùng exon và có liên quan tới các bệnh di truyền. Microsatellite đƣợc dùng nhƣ một marker di truyền để nghiên cứu về di truyền quần thể, quan hệ tiến hóa, lập bản đồ gen. Tuy nhiên có rất nhiều chứng cứ 14 cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã hoặc nhân tố điều hòa. Microsatellite đƣợc tìm thấy khắp nơi ở phần trƣớc vùng khởi đầu sao mã của vùng mang mã, và một số đã đƣợc tìm thấy có quan hệ với vùng mã hoá. Số lƣợng khác nhau của các đoạn lặp lại của microsatellite ở vùng mã hoá có quan hệ với sự biểu hiện của gene và chức năng của gene. Ở một số trƣờng hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của microsatellite cũng làm thay đổi chức năng hoạt động của promotor. Vị trí của microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi. Vùng điều khiển có chứa microsatellite hoạt động nhƣ một nhân tố thúc đẩy quá trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm chức năng của gen. Microsatellite cũng liên kết với các protein bám mà các protein này có chức năng bám dính vào các trình tự khởi động của gene, khi trình tự này đƣợc giải phóng thì gen đƣợc khởi động và sao mã. Điều này chỉ ra rằng microsatellite hoạt động nhƣ một yếu tố điều hòa trong quá trình sao mã, ảnh hƣởng đến quá trình sao mã thông qua ảnh hƣởng đến protein bám. Rất nhiều nghiên cứu chỉ ra rằng ảnh hƣởng thúc đẩy của microsatellite và protein bám dính của nó là một chức năng của các đoạn lặp lại trong một vùng microsatellite đặc biệt nào đó. Nhƣ một trình tự mang mã, microsatellite đã đƣợc tìm thấy biểu hiện ở rất nhiều protein và sự khác nhau về số lần lặp lại của các trình tự trong microsatellite có thể dẫn đến sự khác nhau về chức năng của protein và hoạt động của gen, do đó có thể ảnh hƣởng đến chức năng sinh lý cũng nhƣ sự phát triển của cơ thể. Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hƣởng của chiều dài khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan đƣợc tổng kết lại nhƣ một yếu tố chức năng của hệ gen. Những tính chất đặc biệt của microsatellite nhƣ sự đột biến điểm dẫn đến những giả thiết cho rằng microsatellite có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số lƣợng và quá trình tiến hóa thích nghi (Kashi và ctv.,1990,1997). Nó cho phép một quần thể có thể khôi phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt 15 động nhƣ một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều chỉnh nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi của tiến hóa (King và ctv., 1997, 1998). Do vậy microsatellite là một nguồn rất quan trọng trong việc nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa 2.4 Phƣơng pháp phân lập microsatellite truyền thống Primer của microsatellite đƣợc phát triển bởi việc tạo dòng ngẫu nhiên một đoạn DNA từ những giống loài trọng tâm. Những đoạn này đƣợc chèn vào plasmid hoặc phage vector, và đƣợc chuyển tiếp vào vi khuẩn Escheria coli. Khuẩn lạc sau đó phát triển và đƣợc chụp lên phim với những trình tự nucleotide đƣợc đánh dấu huỳnh quang đƣợc lai với trình tự lặp lại của microsatellite, nếu nó có hiện diện trên đoạn DNA. Nếu dòng dƣơng tính có thể thu đƣợc từ quy trình này, đoạn DNA đƣợc đọc trình tự và primers PCR sẽ đƣợc chọn từ vùng trình tự liên kết nhƣ vùng để xác định vị trí đặc trƣng. Quy trình này liên quan đến những thử nghiệm thành công, khi trình tự lặp lại của microsatellites phải đƣợc dự đoán trƣớc và primers đƣợc thu nhận ngẩu nhiên có thể không biểu hiện tính đa hình có ý nghĩa.Vị trí microsatellite đƣợc trải xuyên suốt genome và có thể đƣợc thu nhận từ sự thoái hoá DNA chung của những mẫu cũ hơn, khi đó là tất cả những chất nền cần thiết và hợp lí để khuếch đại thông qua PCR. Primer microsatellite đặc trƣng cho một loài sẽ giúp phát hiện sự đa hình ở những vị trí tƣơng đồng (cùng locus trên mỗi alleles) đối với từng cá thể trong loài. Điều này có thể thực hiện đƣợc là nhờ trình tự microsatellite và trình tự của vùng flanking- vùng nằm ở 2 bên trình tự microsatellite để thiết kế primer- đƣợc bảo tồn trong quá trình di truyền của loài. Vùng flanking rất quan trọng vì nó giúp phát hiện trình tự microsatellite đặc trƣng ở mỗi locus trên nhiễm sắc thể. Một qui trình phân lập 1 SSR mất khoảng 3 tuần trong đó giai đọan thiết kế mồi và kiểm tra mòi vừa thiết kế cho SSR mất khỏang hơn 2 tuần. Đồng thời phải tốn một chi phí khá lớn để mua các hóa chất và máy móc cần thiết để tiến hành thí nghiệm ( cần khoảng 200 USD tiền hóa chất để xác định đƣợc 1SSR) nhƣng rủi ro thu đƣợc SSR là khá lớn 16 Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống 2.5 Phƣơng pháp phân lập microsatellite sử dụng SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm. 17 Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có. Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ: 1.MIcroSAtellite (MISA) [] 2.Sputnik [ /sputnik/index.html] 3.CUGIssr [] 4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl] 5.SSRFinder [ SSRFINDER/ssrfinder_1_0.tar.gz] Công cụ đƣợc tìm kiếm trình tự SSR đƣợc tham khảo và tải về từ địa chỉ của tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về sau. So sánh hiệu quả của 2 phƣơng pháp phân lập Phƣơng pháp truyền thống Phƣơng pháp sử dụng Chỉ xác định đƣợc 1 hoặc vài SSR trong 1 lần thí nghiệm Tiền hóa chất, nhân công và thiết bị khá nhiều Thời gian để tiến hành 1 qui trình phân lập , thiết kế mồi cho1 SSR khá lâu (khoảng 3 tuần) Không xác định đƣợc chính xác các SSRs có thể có trong gene Độ chính xác không cao do có thể bị nhiễm trong quá trình làm Có thể xác định đƣợc nhiều SSR 1 lúc Chi phí cho quá trình phân lập khá thấp vì không phải tốn tiền hóa chất và máy móc thiết bị nhiều Thời gian tiến hành phân lập và thiết kế mồi nhanh (1 phút) Xác định chính xác các SSRs có thể có trong 1 gen Độ chính xác cao do cơ sở dữ liệu đã đƣợc phân tích và công bố rộng rãi 18 2.6 Ứng dụng Thiết kế bản đồ gen trong di truyền Đa dạng hóa vật liệu di truyền Nghiên cứu quần thể Chẩn đoán và xác định các bệnh ở ngƣời Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên 2.7 Cơ sở dữ liệu sinh học Dữ liệu sinh học đang đƣợc thu nhận với tốc độ rất nhanh. Đến tháng 8 năm 2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến các trình tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên quan đến các trình tự protein. Trung bình những sơ sở dữ liệu đang tăng gấp đôi kích thƣớc sau mỗi chu kỳ 15 tháng. Ngoài ra sự ra đời của vô số dự án nghiên cứu gen, xác định cấu trúc protein đƣợc mã hóa trong bộ gen... đã tạo ra một lƣợng lớn thông tin sinh học và thông tin này ngày càng đa dạng và phong phú. Do dữ liệu sinh học tăng trƣởng mạnh mẽ nên công cụ tin học đã trở thành một phƣơng tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học. Công nghệ thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ liệu đa dạng và luôn biến đổi trong thế giới tự nhiên. Ngành Sinh Tin học đƣợc xem là lĩnh vực nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính toán và tổ chức thông tin bằng thiết bị tin học với các kỹ thuật, công cụ phổ biến trong ngành sinh học phân tử. Sinh tin học hiện đang là ngành nghiên cứu khoa học khá mới tại Việt Nam , ra đời với mục tiêu xây dựng các công cụ để tính toán , mô phỏng và đƣa ra những chƣơng trình máy tính phục vụ nghiên cứu sinh học . Có thể tiến hành phân lập SSR từ bất cứ đọan gen mong muốn nào trên NCBI và các cơ sở dữ liệu sinh học lớn khác Nếu không có cơ sở dữ liệu EST thì không thể tiến hành phân lập SSR 19 Một số cơ sở dữ liệu lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin cho các nhà nghiên cứu sinh học nhƣ NCBI, EBI, SIB, DDBJ,… 2.7.1 NCBI 2.7.1.1 Vài nét về NCBI Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH) NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH – National Insitute of Health). NCBI chính thức đƣợc thành lập vào ngày 4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự DNA và từ đó NCBI còn đƣợc gọi là GenBank. NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ gene, protein,… 3.1.1.2 Một số cơ sở dữ liệu trong NCBI Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide. Protein: là cơ sở dữ liệu về trình tự amino acid. Genome: trình tự toàn bộ genome của một số sinh vật. Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi nucleotide.. DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba cơ sở dữ liệu về trình tự nucleotide lớn, mang tính toàn cầu và ba cơ sở dữ liệu này có hợp tác, trao đổi qua lại dữ liệu lẫn nhau. Từ đó, càng làm cho cơ sở dữ liệu về các trình tự nucleotide ngày càng trở nên phong phú NLM NCBI NIH 20 Chƣơng 3 VẬT LIỆU VÀ PHƢƠNG PHÁP 3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng 3.1.1 Hệ điều hành Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs của chi cam chanh (Citrus) trên hệ điều hành này. 3.1.2 Các chƣơng trình phân tích trình tự 3.1.2.1 Chƣơng trình Perl ssrfinder_1_0 Đây là một chƣơng trình của tác giả Steven Schroeder thuộc trƣờng Đại học Missouri – Michigan. Chƣơng trình gồm 6 Perl scripts có chức năng xác định SSR và thiết kế primer thích hợp cho mỗi SSR tìm đƣợc - 1_ssr_repeat_finder.pl: tìm SSR, lấy ra trình tự SSR và vùng flanking cho những phân tích sau. - 2_ssr_primer_designer.pl: thiết kế primer mà mục tiêu là khuếch đại vùng trình tự chứa SSR. - 3_ssr_primer_rep_check.pl: sàng lọc lại các primer đã thiết kế để loại bỏ những primer có chứa trình tự lặp lại - 4_ssr_primer_blast.pl: so sánh các primer đã thiết kế với cơ sở dữ liệu primer - 5_ssr_order_filter.pl: tạo 1 file chỉ chứa SSR mà có primer duy nhất - 6_ssr_primer_formatter.pl: tạo 1 file chỉ chứa SSR có primer duy nhất – file này đƣợc tạo đơn giản chỉ chứa những thông tin cần thiết cho việc chọn lựa primer. 21 Yêu cầu: vì chƣơng trình này đƣợc viết cho hệ điều hành Unix hay Linux nên cần phải thực hiện sửa đổi một số lệnh lập trình cơ bản để có thể chạy trên môi trƣờng Window. Chƣơng trình cần sự kết hợp với 3 phần mềm khác là Primer3, blastall và formatdb để thực thi. Ba phần mềm này có thể tải hoàn toàn miễn phí (có phiên bản dành cho Window) từ trang Primer3 và trang Blast của NCBI Các thông số của chƣơng trình thiết kế primer đều đƣợc mặc định nhƣ sau TARGET= m, n với m là vị trí bắt đầu có microsatllite và n là chiều dài microsatellite (mục tiêu) PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300 (kích thƣớc sản phẩm) PRIMER_OPT_SIZE=24 (kích thƣớc tối ƣu của primer) PRIMER_MIN_SIZE=20 (kích thƣớc tối thiểu của primer) PRIMER_MAX_SIZE=28 (kích thƣớc tối đa của primer) PRIMER_OPT_TM=63 (nhiệt độ nóng chảy tối ƣu của primer) PRIMER_MIN_TM=60 (nhiệt độ nóng chảy tối thiểu của primer) PRIMER_MAX_TM=65 (nhiệt độ nóng chảy tối đa của primer) PRIMER_MAX_DIFF_TM=1 (độ chênh lệch nhiệt độ nóng chảy tối đa) Với các thông số mặc định trên chƣơng trình hoàn toàn có thể sử dụng cho mục tiêu của đề tài. Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ: 1.MIcroSAtellite (MISA) [], 2.Sputnik [ /sputnik/index.html], 3.CUGIssr [] 4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl] 22 5.SSRFinder [ SSRFINDER/ssrfinder_1_0.tar.gz] Các công cụ này hầu nhƣ dựa trên cùng một thuật toán tìm SSR, tuy nhiên mỗi phần mềm đƣợc viết bằng các ngôn ngữ lập trình khác nhau. Một điểm nổi bật của công cụ SSRFinder (đƣợc viết bằng Perl, có tích hợp Primer3 và ncbi-BLAST) là có tích hợp thêm những Perlscript giúp hỗ trợ việc thiết kế primer cũng nhƣ kiểm tra lại primer, tuy nhiên các Perlscript này đƣợc lập trình dƣới hệ điều hành UNIX nên cần đƣợc chỉnh sữa để có thể sử dụng trên hệ điều hành Windows. Ngoài ra, còn có rất nhiều trang web hỗ trợ việc tìm SSR trên trình tự nhƣ: 1.SSR Server [] 2

Các file đính kèm theo tài liệu này:

  • pdfLUU TRAN CONG HUY.pdf