Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền

MỤC LỤC Nội dung Trang Trang tựa ii Lời cảm ơn . iii Tóm tắt . iv Sumary v Mục lục vi Danh sách các chữ viết tắt x Danh sách các sơ đồ và bảng xi Danh sách các hình . xii PHẦN A: GIỚI THIỆU . 1 I.Đặt vấn đề . 1 II.Mục đích của đề tài 2 III.Yêu cầu của đề tài 2 IV.Các giai đoạn tiến hành 3 V. Giới hạn 3 PHẦN B: TỔNG QUAN TÀI LIỆU . 4 I.GIỚI THIỆU VỀ SINH HỌC 4 I.1. Cơ sở sinh học về gene 4 I.1.1. Thuật ngữ và quan niệm về gene 4 I.1.2. DNA ở các sinh vật khác nhau 5 I.1.2.1. Sự khác nhau giữa các phân tử DNA . 5 I.1.2.2. Cấu trúc acid nucleic 6 I.1.3 Mã di truyền . 8 I.1.3.1. Thuật ngữ 8 I.1.3.2. Từ điển mã di truyền . 8 I.1.3.3. Ba đặc tính quan trọng của mã di truyền 10 I.1.4 Cấu trúc căn bản của một gene eukaryote 12 I.2. Cơ sở sinh học về chuyển gene 13 vii I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền 14 I.2.2. Các phương pháp chuyển gene . 14 I.2.3. Những khó khăn trong chuyển gene . 17 I.2.4. Sản phẩm của kỹ thuật di truyền . 18 I.2.5. Tiềm năng của chuyển gene 19 I.2.5.1. Các chức năng mới trong cải biến di truyền thực vật . 19 I.2.5.2. Các tính trạng mới (News traits) . 20 I.2.5.3. Sự biểu hiện gene 21 I.2.6. Locus chuyển gene 22 I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới 24 II.GIỚI THIỆU VỀ BIOINFORMATICS . 28 II.1. Khái niệm về Bioinformatics 28 II.2. Vài nét về các cơ sở dữ liệu Sinh học 29 II.2.1. NCBI . 29 II.2.2. EMBL . 29 II.2.3. DDBJ 30 II.3. Vài công cụ Bioinformatics hiện nay . 31 II.3.1. Readseq 31 II.3.2. BLAST . 31 II.3.3. BLAT . 32 II.3.4. ClustalW . 32 II.3.5. HMMER . 32 II.3.6. MEME/MAST . 33 II.3.7. EMBOSS 33 II.4. Ngôn ngữ dùng trong Bioinformatics . 34 III.CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ . 35 III.1. Khái niệm về lập trình . 35 III.2. Ngôn ngữ Perl dùnh trong Bioinformatics 39 III.2.1. Giới thiệu Perl . 39 III.2.2. Thành phần cơ bản trong Perl . 39 III.3. Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics 50 III.3.1. Biojava 50 viii III.3.2. Biojava và CSDL 50 III.3.3. Tổng quan về công nghệ servlet cho các ứng dụng trên Web 51 III.3.4. Chức năng cơ bản của servlet . 52 III.3.5. Thuận lợi của servlet so với các công nghệ thiết kế web khác 53 III.3.6. Sự xây dựng ứng dụng servlet 55 PHẦN C: PHưƠNG TIỆN VÀ PHưƠNG PHÁP TIẾN HÀNH 57 I.PHưƠNG TIỆN 57 I.1. Thiết bị . 57 I.2. Thời gian và địa điểm xây dựng CSDL . 57 II.TÌM KIẾM DỮ LIỆU BÀI BÁO 58 II.1. Tìm kiếm tổng hợp tính trạng . 58 II.2. Tổng hợp dữ liệu Primer dùng trong phát hiện GMO 64 III.TÌM KIẾM DỮ LIỆU TRÌNH TỰ 66 III.1. Tìm kiếm trình tự bằng Keyword 66 III.2. Tìm kiếm trình tự bằng Primer 70 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN . 82 I.Kết quả thu được từ quá trình tìm kiếm ấn phẩm khoa học 82 II.Kết quả thu được từ quá trình tìm kiếm trình tự trên NCBI 82 II.1. Kết quả tìm kiếm trình tự bằng keyword 83 II.2. Kết quả tìm kiếm trình tự bằng Primer . 84 II.3. Dùng Perl xử lý kết quả thu được . 85 II.3.1. Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp . 85 II.3.2. Tải trình tự . 90 III.Các kết quả thu được từ quá trình tải trình tự từ Genbank 92 IV.Tổ chức dữ liệu 93 IV.1. Cách thức tổ chức dữ liệu . 93 IV.2. Tiến hành tổ chức, phân loại dữ liệu . 94 V.Java xử lý dữ liệu . 98 V.1. Các yêu cầu đặt ra 98 V.2. Xử lý yêu cầu bằng Java và Biojava 99 V.3. Thiết kế giao diện . 101 V.4. Lập trình hiển thị giao diện sử dụng 104 ix VI. Kết quả giao diện tìm kiếm với dữ liệu tập hợp được 108 PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ . 118 I.Kết luận 118 II.Đề nghị . 119 TÀI LIỆU THAM KHẢO 121 Phụ lục A 126 Phụ lục B 139 Phụ lục C 152 Phụ lục D 173 Phụ lục E . 197

215 trang | Chia sẻ: lvcdongnoi | Lượt xem: 3103 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    KHÓA LUẬN TỐT NGHIỆP THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN NGÀNH HỌC: CÔNG NGHỆ SINH HỌC NIÊN KHÓA: 2001-2005 SINH VIÊN THỰC HIỆN: NGUYỄN KỲ TRUNG 01125137 LÊ THÀNH TRUNG 01126165 Thành phố Hồ Chí Minh Tháng 9/2005 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN Giảng viên hƣớng dẫn: Sinh viên thực hiện: PGS.TS. BÙI THỌ THANH NGUYỄN KỲ TRUNG TS. BÙI MINH TRÍ LÊ THÀNH TRUNG TS. NGUYỄN CÔNG VŨ Thành phố Hồ Chí Minh Tháng 9/2005 iii LỜI CẢM ƠN Chúng em chân thành cảm ơn: - Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban chủ nhiệm Bộ Môn Công nghệ Sinh học cùng toàn thể Quý Thầy Cô đã truyền đạt kiến thức cho chúng em trong suốt quá trình học tập tại trƣờng. Chúng em xin gửi lòng biết ơn sâu sắc đến: - TS. Bùi Minh Trí - PGS.TS. Bùi Thọ Thanh - TS. Nguyễn Công Vũ Đã tận tình hƣớng dẫn tạo điều kiện tốt nhất cho chúng em trong suốt quá trình thực hiện đề tài và hoàn thành luận văn tốt nghiệp này. Chúng em đồng chân thành cảm ơn đến: - Thầy Lƣu Phúc Lợi - TS. Đinh Duy Kháng - Các bạn sinh viên Khoa Công nghệ Thông tin đang làm việc trong nhóm Bioinformatics Đại học Nông Lâm thành phố Hồ Chí Minh - Các anh chị đang làm việc tại Trung tâm Phân tích Hóa sinh - Các bạn trong lớp CNSH27 Đã hết giúp đỡ, hỗ trợ, động viên, chia sẽ những buồn vui trong suốt thời gian chúng tôi thực tập và thực hiện đề tài này. Tp. Hồ Chí Minh tháng 09 năm 2005 Sinh viên thực hiện Nguyễn Kỳ Trung Lê Thành Trung iv TÓM TẮT Tên đề tài: THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, do hai sinh viên: NGUYỄN KỲ TRUNG và LÊ THÀNH TRUNG thực hiện tháng 9/2005. Giảng viên hƣớng dẫn: PGS.TS. BÙI THỌ THANH TS. BÙI MINH TRÍ TS. NGUYỄN CÔNG VŨ Đề tài thực hiện nhằm mục đích tập hợp, tổ chức dữ liệu gene phục vụ cho nghiên cứu cây trồng biến đổi di truyền. Công việc đƣợc tiến hành tại Trung Tâm Phân Tích Hóa Sinh (Đại học Nông Lâm TP.HCM), Phòng thực hành mạng (Khoa Công Nghệ Thông Tin, Đại học Nông Lâm TP.HCM). Công việc đƣợc tiến hành chia ra nhiều giai đoạn:  Khai thác thông tin ấn phẩm bài báo về cây trồng biến đổi di truyền trên kho dữ liệu khổng lồ trên internet bằng hai công cụ tìm kiếm trang web Google và Scirus.  Khai thác thông tin trình tự trên GenBank tại NCBI bằng hai công cụ Entrez và BLAST.  Tổ chức thông tin dữ liệu với ngôn ngữ Perl.  Xử lý dữ liệu, tạo giao diện sử dụng khai thác dữ liệu cho ngƣời dùng với Biojava, công nghệ Java servlet và công cụ thiết kế web Frontpage, Dreamweaver. Kết quả tạo ra qui trình tìm trình tự gene mong muốn trên cơ sở dữ liệu trình tự chung GenBank và tạo đƣợc cơ sở dữ liệu riêng về các gene liên quan đến cây trồng biến đổi di truyền phục vụ khai thác dễ dàng thuận lợi cho các nhà nghiên cứu trong lĩnh vực này. v SUMMARY “COLECTING AND ORGANIZING GENE DATA SERVES GENETIC MODIFIED PLANT RESEARCHES” by TRUNG NGUYEN KY and TRUNG LE THANH in 9/2005. Supervisors: Assoc. prof. PhD. THANH BUI THO PhD. TRI BUI MINH PhD. VU NGUYEN CONG The purpose of this research is to collect, orgarnize gene data to surve research in genetic modified plant. The research was carried out at the Chemical and Biological Analysis and Experiment Center and the practical network department (in the Information Facuty at Nong Lam University). The process was devided in various phases as following: Accessing articles about GM plants on the internet with two web search engines Google and Scirus. Accessing comparing and selecting sequences of interest from the GenBank at NCBI with Entrez and BLAST tools. Organizing data with Perl language. Processing data, designing user interfaces with Biojava, Java Servlet technology in combination with Frontpage and Dreamweaver. The establishing database allows researchers in the related fields easily to access and satisfied with basic requirement in genetic research. vi MỤC LỤC Nội dung Trang Trang tựa ............................................................................................................................ ii Lời cảm ơn ......................................................................................................................... iii Tóm tắt ............................................................................................................................... iv Sumary ................................................................................................................................ v Mục lục .............................................................................................................................. vi Danh sách các chữ viết tắt .................................................................................................. x Danh sách các sơ đồ và bảng .............................................................................................. xi Danh sách các hình ........................................................................................................... xii PHẦN A: GIỚI THIỆU ................................................................................................... 1 I. Đặt vấn đề ................................................................................................................. 1 II. Mục đích của đề tài .................................................................................................. 2 III. Yêu cầu của đề tài .................................................................................................... 2 IV. Các giai đoạn tiến hành .............................................................................................. 3 V. Giới hạn .................................................................................................................... 3 PHẦN B: TỔNG QUAN TÀI LIỆU ............................................................................... 4 I. GIỚI THIỆU VỀ SINH HỌC .................................................................................... 4 I.1. Cơ sở sinh học về gene ........................................................................................ 4 I.1.1. Thuật ngữ và quan niệm về gene ................................................................ 4 I.1.2. DNA ở các sinh vật khác nhau .................................................................... 5 I.1.2.1. Sự khác nhau giữa các phân tử DNA ................................................. 5 I.1.2.2. Cấu trúc acid nucleic .......................................................................... 6 I.1.3 Mã di truyền ................................................................................................. 8 I.1.3.1. Thuật ngữ ............................................................................................ 8 I.1.3.2. Từ điển mã di truyền ........................................................................... 8 I.1.3.3. Ba đặc tính quan trọng của mã di truyền ............................................ 10 I.1.4 Cấu trúc căn bản của một gene eukaryote .................................................... 12 I.2. Cơ sở sinh học về chuyển gene ............................................................................ 13 vii I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền ...................................... 14 I.2.2. Các phƣơng pháp chuyển gene ................................................................... 14 I.2.3. Những khó khăn trong chuyển gene ........................................................... 17 I.2.4. Sản phẩm của kỹ thuật di truyền ................................................................. 18 I.2.5. Tiềm năng của chuyển gene ........................................................................ 19 I.2.5.1. Các chức năng mới trong cải biến di truyền thực vật ......................... 19 I.2.5.2. Các tính trạng mới (News traits)......................................................... 20 I.2.5.3. Sự biểu hiện gene ................................................................................ 21 I.2.6. Locus chuyển gene ...................................................................................... 22 I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới .................................... 24 II. GIỚI THIỆU VỀ BIOINFORMATICS ..................................................................... 28 II.1. Khái niệm về Bioinformatics .............................................................................. 28 II.2. Vài nét về các cơ sở dữ liệu Sinh học ................................................................ 29 II.2.1. NCBI ......................................................................................................... 29 II.2.2. EMBL......................................................................................................... 29 II.2.3. DDBJ .......................................................................................................... 30 II.3. Vài công cụ Bioinformatics hiện nay ................................................................. 31 II.3.1. Readseq ...................................................................................................... 31 II.3.2. BLAST ....................................................................................................... 31 II.3.3. BLAT ......................................................................................................... 32 II.3.4. ClustalW..................................................................................................... 32 II.3.5. HMMER..................................................................................................... 32 II.3.6. MEME/MAST ........................................................................................... 33 II.3.7. EMBOSS .................................................................................................... 33 II.4. Ngôn ngữ dùng trong Bioinformatics................................................................. 34 III. CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ ........... 35 III.1. Khái niệm về lập trình ....................................................................................... 35 III.2. Ngôn ngữ Perl dùnh trong Bioinformatics ........................................................ 39 III.2.1. Giới thiệu Perl ........................................................................................... 39 III.2.2. Thành phần cơ bản trong Perl ................................................................... 39 III.3. Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics ........ 50 III.3.1. Biojava ...................................................................................................... 50 viii III.3.2. Biojava và CSDL ...................................................................................... 50 III.3.3. Tổng quan về công nghệ servlet cho các ứng dụng trên Web .................. 51 III.3.4. Chức năng cơ bản của servlet ................................................................... 52 III.3.5. Thuận lợi của servlet so với các công nghệ thiết kế web khác ................ 53 III.3.6. Sự xây dựng ứng dụng servlet .................................................................. 55 PHẦN C: PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP TIẾN HÀNH ................................ 57 I. PHƢƠNG TIỆN ........................................................................................................ 57 I.1. Thiết bị ................................................................................................................. 57 I.2. Thời gian và địa điểm xây dựng CSDL ............................................................... 57 II. TÌM KIẾM DỮ LIỆU BÀI BÁO .............................................................................. 58 II.1. Tìm kiếm tổng hợp tính trạng ............................................................................. 58 II.2. Tổng hợp dữ liệu Primer dùng trong phát hiện GMO ........................................ 64 III. TÌM KIẾM DỮ LIỆU TRÌNH TỰ ............................................................................ 66 III.1. Tìm kiếm trình tự bằng Keyword ...................................................................... 66 III.2. Tìm kiếm trình tự bằng Primer .......................................................................... 70 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 82 I. Kết quả thu đƣợc từ quá trình tìm kiếm ấn phẩm khoa học ...................................... 82 II. Kết quả thu đƣợc từ quá trình tìm kiếm trình tự trên NCBI ...................................... 82 II.1. Kết quả tìm kiếm trình tự bằng keyword ............................................................ 83 II.2. Kết quả tìm kiếm trình tự bằng Primer ............................................................... 84 II.3. Dùng Perl xử lý kết quả thu đƣợc ....................................................................... 85 II.3.1. Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp ........................... 85 II.3.2. Tải trình tự ................................................................................................. 90 III. Các kết quả thu đƣợc từ quá trình tải trình tự từ Genbank ........................................ 92 IV. Tổ chức dữ liệu .......................................................................................................... 93 IV.1. Cách thức tổ chức dữ liệu ................................................................................. 93 IV.2. Tiến hành tổ chức, phân loại dữ liệu ................................................................. 94 V. Java xử lý dữ liệu ....................................................................................................... 98 V.1. Các yêu cầu đặt ra .............................................................................................. 98 V.2. Xử lý yêu cầu bằng Java và Biojava .................................................................. 99 V.3. Thiết kế giao diện ............................................................................................... 101 V.4. Lập trình hiển thị giao diện sử dụng .................................................................. 104 ix VI. Kết quả giao diện tìm kiếm với dữ liệu tập hợp đƣợc .............................................. 108 PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................. 118 I. Kết luận ...................................................................................................................... 118 II. Đề nghị ....................................................................................................................... 119 TÀI LIỆU THAM KHẢO ................................................................................................ 121 Phụ lục A ............................................................................................................................ 126 Phụ lục B ............................................................................................................................ 139 Phụ lục C ............................................................................................................................ 152 Phụ lục D ............................................................................................................................ 173 Phụ lục E ............................................................................................................................. 197 x DANH SÁCH CÁC CHỮ VIẾT TẮT A adenine API application programing interface BLAST Basic Local Alignment Search Tools BLAT BLAST-Like Alignment Tool C cytosine CDS coding sequence CGI common gateway interface CIB the Center for Information Biology CSDL Cơ sở dữ liệu DDBJ DNA Data Bank of Japan DNA deoxyribonucleic acid EBI the European Bioinformatics Institute EMBL the European Molecular Biology Laborary EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase E-value expected value G guanine gi GenInfo Indentifier Gln Glutamine GM plant Genetic modified plant GMO Genetic modified organism HTML hypertext markup language HTTP hypertext transfer protocol ID identify J2EE Java 2 Enterprise Edition JDBC Java Database Connectivity JSP JavaServer page Met methionine mRNA messenger ribonucleic acid NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine NOS noplaine synthase Phe phenylalanine RNA ribonucleic acid SQL Structure Query Language STDIN standard input T thymine T-DNA transfer DNA tRNA tranfer ribonucleic acid Trp tryptophan U uracil xi DANH SÁCH CÁC SƠ ĐỒ VÀ BẢNG Bảng Trang PHẦN A PHẦN B Bảng 1.1: Một số loài đã đƣợc chuyển gene .................................................................... 19 Bảng 1.2: Bảng thống kê danh sách các tính trạng đƣợc chuyển vào cây trồng ............. 24 Bảng 2.1: Bảng liệt kê một số chƣơng trình BLAST ...................................................... 31 Sơ đồ 3.1: Sơ đồ một ứng dụng phần mềm...................................................................... 54 Sơ đồ 3.2: Cấu trúc của một ứng dụng Servlet (Servlet Application) ............................. 56 Sơ đồ 3.3: Một cấu trúc phổ biến hơn của một server application .................................. 56 PHẦN C Sơ đồ 2.1: Quy trình tìm kiếm thông tin sinh học ........................................................... 58 Bảng 2.1: Địa chỉ những phƣơng tiện tìm kiếm trên Internet .......................................... 59 PHẦN D Sơ đồ 4.1: Mô hình tổ chức một hệ thống ứng dụng ....................................................... 93 xii DANH SÁCH CÁC HÌNH Hình Trang PHẦN A PHẦN B Hình 1.1: Sự biểu hiện thông tin di truyền. ................................................................. 4 Hình 1.2: Cấu trúc xoắn kép DNA .............................................................................. 6 Hình 1.3: Cấu trúc của các base pyrimidine và purine. ............................................... 6 Hình 1.4: Cấu trúc của Oligonucleotide ...................................................................... 7 Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide. ................................................. 8 Hình 1.6: Sao chép và dịch mã .................................................................................... 9 Hình 1.7: Mã di truyền của nhân (các codon của mRNA) .......................................... 9 Hình 1.8: Mã di truyền ty thể ngƣời ............................................................................ 10 Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) .................................... 11 Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene) ............................................. 12 Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn ....................................... 13 Hình 1.12: Gắn gene chuyển vào vector (Plasmid) ..................................................... 13 Hình 1.13: Plasmid dùng trong chuyển gene đậu nành ............................................... 15 Hình 1.14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens ............. 16 Hình 1.15: Súng bắn gene đƣợc dùng trong chuyển gene ........................................... 16 Hình 1.16: Chuyển gene thông qua vi ......................................................................... 17 Hình 1.17: Ví dụ cấu trúc di truyền đƣợc dùng ức chế gene UDP 6-glucose dehydrogenease trong đậu nành. .................................................................................. 23 Hình 1.18: Bản đồ một số nƣớc chính có cây trồng chuyển gene lớn trên thế giới .... 27 Hình 1.19: Diện tích cây trồng chuyển gene các nƣớc trên thế giới ........................... 27 Hình 1.20: Biểu đồ tỷ lệ các gene kháng đƣợc chuyển vào cây trồng trên thế giới .... 27 Hình 3.1: Một chu kỳ sống của CGI ............................................................................ 53 Hình 3.2: Chu kỳ sống của CGI hiện nay .................................................................... 54 PHẦN C Hình 2.1: Trang kết quả tìm kiếm bằng Google sau khi nhập từ khóa ........................ 60 Hình 2.2: Trang tìm kiếm Scirus.com nâng cao .......................................................... 61 xiii Hình 2.3: Trang kết quả của Scirus sau khi tìm kiếm ................................................. 62 Hình 2.4: Trang chủ NCBI .......................................................................................... 62 Hình 2.5: Trang Entrez PubMed của NCBI ................................................................ 63 Hình 2.6: Trang kết quả Entrez PubMed sau khi tìm kiếm ......................................... 63 Hình 2.7: Trang chủ Agbios.com ................................................................................ 64 Hình 2.8: Kết quả tìm kiếm bằng Google với keyword .............................................. 65 Hình 2.9: Trang Entrez Nucleotide với từ khóa cần tìm ............................................. 66 Hình 2.10: Trang kết quả của Entrez Nucleotide sau tìm kiếm................................... 67 Hình 2.11: Trang kết quả Entrez Nucleoide dạng text ................................................ 67 Hình 2.12: Kết quả sau khi nhấp vào mục Details ...................................................... 68 Hình 2.13: Nhập từ khóa cần tìm vào khung tìm kiếm .............................................. 69 Hình 2.14: Xem chi tiết (Details) khi kết quả không tìm thấy .................................... 70 Hình 2.15: Trang BLAST của cơ sở dữ liệu NCBI ..................................................... 70 Hình 2.16: Trang BLAST Nucleotide của NCBI ........................................................ 71 Hình 2.17: Khung nhập trình tự ................................................................................... 71 Hình 2.18: Phần tùy chọn của trang BLAST Nucleotide ............................................ 72 Hình 2.19: Phần lựa chọn định dạng trang kết quả BLAST ........................................ 73 Hình 2.20: Trang trung gian kết quả BLAST .............................................................. 74 Hình 2.21: Phần đầu của trang kết quả BLAST .......................................................... 74 Hình 2.22: Phần ảnh minh họa tổng thể kết quả BLAST ............................................ 75 Hình 2.23: Phần tóm tắt kết quả BLAST..................................................................... 75 Hình 2.24: Phần xem chi tiết về sự gióng trình tự trên trang kết quả BLAST ............ 76 Hình 2.25: Lấy trình tự cần từ trang kết quả BLAST .................................................. 76 Hình 2.26: Nhập trình tự Primer vào khung tìm kiếm gene cryIA(b) ......................... 77 Hình 2.27: Kết quả tìm kiếm với Primer gene cryIA(b) .............................................. 78 Hình 2.28: Kết quả tìm kiếm sau khi thay đổi thông số ............................................. 78 Hình 2.29: Lựa chọn lại thông số là Pat thay vì nr ...................................................... 79 Hình 2.30: Kết quả tìm kiếm với Database Pat ........................................................... 79 Hình 2.31: Trang lấy kết quả từ chƣơng trình BLAST ............................................... 80 Hình 2.32: Tìm kiếm trình tự bằng số xác định qua trang BLAST ............................. 80 Hình 2.33: Kết quả BLAST dạng HTML .................................................................... 81 Hình 2.34: Kết quả BLAST dạng text ......................................................................... 81 xiv PHẦN D Hình 2.1: Kết quả dạng text khi tìm kiếm bằng keyword 1 ........................................ 83 Hình 2.2: Kết quả dạng text khi tìm kiếm bằng keyword 2 ........................................ 83 Hình 2.3: Kết quả dạng text khi tìm kiếm bằng keyword ........................................... 84 Hình 2.4: Kết quả dạng text khi tìm kiếm bằng Primer ............................................... 85 Hình 2.5: Minh họa 1 file kết quả thu đƣợc sau khi tìm kiếm trình tự trên NCBI ...... 86 Hình 2.6: Chƣơng trình Perl bắt đầu chạy ................................................................... 88 Hình 2.7: Nhập đƣờng dẫn đến thƣ mục chứa file kết quả tìm kiếm .......................... 89 Hình 2.8: Chƣơng trình Perl đã chạy xong .................................................................. 89 Hình 2.9: Lƣu danh sách này vào file tonghopdulieu.txt ................................ 89 Hình 2.10: Nội dung file tonghopdulieu.txt .................................................... 90 Hình 2.11: Chƣơng trình load.pl đang chạy .......................................................... 92 Hình 2.12: Minh họa kết quả các trình tự đƣợc tải về ................................................. 92 Hình 4.1: Vị trí thể hiện Division trong nội dung của 1 record Genbank ................... 95 Hình 4.2: Chƣơng trình phân chia Division bắt đầu chạy ........................................... 96 Hình 4.3: Chƣơng trình đã chạy xong ......................................................................... 96 Hình 4.4: Kết quả cuối cùng sau khi chƣơng trình phân Division đã chạy xong ....... 97 Hình 5.1: Các trƣờng tìm kiếm chính xác. .................................................................. 99 Hình 5.2: Các trƣờng cung cấp thông tin trình tự cần tách ......................................... 100 Hình 5.3: Trang giao diện tìm kiếm GM Databases .................................................... 102 Hình 5.4: Nội dung trang tìm kiếm.............................................................................. 103 Hình 5.5: Một trƣờng hợp tìm kiếm trên web ............................................................. 105 Hình 5.6: Thể hiện kết quả tìm kiếm với nội dung tóm tắt ......................................... 107 Hình 6.1: Trang chủ tìm kiếm trình tự GM Plants bằng keyword .............................. 109 Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm ............................................... 110 Hình 6.3: Trang kết quả tìm kiếm mặc định là dạng Summary .................................. 111 Hình 6.4: Trang biểu diễn kết quả dạng GenBank ...................................................... 113 Hình 6.5: Trang biểu diễn kết quả dạng FASTA ......................................................... 114 Hình 6.6: Trang biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA. ...................... 114 Hình 6.7: Trang Biểu diễn trình tự aminoacid do CDS mã hóa, dạng FASTA........... 115 Hình 6.8: Trang biểu diễn kết quả dạng text của kiểu GenBank ................................. 116 PHẦN A: GIỚI THIỆU NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 1 A. GIỚI THIỆU I. Đặt vấn đề Có thể thấy rằng trong những năm gần đây nƣớc ta đang có những đầu tƣ rất lớn vào các phòng thí nghiệm, các công trình nghiên cứu trong lĩnh vực Công Nghệ Sinh Học. Các nhà khoa học, các sinh viên theo lĩnh vực này đang nỗ lực, phấn đấu để hoàn thành các nghiên cứu sinh học của mình. Tuy nhiên, các nhà nghiên cứu cơ bản lẫn nghiên cứu ứng dụng đang vƣớng phải một khó khăn rất lớn đó chính là việc tìm kiếm, phân tích, so sánh, trích tải những dữ liệu sinh học liên quan đến các nghiên cứu của họ. Chính những thông tin đa dạng, quá phong phú trong các cơ sở dữ liệu khổng lồ trên thế giới, đƣợc tải trên nhiều trang thông tin khác nhau đã trở thành những khó khăn đầu tiên cho các nhà nghiên cứu. Việc tìm kiếm những thông tin ngắn gọn, dễ dàng và nhanh chóng nhƣng vẫn đảm bảo tính chính xác nhằm phục vụ riêng cho từng cá nhân nghiên cứu ở mỗi phòng thí nghiệm là hết sức cần thiết. Công nghệ di truyền thực vật nói chung và sự xuất hiện của cây trồng và thực phẩm biến đổi di truyền nói riêng (GM Plants, GM Food) hiện là vấn đề toàn cầu. Diện tích cây trồng biến đổi di truyền không ngừng tăng qua các năm. Theo thống kê gần đây nhất về diện tích canh tác cây chuyển gene đƣợc thể hiện ở bảng dƣới đây: (Agrifood Awareness Australia Limited- AFAA, February 2005) Bên cạnh các thành tựu đã thành công và thƣơng mại hóa nhƣ: chuyển gene kháng bệnh, kháng côn trùng, kháng thuốc trừ cỏ; chuyển gene có năng suất nông học cao hay chuyển gene có đặc tính mong muốn từ các thực vật khác cho mục đích dinh dƣỡng và dƣợc liệu … là những mối nguy hại mà cây trồng chuyển gene có thể ảnh hƣởng tiềm ẩn nhƣ: sự đa dạng của cây trồng, ảnh hƣởng độc và dị ứng, khả năng phát sinh cỏ dại, sự xâm chiếm hay sự phóng thích ngoài ý muốn của gene ra quần thể cây trồng, các cây trồng không phải cây trồng đích … PHẦN A: GIỚI THIỆU NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 2 Về khoa học, ta không thể phủ nhận những thành tựu cũng nhƣ những mặt hạn chế mà công nghệ chuyển gene mang lại. Việc nắm bắt thông tin về các gene chuyển hiện nay sẽ giúp ta chủ động trong các nghiên cứu về lĩnh vực còn khá mới này. Đƣợc sự hƣớng dẫn của thầy TS. Bùi Minh Trí, cùng các thầy PGS. TS. Bùi Thọ Thanh và thầy TS. Nguyễn Công Vũ chúng tôi đã thực hiện đề tài “THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN”, bƣớc đầu đặt cơ sở cho việc ứng dụng Bioinformatics vào xây dựng Cơ sở dữ liệu Sinh học đầu tiên tại trƣờng Đại Học Nông Lâm Tp HCM. II. Mục đích của đề tài  Tập hợp và chọn lọc các ấn phẩm, bài báo khoa học liên quan đến cây trồng biến đổi di truyền.  Khảo sát một số công cụ tìm kiếm trình tự trên NCBI.  Tập hợp các trình tự liên quan đến cây trồng biến đổi di truyền.  Tổ chức dữ liệu gene phục vụ việc tìm kiếm thông tin về các gene một cách nhanh chóng và gọn nhất.  Thiết kế giao diện thân thiện, thiết thực đáp ứng nhu cầu của ngƣời dùng. Giải quyết công việc tìm kiếm một cách khó khăn trên mạng Internet của các nhà nghiên cứu CNSH Thực vật. Giúp các nhà nghiên cứu CNSH Thực vật thuận tiện, dễ dàng tra cứu, tìm kiếm gene phù hợp với từng yêu cầu riêng. III. Yêu cầu của đề tài  Tất cả các thông tin trong dữ liệu theo chuẩn quốc tế.  Dễ tìm kiếm theo nhiều chiều.  Sử dụng các loại ngôn ngữ lập trình thông dụng, giúp dữ liệu mang tính dễ truy suất, dễ phát triển về sau, đó là ngôn ngữ lập trình Perl và ngôn ngữ lập trình Java.  Dữ liệu có tính “mở” về nội dung Sinh học có thể phát triển, bổ sung bởi các công trình nghiên cứu về sau của Đại học Nông Lâm Thành phố Hồ Chí Minh. PHẦN A: GIỚI THIỆU NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 3 IV. Các giai đoạn tiến hành đề tài Giai đoạn 1: Tìm hiểu thông tin và các công cụ có liên quan.  Tìm hiểu ngôn ngữ lập trình Perl dùng trong Bioinformatics.  Tìm hiểu ngôn ngữ Java dùng trong Bioinformatics.  Tìm hiểu dữ liệu bài báo trên PubMed và dữ liệu trình tự GenBank trên NCBI.  Tìm hiểu các công cụ sinh học dùng trong Bioinformatics. Giai đoạn 2: Xây dựng và tổ chức các dữ liệu.  Tìm kiếm dữ liệu cho đề tài (bài báo khoa học, trình tự).  Tiến hành xây dựng trang tìm kiếm với dữ liệu trình tự tìm đƣợc. V. Giới hạn của đề tài Do thời gian thực tập tốt nghiệp có hạn, kiến thức cần thiết để xây dựng đƣợc một cơ sở dữ liệu hoàn chỉnh thì nhiều, do đó đề tài có rất nhiều hạn chế cần hoàn thiện về sau :  Dữ liệu không lớn chỉ vài ngàn gene đƣợc xem là thông dụng nhất trong công nghệ chuyển gene hiện nay.  Phải thiết lập các mối liên hệ trong dữ liệu, tiến tới quản lý dữ liệu một cách có hệ thống bằng một hệ quản trị cơ sở dữ liệu hoặc nghiên cứu sử dụng công nghệ mới vào quản lý dữ liệu.  Giao diện Web của chƣơng trình chƣa hoàn chỉnh. Về sau sẽ phát triển, nâng cấp mở rộng phục vụ nhiều nhu cầu khác của ngƣời dùng.  Chƣa đƣa đƣợc các công cụ phân tích gene sẵn có vào sử dụng trực tiếp trên cơ sở dữ liệu. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 4 B. TỔNG QUAN TÀI LIỆU I. Giới thiệu về sinh học I.1. Cơ sở sinh học về gene I.1.1. Thuật ngữ và quan niệm về gene Sinh học phân tử là gì ? Sinh học phân tử (Molecular biology) là môn học nghiên cứu các hiện tƣợng sinh học ở mức phân tử. Ngày nay, sinh học phân tử đƣợc hiểu là sinh học phân tử của gene (Molecular biology of the gene), là môn học nghiên cứu cấu trúc, sự biểu hiện và kiểm soát sự biểu hiện của các gene, là đơn vị thông tin di truyền riêng biệt chứa một trình tự chuyên biệt trong DNA (hay trong RNA của virus). Quan niệm về gene – lý thuyết trung tâm của sinh học phân tử 1866, Mendel đề ra giả thuyết về các đơn vị qui định các đặc tính di truyền, tức các gene. 1909, Garrod cho rằng gene điều khiển kiểu hình qua enzyme. 1940, Beadle và Tatum đề nghị giả thuyết “một gene - một enzyme” (một gene điều khiển sự sản xuất một enzyme chuyên biệt). Thuyết này đã phát triển để trở nên khái quát hơn , “một gene – một protein”, và hiện nay “một gene – một polypetide”. 1953, Watson và Crick đề nghị cấu trúc xoắn kép của phân tử DNA. Sau đó, là sự ra đời lý thuyết trung tâm (central dogma) của sinh học phân tử (Crick, 1958): thông tin di truyền đƣợc mang bởi chuỗi DNA (hay RNA ở vài virus) qua các giai đoạn sao chép (transcription) và dịch mã (translation), đƣợc chuyển thành các trình tự amino acid của protein. Sự tái bản DNA (DNA replication) là cơ chế giúp một phân tử DNA tự tái sinh thành hai phân tử DNA giống nhau. Hình 1.1: Sự biểu hiện thông tin di truyền. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 5 * Lý thuyết trung tâm của sinh học phân tử giúp ta hiểu: - Cấu trúc của DNA là cơ sở phân tử của sự di truyền; sự tái bản DNA là cơ sở phân tử để hiểu vì sao con cái giống cha mẹ; sự chuyển thông tin vào protein là cơ sở phân tử của các đặc tính kiểu hình. - Hình thái và chức năng sống chủ yếu của sinh vật là sự biểu hiện về cách tổ chức và hoạt động của các protein trong cơ thể sinh vật. Chính sự sắp xếp các thành phần amino acid của protein quyết định sự sắp xếp trong không gian (cấu trúc bậc hai và bậc ba) và chức năng của protein. I.1.2. DNA ở các sinh vật khác nhau I.1.2.1. Sự khác nhau giữa các phân tử DNA DNA là vật liệu mang thông tin di truyền ở sinh vật nói chung, trừ RNA ở vài virus. DNA ở mọi sinh vật (động vật, thực vật, vi khuẩn hay virus) có cùng kiểu cấu trúc hai sợi xoắn DNA, trừ ngoại lệ ở vài virus. Sự khác nhau giữa các phân tử DNA xoắn kép ở các loài là do: - Vị trí của các phân tử DNA trong tế bào: trong nhân (ở eukaryote) hay trong tế bào chất (ở prokaryote). - Số phân tử DNA: một phân tử ở virus hay vi khuẩn (nhƣ E.coli), nhiều phân tử trong tế bào động vật và thực vật bậc cao. - Hình dạng: thẳng (ở eukaryote) hay vòng (ở prokaryote). Khái niệm: “vòng” chỉ tính khép kýn của chuỗi DNA, không chỉ hình thể trong không gian. - Chiều dài phân tử DNA: Các virus có phân tử acid nucleic ngắn nhất: DNA virus có từ vài ngàn tới vài chục ngàn nucleotide. DNA prokaryote dài hơn DNA virus khoảng một ngàn lần: DNA của E.coli có chừng bốn triệu cặp nucleotide. Ở prokaryote, đôi khi còn có các plasmid, tức các đoạn DNA nhỏ, dạng vòng, bên cạnh nhiễm sắc thể. Ở eukaryote, phân tử DNA rất dài, chứa từ vài ngàn đến vài tỉ đơn vị nucleotide; các đơn vị nucleotide này đƣợc phân phối trên nhiều nhiễm sắc thể riêng biệt. Không có sự tƣơng quan giữa lƣợng DNA và tính phức tạp của sinh vật. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 6 Hình 1.2: Cấu trúc xoắn kép DNA - Các trình tự base đặc trƣng. Đây là tính chất quan trọng nhất của mỗi phân tử DNA. I.1.2.2. Cấu trúc acid nucleic Các đơn vị nucleotide Acid nucleotide, nhƣ tên gọi, là các chất lúc khởi đầu đƣợc cô lập từ nhân (nucleus). Có hai kiểu acid nucleic: - Acid deoxyribonucleic (DNA) đƣợc tìm thấy chủ yếu ở trong nhân tế bào (eukaryote). - Acid ribonucleic (RNA) đƣợc tìm thấy chủ yếu trong tế bào chất. - Acid nucleic đƣợc cấu tạo bởi các đơn vị gọi là nucleotide. Mỗi nucleotide đƣợc cấu tạo bởi ba yếu tố: base nitrogen, pentose và acid phosphoric. Hình 1.3: Cấu trúc của các base pyrimidine và purine. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 7 Trong các nucleotide, base là dẫn xuất của pyrimidine hay purine. Các base pyrimidine là: cytosine (C) và uracil (U) trong RNA; cytosine (C) và thymine (T) trong DNA. Có vài base bất thƣờng, đặc biệt ở vài bacteriophage, nhƣ hydroxymethylcytsine thay vì cytosine hay hydroxymethyluracil thay vì thymine. Hai base purine chính đƣợc tìm thấy trong DNA cũng nhƣ RNA là adenine (A) và guanine (G). Ngoài ra, có những base purine hiếm chỉ đƣợc tìm thấy trong vài acid nucleic (nhất là t-RNA), thí dụ: isopentenyladenin (chất có hoạt tính hormone cykotinin ở thực vật). Các base nitrogen của phân tử DNA mang thông tin di truyền, trong khi các nhóm pentose và phosphate chỉ có vai trò cấu trúc. Tùy theo bản chất của pentose, ta có ribonucleotide hay deoxyribonucleotide. Theo qui ƣớc, ngƣời ta đọc một chuỗi acid nucleotide theo hƣớng 5‟P tới 3‟OH; để đơn giản ngƣời ta chỉ viết các số 5‟ và 3‟. Hình 1.4: Cấu trúc của Oligonucleotide Cấu trúc bậc hai của DNA do Watson và Crick (1953) đề nghị có ba đặc tính quan trọng  Đối song: hai chuỗi nucleotide song song nhƣng ngƣợc hƣớng.  Bổ sung: sự liên kết hai sợi DNA theo qui tắc: “A đối T, C đối G”.  Xoắn ốc: hai chuỗi DNA xoắn quanh một trục tƣởng tƣợng. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 8 Tóm lại, trong phân tử DNA, deoxyribose và H3PO4 giống nhau suốt chiều dài phân tử. Ngƣợc lại, 4 base khác nhau và trình tự của các base đặc trƣng cho mỗi phân tử DNA. Theo qui ƣớc, ta có thể viết chuỗi acid nucleic với các base A, T, C, G với: C = nucleotide chứa Cystosine, T = nucleotide chứa Thymine, A = nucleotide chứa Adenine, G = nucleotide chứa Guanine. Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide. I.1.3. Mã di truyền I.1.3.1. Thuật ngữ Thông tin di truyền đƣợc viết bởi các codon (mã di truyền) và đƣợc dịch thành các trình tự amino acid. Nói cách khác, thông tin di truyền đƣợc sao chép thành RNA và sau đó dịch mã thành polypeptide. Để dịch chính xác một ngôn ngữ, cần có một quyển từ điển. Tƣơng tự, để giải mã di truyền, cần có quyển từ điển mã di truyền. Mã di truyền hay “codon” đƣợc viết bởi ba chữ, chính xác hơn là ba nucleotide, tạo thành một “bộ ba” (triplet). Một “bộ ba”, trong phân tử mRNA sẽ đƣợc dịch mã thành một amino acid. I.1.3.2. Từ điển mã di truyền Theo qui ƣớc, các base đƣợc trình bày trong từ điển mã di truyền là các ribonucleotide. Theo đó, U có trong RNA thay cho T. Đối với các mã di truyền trong DNA, T thay cho U. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 9 Hình 1.6: Sao chép và dịch mã Trong 64 codon, ta có thể kể:  Ba codon UAA, UAG, UGA là các “codons non sens”, không đƣợc dịch thành amino acid; chúng là dấu hiệu chấm dứt sự đọc, nên còn đƣợc gọi là “codon stop”.  61 codon còn lại mã hóa 20 amino acid. Trừ Met và Trp chỉ đƣợc mã hóa bởi 1 codon, các amino acid khác đƣợc mã hóa bởi nhiều codon. Nhƣ vậy có nhiều codon cùng nghĩa. Hình 1.7: Mã di truyền của nhân (các codon của mRNA) PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 10 I.1.3.3. Ba đặc tính quan trọng của mã di truyền  Phổ biến (universal): Mã di truyền cơ bản giống nhau cho mọi sinh vật (động vật, thực vật, vi khuẩn hay virus). Chính vì thế từ điển mã di truyền ra đời là bằng chứng thuyết phục về nguồn gốc tiến hóa chung của sinh vật.  Suy biến (degenerate): nhiều codon mã hóa cho một amino acid. Trong phần lớn các trƣờng hợp, các bộ ba mã hóa cho một amino acid chỉ khác nhau ở base thứ ba, thí dụ: UUU và UUC (Phe), CAA và CAG (Gln)…  Không gối nhau: Mã di truyền đƣợc đọc tuần tự từ “bộ ba” này đến “bộ ba” kế tiếp, liên tục trong một chuỗi, từ điểm khởi đầu cho đến kết thúc. a) Giả thuyết về base “dao động” *Thế nào là base “dao động” Mã di truyền chung (có tính phổ biến) là điều hết sức lý thú để hiểu về sinh vật. Tuy nhiên, Sanger (1980) đã đặt lại vấn đề, vì có vài codon khác biệt trong ti thể. Và vì Met và Trp đƣợc mã hóa bởi hai codon thay vì một. Hình 1.8: Mã di truyền ty thể ngƣời Sau phát hiện này, ngƣời ta còn thấy những codon khác ở nấm men, Paramecium,…Thí dụ UAA của mRNA tế bào chất của Paramecium không phải là codon Stop, mà là Gln. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 11 Mã di truyền có 61 codon mã hóa cho 20 amino acid. Do đó ta có thể nghĩ rằng có 61 tRNA (qui tắc bổ sung codon-anticodon). Tuy nhiên, thực tế một mRNA nhận biết nhiều codon mã hóa cho cùng một amino acid. Nói cách khác không cần phải có đủ 61 tRNA để vận chuyển acid amin trong quá trình dịch mã (nhƣng một tRNA không bao giờ nhận biết hai amino acid khác nhau). Theo giả thuyết base “dao động” (Crick, 1966), hai nucleotide đầu tiên của một codon (mRNA) bổ sung một cách nghiêm chỉnh với anticodon của t-RNA, nhƣng base thứ ba của codon bắt cặp với base thứ nhất của anticodon theo cách tƣơng đối lỏng lẻo. b) Ích lợi của tính suy biến mã di truyền và base “dao động” Có ba điều lợi chính:  Sự suy biến mã di truyền tạo nên một hệ thống bảo vệ đối với các đột biến có thể sinh ra, sự thay đổi base thứ ba thƣờng không gây hậu quả, vì codon đột biến không làm thay đổi tRNA.  Các nối wobble cho phép tế bào tiết kiệm vật chất và năng lƣợng: không cần 61 tRNA để nhận biết 61 codon.  Cầu nối yếu hơn giữa base thứ nhất của anticodon và base thứ base của codon giúp các tRNA phân ly dễ hơn, và do đó sự tổng hợp protein nhanh hơn. Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 12 I.1.4. Cấu trúc căn bản của một gene eukaryote Chiều dài và cấu trúc một gene rất thay đổi. Gene là các trình tự DNA đƣợc sao chép, các trình tự này có thể ở trên sợi này hay sợi kia của phân tử DNA. Geneome là toàn bộ các gene và các trình tự không mã hóa của một cá thể. (A) (B) Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene). (A) sự sao chép của một sợi DNA (B) sự không liên tục của gene Gene eukaryote không liên tục, mà bao gồm:  Các exon là các trình tự mang thông tin di truyền sẽ đƣợc biểu hiện.  Các intron là các trình tự nằm xen kẽ với các phần mang thông tin di truyền, đƣợc sao chép nhƣng không đƣợc dịch.  Gene ở phần lớn prokaryote có phần ghi mã liên tục, không có intron. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 13 I.2. Cơ sở sinh học về chuyển gene Hình thức cơ bản nhất trong cải biến di truyền (Genetic transformation) là đƣa những gene chuyển (transgenes) vào trong sinh vật bằng cách nào đó mà các gene này có thể đƣợc biểu hiện. Kỹ thuật này còn đƣợc gọi là kỹ thuật di truyền. Mục tiêu cuối cùng của kỹ thuật di truyền hay kỹ thuật DNA tái tổ hợp là sự biểu hiện bền vững và có thể di truyền của tính trạng mới trong bộ phận hay cơ thể khác. Điều này đạt đƣợc thông qua cấu trúc vector mang gene chuyển. Plasmid, retrovirus (RNA virus) và bacteriophage là các vector quan trọng đặc biệt trong chuyển thông tin di truyền. Trong quá trình chuyển gene, kỹ thuật di truyền cắt và sắp xếp lại các đoạn DNA tạo ra cấu trúc gene chuyển chèn vào vector. Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn Hình 1.12: Gắn gene chuyển vào vector (Plasmid) Hebert Boyer và Stanley Cohen đã đạt đƣợc thành tựu chuyển gene đầu tiên vào năm 1973, khi đó họ đã tạo ra gene với các phần DNA từ vi khuẩn và lƣỡng cƣ, biểu hiện gene kháng kháng sinh. Với sự thành công trong việc sử dụng enzyme và vector, các nhà khoa học này đã tiên phong trong việc sử dụng kỹ thuật di truyền và chuyển thông tin di truyền. Nghiên cứu của họ đã đặt nền móng cho nhiều công việc ngày nay trong công nghệ sinh học. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 14 I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền Thuật ngữ genetically modified thƣờng xuyên đƣợc dùng để mô tả những sinh vật đƣợc chuyển gene hay đƣợc biến đổi di truyền. Khoa học của kỹ thuật di truyền đƣợc phát triển với mục tiêu xây dựng các gene phục vụ cho chuyển gene. Hệ thống chuyển gene gồm ba vấn đề chính:  Kỹ thuật đƣa DNA lạ vào tế bào đích.  Tế bào hay mô bền vững với điều kiện chuyển gene.  Các phƣơng pháp cho phép xác định và chọn lọc tế bào hay bộ phận chuyển gene. Một trong những giới hạn của cải thiện di truyền truyền thống là sự không hòa hợp giữa các loài. Ví dụ: Đậu là loài giàu amino acid chứa sunfur. Tuy nhiên đậu lại thiếu lysine. Mặt khác lúa giàu lysine nhƣng thiếu amino acid chứa sunfur. Vì không thể lai giữa hai loài này với nhau, vì thế ngƣời trồng trọt truyền thống không thể phát triển loại đậu mới giàu lysine hay lúa giàu thành phần amino acid chứa sunfur. Chuyển gene cho phép trao đổi các gene giữa các sinh vật mà không hòa hợp giới tính. Với kỹ thuật di truyền và chuyển gene có thể cho phép ta chuyển gene giữa vi khuẩn, động vật, thực vật và virus. Công cụ cơ bản trong chuyển gene là enzyme cắt giới hạn, đƣợc dùng để cắt DNA tại những vị trí đặc biệt, và các enzyme ligase mà xúc tác cho việc nối các đoạn DNA. Sử dụng đúng enzyme cắt giới hạn có thể cắt đƣợc DNA plasmid vòng của vi khuẩn thành dạng thẳng. Dùng ligase có thể gắn thêm đoạn DNA khác chứa gene quan tâm vào plasmid bị cắt. Plasmid mới có thể đƣợc đƣa vào vi khuẩn thông qua quá trình gọi là “xung điện” (electroporation), vi khuẩn có thể đƣợc dùng để chuyển gene chuyển vào (sinh vật đích). Nếu plasmid DNA đƣợc tích hợp vào trong genome của sinh vật nhận và gene chuyển đƣợc biểu hiện, cá thể đó đƣợc xem nhƣ đã đƣợc chuyển gene (transgenic). I.2.2. Các phương pháp chuyển gene Có nhiều phƣơng pháp chuyển gene, nhƣng bốn phƣơng pháp đạt kết quả cao nhất là: Chuyển gene thông qua Agrobacterium, bắn gene, vi tiêm, và chuyển trực tiếp. Mỗi phƣơng pháp có ƣu và nhƣợc riêng và đƣợc sử dụng trong những trƣờng hợp đặc PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 15 biệt. Ở thời điểm này không có một phƣơng pháp nào phù hợp cho tất cả các trƣờng hợp. Chuyển gene thông qua Agrobacterium Vi khuẩn Agrobacterium tumefaciens có khả năng nhận ra vết thƣơng trên thực vật, kích thích việc chuyển plasmid vi khuẩn vào thực vật. Plasmid có khả năng tích hợp vào DNA tế bào chủ gây ra sự tăng trƣởng không kiểm soát ở thực vật hình thành bƣớu. Khả năng này của A. tumefaciens làm nó có vai trò quan trọng trong giai đoạn sớm của chuyển gene. A. tumefaciens là vector đầu tiên đƣợc dùng để chuyển gene lạ vào tế bào thực vật, đƣợc dùng cho cả thực vật hai lá mầm và thực vật một lá mầm. Một loại vi khuẩn đất khác Agrobacterium rhizogenees, kích thích tạo rễ thứ cấp sau khi nhiễm cũng đã đƣợc dùng cho chuyển gene thực vật. Cơ bản của phƣơng pháp này dựa vào plasmid vi khuẩn có khả năng tích hợp bộ gene cây chủ. Phần quan trọng của plasmid là vùng đảm nhận trách nhiệm cho việc chuyển gene vào trong bộ gene thực vật. Phần này gọi là DNA chuyển (T-DNA), và phần DNA này là phần chủ yếu gây tăng trƣởng bƣớu của thực vật nhiễm. Vùng này nằm giữa vai phải và vai trái của plasmid cho phép vi khuẩn chuyển gene mới vào trong thực vật nhận. Hình 1.13: Plasmid dùng trong chuyển gene đậu nành Chuyển gene nhờ vi khuẩn A. tumefaciens thƣờng là sử dụng đĩa lá. Đĩa lá có đƣờng kýnh khoảng 6 mm đƣợc nuôi cấy trên đĩa môi trƣờng chứa A. tumefaciens mang plasmid chứa gene chuyển. Sau khoảng thời gian ủ khoảng một tháng trong môi PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 16 trƣờng nuôi cấy mô, chồi bắt đầu phát triển trên đĩa lá. Thông qua các phƣơng pháp chọn lọc, chồi chuyển gene đƣợc xác định và đƣợc tái tạo thành cây hoàn chỉnh. Hình 1.14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens Bắn gene (biolistics) Phƣơng pháp bắn gene sớm đƣợc sử dụng nhiều ngay sau khi ra đời để chuyển gene vào cây ngũ cốc. Phƣơng pháp này dựa trên sự bắn các vi hạt (tungsten hoặc vàng) bọc DNA vào mô nhờ lực đẩy của không khí, khí helium hoặc dòng điện. Christou và ctv (1991) là những tác giả đầu tiên nhận đƣợc cây chuyển gene từ phôi non của một số giống lúa qua sử dụng thiết bị bắn ACCELLR. Sau đó, Cao và ctv (1992) thông báo việc tạo cây chuyển gene từ tế bào huyền phù nhờ thiết bị PDS1000/ He Biolistic TM. Từ đó, phƣơng pháp này đƣợc sử dụng phổ biến để tạo cây chuyển gene. Phƣơng pháp này có thể áp dụng trên bất cứ loại mô nào có khả năng tái sinh cây, không cần sử dụng tế bào trần và loại mô đ

Các file đính kèm theo tài liệu này:

LUAN VAN TOT NGHIEP HOAN CHINH.pdf