Trí tuệ nhân tạo (AI) đã và đang trở thành xu hướng tất yếu trong giải
quyết các bài toán thực tiễn và ngày càng được nhiều ngành, nhiều nhà khoa
học quan tâm, đầu tư nghiên cứu, trong đó có các nghiên cứu áp dụng AI trong
lĩnh vực y tế. Một trong những lĩnh vực ứng dụng trí tuệ nhân tạo trong y tế là
phát triển các công nghệ thị giác máy tính trong tự động phân tích ảnh y tế, hỗ
trợ các bác sỹ trong chẩn đoán hình ảnh. Trong những năm gần đây, nghiên cứu
phát triển các mô hình học sâu, kỹ thuật thị giác máy tính tiên tiến để phân tích
ảnh nội soi đại tràng tự động phát, phân vùng các polyp trên ảnh nội soi đại
tràng hỗ trợ các bác sỹ trong chẩn đoán nội soi đại tràng, sàng lọc phát sớm ung
thư đại tràng là một trong những chủ đề nghiên cứu thu hút rât nhiều nhóm
nhiên cứu trên thế giới. Luận án này tập trung vào giải quyết bài toán phân vùng
polyp trên ảnh nội soi đại tràng sử dụng các mô hình học sâu và kỹ thuật thị
giác máy tính tiên tiến. Các kết quả chính của luận án bao gồm:
(i) Nghiên cứu, phân tích, đánh giá các mô hình học sâu phân vùng đối
tượng trên ảnh; Nghiên cứu các đặc trưng của các bộ dữ liệu ảnh nội soi;
Khảo sát, phân tích, đánh giá các bộ dữ liệu ảnh nội soi đại tràng chuẩn đã
được công bố cho hiện nay và các dữ liệu ảnh nội soi thu thập được từ hệ
thống PACS của Bệnh viện Quân y 103. Từ đó đề xuất các phương pháp phân
vùng polyp trên ảnh nội soi đại tràng có độ chính xác và tính tổng quát hóa tốt,
có thể làm nền tảng cho các ứng dụng triển khai trên thực tế với các dữ liệu rất
đa dạng
(ii) Nghiên cứu kỹ thuật học chuyển giao để chuyển giao các tri thức
học được của các mạng đã huấn luyện sẵn trên các bộ dữ liệu lớn vào giải quyết
bài toán trên lĩnh vực ảnh nội soi đại tràng với dữ liệu huấn luyện có gán nhãn
ít hơn rất nhiều
(iii) Nghiên cứu các mô hình học tự giám sát nhằm khai thác kho dữ liệu
không được gán nhãn thu thập được từ các hệ thống PACS của các bệnh viện
để nâng cao độ chính xác của hệ thống học sâu phân vùng polyp trên ảnh nội
soi tràng. Từ đó đề xuất một phương pháp học tự giám sát các đặc trưng thị
giác với tác vụ giả định là tác vụ tái tạo ảnh nội soi, tác vụ mục tiêu là tác vụ
phân vùng ảnh nội soi.
                
              
                                            
                                
            
 
            
                 127 trang
127 trang | 
Chia sẻ: huydang97 | Lượt xem: 1129 | Lượt tải: 2 
              
            Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển một số kỹ thuật học sâu áp dụng cho phân vùng Polyp trên ảnh nội soi đại tràng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
 
của các polyp và sự cân bằng của nó với nền. 
Một trong những phương pháp có hiệu quả để tăng cường dữ liệu cho các 
hệ thống học sâu là sử dụng các mạng sinh dữ liệu đối nghịch (GAN- 
Generative Adversarial Networks) [23] trong đó có mạng mạng sinh dữ liệu đối 
nghịch có điều kiện [47] (CGAN- Conditional GAN) là một dạng GAN trong 
đó có kiểm soát Generator sinh ảnh theo điều kiện đầu vào nhất định. Thúc đẩy 
bởi sự thành công của mạng CGAN trong việc sinh ảnh tổng hợp, Chương 4 
của luận án đề xuất phương pháp sinh dữ liệu ảnh nội soi dựa trên mạng CGAN 
để tăng cường dữ liệu cho mô hình học sâu phân vùng các polyp trên ảnh nội 
soi đại tràng. Mô hình sinh ảnh nội soi giả lập có chứa polyp đề xuất sử dụng 
mạng Pix2Pix [29] là một mạng CGAN. Để tạo ra ảnh nội soi có chứa polyp 
trong đó polyp và nền ảnh nội soi hài hòa một cách tự nhiên, luận án đã đề xuất 
sử dụng kết hợp lọc cạnh của ảnh nội soi đại tràng bình thường và ảnh nhị phân 
thể hiện hình dạng polyp (polyp mask) để tạo đầu vào điều kiện cho mạng sinh 
91 
ảnh nội soi đại tràng giả lập chứa polyp. Phương pháp đề xuất được sử dụng để 
khắc phục khó khăn trong việc thu thập mẫu dữ liệu ảnh nội soi đại tràng có 
chứa polyp và được gán nhãn phân vùng polyp dùng cho huấn luyện mô hình 
học sâu phân vùng polyp. Phần thực nghiệm cho thấy ảnh nội soi đại tràng giả 
lập được tạo bởi phương pháp đề xuất khá giống ảnh nội soi chứa polyp thực. 
Khi sử dụng các ảnh giả lập này để tăng số lượng dữ liệu ảnh huấn luyện cho 
mô hình học sâu phân vùng polyp thì độ chính xác mô hình tăng lên đáng kể. 
4.2. Phương pháp đề xuất 
4.2.1. Mạng sinh ảnh nội soi đại tràng chứa polyp PolypGenPix2Pix 
Luận án đã đề xuất sử dụng kiến trúc Pix2Pix [79] làm kiến trúc của mạng 
sinh ảnh nội soi đại tràng có chứa polyp. Mạng Pix2Pix là một loại GAN có 
điều kiện (CGAN-Conditinal GAN), trong đó bao gồm hai thành phần chính: 
là Bộ sinh và bộ phân biệt. Bộ sinh dùng để sinh ảnh đầu ra còn gọi là ảnh đích 
dựa trên điều kiện đầu vào, được gọi là ảnh nguồn. Đầu vào của Bộ phân biệt 
là ảnh nguồn và ảnh đích, Bộ phân biệt có nhiệm vụ xác định liệu ảnh đích có 
phải là một biến đổi hợp lý của ảnh nguồn hay không. Mạng sinh ảnh nội soi 
đại tràng chứa polyp gọi là PolypGenPix2Pix. Mạng này dựa trên kiến trúc 
mạng Pix2Pix [29] với điều kiện đầu vào là ảnh lọc cạnh của ảnh nội soi kết 
hợp với polyp mask. Hình 4.1 biểu diễn tổng quan mô hình đề xuất 
Hình 4.1. Minh họa mô hình sinh ảnh nội soi chứa polyp. 
 G là bộ sinh (Generator), G nhận đầu vào x (gọi là ảnh nguồn) được tạo 
ra bằng kết hợp của ảnh lọc cạnh của ảnh nội soi và polyp mask, có nhiệm vụ 
sinh ảnh nội soi chứa polyp G(x) so cho giống ảnh đích (y) nhất. D là bộ phân 
biệt (Discriminator), đầu vào của bộ phân biệt gồm 2 phần: ảnh nguồn x (đầu 
vào của bộ sinh) và ảnh nội soi chứa polyp, có thể là G(x) (đầu ra của bộ sinh) 
hoặc y ảnh nội soi thực trong bộ dữ liệu huấn luyện (y có nhãn là polyp mask 
được sử dụng để tạo ảnh nguồn x). 
92 
 Bộ sinh và bộ phân biệt được huấn luyện đồng thời trong một quy trình 
đối nghịch: Discriminator học để phân biệt (x, G(x)) là giả, (x, y) là thật (real). 
Ngược lại Generator sẽ học để sinh G(x) sao cho cặp (x, G(x)) đánh lừa được 
Discrimitor là thật. Hình 4.2 minh họa quá trình huấn luyện bộ phân biệt, Hình 
4.3 minh họa quá trình huấn luyện bộ sinh. 
Hình 4.2. Huấn luyện bộ phân biệt 
Hình 4.3. Huấn luyện bộ sinh 
- Kiến trúc bộ sinh: Bộ sinh của PolypGenPix2Pix có kiến trúc dạng UNet 
bao gồm bộ mã hóa (encoder), bộ giải mã (decoder) với các kết nối cộng (skip 
connections) giữa bộ mã hóa và bộ giải mã. Hình 4.4 mô tả kiến trúc của 
Generator. 
93 
Hình 4.4. Kiến trúc bộ sinh của PolypGenPix2Pix 
Bộ mã hóa của bộ sinh bao gồm 8 khối ENCODE, mỗi khối bao gồm 3 
phép biến đổi: Convolution-BatchNorm-LeakyReLU. Lớp tích chập 
(Convolution) sử dụng stride 2 × 2 và filter 4×4. Trong khi đó, bộ giải mã bao 
gồm 8 khối DECODE, mỗi khối bao gồm các phép biến đổi: Transpose 
Convolution-BatchNorm-Dropout-ReLU. Đầu vào x của bộ sinh là ảnh lọc 
cạnh kích thước 256x256x3, đầu ra của bộ sinh là ảnh nội soi chứa plolyps tổng 
hợp cùng kích thước với đầu vào 256x256x3. Bộ mã hóa dùng để trích xuất các 
đặc trưng và giảm dần kích thước của đầu vào. Bộ giải mã đọc đặc trưng ở đầu 
ra lớp cuối cùng của bộ mã hóa, sử dụng các tích chập chuyển vị (Transpose 
Convolution) để tăng kích thước và tổng hợp thông tin dần đến ảnh đích. 
- Kiến trúc bộ phân biệt: Bộ phân biệt sẽ có đầu vào là 2 ảnh trong đó một 
ảnh là điều kiện đầu vào của bộ sinh và một ảnh là ảnh nội soi có thể là đầu ra 
của bộ sinh hoặc ảnh một ảnh nội soi thực. Việc đưa cả ảnh điều kiện đầu vào 
sẽ giúp bộ phân biệt bộ phân biệt dễ phân biệt hơn ảnh nào là do bộ sinh tạo ra 
và ảnh nào trong dataset. Hình 4.5 mô phỏng kiến trúc của bộ phân biệt, trong 
đó bộ phân biệt có đầu vào là 2 ảnh: một ảnh là ảnh điều kiện chính là đầu vào 
của bộ sinh và một ảnh là ảnh cần phân biệt có thể là đầu ra của bộ sinh hoặc 
94 
ảnh thật tương ứng với đầu vào trong bộ dữ liệu học. Việc lấy ảnh điều kiện 
làm đầu vào sẽ giúp bộ phân biệt dễ phân biệt hơn ảnh nào là ảnh do bộ sinh 
sinh ra và ảnh nào là ảnh thật trong bộ dữ liệu học. Các ảnh đầu vào được xếp 
chồng bằng khối CONCAT, tiếp sau đó được đi qua các khối ENCODE, mỗi 
khối bao gồm 3 phép biến đổi: Convolution-BatchNorm-LeakyReLU. Kernel 
4 × 4 và stride 2 × 2 được sử dụng trên tất cả các lớp tích chập trừ 2 lớp cuối 
cùng. Hàm kích hoạt Sigmoid được sử dụng ở lớp đầu ra để dự đoán đầu vào 
là ảnh thật tức 1 hay ảnh đầu ra là giả tức 0. 
 Hình 4.5. Kiến trúc bộ phân biệt của PolypGenPix2Pix 
Bộ phân biệt được triển khai dưới dạng PatchGAN do các tác giả trong 
[29] đề xuất. Bộ phân biệt trong mạng GAN bình thường chính là một bộ phân 
lớp nhị phân với toàn bộ ảnh đầu vào sẽ được phân lớp với nhãn đầu ra là 0 tức 
ảnh giả hoặc 1 tức ảnh thật, trong khi đó ý tưởng của PatchGAN Discriminator 
là thực hiện phân lớp nhị phân trên từng vùng ảnh nhỏ (patch) thay vì trên toàn 
bộ ảnh. Khi huấn luyện Bộ phân biệt với ảnh thật tất cả các patch được gán 
nhãn 1, còn với ảnh giả tất cả các patch được gán nhãn 0. Huấn luyện Generator 
thì ngược lại, tất cả các patch của ảnh giả được gán nhãn 1. Trong nghiên cứu 
này luận án đã sử dụng PatchGAN 70x70 nghĩa là kích thước của mỗi patch là 
70x70. Mỗi pixel từ feature map 30x30 ở đầu ra tương ứng với một đầu ra của 
mỗi patch 70x70 ở đầu vào. 
- Hàm mất mát cho huấn luyện mô hình sinh ảnh nội soi đại tràng có chứa 
polyp: Mô hình sinh ảnh là một mô hình CGAN với hai thành phần Bộ sinh và 
95 
Bộ phân biệt. Mục tiêu của Bộ sinh (G) là học ánh xạ: 𝐺: 𝑥, 𝑧 → 𝑦 với x là ảnh 
nguồn, z là vector tơ nhiễu ngẫu nhiên, y là ảnh đích. Mục tiêu của Bộ phân 
biệt (D) cố gắng phân biệt đâu là ảnh thật (y) và đâu là ảnh giả (G(x,z)), trong 
khi đó Bộ sinh (G) sẽ học để đánh lừa bộ phân biệt rằng ảnh nó sinh ra (G(x,z)) 
là ảnh thật. Hàm mất mát của CGAN thông thường được định nghĩa như sau: 
ℒ𝑐𝐺𝐴𝑁(𝐺, 𝐷) = 𝐸𝑥,𝑦[𝑙𝑜𝑔𝐷(𝑥, 𝑦)] + 𝐸𝑥,𝑧[log(1 − 𝐷(𝑥, 𝐺(𝑥, 𝑧))))] (4.1) 
Trong đó 𝐺(∙) và 𝐷(∙) biểu diễn đầu ra của Bộ sinh và Bộ phân biệt, x là 
ảnh nguồn chính là điều kiện đầu vào của bộ sinh, z là vector tơ nhiễu ngẫu 
nhiên, y là ảnh đích là ảnh thực lấy từ bộ dữ liệu huấn luyện. 
Để tạo ảnh thực hơn luận án đề xuất thêm vào hàm mất mát (4.1) thành 
phần L1 được tính bằng khoảng cách theo dạng chuẩn 1 giữa đầu ra dự đoán 
của Bộ sinh và nhãn đúng thực sự (ground truth) y của đầu vào: 
𝐿𝐿1(𝐺) = 𝐸𝑥,𝑦,𝑧‖𝑦 − 𝐺(𝑥, 𝑧)‖1 (4.2) 
Hàm mất mát cuối cùng của PolypGenPix2Pix được biểu diễn như sau: 
ℒ𝐺∗ = 𝑎𝑟𝑔min
𝐺
max
𝐷
𝐿𝑐𝐺𝐴𝑁(𝐺, 𝐷) + 𝜆𝐿𝐿1(𝐺) (4.3) 
Với 𝜆 là tham số để kiểm soát cân bằng giữa 2 thành phần hàm mất mát, 
𝐿𝑐𝐺𝐴𝑁 cho phép GAN học được các chi tiết khung ảnh nhiều hơn còn 𝐿𝐿1 sẽ 
cho phép học được các chi tiết nhỏ của ảnh, kết hợp hai hàm mất mát này với 
nhau sẽ cho ra kết quả tốt hơn. Bằng thực nghiệm theo phương pháp tìm kiếm 
lưới (grid search), luận án đã chọn được tham số 𝜆 = 0,01 là giá trị cho kết quả 
sinh ảnh nội soi chứa polyp tốt nhất trên bộ dữ liệu thực nghiệm đã sử dụng 
4.2.2. Kỹ thuật sinh điều kiện đầu vào cho mạng sinh ảnh 
Để tạo ảnh nội soi chứa polyp mạng PolypGenPix2Pix cần có các điều 
kiện đầu vào. Trong nghiên cứu này, luận án đã đề xuất sử dụng phương pháp 
sinh điều kiện đầu vào cho mạng sinh ảnh theo Shin và các cộng sự [66] đã đề 
xuất, sử dụng các ảnh nội soi của ca bệnh bình thường tức ảnh nội soi không 
chứa các polyp kết hợp với các polyp mask được lấy trong bộ dữ liệu chuẩn. 
96 
Các ảnh nội soi bình thường này thu thập khá dễ dàng vì trên thực tế các trường 
hợp thực hiện nội soi đại tràng không có polyp nhiều hơn và không cần các 
chuyên gia y tế gán nhãn hình dạng polyp cho các dữ liệu này. Hình 4.6 dưới 
đây minh họa phương pháp tạo ảnh ảnh đầu vào mà luận án đã sử dụng. 
Hình 4.6. Kỹ thuật sinh tạo điều kiện đầu vào cho mô hình sinh ảnh 
Phương pháp sử dụng có thể mô tả như sau: Ảnh nội soi đại tràng bình 
thường không có polyp (a) qua bộ dò cạnh sử dụng toán tử Sobel được ảnh lọc 
cạnh (b). Sau đó ảnh lọc cạnh được kết hợp với polyp mask (c) để được ảnh 
điều kiện đầu vào (d) cho mạng sinh ảnh nội soi có chứa polyp. Các polyp 
mask dùng để sinh điều kiện đầu vào lấy từ nhãn trong bộ dữ liệu chuẩn dùng 
cho huấn luyện và áp dụng các kết hợp các phép biến đổi ảnh đơn giản là: xoay 
ảnh, lật ảnh theo chiều dọc và chiều ngang, phóng to thu nhỏ ảnh, Dịch ảnh 
theo chiều dọc và chiều ngang. 
Phương pháp sinh điều kiện đầu vào có tác dụng làm cho ảnh nội soi chứa 
polyp tổng hợp được tạo ra từ mô hình sinh ảnh nội soi đại tràng chứa polyp 
duy trì được cấu trúc và kết cấu tổng thể của ảnh nội soi chứa polyp thực tế. 
4.3. Thử nghiệm và đánh giá các kết quả 
4.3.1. Các bộ dữ liệu thử nghiệm 
Luận án đã sử dụng các bộ dữ liệu chuẩn đã công bố được phép sử dụng 
công khai cho các mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng 
để huấn luyện và đánh giá phương pháp đã đề xuất. Các bộ dữ liệu sử dụng bao 
97 
gồm: CVC-ClinicDB có 612 ảnh, CVC-ColonDB gồm 300 ảnh, ETIS-Larib 
gồm 196 ảnh. Đây là các bộ dữ liệu ảnh nội soi có gán nhãn phân vùng polyp 
được thu thập từ các hệ thống nội soi khác nhau. Ngoài ra luận án còn sử dụng 
các dữ liệu ảnh nội soi bình thường không chứa polyp được lấy từ bộ dữ liệu 
Kvasir v2-Aditional Set [53]. Chi tiết về các bộ dữ liệu đã được trình bày trong 
phần 1.1.3 của Chương 1. 
 Thông thường, để huấn luyện các mạng học sâu cần một số lượng lớn 
các mẫu huấn luyện, do đó các phép biến đổi ảnh để tăng số lượng mẫu huấn 
luyện cho cả mô hình sinh ảnh nội soi chứa polyp PolypGenPix2Pix và mô hình 
học sâu phân vùng polyp đã được sử dụng. Các phép biến đổi ảnh chính bao 
gồm: các phép quay ảnh với góc quay ngẫu nhiên và các phép lật ảnh theo 
chiều dọc/chiều ngang, phóng to thu nhỏ với tỉ lệ khác nhau, đổi độ sáng của 
ảnh, làm mờ (blurring) ảnh, thay đổi độ tương phản của ảnh. 
4.3.2. Môi trường cài đặt huấn luyện mô hình và các độ đo đánh giá mô hình 
Để huấn luyện mô hình sinh ảnh nội soi chứa polyp luận án đã sử dụng 
hàm tối ưu Adam với momentum = 0,5, tốc độ học λ= 0,0001, batch_size = 2. 
Trong bộ sinh, các lớp ở phần encode dropout =0,5 được áp dụng sau các lớp 
tích chập 2D. Với mô hình học sâu phân vùng polyp luận án dùng trọng số huấn 
luyện trước bằng bộ dữ liệu ảnh tự nhiên ImageNet của bộ mã hóa làm tham số 
khởi tạo. Sau đó huấn luyện để tinh chỉnh toàn bộ tham số của mô hình trên dữ 
liệu ảnh nội soi sử dụng hàm tối ưu Adam với tham số momentum=0.5 và tốc 
độ học λ=0.0002. Mô hình cuối cùng là mô hình có đạt hệ số dice lớn nhất trên 
tập validation. Tất cả các mô hình và thuật toán đều được lập trình và huấn 
luyện sử dụng thư viện Keras Tensorflow backend trên máy tính với card đồ 
họa GeForce GTX 1080 Ti GPU. Các mô hình được huấn luyện 5 lần với 200 
epoch mỗi lần và kết quả được lấy trung bình của 5 lần chạy. 
Để đánh giá hiệu quả của việc tạo các ảnh nội soi chứa polyp như một 
công cụ tăng cường dữ liệu cho hệ thống học sâu phân vùng polyp trên ảnh nội 
soi luận án thực hiện so sánh độ chính xác của mô hình học sâu phân vùng 
polyp được huấn luyện bằng hai bộ dữ liệu huấn luyện khác nhau: một là bộ dữ 
liệu huấn luyện gồm các mẫu ban đầu thu thập do các chuyên gia y tế gán nhãn 
98 
hai là bộ dữ liệu huấn luyện mới bao gồm các các mẫu dữ liệu ban đầu và các 
ảnh nội soi có polyps tổng hợp do mạng sinh dữ liệu tạo ra. Luận án đã sử dụng 
các độ đo đánh giá độ chính xác của mô hình phân vùng polyp là: Điểm số 
Dice, IoU, Recall (ký hiệu Re), Precision (ký hiệu Prec). Chi tiết về các độ đo 
này đã được trình bày trong phần 1.3.5 của Chương 1. 
4.3.3. Kết quả sinh ảnh nội soi chứa polyp của mô hình PolypGenPix2Pix 
Luận án đã thử nghiệm cài đặt mô hình sinh ảnh nội soi đại tràng có chứa 
polyp và huấn luyện mô hình này bằng bộ dữ liệu CVC-ClinicDB gồm 612 ảnh 
nội soi đại tràng được gán nhãn polyp mask. Các ảnh nội soi và ảnh lọc cạnh 
kết hợp với polyp mask tương ứng của bộ CVC-ClinicDB được sử dụng làm 
ảnh nguồn và ảnh đích của mô hình sinh ảnh. Sau khi được huấn luyện mô hình 
sinh ảnh được sử dụng để sinh ảnh nội soi giả lập chứa polyp tăng cường dữ 
liệu huấn luyện cho mô hình học sau phân vùng polyp. Các ảnh nội soi đại tràng 
bình thường không chứa polyp dùng để tạo đầu vào cho mạng 
PolypGenPix2Pix được lấy từ bộ Kvasir v2-Aditional Set. Các ảnh polyp mask 
để sinh điều kiện đầu vào cho mô hình sinh ảnh được lấy từ tập nhãn polyp 
mask của bộ dữ liệu ‘CVC-ClinicDB’. 
Hình 4.7. Một số ảnh nội soi chứa polyp sinh ra bởi mô hình sinh ảnh nội soi 
đại tràng có chứa polyp: (a) là ảnh nội không chứa polyp, (b) đầu vào cho mô 
hình sinh ảnh, (c) là ảnh giả lập được sinh ra bởi mô hình sinh ảnh. 
99 
 Hình 4.7 là một số ví dụ ảnh nội soi chứa polyp được sinh ra từ mô hình 
sinh ảnh, trong đó (a) là ảnh nội soi bình thường không chứa polyp được sử 
dụng để tạo ra điều kiện đầu vào (b) cho mô hình sinh ảnh, (c) là ảnh giả lập 
được sinh ra bởi mô hình sinh ảnh. Từ Hình 4.7 có thể thấy ảnh nội soi giả lập 
chứa polyp được tạo đã duy trì được cấu trúc và kết cấu tổng thể của nền từ ảnh 
nội soi bình thường ban đầu và ảnh nội soi chứa polyp rất giống ảnh thực. 
 Tuy nhiên, như chúng ta thấy trên Hình 4.7, không có sự khác biệt nhiều 
về màu sắc và kết cấu của các polyp được tạo ra trên các ảnh nội soi giả lập. 
Điều này có thể là do trong tập dữ liệu huấn luyện các loại polyp là có giới hạn. 
Luận án đã sử dụng bộ CVC-ClinicDB gồm 612 ảnh nội soi có chứa polyp để 
huấn luyện mô hình sinh ảnh, các ảnh này được thu được từ 31 chuỗi video nội 
soi đại trực tràng được lấy từ 23 bệnh nhân khác nhau do đó các loại polyp khác 
nhau khá ít và các nhãn là các polyp mask do các chuyên gia gán nhãn có hình 
dạng khá đơn giản. Do đó, trong giai đoạn huấn luyện, bộ sinh chỉ được thực 
thi để đánh lừa bộ phân biệt và không tạo ra nhiều loại polyp khác nhau. Vấn 
đề này có thể được giải quyết bằng cách phân loại các loại polyp khác nhau và 
thêm điều kiện loại polyp cho các đầu vào của mạng sinh ảnh. Để thực hiện 
việc này, chúng ta cần hợp tác với các bác sỹ để phân loại polyp và cần phải có 
bộ dữ liệu bao gồm các ảnh nội soi chứa nhiều loại polyp khác nhau. 
4.3.4. Đánh giá hiệu quả của kỹ thuật sinh điều kiện đầu vào cho mạng sinh 
ảnh nội soi 
Luận án đã sử dụng kỹ thuật sinh điều kiện đầu vào cho mạng sinh ảnh 
nội soi đại tràng chứa polyp là kết hợp lọc cạnh của ảnh nội soi bình thường và 
polyp mask. Để đánh giá hiệu quả của kỹ thuật này, luận án tiến hành hai thí 
nghiệm như sau: Huấn luyện mô hình sinh ảnh và sinh ảnh giả lập với điều kiện 
đầu vào được khác nhau: một là điều kiện đầu vào được tạo ra theo kỹ thuật 
sinh điều kiện đầu vào đã đề xuất sử dụng, hai là sử dụng các polyp mask làm 
điều kiện đầu vào, các polyp mask này cũng chính là các polyp mask được sử 
dụng để tạo điều kiện đầu vào theo kỹ thuật trên. Tất cả các tham số huấn luyện 
và dự đoán kết quả được sử dụng như nhau. Sau đó so sánh các kết quả đạt 
được. 
Hình 4.8 là một số ví dụ các so sánh sự khác nhau của ảnh nội soi đại tràng 
được sinh ra do điều kiện đầu vào của mô hình sinh khác nhau. Trong Hình 4.8, 
100 
dòng trên là ảnh điều kiện đầu vào cho mô hình sinh ảnh, dòng dưới tương ứng 
là các ảnh được sinh ra bởi mô hình sinh ảnh, cột (1) điều kiện đầu vào được 
sinh theo phương pháp đề xuất, cột (2) điều kiện đầu vào là ảnh polyp mask. 
Từ hình này có thể thấy với đầu vào là polyp mask, mặc dù mô hình sinh ảnh 
đã tạo ra các ảnh với polyp khá giống thực nhưng các nền của ảnh không giống 
như các ảnh nội soi thực sự so với các ảnh được tạo ra với điều kiện đầu vào 
được sinh bởi phương pháp đề xuất. Điều này chứng tỏ việc kết hợp các thông 
tin cạnh của các ảnh nội soi thực và polyp mask để sinh điều kiện đầu vào cho 
mô hình sinh ảnh theo kỹ thuật đề xuất, đã hướng dẫn mô hình tạo ra cấu trúc 
tổng thể cho ảnh nội soi giả lập một cách hiệu quả. 
Hình 4.8. Sự khác nhau của ảnh nội soi đại tràng chứa polyp sinh ra do 
điều kiện đầu vào mô hình sinh ảnh khác nhau 
4.3.5. So sánh độ chính xác của mô hình học sâu phân vùng polyp được tăng 
cường dữ liệu bởi mô hình sinh ảnh. 
Để đánh giá hiệu quả của việc tạo các ảnh nội soi giả lập có chứa polyp 
như một công cụ tăng cường dữ liệu cho hệ thống học sâu phân vùng polyp, 
luận án đã thực hiện cài đặt mô hình học sâu phân vùng polyp, huấn luyện mô 
hình với bộ dữ liệu nội soi chuẩn được gán nhãn phân vùng polyp bởi các chuyên 
gia chẩn đoán hình ảnh nội soi và bộ dữ liệu bao gồm các các mẫu dữ liệu của 
bộ dữ liệu ảnh nội soi chuẩn và các ảnh nội soi giả lập có polyps được tạo ra bởi 
phương pháp sinh dữ liệu ảnh nội soi đã đề xuất. Sau đó so sánh các kết quả đạt 
được. Mô hình học sâu phân vùng polyp trên ảnh nội soi sử dụng phương pháp 
101 
học chuyển giao (Transfer learning) và sử dụng kiến trúc mạng UNet [59] điều 
chỉnh với bộ mã hóa là mạng ResNet101 [25] được huấn luyện trước bằng bộ 
dữ liệu ảnh tự nhiên ImageNet. Hình 4.9. biểu diễn mô hình học sâu phân vùng 
polyp dựa trên ảnh nội soi đại tràng được sử dụng trong nghiên cứu. 
Hình 4.9. Mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng 
 Mô hình phân vùng polyp được huấn luyện sử dụng hai bộ dữ liệu huấn 
luyện khác nhau: một là sử dụng bộ CVC-ClinicDB, hai là sử dụng bộ dữ liệu 
huấn luyện mới bao gồm các mẫu trong bộ CVC-ClinicDB và các ảnh nội soi 
giả lập có polyp do mô hình sinh ảnh nội soi đại tràng chứa polyp tạo ra. Bộ dữ 
liệu huấn luyện được chia theo tỉ lệ 8:2 cho tập huấn luyện (train set) và tập 
validation. Sau khi huấn luyện thu được 2 bộ tham số tối ưu khác nhau của mô 
hình. Luận án đã đánh giá kết quả phân vùng polyp của mô hình với từng bộ 
tham số đó trên 2 bộ dữ liệu kiểm thử: ETIS-LaribPolypDB, bộ CVC-ColonDB 
và so sánh kết quả đạt được. Các mô hình được huấn luyện 5 lần mỗi lần 200 
epoch và kết quả đánh giá được lấy trung bình của 5 lần. 
 Bảng 4.1 trình bày kết quả đánh giá độ chính xác trên bộ dữ liệu kiểm 
thử CVC-ColonDB. Bảng 4.2 trình bày kết quả đánh giá độ chính xác trên bộ 
dữ liệu kiểm thử ETIS-Larib. Các bảng kết quả này cho thấy điểm số Dice và 
IoU của mô hình phân vùng polyp được cải thiện khi dữ liệu huấn luyện được 
tăng cường thêm các ảnh nội soi giả lập. Kết quả trên bộ CVC-ColonDB chỉ 
số tăng lên là 2,1% với hệ số Dice và 3,0% với IoU. Trong khi đó, kết quả trên 
bộ ETIS-Larib đạt được tăng 1,19% điểm số Dice và 2,69% với IoU. 
102 
Bảng 4.1. Kết quả tăng cường dữ liệu huấn luyện trên bộ dữ liệu kiểm thử 
CVC-ColonDB 
Dữ liệu huấn 
luyện 
Dice (%) IoU (%) Re (%) Prec (%) 
CVC-ClinicDB 84,07 73,1 79,92 89,56 
CVC-ClinicDB+ 
Ảnh giả lập 
86,17 76,1 84,8 88,14 
Bảng 4.2. Kết quả tăng cường dữ liệu huấn luyện trên bộ dữ liệu kiểm thử 
ETIS-Larib 
Dữ liệu huấn luyện Dice (%) IoU (%) Re (%) Prec (%) 
CVC-ClinicDB 77,67 63,67 78,03 77,8 
CVC-ClinicDB+ 
Ảnh giả lập 
78,86 66,39 82,67 77,27 
Bảng 4.3. So sánh kết quả tăng cường dữ liệu với số lượng dữ liệu tăng cường 
khác nhau trên bộ dữ liệu kiểm thử CVC-ColonDB 
Dữ liệu huấn luyện Dice (%) IoU (%) Re (%) Prec (%) 
CVC-ClinicDB 84,07 73,1 79,92 89,56 
CVC-ClinicDB+ 100 ảnh giả lập 85,3 75,02 83,64 87,94 
CVC-ClinicDB+ 200 ảnh giả lập 85,6 75,74 84,77 87,7 
CVC-ClinicDB+ 300 ảnh giả lập 86,17 76,1 84,8 88,14 
103 
Bảng 4.4. So sánh kết quả tăng cường dữ liệu với số lượng dữ liệu tăng cường 
khác nhau trên bộ dữ liệu kiểm thử ETIS-Larib 
Dữ liệu huấn luyện Dice (%) IoU (%) Re (%) Prec (%) 
CVC-ClinicDB 77,67 63,67 78,03 77,8 
CVC-ClinicDB+ 100 Ảnh giả lập 78,35 65,69 78,86 82,17 
CVC-ClinicDB+ 200 Ảnh giả lập 78,8 66,64 80,33 79,83 
CVC-ClinicDB+ 300 Ảnh giả lập 78,86 66,39 82,67 77,27 
Trong thí nghiệm trên 300 ảnh tổng hợp được sinh bởi mô hình sinh ảnh 
nội soi đại tràng chứa polyp được sử dụng để tăng cường dữ liệu cho mô hình 
học sâu phân vùng polyp. Để đánh giá ảnh hưởng của số lượng ảnh giả lập tăng 
cường tới độ chính xác của mô hình phân vùng polyp, mô hình phân vùng polyp 
được huấn luyện với các tập dữ liệu khác nhau như sau: Bộ dữ liệu 1 gồm 612 
ảnh nội soi đại tràng có gán nhãn polyp mask của bộ CVC-ClinicDB, Bộ dữ 
liệu 2 gồm CVC-ClinicDB và 100 ảnh giả lập, Bộ dữ liệu 3 gồm CVC-
ClinicDB và 200 ảnh giả lập, Bộ dữ liệu 4 gồm CVC-ClinicDB và 300 ảnh giả 
lập. Các mô hình sau khi huấn luyện được kiểm thử trên các bộ dữ liệu ETIS-
LaribPolypDB và CVC-ColonDB. 
Bảng 4.3 trình bày các kết quả kiểm thử trên bộ dữ liệu ETIS-
LaribPolypDB. Bảng 4.4 trình bày các kết quả kiểm thử trên bộ CVC-
ColonDB. Từ kết quả này có thể rút ra kết luận nhìn chung khi số lượng ảnh 
giả lập đưa vào huấn luyện tăng thì các độ đo Dice và IoU của mô hình phân 
vùng tăng lên, tức là độ chính xác của hệ thống phân vùng tốt lên. 
4.4. Kết luận Chương 4 
Chương 4 của luận án đã đề xuất một phương pháp học sâu tự động sinh 
ảnh nội soi giả lập chứa polyp sử dụng mạng sinh dữ liệu có điều, nhằm tăng 
104 
cường dữ liệu cho hệ thống học sâu phân vùng polyp trên ảnh nội soi đại tràng. 
Phương pháp đề xuất có thể tạo ra nhiều hình ảnh nội soi chứa polyp khác nhau 
từ các ảnh nội soi đại tràng bình thường không chứa polyp. Phương pháp này 
được sử dụng để khắc phục khó khăn trong việc thu thập mẫu dữ liệu được gán 
nhãn phân vùng polyp đa dạng dùng cho huấn luyện mô hình học sâu phân 
vùng polyp và khắc phục các khó khăn do ảnh nội soi chứa polyp, polyp bị mờ, 
bị che khuất một phần bởi các dụng cụ phẫu thuật. 
Các đóng góp chính của Chương 4 của luận án bao gồm: 
1. Đề xuất sử dụng mô hình Pix2Pix để sinh ảnh nội soi đại tràng giả lập 
có chứa polyp từ các ảnh nội soi bình thường, nhằm tăng cường dữ liệu huấn 
luyện cho các mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng. 
2. Đề xuất sử dụng kỹ thuật sinh các điều kiện đầu vào cho mạng sinh 
ảnh nội soi giả lập có chứa polyp là kết hợp ảnh nhị phân lọc cạnh của ảnh 
nội soi đại tràng bình thường và polyp mask. Kỹ thuật sinh điều kiện đầu vào 
này có tác dụng làm cho ảnh nội soi giả lập chứa polyp được tạo ra từ mô 
hình sinh ảnh duy trì được cấu trúc và kết cấu tổng thể của ảnh nội soi chứa 
polyp thực tế. 
3. Cài đặt thử nghiệm phương pháp đề xuất để sinh ảnh nội soi chứa polyp 
và huấn luyện mạng sử dụng bộ dữ liệu CVC-ClinicDB. Đánh giá định lượng 
chất lượng tăng cường dữ liệu của phương pháp đề xuất bằng độ chính xác của 
mạng phân vùng polyp được tăng cường dữ liệu. Kết quả thực nghiệm cho thấy 
độ chính xác của mô hình học sâu phân vùng polyp tăng đáng kể khi được tăng 
cường dữ liệu bằng phương pháp sinh ảnh nội soi đã đề xuất. 
Kết quả nghiên cứu trong chương này đã được công bố tại công trình [CT2] 
105 
KẾT LUẬN 
1. Các kết quả nghiên cứu của luận án 
Trí tuệ nhân tạo (AI) đã và đang trở thành xu hướng tất yếu trong giải 
quyết các bài toán thực tiễn và ngày càng được nhiều ngành, nhiều nhà khoa 
học quan tâm, đầu tư nghiên cứu, trong đó có các nghiên cứu áp dụng AI trong 
lĩnh vực y tế. Một trong những lĩnh vực ứng dụng trí tuệ nhân tạo trong y tế là 
phát triển các công nghệ thị giác máy tính trong tự động phân tích ảnh y tế, hỗ 
trợ các bác sỹ trong chẩn đoán hình ảnh. Trong những năm gần đây, nghiên cứu 
phát triển các mô hình học sâu, kỹ thuật thị giác máy tính tiên tiến để phân tích 
ảnh nội soi đại tràng tự động phát, phân vùng các polyp trên ảnh nội soi đại 
tràng hỗ trợ các bác sỹ trong chẩn đoán nội soi đại tràng, sàng lọc phát sớm ung 
thư đại tràng là một trong những chủ đề nghiên cứu thu hút rât nhiều nhóm 
nhiên cứu trên thế giới. Luận án này tập trung vào giải quyết bài toán phân vùng 
polyp trên ảnh nội soi đại tràng sử dụng các mô hình học sâu và kỹ thuật thị 
giác máy tính tiên tiến. Các kết quả chính của luận án bao gồm: 
 (i) Nghiên cứu, phân tích, đánh giá các mô hình học sâu phân vùng đối 
tượng trên ảnh; Nghiên cứu các đặc trưng của các bộ dữ liệu ảnh nội soi; 
Khảo sát, phân tích, đánh giá các bộ dữ liệu ảnh nội soi đại tràng chuẩn đã 
được công bố cho hiện nay và các dữ liệu ảnh nội soi thu thập được từ hệ 
thống PACS của Bệnh viện Quân y 103. Từ đó đề xuất các phương pháp phân 
vùng polyp trên ảnh nội soi đại tràng có độ chính xác và tính tổng quát hóa tốt, 
có thể làm nền tảng cho các ứng dụng triển khai trên thực tế với các dữ liệu rất 
đa dạng 
 (ii) Nghiên cứu kỹ thuật học chuyển giao để chuyển giao các tri thức 
học được của các mạng đã huấn luyện sẵn trên các bộ dữ liệu lớn vào giải quyết 
bài toán trên lĩnh vực ảnh nội soi đại tràng với dữ liệu huấn luyện có gán nhãn 
ít hơn rất nhiều 
(iii) Nghiên cứu các mô hình học tự giám sát nhằm khai thác kho dữ liệu 
không được gán nhãn thu thập được từ các hệ thống PACS của các bệnh viện 
để nâng cao độ chính xác của hệ thống học sâu phân vùng polyp trên ảnh nội 
soi tràng. Từ đó đề xuất một phương pháp học tự giám sát các đặc trưng thị 
giác với tác vụ giả định là tác vụ tái tạo ảnh nội soi, tác vụ mục tiêu là tác vụ 
phân vùng ảnh nội soi. 
106 
(iv) Nghiên cứu các phương pháp tăng cường dữ liệu cho hệ thống học 
sâu, từ đó đề xuất phương pháp sinh dữ liệu ảnh nội soi có chứa polyp tổng hợp 
để tăng cường dữ liệu cho mô hình học sâu phân vùng polyp. 
2. Những đóng góp mới của luận án 
Luận án có các đóng góp mới như sau: 
1. Đề xuất mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng 
CRF-EfficientUNet. Mô hình này được mở rộng từ mạng UNet với bộ mã hóa 
EfficientNet tích hợp lớp CRF-RNN ở trên cùng và sử dụng hàm mất mát bất 
đối xứng kết hợp AsymCE do luận án đề xuất. 
2. Đề xuất một phương pháp học tự giám sát các đặc trưng thị giác của 
ảnh nội soi đại tràng cho phân vùng polyp dựa trên tác vụ tái tạo ảnh nội soi. 
3. Đề xuất một phương pháp sinh ảnh nội soi đại tràng giả lập có nhãn 
phân vùng polyp sử dụng mạng sinh dữ liệu đối nghịch có điều kiện, nhằm tăng 
cường dữ liệu huấn luyện cho các mô hình học sâu phân vùng polyp trên ảnh 
nội soi đại tràng. 
3. Hướng nghiên cứu tiếp theo 
Hướng nghiên cứu tiếp theo của luận án nhằm để phát triển công trình 
để có thể đưa vào ứng dụng trong thực tiễn như sau: 
1. Tiếp tục nghiên cứu các mô hình học sâu cho phân vùng polyp để có 
thể xây dựng được mô hình có hiệu năng đủ tốt và có chi phí tính toán vừa phải 
phù hợp với hệ thống phần cứng thực tế khi triển khai ứng dụng. 
2. Nghiên cứu cải tiến phương pháp xác định siêu tham số tối ưu của hàm 
mất mát không đối xứng kết hợp để giảm thiểu công sức cho huấn luyện mô 
hình tìm kiếm siêu tham số tối ưu. 
3. Nghiên cứu, thử nghiệm các bộ mã hóa khác cho mạng UNet trong mô 
hình học tự giám sát, từ đó đưa ra bộ mã hóa phù hợp cho độ chính xác phân 
vùng polyp cao hơn. 
107 
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 
[CT1]. Le Thi Thu Hong, Nguyen Chi Thanh, and Tran Quoc Long, 
“Polyp segmentation in colonoscopy images using ensembles of u-nets with 
efficientnet and asymmetric similarity loss function,” in 2020 RIVF 
International Conference on Computing and Communication Technologies 
(RIVF), IEEE, pp.1–6, 2020. 
[CT2]. Lê Thị Thu Hồng, Nguyễn Chí Thành, Phạm Thu Hương, Nguyễn 
Sinh Huy, Nguyễn Văn Đức, Nguyễn Thành Trung, “Tăng cường dữ liệu huấn 
luyện cho hệ thống học sâu phân vùng polyp trên ảnh nội soi đại tràng”, Tạp 
chí Nghiên cứu Khoa học và Công nghệ quân sự, số Đặc san Hội thảo Quốc gia 
FEE, tr. 447-454, 10-2020. 
[CT3]. Le Thi Thu Hong, Nguyen Chi Thanh, and Tran Quoc Long, 
"CRF-EfficientUNet: an improved UNet framework for polyp segmentation in 
colonoscopy images with combined asymmetric loss function and CRF-RNN 
layer,” IEEE Access, vol. 9, pp. 156987 - 157001, 2021 (SCIE Q1, IF: 3,367). 
[CT4]. Lê Thị Thu Hồng, Nguyễn Chí Thành, Nguyễn Đức Hạnh, Trịnh 
Tiến Lương, Phạm Duy Thái, Ngô Văn Quân “Colonoscopy Image 
Classification Using Self-Supervised Visual Feature Learning”. Section on 
Computer Science and Control Engineering, Journal of Military science and 
technology, Sepecial Issue No.5, pp. 3-13, 12-2021. 
[CT5]. Le Thi Thu Hong, Nguyen Chi Thanh and Tran Quoc Long, "Self-
supervised Visual Feature Learning for Polyp Segmentation in Colonoscopy 
Images Using Image Reconstruction as Pretext Task" 2021 8th NAFOSTED 
Conference on Information and Computer Science (NICS), 2021, pp. 254-259, 
doi: 10.1109/NICS54270.2021.9701580. 
108 
TÀI LIỆU THAM KHẢO 
Tiếng Anh 
1. Afify, H. M., Mohammed, K. K., & Hassanien, A. E. (2021). An 
improved framework for polyp image segmentation based on SegNet 
architecture. International Journal of Imaging Systems and Technology. 
2. Ali, S., Ghatwary, N., Braden, B., Lamarque, D., Bailey, A., Realdon, 
S., Cannizzaro, R., Rittscher, J., Daul, C., & East, J. (2020). Endoscopy 
disease detection challenge 2020. ArXiv Preprint ArXiv:2003.03376. 
3. Ali, S., Zhou, F., Daul, C., Braden, B., Bailey, A., Realdon, S., East, J., 
Wagnieres, G., Loschenov, V., Grisan, E., & others. (2019). Endoscopy 
artifact detection (EAD 2019) challenge dataset. ArXiv Preprint 
ArXiv:1905.03209. 
4. Anh-Cang, P., Thuong-Cang, P., & others. (2019). Detection and 
Classification of Brain Hemorrhage Based on Hounsfield Values and 
Convolution Neural Network Technique. 2019 IEEE-RIVF 
International Conference on Computing and Communication 
Technologies (RIVF), 1–7. 
5. Ba, H. N., Thanh, D. N., Van, C. T., & Viet, S. D. (2021). Polyp 
segmentation in colonoscopy images using ensembles of u-nets with 
efficientnet and asymmetric similarity loss function. 2021 IEEE-RIVF 
International Conference on Computing and Communication 
Technologies (RIVF), 1–6. 
6. Badrinarayanan, V., Kendall, A., & Cipolla, R. (2017). Segnet: A deep 
convolutional encoder-decoder architecture for image segmentation. 
IEEE Transactions on Pattern Analysis and Machine Intelligence, 
39(12), 2481–2495. 
7. Berman, M., Triki, A. R., & Blaschko, M. B. (2018). The lovász-
softmax loss: A tractable surrogate for the optimization of the 
intersection-over-union measure in neural networks. Proceedings of the 
IEEE Conference on Computer Vision and Pattern Recognition, 4413–
4421. 
8. Bernal, J., Sánchez, J., & Vilarino, F. (2012). Towards automatic polyp 
detection with a polyp appearance model. Pattern Recognition, 45(9), 
3166–3182. 
9. Bernal, J., Tajkbaksh, N., Sanchez, F. J., Matuszewski, B. J., Chen, H., 
Yu, L., Angermann, Q., Romain, O., Rustad, B., Balasingham, I., & 
others. (2017). Comparative validation of polyp detection methods in 
video colonoscopy: results from the MICCAI 2015 endoscopic vision 
challenge. IEEE Transactions on Medical Imaging, 36(6), 1231–1249. 
109 
10. Borgli, H., Thambawita, V., Smedsrud, P. H., Hicks, S., Jha, D., 
Eskeland, S. L., Randel, K. R., Pogorelov, K., Lux, M., Nguyen, D. T. 
D., & others. (2020). HyperKvasir, a comprehensive multi-class image 
and video dataset for gastrointestinal endoscopy. Scientific Data, 7(1), 
1–14. 
11. Brandao, P., Mazomenos, E., Ciuti, G., Caliò, R., Bianchi, F., 
Menciassi, A., Dario, P., Koulaouzidis, A., Arezzo, A., & Stoyanov, D. 
(2017). Fully convolutional neural networks for polyp segmentation in 
colonoscopy. Medical Imaging 2017: Computer-Aided Diagnosis, 
10134, 101340F. 
12. Brent H.Taylor, M. (n.d.). Endoscopy/Colonoscopy. 
https://brenttaylormd.com/endoscopy-colonoscopy/ 
13. Browet, A., Absil, P.-A., & van Dooren, P. (2011). Community 
detection for hierarchical image segmentation. International Workshop 
on Combinatorial Image Analysis, 358–371. 
14. Chen, L., Bentley, P., Mori, K., Misawa, K., Fujiwara, M., & Rueckert, 
D. (2019). Self-supervised learning for medical image analysis using 
image context restoration. Medical Image Analysis, 58, 101539. 
15. Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. 
(2017). Deeplab: Semantic image segmentation with deep convolutional 
nets, atrous convolution, and fully connected crfs. IEEE Transactions 
on Pattern Analysis and Machine Intelligence, 40(4), 834–848. 
16. CVC-Colon team. (2017, November 15). Building up Intelligent 
Systems for Colonoscopy. 
Colon/index.php/our-mission/ 
17. Endoscopy-vision challenge. (2014). Sub-challenge Automatic dection 
polyp in colonoscopy Videos. 
18. Fan, D.-P., Ji, G.-P., Zhou, T., Chen, G., Fu, H., Shen, J., & Shao, L. 
(2020). Pranet: Parallel reverse attention network for polyp 
segmentation. International Conference on Medical Image Computing 
and Computer-Assisted Intervention, 263–273. 
19. Fang, Y., Chen, C., Yuan, Y., & Tong, K. (2019). Selective feature 
aggregation network with area-boundary constraints for polyp 
segmentation. International Conference on Medical Image Computing 
and Computer-Assisted Intervention, 302–310. 
20. Ganz, M., Yang, X., & Slabaugh, G. (2012). Automatic segmentation of 
polyps in colonoscopic narrow-band imaging data. IEEE Transactions 
on Biomedical Engineering, 59(8), 2144–2151. 
110 
21. Geetha, K., & Rajan, C. (2016). Automatic colorectal polyp detection in 
colonoscopy video frames. Asian Pacific Journal of Cancer Prevention: 
APJCP, 17(11), 4869. 
22. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT 
press. 
23. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., 
Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial 
nets. Advances in Neural Information Processing Systems, 27. 
24. Hashemi, S. R., Salehi, S. S. M., Erdogmus, D., Prabhu, S. P., Warfield, 
S. K., & Gholipour, A. (2018). Asymmetric loss functions and deep 
densely-connected networks for highly-imbalanced medical image 
segmentation: Application to multiple sclerosis lesion detection. IEEE 
Access, 7, 1721–1735. 
25. He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017). Mask r-cnn. 
Proceedings of the IEEE International Conference on Computer Vision, 
2961–2969. 
26. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for 
image recognition. Proceedings of the IEEE Conference on Computer 
Vision and Pattern Recognition, 770–778. 
27. Hsu, C.-M., Hsu, C.-C., Hsu, Z.-M., Shih, F.-Y., Chang, M.-L., & Chen, 
T.-H. (2021). Colorectal Polyp Image Detection and Classification 
through Grayscale Images and Deep Learning. Sensors, 21(18), 5995. 
28. Huynh, H. T., & Anh, V. N. N. (2019). A deep learning method for lung 
segmentation on large size chest X-ray image. 2019 IEEE-RIVF 
International Conference on Computing and Communication 
Technologies (RIVF), 1–5. 
29. Isola, P., Zhu, J.-Y., Zhou, T., & Efros, A. A. (2017). Image-to-image 
translation with conditional adversarial networks. Proceedings of the 
IEEE Conference on Computer Vision and Pattern Recognition, 1125–
1134. 
30. Jha, D., Ali, S., Emanuelsen, K., Hicks, S. A., Thambawita, V., Garcia-
Ceja, E., Riegler, M. A., de Lange, T., Schmidt, P. T., Johansen, H. D., 
& others. (2021). Kvasir-instrument: Diagnostic and therapeutic tool 
segmentation dataset in gastrointestinal endoscopy. International 
Conference on Multimedia Modeling, 218–229. 
31. Jha, D., Riegler, M. A., Johansen, D., Halvorsen, P., & Johansen, H. D. 
(2020). Doubleu-net: A deep convolutional neural network for medical 
image segmentation. 2020 IEEE 33rd International Symposium on 
Computer-Based Medical Systems (CBMS), 558–564. 
111 
32. Jha, D., Smedsrud, P. H., Johansen, D., de Lange, T., Johansen, H. D., 
Halvorsen, P., & Riegler, M. A. (2021). A comprehensive study on 
colorectal polyp segmentation with ResUNet++, conditional random 
field and test-time augmentation. IEEE Journal of Biomedical and 
Health Informatics, 25(6), 2029–2040. 
33. Jha, D., Smedsrud, P. H., Riegler, M. A., Halvorsen, P., de Lange, T., 
Johansen, D., & Johansen, H. D. (2020). Kvasir-seg: A segmented polyp 
dataset. International Conference on Multimedia Modeling, 451–462. 
34. Jha, D., Smedsrud, P. H., Riegler, M. A., Johansen, D., de Lange, T., 
Halvorsen, P., & Johansen, H. D. (2019a). Resunet++: An advanced 
architecture for medical image segmentation. 2019 IEEE International 
Symposium on Multimedia (ISM), 225–2255. 
35. Jha, D., Smedsrud, P. H., Riegler, M. A., Johansen, D., de Lange, T., 
Halvorsen, P., & Johansen, H. D. (2019b). Resunet++: An advanced 
architecture for medical image segmentation. 2019 IEEE International 
Symposium on Multimedia (ISM), 225–2255. 
36. Jing, L., & Tian, Y. (2020). Self-supervised visual feature learning with 
deep neural networks: A survey. IEEE Transactions on Pattern Analysis 
and Machine Intelligence. 
37. Kang, J., & Gwak, J. (2019). Ensemble of instance segmentation models 
for polyp segmentation in colonoscopy images. IEEE Access, 7, 26440–
26447. 
38. Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic 
optimization. ArXiv Preprint ArXiv:1412.6980. 
39. Krähenbühl, P., & Koltun, V. (2011). Efficient inference in fully 
connected crfs with gaussian edge potentials. Advances in Neural 
Information Processing Systems, 24, 109–117. 
40. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet 
classification with deep convolutional neural networks. Advances in 
Neural Information Processing Systems, 25, 1097–1105. 
41. LeCun, Y., Haffner, P., Bottou, L., & Bengio, Y. (1999). Object 
recognition with gradient-based learning. In Shape, contour and 
grouping in computer vision (pp. 319–345). Springer. 
42. Leufkens, A. M., van Oijen, M. G. H., Vleggaar, F. P., & Siersema, P. 
D. (2012). Factors influencing the miss rate of polyps in a back-to-back 
colonoscopy study. Endoscopy, 44(05), 470–475. 
43. Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional 
networks for semantic segmentation. Proceedings of the IEEE 
Conference on Computer Vision and Pattern Recognition, 3431–3440. 
112 
44. Mahmud, T., Paul, B., & Fattah, S. A. (2021). PolypSegNet: A modified 
encoder-decoder architecture for automated polyp segmentation from 
colonoscopy images. Computers in Biology and Medicine, 128, 104119. 
45. Mesejo, P., Pizarro, D., Abergel, A., Rouquette, O., Beorchia, S., 
Poincloux, L., & Bartoli, A. (2016). Computer-aided classification of 
gastrointestinal lesions in regular colonoscopy. IEEE Transactions on 
Medical Imaging, 35(9), 2051–2063. 
46. Milletari, F., Navab, N., & Ahmadi, S.-A. (2016). V-net: Fully 
convolutional neural networks for volumetric medical image 
segmentation. 2016 Fourth International Conference on 3D Vision 
(3DV), 565–571. 
47. Mirza, M., & Osindero, S. (2014). Conditional generative adversarial 
nets. ArXiv Preprint ArXiv:1411.1784. 
48. Misawa, M., Kudo, S., Mori, Y., Cho, T., Kataoka, S., Yamauchi, A., 
Ogawa, Y., Maeda, Y., Takeda, K., Ichimasa, K., & others. (2018). 
Artificial intelligence-assisted polyp detection for colonoscopy: initial 
experience. Gastroenterology, 154(8), 2027–2029. 
49. Nguyen, N.-Q., & Lee, S.-W. (2019). Robust boundary segmentation in 
medical images using a consecutive deep encoder-decoder network. 
Ieee Access, 7, 33795–33808. 
50. Nguyen, N.-Q., Vo, D. M., & Lee, S.-W. (2020). Contour-aware polyp 
segmentation in colonoscopy images using detailed upsamling encoder-
decoder networks. IEEE Access, 8, 99495–99508. 
51. Nguyen, T. H., Prifti, E., Sokolovska, N., & Zucker, J.-D. (2019). 
Disease prediction using synthetic image representations of 
metagenomic data and convolutional neural networks. 2019 IEEE-RIVF 
International Conference on Computing and Communication 
Technologies (RIVF), 1–6. 
52. Park, S., Lee, M., & Kwak, N. (2015). Polyp detection in colonoscopy 
videos using deeply-learned hierarchical features. Seoul National 
University. 
53. Pogorelov, K., Randel, K. R., de Lange, T., Eskeland, S. L., Griwodz, 
C., Johansen, D., Spampinato, C., Taschwer, M., Lux, M., Schmidt, P. 
T., & others. (2017). Nerthus: A bowel preparation quality video 
dataset. Proceedings of the 8th ACM on Multimedia Systems 
Conference, 170–174. 
54. Pogorelov, K., Randel, K. R., Griwodz, C., Eskeland, S. L., de Lange, 
T., Johansen, D., Spampinato, C., Dang-Nguyen, D.-T., Lux, M., 
Schmidt, P. T., & others. (2017). Kvasir: A multi-class image dataset 
113 
for computer aided gastrointestinal disease detection. Proceedings of the 
8th ACM on Multimedia Systems Conference, 164–169. 
55. Poudel, S., & Lee, S.-W. (2021). Deep multi-scale attentional features 
for medical image segmentation. Applied Soft Computing, 109, 107445. 
56. Qadir, H. A., Shin, Y., Solhusvik, J., Bergsland, J., Aabakken, L., & 
Balasingham, I. (2019a). Polyp detection and segmentation using mask 
R-CNN: Does a deeper feature extractor CNN always perform better? 
2019 13th International Symposium on Medical Information and 
Communication Technology (ISMICT), 1–6. 
57. Qadir, H. A., Shin, Y., Solhusvik, J., Bergsland, J., Aabakken, L., & 
Balasingham, I. (2019b). Polyp detection and segmentation using mask 
R-CNN: Does a deeper feature extractor CNN always perform better? 
2019 13th International Symposium on Medical Information and 
Communication Technology (ISMICT), 1–6. 
58. Qadir, H. A., Shin, Y., Solhusvik, J., Bergsland, J., Aabakken, L., & 
Balasingham, I. (2021). Toward real-time polyp detection using fully 
CNNs for 2D Gaussian shapes prediction. Medical Image Analysis, 68, 
101897. 
59. Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional 
networks for biomedical image segmentation. International Conference 
on Medical Image Computing and Computer-Assisted Intervention, 
234–241. 
60. Ruder, S. (2016). An overview of gradient descent optimization 
algorithms. ArXiv Preprint ArXiv:1609.04747. 
61. Safarov, S., & Whangbo, T. K. (2021). A-DenseUNet: Adaptive densely 
connected UNet for polyp segmentation in colonoscopy images with 
atrous convolution. Sensors, 21(4), 1441. 
62. Sánchez-Peralta, L. F., Picón, A., Sánchez-Margallo, F. M., & Pagador, 
J. B. (2020). Unravelling the effect of data augmentation 
transformations in polyp segmentation. International Journal of 
Computer Assisted Radiology and Surgery, 15(12), 1975–1988. 
63. Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.-C. 
(2018). Mobilenetv2: Inverted residuals and linear bottlenecks. 
Proceedings of the IEEE Conference on Computer Vision and Pattern 
Recognition, 4510–4520. 
64. Shin, Y., Qadir, H. A., Aabakken, L., Bergsland, J., & Balasingham, I. 
(2018a). Automatic colon polyp detection using region based deep cnn 
and post learning approaches. IEEE Access, 6, 40950–40962. 
114 
65. Shin, Y., Qadir, H. A., Aabakken, L., Bergsland, J., & Balasingham, I. 
(2018b). Automatic colon polyp detection using region based deep cnn 
and post learning approaches. IEEE Access, 6, 40950–40962. 
66. Shin, Y., Qadir, H. A., & Balasingham, I. (2018). Abnormal colon polyp 
image synthesis using conditional adversarial networks for improved 
detection performance. IEEE Access, 6, 56007–56017. 
67. Silva, J., Histace, A., Romain, O., Dray, X., & Granado, B. (2014). 
Toward embedded detection of polyps in wce images for early diagnosis 
of colorectal cancer. International Journal of Computer Assisted 
Radiology and Surgery, 9(2), 283–293. 
68. Simonyan, K., & Zisserman, A. (2014). Very deep convolutional 
networks for large-scale image recognition. ArXiv Preprint 
ArXiv:1409.1556. 
69. Smedsrud, P. H., Thambawita, V., Hicks, S. A., Gjestang, H., 
Nedrejord, O. O., Næss, E., Borgli, H., Jha, D., Berstad, T. J. D., 
Eskeland, S. L., & others. (2021). Kvasir-Capsule, a video capsule 
endoscopy dataset. Scientific Data, 8(1), 1–10. 
70. Sokolova, M., & Lapalme, G. (2009). A systematic analysis of 
performance measures for classification tasks. Information Processing 
& Management, 45(4), 427–437. 
71. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & 
Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural 
networks from overfitting. The Journal of Machine Learning Research, 
15(1), 1929–1958. 
72. Sức khỏe và đời sống. (2020). Ứng dụng trí tuệ nhân tạo trong nội soi 
tiêu hóa. https://suckhoedoisong.vn/ung-dung-tri-tue-nhan-tao-trong-
noi-soi-tieu-hoa-169181933.htm 
73. Sung, H., Ferlay, J., Siegel, R. L., Laversanne, M., Soerjomataram, I., 
Jemal, A., & Bray, F. (2021). Global cancer statistics 2020: 
GLOBOCAN estimates of incidence and mortality worldwide for 36 
cancers in 185 countries. CA: A Cancer Journal for Clinicians, 71(3), 
209–249. 
74. Syed, A., & Morris, B. T. (2019). SSeg-LSTM: semantic scene 
segmentation for trajectory prediction. 2019 IEEE Intelligent Vehicles 
Symposium (IV), 2504–2509. 
75. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., 
Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper with 
convolutions. Proceedings of the IEEE Conference on Computer Vision 
and Pattern Recognition, 1–9. 
115 
76. Taha, D., Alzu’bi, A., Abuarqoub, A., Hammoudeh, M., & Elhoseny, 
M. (2021). Automated Colorectal Polyp Classification Using Deep 
Neural Networks with Colonoscopy Images. International Journal of 
Fuzzy Systems, 1–13. 
77. Tajbakhsh, N., Gurudu, S. R., & Liang, J. (2013). A classification-
enhanced vote accumulation scheme for detecting colonic polyps. 
International MICCAI Workshop on Computational and Clinical 
Challenges in Abdominal Imaging, 53–62. 
78. Tajbakhsh, N., Gurudu, S. R., & Liang, J. (2015a). Automated polyp 
detection in colonoscopy videos using shape and context information. 
IEEE Transactions on Medical Imaging, 35(2), 630–644. 
79. Tajbakhsh, N., Gurudu, S. R., & Liang, J. (2015b). Automated polyp 
detection in colonoscopy videos using shape and context information. 
IEEE Transactions on Medical Imaging, 35(2), 630–644. 
80. Tan, M., & Le, Q. (2019). Efficientnet: Rethinking model scaling for 
convolutional neural networks. International Conference on Machine 
Learning, 6105–6114. 
81. Thuwarakesh Murallie. (2021). Transfer Learning: The Highest 
Leverage Deep Learning Skill You Can Learn. 
https://towardsdatascience.com/transfer-learning-in-deep-learning-
641089950f5d 
82. Vardan Agarwal. (n.d.). Complete Architectural Details of all 
EfficientNet Models. https://towardsdatascience.com/complete-
architectural-details-of-all-efficientnet-models-5fd5b736142 
83. VinBigData. (2020). Shaping the future of medical data analysis. 
https://vindr.ai/ 
84. Wang, P., Xiao, X., Brown, J. R. G., Berzin, T. M., Tu, M., Xiong, F., 
Hu, X., Liu, P., Song, Y., Zhang, D., & others. (2018). Development 
and validation of a deep-learning algorithm for the detection of polyps 
during colonoscopy. Nature Biomedical Engineering, 2(10), 741–748. 
85. Wang, Y., Feng, Z., Song, L., Liu, X., & Liu, S. (2021). 
Multiclassification of endoscopic colonoscopy images based on deep 
transfer learning. Computational and Mathematical Methods in 
Medicine, 2021. 
86. Wang, Z., Bovik, A. C., Sheikh, H. R., & Simoncelli, E. P. (2004). 
Image quality assessment: from error visibility to structural similarity. 
IEEE Transactions on Image Processing, 13(4), 600–612. 
87. Weiss, K., Khoshgoftaar, T. M., & Wang, D. (2016). A survey of 
transfer learning. Journal of Big Data, 3(1), 1–40. 
116 
88. Yakubovskiy, P. (2019). Segmentation Models. In GitHub repository. 
GitHub. 
89. Zhang, L., Dolwani, S., & Ye, X. (2017). Automated polyp 
segmentation in colonoscopy frames using fully convolutional neural 
network and textons. Annual Conference on Medical Image 
Understanding and Analysis, 707–717. 
90. Zhang, R., Zheng, Y., Poon, C. C. Y., Shen, D., & Lau, J. Y. W. (2018). 
Polyp detection during colonoscopy using a regression-based 
convolutional neural network with a tracker. Pattern Recognition, 83, 
209–219. 
91. Zhang, X., Chen, F., Yu, T., An, J., Huang, Z., Liu, J., Hu, W., Wang, 
L., Duan, H., & Si, J. (2019). Real-time gastric polyp detection using 
convolutional neural networks. PloS One, 14(3), e0214133. 
92. Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du, 
D., Huang, C., & Torr, P. H. S. (2015). Conditional random fields as 
recurrent neural networks. Proceedings of the IEEE International 
Conference on Computer Vision, 1529–1537. 
93. Zhou, Z., Siddiquee, M. M. R., Tajbakhsh, N., & Liang, J. (2018). 
Unet++: A nested u-net architecture for medical image segmentation. In 
Deep learning in medical image analysis and multimodal learning for 
clinical decision support (pp. 3–11). Springer. 
94. Zijdenbos, A. P., Dawant, B. M., Margolin, R. A., & Palmer, A. C. 
(1994). Morphometric analysis of white matter lesions in MR images: 
method and validation. IEEE Transactions on Medical Imaging, 13(4), 
716–724.