Trí tuệ nhân tạo (AI) đã và đang trở thành xu hướng tất yếu trong giải
quyết các bài toán thực tiễn và ngày càng được nhiều ngành, nhiều nhà khoa
học quan tâm, đầu tư nghiên cứu, trong đó có các nghiên cứu áp dụng AI trong
lĩnh vực y tế. Một trong những lĩnh vực ứng dụng trí tuệ nhân tạo trong y tế là
phát triển các công nghệ thị giác máy tính trong tự động phân tích ảnh y tế, hỗ
trợ các bác sỹ trong chẩn đoán hình ảnh. Trong những năm gần đây, nghiên cứu
phát triển các mô hình học sâu, kỹ thuật thị giác máy tính tiên tiến để phân tích
ảnh nội soi đại tràng tự động phát, phân vùng các polyp trên ảnh nội soi đại
tràng hỗ trợ các bác sỹ trong chẩn đoán nội soi đại tràng, sàng lọc phát sớm ung
thư đại tràng là một trong những chủ đề nghiên cứu thu hút rât nhiều nhóm
nhiên cứu trên thế giới. Luận án này tập trung vào giải quyết bài toán phân vùng
polyp trên ảnh nội soi đại tràng sử dụng các mô hình học sâu và kỹ thuật thị
giác máy tính tiên tiến. Các kết quả chính của luận án bao gồm:
(i) Nghiên cứu, phân tích, đánh giá các mô hình học sâu phân vùng đối
tượng trên ảnh; Nghiên cứu các đặc trưng của các bộ dữ liệu ảnh nội soi;
Khảo sát, phân tích, đánh giá các bộ dữ liệu ảnh nội soi đại tràng chuẩn đã
được công bố cho hiện nay và các dữ liệu ảnh nội soi thu thập được từ hệ
thống PACS của Bệnh viện Quân y 103. Từ đó đề xuất các phương pháp phân
vùng polyp trên ảnh nội soi đại tràng có độ chính xác và tính tổng quát hóa tốt,
có thể làm nền tảng cho các ứng dụng triển khai trên thực tế với các dữ liệu rất
đa dạng
(ii) Nghiên cứu kỹ thuật học chuyển giao để chuyển giao các tri thức
học được của các mạng đã huấn luyện sẵn trên các bộ dữ liệu lớn vào giải quyết
bài toán trên lĩnh vực ảnh nội soi đại tràng với dữ liệu huấn luyện có gán nhãn
ít hơn rất nhiều
(iii) Nghiên cứu các mô hình học tự giám sát nhằm khai thác kho dữ liệu
không được gán nhãn thu thập được từ các hệ thống PACS của các bệnh viện
để nâng cao độ chính xác của hệ thống học sâu phân vùng polyp trên ảnh nội
soi tràng. Từ đó đề xuất một phương pháp học tự giám sát các đặc trưng thị
giác với tác vụ giả định là tác vụ tái tạo ảnh nội soi, tác vụ mục tiêu là tác vụ
phân vùng ảnh nội soi.
127 trang |
Chia sẻ: huydang97 | Ngày: 27/12/2022 | Lượt xem: 592 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển một số kỹ thuật học sâu áp dụng cho phân vùng Polyp trên ảnh nội soi đại tràng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
của các polyp và sự cân bằng của nó với nền.
Một trong những phương pháp có hiệu quả để tăng cường dữ liệu cho các
hệ thống học sâu là sử dụng các mạng sinh dữ liệu đối nghịch (GAN-
Generative Adversarial Networks) [23] trong đó có mạng mạng sinh dữ liệu đối
nghịch có điều kiện [47] (CGAN- Conditional GAN) là một dạng GAN trong
đó có kiểm soát Generator sinh ảnh theo điều kiện đầu vào nhất định. Thúc đẩy
bởi sự thành công của mạng CGAN trong việc sinh ảnh tổng hợp, Chương 4
của luận án đề xuất phương pháp sinh dữ liệu ảnh nội soi dựa trên mạng CGAN
để tăng cường dữ liệu cho mô hình học sâu phân vùng các polyp trên ảnh nội
soi đại tràng. Mô hình sinh ảnh nội soi giả lập có chứa polyp đề xuất sử dụng
mạng Pix2Pix [29] là một mạng CGAN. Để tạo ra ảnh nội soi có chứa polyp
trong đó polyp và nền ảnh nội soi hài hòa một cách tự nhiên, luận án đã đề xuất
sử dụng kết hợp lọc cạnh của ảnh nội soi đại tràng bình thường và ảnh nhị phân
thể hiện hình dạng polyp (polyp mask) để tạo đầu vào điều kiện cho mạng sinh
91
ảnh nội soi đại tràng giả lập chứa polyp. Phương pháp đề xuất được sử dụng để
khắc phục khó khăn trong việc thu thập mẫu dữ liệu ảnh nội soi đại tràng có
chứa polyp và được gán nhãn phân vùng polyp dùng cho huấn luyện mô hình
học sâu phân vùng polyp. Phần thực nghiệm cho thấy ảnh nội soi đại tràng giả
lập được tạo bởi phương pháp đề xuất khá giống ảnh nội soi chứa polyp thực.
Khi sử dụng các ảnh giả lập này để tăng số lượng dữ liệu ảnh huấn luyện cho
mô hình học sâu phân vùng polyp thì độ chính xác mô hình tăng lên đáng kể.
4.2. Phương pháp đề xuất
4.2.1. Mạng sinh ảnh nội soi đại tràng chứa polyp PolypGenPix2Pix
Luận án đã đề xuất sử dụng kiến trúc Pix2Pix [79] làm kiến trúc của mạng
sinh ảnh nội soi đại tràng có chứa polyp. Mạng Pix2Pix là một loại GAN có
điều kiện (CGAN-Conditinal GAN), trong đó bao gồm hai thành phần chính:
là Bộ sinh và bộ phân biệt. Bộ sinh dùng để sinh ảnh đầu ra còn gọi là ảnh đích
dựa trên điều kiện đầu vào, được gọi là ảnh nguồn. Đầu vào của Bộ phân biệt
là ảnh nguồn và ảnh đích, Bộ phân biệt có nhiệm vụ xác định liệu ảnh đích có
phải là một biến đổi hợp lý của ảnh nguồn hay không. Mạng sinh ảnh nội soi
đại tràng chứa polyp gọi là PolypGenPix2Pix. Mạng này dựa trên kiến trúc
mạng Pix2Pix [29] với điều kiện đầu vào là ảnh lọc cạnh của ảnh nội soi kết
hợp với polyp mask. Hình 4.1 biểu diễn tổng quan mô hình đề xuất
Hình 4.1. Minh họa mô hình sinh ảnh nội soi chứa polyp.
G là bộ sinh (Generator), G nhận đầu vào x (gọi là ảnh nguồn) được tạo
ra bằng kết hợp của ảnh lọc cạnh của ảnh nội soi và polyp mask, có nhiệm vụ
sinh ảnh nội soi chứa polyp G(x) so cho giống ảnh đích (y) nhất. D là bộ phân
biệt (Discriminator), đầu vào của bộ phân biệt gồm 2 phần: ảnh nguồn x (đầu
vào của bộ sinh) và ảnh nội soi chứa polyp, có thể là G(x) (đầu ra của bộ sinh)
hoặc y ảnh nội soi thực trong bộ dữ liệu huấn luyện (y có nhãn là polyp mask
được sử dụng để tạo ảnh nguồn x).
92
Bộ sinh và bộ phân biệt được huấn luyện đồng thời trong một quy trình
đối nghịch: Discriminator học để phân biệt (x, G(x)) là giả, (x, y) là thật (real).
Ngược lại Generator sẽ học để sinh G(x) sao cho cặp (x, G(x)) đánh lừa được
Discrimitor là thật. Hình 4.2 minh họa quá trình huấn luyện bộ phân biệt, Hình
4.3 minh họa quá trình huấn luyện bộ sinh.
Hình 4.2. Huấn luyện bộ phân biệt
Hình 4.3. Huấn luyện bộ sinh
- Kiến trúc bộ sinh: Bộ sinh của PolypGenPix2Pix có kiến trúc dạng UNet
bao gồm bộ mã hóa (encoder), bộ giải mã (decoder) với các kết nối cộng (skip
connections) giữa bộ mã hóa và bộ giải mã. Hình 4.4 mô tả kiến trúc của
Generator.
93
Hình 4.4. Kiến trúc bộ sinh của PolypGenPix2Pix
Bộ mã hóa của bộ sinh bao gồm 8 khối ENCODE, mỗi khối bao gồm 3
phép biến đổi: Convolution-BatchNorm-LeakyReLU. Lớp tích chập
(Convolution) sử dụng stride 2 × 2 và filter 4×4. Trong khi đó, bộ giải mã bao
gồm 8 khối DECODE, mỗi khối bao gồm các phép biến đổi: Transpose
Convolution-BatchNorm-Dropout-ReLU. Đầu vào x của bộ sinh là ảnh lọc
cạnh kích thước 256x256x3, đầu ra của bộ sinh là ảnh nội soi chứa plolyps tổng
hợp cùng kích thước với đầu vào 256x256x3. Bộ mã hóa dùng để trích xuất các
đặc trưng và giảm dần kích thước của đầu vào. Bộ giải mã đọc đặc trưng ở đầu
ra lớp cuối cùng của bộ mã hóa, sử dụng các tích chập chuyển vị (Transpose
Convolution) để tăng kích thước và tổng hợp thông tin dần đến ảnh đích.
- Kiến trúc bộ phân biệt: Bộ phân biệt sẽ có đầu vào là 2 ảnh trong đó một
ảnh là điều kiện đầu vào của bộ sinh và một ảnh là ảnh nội soi có thể là đầu ra
của bộ sinh hoặc ảnh một ảnh nội soi thực. Việc đưa cả ảnh điều kiện đầu vào
sẽ giúp bộ phân biệt bộ phân biệt dễ phân biệt hơn ảnh nào là do bộ sinh tạo ra
và ảnh nào trong dataset. Hình 4.5 mô phỏng kiến trúc của bộ phân biệt, trong
đó bộ phân biệt có đầu vào là 2 ảnh: một ảnh là ảnh điều kiện chính là đầu vào
của bộ sinh và một ảnh là ảnh cần phân biệt có thể là đầu ra của bộ sinh hoặc
94
ảnh thật tương ứng với đầu vào trong bộ dữ liệu học. Việc lấy ảnh điều kiện
làm đầu vào sẽ giúp bộ phân biệt dễ phân biệt hơn ảnh nào là ảnh do bộ sinh
sinh ra và ảnh nào là ảnh thật trong bộ dữ liệu học. Các ảnh đầu vào được xếp
chồng bằng khối CONCAT, tiếp sau đó được đi qua các khối ENCODE, mỗi
khối bao gồm 3 phép biến đổi: Convolution-BatchNorm-LeakyReLU. Kernel
4 × 4 và stride 2 × 2 được sử dụng trên tất cả các lớp tích chập trừ 2 lớp cuối
cùng. Hàm kích hoạt Sigmoid được sử dụng ở lớp đầu ra để dự đoán đầu vào
là ảnh thật tức 1 hay ảnh đầu ra là giả tức 0.
Hình 4.5. Kiến trúc bộ phân biệt của PolypGenPix2Pix
Bộ phân biệt được triển khai dưới dạng PatchGAN do các tác giả trong
[29] đề xuất. Bộ phân biệt trong mạng GAN bình thường chính là một bộ phân
lớp nhị phân với toàn bộ ảnh đầu vào sẽ được phân lớp với nhãn đầu ra là 0 tức
ảnh giả hoặc 1 tức ảnh thật, trong khi đó ý tưởng của PatchGAN Discriminator
là thực hiện phân lớp nhị phân trên từng vùng ảnh nhỏ (patch) thay vì trên toàn
bộ ảnh. Khi huấn luyện Bộ phân biệt với ảnh thật tất cả các patch được gán
nhãn 1, còn với ảnh giả tất cả các patch được gán nhãn 0. Huấn luyện Generator
thì ngược lại, tất cả các patch của ảnh giả được gán nhãn 1. Trong nghiên cứu
này luận án đã sử dụng PatchGAN 70x70 nghĩa là kích thước của mỗi patch là
70x70. Mỗi pixel từ feature map 30x30 ở đầu ra tương ứng với một đầu ra của
mỗi patch 70x70 ở đầu vào.
- Hàm mất mát cho huấn luyện mô hình sinh ảnh nội soi đại tràng có chứa
polyp: Mô hình sinh ảnh là một mô hình CGAN với hai thành phần Bộ sinh và
95
Bộ phân biệt. Mục tiêu của Bộ sinh (G) là học ánh xạ: 𝐺: 𝑥, 𝑧 → 𝑦 với x là ảnh
nguồn, z là vector tơ nhiễu ngẫu nhiên, y là ảnh đích. Mục tiêu của Bộ phân
biệt (D) cố gắng phân biệt đâu là ảnh thật (y) và đâu là ảnh giả (G(x,z)), trong
khi đó Bộ sinh (G) sẽ học để đánh lừa bộ phân biệt rằng ảnh nó sinh ra (G(x,z))
là ảnh thật. Hàm mất mát của CGAN thông thường được định nghĩa như sau:
ℒ𝑐𝐺𝐴𝑁(𝐺, 𝐷) = 𝐸𝑥,𝑦[𝑙𝑜𝑔𝐷(𝑥, 𝑦)] + 𝐸𝑥,𝑧[log(1 − 𝐷(𝑥, 𝐺(𝑥, 𝑧))))] (4.1)
Trong đó 𝐺(∙) và 𝐷(∙) biểu diễn đầu ra của Bộ sinh và Bộ phân biệt, x là
ảnh nguồn chính là điều kiện đầu vào của bộ sinh, z là vector tơ nhiễu ngẫu
nhiên, y là ảnh đích là ảnh thực lấy từ bộ dữ liệu huấn luyện.
Để tạo ảnh thực hơn luận án đề xuất thêm vào hàm mất mát (4.1) thành
phần L1 được tính bằng khoảng cách theo dạng chuẩn 1 giữa đầu ra dự đoán
của Bộ sinh và nhãn đúng thực sự (ground truth) y của đầu vào:
𝐿𝐿1(𝐺) = 𝐸𝑥,𝑦,𝑧‖𝑦 − 𝐺(𝑥, 𝑧)‖1 (4.2)
Hàm mất mát cuối cùng của PolypGenPix2Pix được biểu diễn như sau:
ℒ𝐺∗ = 𝑎𝑟𝑔min
𝐺
max
𝐷
𝐿𝑐𝐺𝐴𝑁(𝐺, 𝐷) + 𝜆𝐿𝐿1(𝐺) (4.3)
Với 𝜆 là tham số để kiểm soát cân bằng giữa 2 thành phần hàm mất mát,
𝐿𝑐𝐺𝐴𝑁 cho phép GAN học được các chi tiết khung ảnh nhiều hơn còn 𝐿𝐿1 sẽ
cho phép học được các chi tiết nhỏ của ảnh, kết hợp hai hàm mất mát này với
nhau sẽ cho ra kết quả tốt hơn. Bằng thực nghiệm theo phương pháp tìm kiếm
lưới (grid search), luận án đã chọn được tham số 𝜆 = 0,01 là giá trị cho kết quả
sinh ảnh nội soi chứa polyp tốt nhất trên bộ dữ liệu thực nghiệm đã sử dụng
4.2.2. Kỹ thuật sinh điều kiện đầu vào cho mạng sinh ảnh
Để tạo ảnh nội soi chứa polyp mạng PolypGenPix2Pix cần có các điều
kiện đầu vào. Trong nghiên cứu này, luận án đã đề xuất sử dụng phương pháp
sinh điều kiện đầu vào cho mạng sinh ảnh theo Shin và các cộng sự [66] đã đề
xuất, sử dụng các ảnh nội soi của ca bệnh bình thường tức ảnh nội soi không
chứa các polyp kết hợp với các polyp mask được lấy trong bộ dữ liệu chuẩn.
96
Các ảnh nội soi bình thường này thu thập khá dễ dàng vì trên thực tế các trường
hợp thực hiện nội soi đại tràng không có polyp nhiều hơn và không cần các
chuyên gia y tế gán nhãn hình dạng polyp cho các dữ liệu này. Hình 4.6 dưới
đây minh họa phương pháp tạo ảnh ảnh đầu vào mà luận án đã sử dụng.
Hình 4.6. Kỹ thuật sinh tạo điều kiện đầu vào cho mô hình sinh ảnh
Phương pháp sử dụng có thể mô tả như sau: Ảnh nội soi đại tràng bình
thường không có polyp (a) qua bộ dò cạnh sử dụng toán tử Sobel được ảnh lọc
cạnh (b). Sau đó ảnh lọc cạnh được kết hợp với polyp mask (c) để được ảnh
điều kiện đầu vào (d) cho mạng sinh ảnh nội soi có chứa polyp. Các polyp
mask dùng để sinh điều kiện đầu vào lấy từ nhãn trong bộ dữ liệu chuẩn dùng
cho huấn luyện và áp dụng các kết hợp các phép biến đổi ảnh đơn giản là: xoay
ảnh, lật ảnh theo chiều dọc và chiều ngang, phóng to thu nhỏ ảnh, Dịch ảnh
theo chiều dọc và chiều ngang.
Phương pháp sinh điều kiện đầu vào có tác dụng làm cho ảnh nội soi chứa
polyp tổng hợp được tạo ra từ mô hình sinh ảnh nội soi đại tràng chứa polyp
duy trì được cấu trúc và kết cấu tổng thể của ảnh nội soi chứa polyp thực tế.
4.3. Thử nghiệm và đánh giá các kết quả
4.3.1. Các bộ dữ liệu thử nghiệm
Luận án đã sử dụng các bộ dữ liệu chuẩn đã công bố được phép sử dụng
công khai cho các mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng
để huấn luyện và đánh giá phương pháp đã đề xuất. Các bộ dữ liệu sử dụng bao
97
gồm: CVC-ClinicDB có 612 ảnh, CVC-ColonDB gồm 300 ảnh, ETIS-Larib
gồm 196 ảnh. Đây là các bộ dữ liệu ảnh nội soi có gán nhãn phân vùng polyp
được thu thập từ các hệ thống nội soi khác nhau. Ngoài ra luận án còn sử dụng
các dữ liệu ảnh nội soi bình thường không chứa polyp được lấy từ bộ dữ liệu
Kvasir v2-Aditional Set [53]. Chi tiết về các bộ dữ liệu đã được trình bày trong
phần 1.1.3 của Chương 1.
Thông thường, để huấn luyện các mạng học sâu cần một số lượng lớn
các mẫu huấn luyện, do đó các phép biến đổi ảnh để tăng số lượng mẫu huấn
luyện cho cả mô hình sinh ảnh nội soi chứa polyp PolypGenPix2Pix và mô hình
học sâu phân vùng polyp đã được sử dụng. Các phép biến đổi ảnh chính bao
gồm: các phép quay ảnh với góc quay ngẫu nhiên và các phép lật ảnh theo
chiều dọc/chiều ngang, phóng to thu nhỏ với tỉ lệ khác nhau, đổi độ sáng của
ảnh, làm mờ (blurring) ảnh, thay đổi độ tương phản của ảnh.
4.3.2. Môi trường cài đặt huấn luyện mô hình và các độ đo đánh giá mô hình
Để huấn luyện mô hình sinh ảnh nội soi chứa polyp luận án đã sử dụng
hàm tối ưu Adam với momentum = 0,5, tốc độ học λ= 0,0001, batch_size = 2.
Trong bộ sinh, các lớp ở phần encode dropout =0,5 được áp dụng sau các lớp
tích chập 2D. Với mô hình học sâu phân vùng polyp luận án dùng trọng số huấn
luyện trước bằng bộ dữ liệu ảnh tự nhiên ImageNet của bộ mã hóa làm tham số
khởi tạo. Sau đó huấn luyện để tinh chỉnh toàn bộ tham số của mô hình trên dữ
liệu ảnh nội soi sử dụng hàm tối ưu Adam với tham số momentum=0.5 và tốc
độ học λ=0.0002. Mô hình cuối cùng là mô hình có đạt hệ số dice lớn nhất trên
tập validation. Tất cả các mô hình và thuật toán đều được lập trình và huấn
luyện sử dụng thư viện Keras Tensorflow backend trên máy tính với card đồ
họa GeForce GTX 1080 Ti GPU. Các mô hình được huấn luyện 5 lần với 200
epoch mỗi lần và kết quả được lấy trung bình của 5 lần chạy.
Để đánh giá hiệu quả của việc tạo các ảnh nội soi chứa polyp như một
công cụ tăng cường dữ liệu cho hệ thống học sâu phân vùng polyp trên ảnh nội
soi luận án thực hiện so sánh độ chính xác của mô hình học sâu phân vùng
polyp được huấn luyện bằng hai bộ dữ liệu huấn luyện khác nhau: một là bộ dữ
liệu huấn luyện gồm các mẫu ban đầu thu thập do các chuyên gia y tế gán nhãn
98
hai là bộ dữ liệu huấn luyện mới bao gồm các các mẫu dữ liệu ban đầu và các
ảnh nội soi có polyps tổng hợp do mạng sinh dữ liệu tạo ra. Luận án đã sử dụng
các độ đo đánh giá độ chính xác của mô hình phân vùng polyp là: Điểm số
Dice, IoU, Recall (ký hiệu Re), Precision (ký hiệu Prec). Chi tiết về các độ đo
này đã được trình bày trong phần 1.3.5 của Chương 1.
4.3.3. Kết quả sinh ảnh nội soi chứa polyp của mô hình PolypGenPix2Pix
Luận án đã thử nghiệm cài đặt mô hình sinh ảnh nội soi đại tràng có chứa
polyp và huấn luyện mô hình này bằng bộ dữ liệu CVC-ClinicDB gồm 612 ảnh
nội soi đại tràng được gán nhãn polyp mask. Các ảnh nội soi và ảnh lọc cạnh
kết hợp với polyp mask tương ứng của bộ CVC-ClinicDB được sử dụng làm
ảnh nguồn và ảnh đích của mô hình sinh ảnh. Sau khi được huấn luyện mô hình
sinh ảnh được sử dụng để sinh ảnh nội soi giả lập chứa polyp tăng cường dữ
liệu huấn luyện cho mô hình học sau phân vùng polyp. Các ảnh nội soi đại tràng
bình thường không chứa polyp dùng để tạo đầu vào cho mạng
PolypGenPix2Pix được lấy từ bộ Kvasir v2-Aditional Set. Các ảnh polyp mask
để sinh điều kiện đầu vào cho mô hình sinh ảnh được lấy từ tập nhãn polyp
mask của bộ dữ liệu ‘CVC-ClinicDB’.
Hình 4.7. Một số ảnh nội soi chứa polyp sinh ra bởi mô hình sinh ảnh nội soi
đại tràng có chứa polyp: (a) là ảnh nội không chứa polyp, (b) đầu vào cho mô
hình sinh ảnh, (c) là ảnh giả lập được sinh ra bởi mô hình sinh ảnh.
99
Hình 4.7 là một số ví dụ ảnh nội soi chứa polyp được sinh ra từ mô hình
sinh ảnh, trong đó (a) là ảnh nội soi bình thường không chứa polyp được sử
dụng để tạo ra điều kiện đầu vào (b) cho mô hình sinh ảnh, (c) là ảnh giả lập
được sinh ra bởi mô hình sinh ảnh. Từ Hình 4.7 có thể thấy ảnh nội soi giả lập
chứa polyp được tạo đã duy trì được cấu trúc và kết cấu tổng thể của nền từ ảnh
nội soi bình thường ban đầu và ảnh nội soi chứa polyp rất giống ảnh thực.
Tuy nhiên, như chúng ta thấy trên Hình 4.7, không có sự khác biệt nhiều
về màu sắc và kết cấu của các polyp được tạo ra trên các ảnh nội soi giả lập.
Điều này có thể là do trong tập dữ liệu huấn luyện các loại polyp là có giới hạn.
Luận án đã sử dụng bộ CVC-ClinicDB gồm 612 ảnh nội soi có chứa polyp để
huấn luyện mô hình sinh ảnh, các ảnh này được thu được từ 31 chuỗi video nội
soi đại trực tràng được lấy từ 23 bệnh nhân khác nhau do đó các loại polyp khác
nhau khá ít và các nhãn là các polyp mask do các chuyên gia gán nhãn có hình
dạng khá đơn giản. Do đó, trong giai đoạn huấn luyện, bộ sinh chỉ được thực
thi để đánh lừa bộ phân biệt và không tạo ra nhiều loại polyp khác nhau. Vấn
đề này có thể được giải quyết bằng cách phân loại các loại polyp khác nhau và
thêm điều kiện loại polyp cho các đầu vào của mạng sinh ảnh. Để thực hiện
việc này, chúng ta cần hợp tác với các bác sỹ để phân loại polyp và cần phải có
bộ dữ liệu bao gồm các ảnh nội soi chứa nhiều loại polyp khác nhau.
4.3.4. Đánh giá hiệu quả của kỹ thuật sinh điều kiện đầu vào cho mạng sinh
ảnh nội soi
Luận án đã sử dụng kỹ thuật sinh điều kiện đầu vào cho mạng sinh ảnh
nội soi đại tràng chứa polyp là kết hợp lọc cạnh của ảnh nội soi bình thường và
polyp mask. Để đánh giá hiệu quả của kỹ thuật này, luận án tiến hành hai thí
nghiệm như sau: Huấn luyện mô hình sinh ảnh và sinh ảnh giả lập với điều kiện
đầu vào được khác nhau: một là điều kiện đầu vào được tạo ra theo kỹ thuật
sinh điều kiện đầu vào đã đề xuất sử dụng, hai là sử dụng các polyp mask làm
điều kiện đầu vào, các polyp mask này cũng chính là các polyp mask được sử
dụng để tạo điều kiện đầu vào theo kỹ thuật trên. Tất cả các tham số huấn luyện
và dự đoán kết quả được sử dụng như nhau. Sau đó so sánh các kết quả đạt
được.
Hình 4.8 là một số ví dụ các so sánh sự khác nhau của ảnh nội soi đại tràng
được sinh ra do điều kiện đầu vào của mô hình sinh khác nhau. Trong Hình 4.8,
100
dòng trên là ảnh điều kiện đầu vào cho mô hình sinh ảnh, dòng dưới tương ứng
là các ảnh được sinh ra bởi mô hình sinh ảnh, cột (1) điều kiện đầu vào được
sinh theo phương pháp đề xuất, cột (2) điều kiện đầu vào là ảnh polyp mask.
Từ hình này có thể thấy với đầu vào là polyp mask, mặc dù mô hình sinh ảnh
đã tạo ra các ảnh với polyp khá giống thực nhưng các nền của ảnh không giống
như các ảnh nội soi thực sự so với các ảnh được tạo ra với điều kiện đầu vào
được sinh bởi phương pháp đề xuất. Điều này chứng tỏ việc kết hợp các thông
tin cạnh của các ảnh nội soi thực và polyp mask để sinh điều kiện đầu vào cho
mô hình sinh ảnh theo kỹ thuật đề xuất, đã hướng dẫn mô hình tạo ra cấu trúc
tổng thể cho ảnh nội soi giả lập một cách hiệu quả.
Hình 4.8. Sự khác nhau của ảnh nội soi đại tràng chứa polyp sinh ra do
điều kiện đầu vào mô hình sinh ảnh khác nhau
4.3.5. So sánh độ chính xác của mô hình học sâu phân vùng polyp được tăng
cường dữ liệu bởi mô hình sinh ảnh.
Để đánh giá hiệu quả của việc tạo các ảnh nội soi giả lập có chứa polyp
như một công cụ tăng cường dữ liệu cho hệ thống học sâu phân vùng polyp,
luận án đã thực hiện cài đặt mô hình học sâu phân vùng polyp, huấn luyện mô
hình với bộ dữ liệu nội soi chuẩn được gán nhãn phân vùng polyp bởi các chuyên
gia chẩn đoán hình ảnh nội soi và bộ dữ liệu bao gồm các các mẫu dữ liệu của
bộ dữ liệu ảnh nội soi chuẩn và các ảnh nội soi giả lập có polyps được tạo ra bởi
phương pháp sinh dữ liệu ảnh nội soi đã đề xuất. Sau đó so sánh các kết quả đạt
được. Mô hình học sâu phân vùng polyp trên ảnh nội soi sử dụng phương pháp
101
học chuyển giao (Transfer learning) và sử dụng kiến trúc mạng UNet [59] điều
chỉnh với bộ mã hóa là mạng ResNet101 [25] được huấn luyện trước bằng bộ
dữ liệu ảnh tự nhiên ImageNet. Hình 4.9. biểu diễn mô hình học sâu phân vùng
polyp dựa trên ảnh nội soi đại tràng được sử dụng trong nghiên cứu.
Hình 4.9. Mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng
Mô hình phân vùng polyp được huấn luyện sử dụng hai bộ dữ liệu huấn
luyện khác nhau: một là sử dụng bộ CVC-ClinicDB, hai là sử dụng bộ dữ liệu
huấn luyện mới bao gồm các mẫu trong bộ CVC-ClinicDB và các ảnh nội soi
giả lập có polyp do mô hình sinh ảnh nội soi đại tràng chứa polyp tạo ra. Bộ dữ
liệu huấn luyện được chia theo tỉ lệ 8:2 cho tập huấn luyện (train set) và tập
validation. Sau khi huấn luyện thu được 2 bộ tham số tối ưu khác nhau của mô
hình. Luận án đã đánh giá kết quả phân vùng polyp của mô hình với từng bộ
tham số đó trên 2 bộ dữ liệu kiểm thử: ETIS-LaribPolypDB, bộ CVC-ColonDB
và so sánh kết quả đạt được. Các mô hình được huấn luyện 5 lần mỗi lần 200
epoch và kết quả đánh giá được lấy trung bình của 5 lần.
Bảng 4.1 trình bày kết quả đánh giá độ chính xác trên bộ dữ liệu kiểm
thử CVC-ColonDB. Bảng 4.2 trình bày kết quả đánh giá độ chính xác trên bộ
dữ liệu kiểm thử ETIS-Larib. Các bảng kết quả này cho thấy điểm số Dice và
IoU của mô hình phân vùng polyp được cải thiện khi dữ liệu huấn luyện được
tăng cường thêm các ảnh nội soi giả lập. Kết quả trên bộ CVC-ColonDB chỉ
số tăng lên là 2,1% với hệ số Dice và 3,0% với IoU. Trong khi đó, kết quả trên
bộ ETIS-Larib đạt được tăng 1,19% điểm số Dice và 2,69% với IoU.
102
Bảng 4.1. Kết quả tăng cường dữ liệu huấn luyện trên bộ dữ liệu kiểm thử
CVC-ColonDB
Dữ liệu huấn
luyện
Dice (%) IoU (%) Re (%) Prec (%)
CVC-ClinicDB 84,07 73,1 79,92 89,56
CVC-ClinicDB+
Ảnh giả lập
86,17 76,1 84,8 88,14
Bảng 4.2. Kết quả tăng cường dữ liệu huấn luyện trên bộ dữ liệu kiểm thử
ETIS-Larib
Dữ liệu huấn luyện Dice (%) IoU (%) Re (%) Prec (%)
CVC-ClinicDB 77,67 63,67 78,03 77,8
CVC-ClinicDB+
Ảnh giả lập
78,86 66,39 82,67 77,27
Bảng 4.3. So sánh kết quả tăng cường dữ liệu với số lượng dữ liệu tăng cường
khác nhau trên bộ dữ liệu kiểm thử CVC-ColonDB
Dữ liệu huấn luyện Dice (%) IoU (%) Re (%) Prec (%)
CVC-ClinicDB 84,07 73,1 79,92 89,56
CVC-ClinicDB+ 100 ảnh giả lập 85,3 75,02 83,64 87,94
CVC-ClinicDB+ 200 ảnh giả lập 85,6 75,74 84,77 87,7
CVC-ClinicDB+ 300 ảnh giả lập 86,17 76,1 84,8 88,14
103
Bảng 4.4. So sánh kết quả tăng cường dữ liệu với số lượng dữ liệu tăng cường
khác nhau trên bộ dữ liệu kiểm thử ETIS-Larib
Dữ liệu huấn luyện Dice (%) IoU (%) Re (%) Prec (%)
CVC-ClinicDB 77,67 63,67 78,03 77,8
CVC-ClinicDB+ 100 Ảnh giả lập 78,35 65,69 78,86 82,17
CVC-ClinicDB+ 200 Ảnh giả lập 78,8 66,64 80,33 79,83
CVC-ClinicDB+ 300 Ảnh giả lập 78,86 66,39 82,67 77,27
Trong thí nghiệm trên 300 ảnh tổng hợp được sinh bởi mô hình sinh ảnh
nội soi đại tràng chứa polyp được sử dụng để tăng cường dữ liệu cho mô hình
học sâu phân vùng polyp. Để đánh giá ảnh hưởng của số lượng ảnh giả lập tăng
cường tới độ chính xác của mô hình phân vùng polyp, mô hình phân vùng polyp
được huấn luyện với các tập dữ liệu khác nhau như sau: Bộ dữ liệu 1 gồm 612
ảnh nội soi đại tràng có gán nhãn polyp mask của bộ CVC-ClinicDB, Bộ dữ
liệu 2 gồm CVC-ClinicDB và 100 ảnh giả lập, Bộ dữ liệu 3 gồm CVC-
ClinicDB và 200 ảnh giả lập, Bộ dữ liệu 4 gồm CVC-ClinicDB và 300 ảnh giả
lập. Các mô hình sau khi huấn luyện được kiểm thử trên các bộ dữ liệu ETIS-
LaribPolypDB và CVC-ColonDB.
Bảng 4.3 trình bày các kết quả kiểm thử trên bộ dữ liệu ETIS-
LaribPolypDB. Bảng 4.4 trình bày các kết quả kiểm thử trên bộ CVC-
ColonDB. Từ kết quả này có thể rút ra kết luận nhìn chung khi số lượng ảnh
giả lập đưa vào huấn luyện tăng thì các độ đo Dice và IoU của mô hình phân
vùng tăng lên, tức là độ chính xác của hệ thống phân vùng tốt lên.
4.4. Kết luận Chương 4
Chương 4 của luận án đã đề xuất một phương pháp học sâu tự động sinh
ảnh nội soi giả lập chứa polyp sử dụng mạng sinh dữ liệu có điều, nhằm tăng
104
cường dữ liệu cho hệ thống học sâu phân vùng polyp trên ảnh nội soi đại tràng.
Phương pháp đề xuất có thể tạo ra nhiều hình ảnh nội soi chứa polyp khác nhau
từ các ảnh nội soi đại tràng bình thường không chứa polyp. Phương pháp này
được sử dụng để khắc phục khó khăn trong việc thu thập mẫu dữ liệu được gán
nhãn phân vùng polyp đa dạng dùng cho huấn luyện mô hình học sâu phân
vùng polyp và khắc phục các khó khăn do ảnh nội soi chứa polyp, polyp bị mờ,
bị che khuất một phần bởi các dụng cụ phẫu thuật.
Các đóng góp chính của Chương 4 của luận án bao gồm:
1. Đề xuất sử dụng mô hình Pix2Pix để sinh ảnh nội soi đại tràng giả lập
có chứa polyp từ các ảnh nội soi bình thường, nhằm tăng cường dữ liệu huấn
luyện cho các mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng.
2. Đề xuất sử dụng kỹ thuật sinh các điều kiện đầu vào cho mạng sinh
ảnh nội soi giả lập có chứa polyp là kết hợp ảnh nhị phân lọc cạnh của ảnh
nội soi đại tràng bình thường và polyp mask. Kỹ thuật sinh điều kiện đầu vào
này có tác dụng làm cho ảnh nội soi giả lập chứa polyp được tạo ra từ mô
hình sinh ảnh duy trì được cấu trúc và kết cấu tổng thể của ảnh nội soi chứa
polyp thực tế.
3. Cài đặt thử nghiệm phương pháp đề xuất để sinh ảnh nội soi chứa polyp
và huấn luyện mạng sử dụng bộ dữ liệu CVC-ClinicDB. Đánh giá định lượng
chất lượng tăng cường dữ liệu của phương pháp đề xuất bằng độ chính xác của
mạng phân vùng polyp được tăng cường dữ liệu. Kết quả thực nghiệm cho thấy
độ chính xác của mô hình học sâu phân vùng polyp tăng đáng kể khi được tăng
cường dữ liệu bằng phương pháp sinh ảnh nội soi đã đề xuất.
Kết quả nghiên cứu trong chương này đã được công bố tại công trình [CT2]
105
KẾT LUẬN
1. Các kết quả nghiên cứu của luận án
Trí tuệ nhân tạo (AI) đã và đang trở thành xu hướng tất yếu trong giải
quyết các bài toán thực tiễn và ngày càng được nhiều ngành, nhiều nhà khoa
học quan tâm, đầu tư nghiên cứu, trong đó có các nghiên cứu áp dụng AI trong
lĩnh vực y tế. Một trong những lĩnh vực ứng dụng trí tuệ nhân tạo trong y tế là
phát triển các công nghệ thị giác máy tính trong tự động phân tích ảnh y tế, hỗ
trợ các bác sỹ trong chẩn đoán hình ảnh. Trong những năm gần đây, nghiên cứu
phát triển các mô hình học sâu, kỹ thuật thị giác máy tính tiên tiến để phân tích
ảnh nội soi đại tràng tự động phát, phân vùng các polyp trên ảnh nội soi đại
tràng hỗ trợ các bác sỹ trong chẩn đoán nội soi đại tràng, sàng lọc phát sớm ung
thư đại tràng là một trong những chủ đề nghiên cứu thu hút rât nhiều nhóm
nhiên cứu trên thế giới. Luận án này tập trung vào giải quyết bài toán phân vùng
polyp trên ảnh nội soi đại tràng sử dụng các mô hình học sâu và kỹ thuật thị
giác máy tính tiên tiến. Các kết quả chính của luận án bao gồm:
(i) Nghiên cứu, phân tích, đánh giá các mô hình học sâu phân vùng đối
tượng trên ảnh; Nghiên cứu các đặc trưng của các bộ dữ liệu ảnh nội soi;
Khảo sát, phân tích, đánh giá các bộ dữ liệu ảnh nội soi đại tràng chuẩn đã
được công bố cho hiện nay và các dữ liệu ảnh nội soi thu thập được từ hệ
thống PACS của Bệnh viện Quân y 103. Từ đó đề xuất các phương pháp phân
vùng polyp trên ảnh nội soi đại tràng có độ chính xác và tính tổng quát hóa tốt,
có thể làm nền tảng cho các ứng dụng triển khai trên thực tế với các dữ liệu rất
đa dạng
(ii) Nghiên cứu kỹ thuật học chuyển giao để chuyển giao các tri thức
học được của các mạng đã huấn luyện sẵn trên các bộ dữ liệu lớn vào giải quyết
bài toán trên lĩnh vực ảnh nội soi đại tràng với dữ liệu huấn luyện có gán nhãn
ít hơn rất nhiều
(iii) Nghiên cứu các mô hình học tự giám sát nhằm khai thác kho dữ liệu
không được gán nhãn thu thập được từ các hệ thống PACS của các bệnh viện
để nâng cao độ chính xác của hệ thống học sâu phân vùng polyp trên ảnh nội
soi tràng. Từ đó đề xuất một phương pháp học tự giám sát các đặc trưng thị
giác với tác vụ giả định là tác vụ tái tạo ảnh nội soi, tác vụ mục tiêu là tác vụ
phân vùng ảnh nội soi.
106
(iv) Nghiên cứu các phương pháp tăng cường dữ liệu cho hệ thống học
sâu, từ đó đề xuất phương pháp sinh dữ liệu ảnh nội soi có chứa polyp tổng hợp
để tăng cường dữ liệu cho mô hình học sâu phân vùng polyp.
2. Những đóng góp mới của luận án
Luận án có các đóng góp mới như sau:
1. Đề xuất mô hình học sâu phân vùng polyp trên ảnh nội soi đại tràng
CRF-EfficientUNet. Mô hình này được mở rộng từ mạng UNet với bộ mã hóa
EfficientNet tích hợp lớp CRF-RNN ở trên cùng và sử dụng hàm mất mát bất
đối xứng kết hợp AsymCE do luận án đề xuất.
2. Đề xuất một phương pháp học tự giám sát các đặc trưng thị giác của
ảnh nội soi đại tràng cho phân vùng polyp dựa trên tác vụ tái tạo ảnh nội soi.
3. Đề xuất một phương pháp sinh ảnh nội soi đại tràng giả lập có nhãn
phân vùng polyp sử dụng mạng sinh dữ liệu đối nghịch có điều kiện, nhằm tăng
cường dữ liệu huấn luyện cho các mô hình học sâu phân vùng polyp trên ảnh
nội soi đại tràng.
3. Hướng nghiên cứu tiếp theo
Hướng nghiên cứu tiếp theo của luận án nhằm để phát triển công trình
để có thể đưa vào ứng dụng trong thực tiễn như sau:
1. Tiếp tục nghiên cứu các mô hình học sâu cho phân vùng polyp để có
thể xây dựng được mô hình có hiệu năng đủ tốt và có chi phí tính toán vừa phải
phù hợp với hệ thống phần cứng thực tế khi triển khai ứng dụng.
2. Nghiên cứu cải tiến phương pháp xác định siêu tham số tối ưu của hàm
mất mát không đối xứng kết hợp để giảm thiểu công sức cho huấn luyện mô
hình tìm kiếm siêu tham số tối ưu.
3. Nghiên cứu, thử nghiệm các bộ mã hóa khác cho mạng UNet trong mô
hình học tự giám sát, từ đó đưa ra bộ mã hóa phù hợp cho độ chính xác phân
vùng polyp cao hơn.
107
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[CT1]. Le Thi Thu Hong, Nguyen Chi Thanh, and Tran Quoc Long,
“Polyp segmentation in colonoscopy images using ensembles of u-nets with
efficientnet and asymmetric similarity loss function,” in 2020 RIVF
International Conference on Computing and Communication Technologies
(RIVF), IEEE, pp.1–6, 2020.
[CT2]. Lê Thị Thu Hồng, Nguyễn Chí Thành, Phạm Thu Hương, Nguyễn
Sinh Huy, Nguyễn Văn Đức, Nguyễn Thành Trung, “Tăng cường dữ liệu huấn
luyện cho hệ thống học sâu phân vùng polyp trên ảnh nội soi đại tràng”, Tạp
chí Nghiên cứu Khoa học và Công nghệ quân sự, số Đặc san Hội thảo Quốc gia
FEE, tr. 447-454, 10-2020.
[CT3]. Le Thi Thu Hong, Nguyen Chi Thanh, and Tran Quoc Long,
"CRF-EfficientUNet: an improved UNet framework for polyp segmentation in
colonoscopy images with combined asymmetric loss function and CRF-RNN
layer,” IEEE Access, vol. 9, pp. 156987 - 157001, 2021 (SCIE Q1, IF: 3,367).
[CT4]. Lê Thị Thu Hồng, Nguyễn Chí Thành, Nguyễn Đức Hạnh, Trịnh
Tiến Lương, Phạm Duy Thái, Ngô Văn Quân “Colonoscopy Image
Classification Using Self-Supervised Visual Feature Learning”. Section on
Computer Science and Control Engineering, Journal of Military science and
technology, Sepecial Issue No.5, pp. 3-13, 12-2021.
[CT5]. Le Thi Thu Hong, Nguyen Chi Thanh and Tran Quoc Long, "Self-
supervised Visual Feature Learning for Polyp Segmentation in Colonoscopy
Images Using Image Reconstruction as Pretext Task" 2021 8th NAFOSTED
Conference on Information and Computer Science (NICS), 2021, pp. 254-259,
doi: 10.1109/NICS54270.2021.9701580.
108
TÀI LIỆU THAM KHẢO
Tiếng Anh
1. Afify, H. M., Mohammed, K. K., & Hassanien, A. E. (2021). An
improved framework for polyp image segmentation based on SegNet
architecture. International Journal of Imaging Systems and Technology.
2. Ali, S., Ghatwary, N., Braden, B., Lamarque, D., Bailey, A., Realdon,
S., Cannizzaro, R., Rittscher, J., Daul, C., & East, J. (2020). Endoscopy
disease detection challenge 2020. ArXiv Preprint ArXiv:2003.03376.
3. Ali, S., Zhou, F., Daul, C., Braden, B., Bailey, A., Realdon, S., East, J.,
Wagnieres, G., Loschenov, V., Grisan, E., & others. (2019). Endoscopy
artifact detection (EAD 2019) challenge dataset. ArXiv Preprint
ArXiv:1905.03209.
4. Anh-Cang, P., Thuong-Cang, P., & others. (2019). Detection and
Classification of Brain Hemorrhage Based on Hounsfield Values and
Convolution Neural Network Technique. 2019 IEEE-RIVF
International Conference on Computing and Communication
Technologies (RIVF), 1–7.
5. Ba, H. N., Thanh, D. N., Van, C. T., & Viet, S. D. (2021). Polyp
segmentation in colonoscopy images using ensembles of u-nets with
efficientnet and asymmetric similarity loss function. 2021 IEEE-RIVF
International Conference on Computing and Communication
Technologies (RIVF), 1–6.
6. Badrinarayanan, V., Kendall, A., & Cipolla, R. (2017). Segnet: A deep
convolutional encoder-decoder architecture for image segmentation.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
39(12), 2481–2495.
7. Berman, M., Triki, A. R., & Blaschko, M. B. (2018). The lovász-
softmax loss: A tractable surrogate for the optimization of the
intersection-over-union measure in neural networks. Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 4413–
4421.
8. Bernal, J., Sánchez, J., & Vilarino, F. (2012). Towards automatic polyp
detection with a polyp appearance model. Pattern Recognition, 45(9),
3166–3182.
9. Bernal, J., Tajkbaksh, N., Sanchez, F. J., Matuszewski, B. J., Chen, H.,
Yu, L., Angermann, Q., Romain, O., Rustad, B., Balasingham, I., &
others. (2017). Comparative validation of polyp detection methods in
video colonoscopy: results from the MICCAI 2015 endoscopic vision
challenge. IEEE Transactions on Medical Imaging, 36(6), 1231–1249.
109
10. Borgli, H., Thambawita, V., Smedsrud, P. H., Hicks, S., Jha, D.,
Eskeland, S. L., Randel, K. R., Pogorelov, K., Lux, M., Nguyen, D. T.
D., & others. (2020). HyperKvasir, a comprehensive multi-class image
and video dataset for gastrointestinal endoscopy. Scientific Data, 7(1),
1–14.
11. Brandao, P., Mazomenos, E., Ciuti, G., Caliò, R., Bianchi, F.,
Menciassi, A., Dario, P., Koulaouzidis, A., Arezzo, A., & Stoyanov, D.
(2017). Fully convolutional neural networks for polyp segmentation in
colonoscopy. Medical Imaging 2017: Computer-Aided Diagnosis,
10134, 101340F.
12. Brent H.Taylor, M. (n.d.). Endoscopy/Colonoscopy.
https://brenttaylormd.com/endoscopy-colonoscopy/
13. Browet, A., Absil, P.-A., & van Dooren, P. (2011). Community
detection for hierarchical image segmentation. International Workshop
on Combinatorial Image Analysis, 358–371.
14. Chen, L., Bentley, P., Mori, K., Misawa, K., Fujiwara, M., & Rueckert,
D. (2019). Self-supervised learning for medical image analysis using
image context restoration. Medical Image Analysis, 58, 101539.
15. Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L.
(2017). Deeplab: Semantic image segmentation with deep convolutional
nets, atrous convolution, and fully connected crfs. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 40(4), 834–848.
16. CVC-Colon team. (2017, November 15). Building up Intelligent
Systems for Colonoscopy.
Colon/index.php/our-mission/
17. Endoscopy-vision challenge. (2014). Sub-challenge Automatic dection
polyp in colonoscopy Videos.
18. Fan, D.-P., Ji, G.-P., Zhou, T., Chen, G., Fu, H., Shen, J., & Shao, L.
(2020). Pranet: Parallel reverse attention network for polyp
segmentation. International Conference on Medical Image Computing
and Computer-Assisted Intervention, 263–273.
19. Fang, Y., Chen, C., Yuan, Y., & Tong, K. (2019). Selective feature
aggregation network with area-boundary constraints for polyp
segmentation. International Conference on Medical Image Computing
and Computer-Assisted Intervention, 302–310.
20. Ganz, M., Yang, X., & Slabaugh, G. (2012). Automatic segmentation of
polyps in colonoscopic narrow-band imaging data. IEEE Transactions
on Biomedical Engineering, 59(8), 2144–2151.
110
21. Geetha, K., & Rajan, C. (2016). Automatic colorectal polyp detection in
colonoscopy video frames. Asian Pacific Journal of Cancer Prevention:
APJCP, 17(11), 4869.
22. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT
press.
23. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D.,
Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial
nets. Advances in Neural Information Processing Systems, 27.
24. Hashemi, S. R., Salehi, S. S. M., Erdogmus, D., Prabhu, S. P., Warfield,
S. K., & Gholipour, A. (2018). Asymmetric loss functions and deep
densely-connected networks for highly-imbalanced medical image
segmentation: Application to multiple sclerosis lesion detection. IEEE
Access, 7, 1721–1735.
25. He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017). Mask r-cnn.
Proceedings of the IEEE International Conference on Computer Vision,
2961–2969.
26. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for
image recognition. Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, 770–778.
27. Hsu, C.-M., Hsu, C.-C., Hsu, Z.-M., Shih, F.-Y., Chang, M.-L., & Chen,
T.-H. (2021). Colorectal Polyp Image Detection and Classification
through Grayscale Images and Deep Learning. Sensors, 21(18), 5995.
28. Huynh, H. T., & Anh, V. N. N. (2019). A deep learning method for lung
segmentation on large size chest X-ray image. 2019 IEEE-RIVF
International Conference on Computing and Communication
Technologies (RIVF), 1–5.
29. Isola, P., Zhu, J.-Y., Zhou, T., & Efros, A. A. (2017). Image-to-image
translation with conditional adversarial networks. Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 1125–
1134.
30. Jha, D., Ali, S., Emanuelsen, K., Hicks, S. A., Thambawita, V., Garcia-
Ceja, E., Riegler, M. A., de Lange, T., Schmidt, P. T., Johansen, H. D.,
& others. (2021). Kvasir-instrument: Diagnostic and therapeutic tool
segmentation dataset in gastrointestinal endoscopy. International
Conference on Multimedia Modeling, 218–229.
31. Jha, D., Riegler, M. A., Johansen, D., Halvorsen, P., & Johansen, H. D.
(2020). Doubleu-net: A deep convolutional neural network for medical
image segmentation. 2020 IEEE 33rd International Symposium on
Computer-Based Medical Systems (CBMS), 558–564.
111
32. Jha, D., Smedsrud, P. H., Johansen, D., de Lange, T., Johansen, H. D.,
Halvorsen, P., & Riegler, M. A. (2021). A comprehensive study on
colorectal polyp segmentation with ResUNet++, conditional random
field and test-time augmentation. IEEE Journal of Biomedical and
Health Informatics, 25(6), 2029–2040.
33. Jha, D., Smedsrud, P. H., Riegler, M. A., Halvorsen, P., de Lange, T.,
Johansen, D., & Johansen, H. D. (2020). Kvasir-seg: A segmented polyp
dataset. International Conference on Multimedia Modeling, 451–462.
34. Jha, D., Smedsrud, P. H., Riegler, M. A., Johansen, D., de Lange, T.,
Halvorsen, P., & Johansen, H. D. (2019a). Resunet++: An advanced
architecture for medical image segmentation. 2019 IEEE International
Symposium on Multimedia (ISM), 225–2255.
35. Jha, D., Smedsrud, P. H., Riegler, M. A., Johansen, D., de Lange, T.,
Halvorsen, P., & Johansen, H. D. (2019b). Resunet++: An advanced
architecture for medical image segmentation. 2019 IEEE International
Symposium on Multimedia (ISM), 225–2255.
36. Jing, L., & Tian, Y. (2020). Self-supervised visual feature learning with
deep neural networks: A survey. IEEE Transactions on Pattern Analysis
and Machine Intelligence.
37. Kang, J., & Gwak, J. (2019). Ensemble of instance segmentation models
for polyp segmentation in colonoscopy images. IEEE Access, 7, 26440–
26447.
38. Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic
optimization. ArXiv Preprint ArXiv:1412.6980.
39. Krähenbühl, P., & Koltun, V. (2011). Efficient inference in fully
connected crfs with gaussian edge potentials. Advances in Neural
Information Processing Systems, 24, 109–117.
40. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet
classification with deep convolutional neural networks. Advances in
Neural Information Processing Systems, 25, 1097–1105.
41. LeCun, Y., Haffner, P., Bottou, L., & Bengio, Y. (1999). Object
recognition with gradient-based learning. In Shape, contour and
grouping in computer vision (pp. 319–345). Springer.
42. Leufkens, A. M., van Oijen, M. G. H., Vleggaar, F. P., & Siersema, P.
D. (2012). Factors influencing the miss rate of polyps in a back-to-back
colonoscopy study. Endoscopy, 44(05), 470–475.
43. Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional
networks for semantic segmentation. Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, 3431–3440.
112
44. Mahmud, T., Paul, B., & Fattah, S. A. (2021). PolypSegNet: A modified
encoder-decoder architecture for automated polyp segmentation from
colonoscopy images. Computers in Biology and Medicine, 128, 104119.
45. Mesejo, P., Pizarro, D., Abergel, A., Rouquette, O., Beorchia, S.,
Poincloux, L., & Bartoli, A. (2016). Computer-aided classification of
gastrointestinal lesions in regular colonoscopy. IEEE Transactions on
Medical Imaging, 35(9), 2051–2063.
46. Milletari, F., Navab, N., & Ahmadi, S.-A. (2016). V-net: Fully
convolutional neural networks for volumetric medical image
segmentation. 2016 Fourth International Conference on 3D Vision
(3DV), 565–571.
47. Mirza, M., & Osindero, S. (2014). Conditional generative adversarial
nets. ArXiv Preprint ArXiv:1411.1784.
48. Misawa, M., Kudo, S., Mori, Y., Cho, T., Kataoka, S., Yamauchi, A.,
Ogawa, Y., Maeda, Y., Takeda, K., Ichimasa, K., & others. (2018).
Artificial intelligence-assisted polyp detection for colonoscopy: initial
experience. Gastroenterology, 154(8), 2027–2029.
49. Nguyen, N.-Q., & Lee, S.-W. (2019). Robust boundary segmentation in
medical images using a consecutive deep encoder-decoder network.
Ieee Access, 7, 33795–33808.
50. Nguyen, N.-Q., Vo, D. M., & Lee, S.-W. (2020). Contour-aware polyp
segmentation in colonoscopy images using detailed upsamling encoder-
decoder networks. IEEE Access, 8, 99495–99508.
51. Nguyen, T. H., Prifti, E., Sokolovska, N., & Zucker, J.-D. (2019).
Disease prediction using synthetic image representations of
metagenomic data and convolutional neural networks. 2019 IEEE-RIVF
International Conference on Computing and Communication
Technologies (RIVF), 1–6.
52. Park, S., Lee, M., & Kwak, N. (2015). Polyp detection in colonoscopy
videos using deeply-learned hierarchical features. Seoul National
University.
53. Pogorelov, K., Randel, K. R., de Lange, T., Eskeland, S. L., Griwodz,
C., Johansen, D., Spampinato, C., Taschwer, M., Lux, M., Schmidt, P.
T., & others. (2017). Nerthus: A bowel preparation quality video
dataset. Proceedings of the 8th ACM on Multimedia Systems
Conference, 170–174.
54. Pogorelov, K., Randel, K. R., Griwodz, C., Eskeland, S. L., de Lange,
T., Johansen, D., Spampinato, C., Dang-Nguyen, D.-T., Lux, M.,
Schmidt, P. T., & others. (2017). Kvasir: A multi-class image dataset
113
for computer aided gastrointestinal disease detection. Proceedings of the
8th ACM on Multimedia Systems Conference, 164–169.
55. Poudel, S., & Lee, S.-W. (2021). Deep multi-scale attentional features
for medical image segmentation. Applied Soft Computing, 109, 107445.
56. Qadir, H. A., Shin, Y., Solhusvik, J., Bergsland, J., Aabakken, L., &
Balasingham, I. (2019a). Polyp detection and segmentation using mask
R-CNN: Does a deeper feature extractor CNN always perform better?
2019 13th International Symposium on Medical Information and
Communication Technology (ISMICT), 1–6.
57. Qadir, H. A., Shin, Y., Solhusvik, J., Bergsland, J., Aabakken, L., &
Balasingham, I. (2019b). Polyp detection and segmentation using mask
R-CNN: Does a deeper feature extractor CNN always perform better?
2019 13th International Symposium on Medical Information and
Communication Technology (ISMICT), 1–6.
58. Qadir, H. A., Shin, Y., Solhusvik, J., Bergsland, J., Aabakken, L., &
Balasingham, I. (2021). Toward real-time polyp detection using fully
CNNs for 2D Gaussian shapes prediction. Medical Image Analysis, 68,
101897.
59. Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional
networks for biomedical image segmentation. International Conference
on Medical Image Computing and Computer-Assisted Intervention,
234–241.
60. Ruder, S. (2016). An overview of gradient descent optimization
algorithms. ArXiv Preprint ArXiv:1609.04747.
61. Safarov, S., & Whangbo, T. K. (2021). A-DenseUNet: Adaptive densely
connected UNet for polyp segmentation in colonoscopy images with
atrous convolution. Sensors, 21(4), 1441.
62. Sánchez-Peralta, L. F., Picón, A., Sánchez-Margallo, F. M., & Pagador,
J. B. (2020). Unravelling the effect of data augmentation
transformations in polyp segmentation. International Journal of
Computer Assisted Radiology and Surgery, 15(12), 1975–1988.
63. Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.-C.
(2018). Mobilenetv2: Inverted residuals and linear bottlenecks.
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 4510–4520.
64. Shin, Y., Qadir, H. A., Aabakken, L., Bergsland, J., & Balasingham, I.
(2018a). Automatic colon polyp detection using region based deep cnn
and post learning approaches. IEEE Access, 6, 40950–40962.
114
65. Shin, Y., Qadir, H. A., Aabakken, L., Bergsland, J., & Balasingham, I.
(2018b). Automatic colon polyp detection using region based deep cnn
and post learning approaches. IEEE Access, 6, 40950–40962.
66. Shin, Y., Qadir, H. A., & Balasingham, I. (2018). Abnormal colon polyp
image synthesis using conditional adversarial networks for improved
detection performance. IEEE Access, 6, 56007–56017.
67. Silva, J., Histace, A., Romain, O., Dray, X., & Granado, B. (2014).
Toward embedded detection of polyps in wce images for early diagnosis
of colorectal cancer. International Journal of Computer Assisted
Radiology and Surgery, 9(2), 283–293.
68. Simonyan, K., & Zisserman, A. (2014). Very deep convolutional
networks for large-scale image recognition. ArXiv Preprint
ArXiv:1409.1556.
69. Smedsrud, P. H., Thambawita, V., Hicks, S. A., Gjestang, H.,
Nedrejord, O. O., Næss, E., Borgli, H., Jha, D., Berstad, T. J. D.,
Eskeland, S. L., & others. (2021). Kvasir-Capsule, a video capsule
endoscopy dataset. Scientific Data, 8(1), 1–10.
70. Sokolova, M., & Lapalme, G. (2009). A systematic analysis of
performance measures for classification tasks. Information Processing
& Management, 45(4), 427–437.
71. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., &
Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural
networks from overfitting. The Journal of Machine Learning Research,
15(1), 1929–1958.
72. Sức khỏe và đời sống. (2020). Ứng dụng trí tuệ nhân tạo trong nội soi
tiêu hóa. https://suckhoedoisong.vn/ung-dung-tri-tue-nhan-tao-trong-
noi-soi-tieu-hoa-169181933.htm
73. Sung, H., Ferlay, J., Siegel, R. L., Laversanne, M., Soerjomataram, I.,
Jemal, A., & Bray, F. (2021). Global cancer statistics 2020:
GLOBOCAN estimates of incidence and mortality worldwide for 36
cancers in 185 countries. CA: A Cancer Journal for Clinicians, 71(3),
209–249.
74. Syed, A., & Morris, B. T. (2019). SSeg-LSTM: semantic scene
segmentation for trajectory prediction. 2019 IEEE Intelligent Vehicles
Symposium (IV), 2504–2509.
75. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D.,
Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper with
convolutions. Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, 1–9.
115
76. Taha, D., Alzu’bi, A., Abuarqoub, A., Hammoudeh, M., & Elhoseny,
M. (2021). Automated Colorectal Polyp Classification Using Deep
Neural Networks with Colonoscopy Images. International Journal of
Fuzzy Systems, 1–13.
77. Tajbakhsh, N., Gurudu, S. R., & Liang, J. (2013). A classification-
enhanced vote accumulation scheme for detecting colonic polyps.
International MICCAI Workshop on Computational and Clinical
Challenges in Abdominal Imaging, 53–62.
78. Tajbakhsh, N., Gurudu, S. R., & Liang, J. (2015a). Automated polyp
detection in colonoscopy videos using shape and context information.
IEEE Transactions on Medical Imaging, 35(2), 630–644.
79. Tajbakhsh, N., Gurudu, S. R., & Liang, J. (2015b). Automated polyp
detection in colonoscopy videos using shape and context information.
IEEE Transactions on Medical Imaging, 35(2), 630–644.
80. Tan, M., & Le, Q. (2019). Efficientnet: Rethinking model scaling for
convolutional neural networks. International Conference on Machine
Learning, 6105–6114.
81. Thuwarakesh Murallie. (2021). Transfer Learning: The Highest
Leverage Deep Learning Skill You Can Learn.
https://towardsdatascience.com/transfer-learning-in-deep-learning-
641089950f5d
82. Vardan Agarwal. (n.d.). Complete Architectural Details of all
EfficientNet Models. https://towardsdatascience.com/complete-
architectural-details-of-all-efficientnet-models-5fd5b736142
83. VinBigData. (2020). Shaping the future of medical data analysis.
https://vindr.ai/
84. Wang, P., Xiao, X., Brown, J. R. G., Berzin, T. M., Tu, M., Xiong, F.,
Hu, X., Liu, P., Song, Y., Zhang, D., & others. (2018). Development
and validation of a deep-learning algorithm for the detection of polyps
during colonoscopy. Nature Biomedical Engineering, 2(10), 741–748.
85. Wang, Y., Feng, Z., Song, L., Liu, X., & Liu, S. (2021).
Multiclassification of endoscopic colonoscopy images based on deep
transfer learning. Computational and Mathematical Methods in
Medicine, 2021.
86. Wang, Z., Bovik, A. C., Sheikh, H. R., & Simoncelli, E. P. (2004).
Image quality assessment: from error visibility to structural similarity.
IEEE Transactions on Image Processing, 13(4), 600–612.
87. Weiss, K., Khoshgoftaar, T. M., & Wang, D. (2016). A survey of
transfer learning. Journal of Big Data, 3(1), 1–40.
116
88. Yakubovskiy, P. (2019). Segmentation Models. In GitHub repository.
GitHub.
89. Zhang, L., Dolwani, S., & Ye, X. (2017). Automated polyp
segmentation in colonoscopy frames using fully convolutional neural
network and textons. Annual Conference on Medical Image
Understanding and Analysis, 707–717.
90. Zhang, R., Zheng, Y., Poon, C. C. Y., Shen, D., & Lau, J. Y. W. (2018).
Polyp detection during colonoscopy using a regression-based
convolutional neural network with a tracker. Pattern Recognition, 83,
209–219.
91. Zhang, X., Chen, F., Yu, T., An, J., Huang, Z., Liu, J., Hu, W., Wang,
L., Duan, H., & Si, J. (2019). Real-time gastric polyp detection using
convolutional neural networks. PloS One, 14(3), e0214133.
92. Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du,
D., Huang, C., & Torr, P. H. S. (2015). Conditional random fields as
recurrent neural networks. Proceedings of the IEEE International
Conference on Computer Vision, 1529–1537.
93. Zhou, Z., Siddiquee, M. M. R., Tajbakhsh, N., & Liang, J. (2018).
Unet++: A nested u-net architecture for medical image segmentation. In
Deep learning in medical image analysis and multimodal learning for
clinical decision support (pp. 3–11). Springer.
94. Zijdenbos, A. P., Dawant, B. M., Margolin, R. A., & Palmer, A. C.
(1994). Morphometric analysis of white matter lesions in MR images:
method and validation. IEEE Transactions on Medical Imaging, 13(4),
716–724.