Luận án Nghiên cứu, phát triển một số kỹ thuật theo bám đối tượng dựa trên kiến trúc mạng Siamese

+ Số lớp tự mã hóa và mã hóa chéo: Để so sánh ảnh hưởng của số lớp chuyển đổi tuyến tính đối với bộ dữ liệu đánh giá. Luận án đã thử nghiệm với L = 2 và L = 4. Như được hiển thị trong bảng 3.14, trên bộ dữ liệu VOT2018, khi L = 2, TrackerLT đạt điểm EAO cao hơn 2,6% so với L = 4. Hơn nữa, mạng chạy với tốc độ 30 FPS trên GPU RTX 3070, bộ nhớ GPU là 3,238 GB khi L = 2 và chạy với tốc độ 26 FPS, bộ nhớ GPU 3,31 GB khi L = 4. + So sánh loại kết hợp: Luận án so sánh thực nghiệm kết quả của hai loại kết hợp là PW-Corr [12] và FFM. Kết quả như trong bảng 3.15, trên VOT2018, FFM với L = 2 có EAO là 0,492, cao hơn 0,6% so với PW-Corr. + So sánh với mô hình cơ sở: Bảng 3.16 so sánh TrackerLT với trình theo bám cơ sở DiMP trên sáu bộ dữ liệu chuẩn. Kết quả cho thấy trên bốn bộ dữ liệu LaSOT, VOT2019, GOT-10K, VOT2018 điểm số tăng lần lượt là 3,5%, 3,9%, 4,1%, 5,3%. Đánh giá kết quả trên bộ dữ liệu Anti-UAV: Với mô hình cơ sở là TrackingUAV, TrackerLT cải thiện điểm chính xác trung bình acc của TrackingUAV 1,8% từ 0,654 lên 0,672, như trong bảng 3.17. Chi tiết điểm acc của từng video được thể hiện trong bảng 3.18.

145 trang | Chia sẻ: trinhthuyen | Ngày: 29/11/2023 | Lượt xem: 142 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển một số kỹ thuật theo bám đối tượng dựa trên kiến trúc mạng Siamese, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

0,658 0,607 0,454 0,614 0,609 0,563 0,682 0,590 0,622 0,448 0,424 0,581 DiMP50 [30] 0,660 0,627 0,495 0,601 0,590 0,576 0,641 0,594 0,625 0,461 0,422 0,615 SiamBAN [120] 0,639 0,565 0,472 0,591 0,589 0,550 0,639 0,565 0,612 0,431 0,418 0,593 SiamCAR [23] 0,612 0,566 0,465 0,580 0,564 0,533 0,646 0,563 0,605 0,458 0,419 0,549 Ocean [126] 0,621 0,553 0,467 0,596 0,583 0,539 0,631 0,586 0,609 0,383 0,405 0,569 So sánh điểm số chính xác theo các thuộc tính (bảng 3.9, hình 3.14, 3.15), mô hình đề xuất có điểm số cao nhất đối với thuộc tính chuyển động của camera-CM (0,879), và đạt điểm cao thứ nhì đối với thuộc tính:thay đổi độ sáng-IV (0,848), che lấp một phần (0,827), lộn xộn nền-BC (0,745), che lấp hoàn toàn-FO (0,742). So với các mô hình mới 2021 khác, TrackerLT đạt điểm thay đổi khung hình và chuyển động nhanh thấp hơn. Bảng 3.9. So sánh điểm chính xác trên các thuộc tính thách thức trên bộ dữ liệu UAV123 của mô hình TrackerLT. Mô hình CM(↑) IV(↑) LR(↑) ARC(↑) OV(↑) PO(↑) VC(↑) SO(↑) SV(↑) BC(↑) FO(↑) FM(↑) TrackerLT (Our) 0,879 0,848 0,755 0,839 0,808 0.827 0,855 0,817 0,844 0,745 0,742 0,791 SiamTLT (Our) 0,856 0,776 0,745 0,816 0,777 0,775 0,844 0,829 0,823 0,651 0,644 0,774 AR-DiMP50 [12] 0,873 0,883 0,774 0,867 0,832 0,838 0,860 0,816 0,854 0,764 0,750 0,826 TriDiMP [84] 0,864 0,809 0,767 0,851 0,835 0,810 0,878 0,848 0,845 0,640 0,687 0,842 SiamAttn [116] 0,848 0,815 0,732 0,809 0,793 0,763 0,829 0,767 0,826 0,718 0,650 0.810 SiamGAT [24] 0,857 0,779 0,736 0,823 0,813 0,781 0,835 0,815 0,824 0,657 0,690 0,786 AutoMatch [127] 0,835 0,814 0,701 0,798 0,788 0,753 0,837 0,744 0,821 0,712 0,659 0.765 SiamRN [100] 0,869 0,815 0,768 0,818 0,794 0,805 0,833 0,837 0,845 0,720 0,729 0,799 SiamRPN++ [14] 0,863 0,815 0,690 0,818 0,816 0,771 0,876 0,800 0,820 0,655 0,661 0,774 DiMP50 [30] 0,872 0,847 0,747 0,808 0,790 0,797 0,828 0,800 0,830 0,687 0,673 0,832 SiamBAN [120] 0,848 0,766 0,719 0,796 0,789 0,765 0,824 0,777 0,813 0,645 0,671 0,805 SiamCAR [23] 0,797 0,748 0,693 0,759 0,735 0,724 0,807 0,754 0,791 0,659 0,660 0,742 Ocean [126] 0,823 0,752 0,704 0,793 0,772 0,744 0,813 0,786 0,808 0,575 0,653 0,767 107 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Tỷ lệ th àn h cô ng Biểu đồ thành công: Chuyển động camera [0.686] TrackerLT(Ours) [0.681] AR-DiMP50 [0.661] TrDiMP [0.660] DiMP50 [0.658] SiamRPN++ [0.657] SiamGAT [0.654] SiamAttn [0.652] SiamTLT(Ours) [0.647] SiamRN [0.644] AutoMatch [0.639] SiamBAN [0.621] Ocean [0.612] SiamCAR 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Tỷ lệ th àn h cô ng Biểu đồ thành công: Thay đổi độ sáng [0.670] AR-DiMP50 [0.639] TrackerLT(Ours) [0.627] DiMP50 [0.608] AutoMatch [0.607] SiamRPN++ [0.602] SiamAttn [0.601] TrDiMP [0.583] SiamRN [0.583] SiamGAT [0.573] SiamTLT(Ours) [0.566] SiamCAR [0.565] SiamBAN [0.553] Ocean 3 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Tỷ lệ th àn h cô ng Biểu đồ thành công: Độ phân giải thấp [0.533] AR-DiMP50 [0.517] TrackerLT(Ours) [0.517] TrDiMP [0.502] SiamRN [0.498] SiamGAT [0.497] SiamTLT(Ours) [0.495] DiMP50 [0.491] SiamAttn [0.472] SiamBAN [0.469] AutoMatch [0.467] Ocean [0.465] SiamCAR [0.454] SiamRPN++ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Tỷ lệ th àn h cô ng Biểu đồ thành công: Thay đổi tỷ lệ [0.667] AR-DiMP50 [0.650] TrackerLT(Ours) [0.643] TrDiMP [0.622] SiamGAT [0.618] SiamAttn [0.614] SiamRPN++ [0.609] SiamTLT(Ours) [0.605] AutoMatch [0.603] SiamRN [0.601] DiMP50 [0.596] Ocean [0.591] SiamBAN [0.580] SiamCAR 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Tỷ lệ th àn h cô ng Biểu đồ thành công: Ngoài khung hình [0.642] AR-DiMP50 [0.632] TrDiMP [0.629] TrackerLT(Ours) [0.614] SiamGAT [0.614] SiamAttn [0.609] SiamRPN++ [0.601] AutoMatch [0.590] SiamTLT(Ours) [0.590] DiMP50 [0.589] SiamBAN [0.586] SiamRN [0.583] Ocean [0.564] SiamCAR 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Tỷ lệ th àn h cô ng Biểu đồ thành công: Che lấp một phần [0.624] AR-DiMP50 [0.618] TrackerLT(Ours) [0.593] TrDiMP [0.576] DiMP50 [0.573] SiamRN [0.573] SiamGAT [0.563] SiamRPN++ [0.562] SiamTLT(Ours) [0.562] SiamAttn [0.552] AutoMatch [0.550] SiamBAN [0.539] Ocean [0.533] SiamCAR Hình 3.12. So sánh điểm số thành công theo thuộc tính thách thức trên bộ dữ liệu UAV123 của mô hình TrackerLT với các mô hình khác. 108 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Tỷ lệ th àn h cô ng Biểu đồ thành công: Thay đổi khung nhìn [0.689] TrDiMP [0.688] AR-DiMP50 [0.682] SiamRPN++ [0.681] TrackerLT(Ours) [0.662] AutoMatch [0.661] SiamAttn [0.655] SiamTLT(Ours) [0.654] SiamGAT [0.646] SiamCAR [0.642] SiamRN [0.641] DiMP50 [0.639] SiamBAN [0.631] Ocean 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Tỷ lệ th àn h cô ng Biểu đồ thành công: Đối tượng tương tự [0.634] TrDiMP [0.623] TrackerLT(Ours) [0.619] AR-DiMP50 [0.608] SiamTLT(Ours) [0.608] SiamGAT [0.605] SiamRN [0.594] DiMP50 [0.590] SiamRPN++ [0.586] Ocean [0.569] SiamAttn [0.565] SiamBAN [0.563] AutoMatch [0.563] SiamCAR 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Tỷ lệ th àn h cô ng Biểu đồ thành công: Thay đổi kích thước [0.665] AR-DiMP50 [0.657] TrackerLT(Ours) [0.645] TrDiMP [0.634] SiamAttn [0.629] AutoMatch [0.629] SiamGAT [0.628] SiamRN [0.625] DiMP50 [0.623] SiamTLT(Ours) [0.622] SiamRPN++ [0.612] SiamBAN [0.609] Ocean [0.605] SiamCAR 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Tỷ lệ th àn h cô ng Biểu đồ thành công: Nền lộn xộn [0.537] AR-DiMP50 [0.515] TrackerLT(Ours) [0.482] AutoMatch [0.481] SiamAttn [0.478] SiamRN [0.461] DiMP50 [0.459] SiamGAT [0.458] SiamCAR [0.448] SiamRPN++ [0.434] SiamTLT(Ours) [0.431] SiamBAN [0.429] TrDiMP [0.383] Ocean 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Tỷ lệ th àn h cô ng Biểu đồ thành công: Chuyển động nhanh [0.629] TrDiMP [0.623] AR-DiMP50 [0.615] DiMP50 [0.606] TrackerLT(Ours) [0.605] SiamAttn [0.593] SiamBAN [0.582] SiamTLT(Ours) [0.581] SiamRPN++ [0.581] SiamGAT [0.579] SiamRN [0.569] Ocean [0.568] AutoMatch [0.549] SiamCAR 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ngưỡng chồng chéo 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Tỷ lệ th àn h cô ng Biểu đồ thành công: Che lấp hoàn toàn [0.494] AR-DiMP50 [0.492] TrackerLT(Ours) [0.455] SiamRN [0.449] SiamGAT [0.435] TrDiMP [0.426] AutoMatch [0.424] SiamRPN++ [0.422] DiMP50 [0.420] SiamAttn [0.419] SiamCAR [0.418] SiamBAN [0.414] SiamTLT(Ours) [0.405] Ocean Hình 3.13. So sánh điểm số thành công theo thuộc tính thách thức trên bộ dữ liệu UAV123 của mô hình TrackerLT với các mô hình khác. 109 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Chuyển động camera [0.879] TrackerLT(Ours) [0.873] AR-DiMP50 [0.872] DiMP50 [0.869] SiamRN [0.864] TrDiMP [0.863] SiamRPN++ [0.857] SiamGAT [0.856] SiamTLT(Ours) [0.848] SiamBAN [0.848] SiamAttn [0.835] AutoMatch [0.823] Ocean [0.797] SiamCAR 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Thay đổi độ sáng [0.883] AR-DiMP50 [0.848] TrackerLT(Ours) [0.847] DiMP50 [0.815] SiamRN [0.815] SiamAttn [0.815] SiamRPN++ [0.814] AutoMatch [0.809] TrDiMP [0.779] SiamGAT [0.776] SiamTLT(Ours) [0.766] SiamBAN [0.752] Ocean [0.748] SiamCAR 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Đ iể m ch ín h xá c Biểu đồ chính xác: Độ phân giải thấp [0.774] AR-DiMP50 [0.768] SiamRN [0.767] TrDiMP [0.755] TrackerLT(Ours) [0.747] DiMP50 [0.745] SiamTLT(Ours) [0.736] SiamGAT [0.732] SiamAttn [0.719] SiamBAN [0.704] Ocean [0.701] AutoMatch [0.693] SiamCAR [0.690] SiamRPN++ 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Thay đổi tỷ lệ [0.867] AR-DiMP50 [0.851] TrDiMP [0.839] TrackerLT(Ours) [0.823] SiamGAT [0.818] SiamRPN++ [0.818] SiamRN [0.816] SiamTLT(Ours) [0.809] SiamAttn [0.808] DiMP50 [0.798] AutoMatch [0.796] SiamBAN [0.793] Ocean [0.759] SiamCAR 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Ngoài khung hình [0.835] TrDiMP [0.832] AR-DiMP50 [0.816] SiamRPN++ [0.813] SiamGAT [0.808] TrackerLT(Ours) [0.794] SiamRN [0.793] SiamAttn [0.790] DiMP50 [0.789] SiamBAN [0.788] AutoMatch [0.777] SiamTLT(Ours) [0.772] Ocean [0.735] SiamCAR 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Đ iể m ch ín h xá c Biểu đồ chính xác: Che lấp một phần [0.838] AR-DiMP50 [0.827] TrackerLT(Ours) [0.810] TrDiMP [0.805] SiamRN [0.797] DiMP50 [0.781] SiamGAT [0.775] SiamTLT(Ours) [0.771] SiamRPN++ [0.765] SiamBAN [0.763] SiamAttn [0.753] AutoMatch [0.744] Ocean [0.724] SiamCAR Hình 3.14. So sánh điểm số chính xác theo thuộc tính thách thức trên bộ dữ liệu UAV123 của mô hình TrackerLT với các mô hình khác. 110 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Thay đổi khung nhìn [0.878] TrDiMP [0.876] SiamRPN++ [0.860] AR-DiMP50 [0.855] TrackerLT(Ours) [0.844] SiamTLT(Ours) [0.837] AutoMatch [0.835] SiamGAT [0.833] SiamRN [0.829] SiamAttn [0.828] DiMP50 [0.824] SiamBAN [0.813] Ocean [0.807] SiamCAR 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Đối tượng tương tự [0.848] TrDiMP [0.837] SiamRN [0.829] SiamTLT(Ours) [0.817] TrackerLT(Ours) [0.816] AR-DiMP50 [0.815] SiamGAT [0.800] DiMP50 [0.800] SiamRPN++ [0.786] Ocean [0.777] SiamBAN [0.767] SiamAttn [0.754] SiamCAR [0.744] AutoMatch 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Thay đổi kích thước [0.854] AR-DiMP50 [0.845] TrDiMP [0.845] SiamRN [0.844] TrackerLT(Ours) [0.830] DiMP50 [0.826] SiamAttn [0.824] SiamGAT [0.823] SiamTLT(Ours) [0.821] AutoMatch [0.820] SiamRPN++ [0.813] SiamBAN [0.808] Ocean [0.791] SiamCAR 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Đ iể m ch ín h xá c Biểu đồ chính xác: Nền lộn xộn [0.764] AR-DiMP50 [0.745] TrackerLT(Ours) [0.720] SiamRN [0.718] SiamAttn [0.712] AutoMatch [0.687] DiMP50 [0.659] SiamCAR [0.657] SiamGAT [0.655] SiamRPN++ [0.651] SiamTLT(Ours) [0.645] SiamBAN [0.640] TrDiMP [0.575] Ocean 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Đ iể m ch ín h xá c Biểu đồ chính xác: Chuyển động nhanh [0.842] TrDiMP [0.832] DiMP50 [0.826] AR-DiMP50 [0.810] SiamAttn [0.805] SiamBAN [0.799] SiamRN [0.791] TrackerLT(Ours) [0.786] SiamGAT [0.774] SiamRPN++ [0.774] SiamTLT(Ours) [0.767] Ocean [0.765] AutoMatch [0.742] SiamCAR 0 5 10 15 20 25 30 35 40 45 50 Ngưỡng lỗi vị trí 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Đ iể m ch ín h xá c Biểu đồ chính xác: Che lấp hoàn toàn [0.750] AR-DiMP50 [0.742] TrackerLT(Ours) [0.729] SiamRN [0.690] SiamGAT [0.687] TrDiMP [0.673] DiMP50 [0.671] SiamBAN [0.661] SiamRPN++ [0.660] SiamCAR [0.659] AutoMatch [0.653] Ocean [0.650] SiamAttn [0.644] SiamTLT(Ours) Hình 3.15. So sánh điểm số thành chính xác thuộc tính thách thức trên bộ dữ liệu UAV123 của mô hình TrackerLT với các mô hình khác. 111 • Trên bộ dữ liệu OTB100. + So sánh tổng thể : Luận án thưc hiện so sánh kết quả của TrackerLT trên bộ dữ liệu OTB100 với mười một mô hình công bố từ 2019 đến 2022, gồm DiMP50 [30], SiamRPN++ [14], SiamCAR [23], SiamBAN [120], PrDiMP50 [71], Ocean [126], KYS [31], SiamRN [100], AR-DiMP50 [12], TransT [110] và MixFormer1K [117], bảng 3.10. Mô hình đề xuất đạt điểm thành công bằng 0,701, cao hơn mười mô hình khác và bằng SiamRN. So với DiMP50, TrackerLT đạt điểm thành công cao hơn lần lượt là 1,3%. Xét về điểm chính xác, mô hình TrackerLT, đạt số điểm 0,896, cao hơn phương pháp khác sử dụng tranformer là TransT, và thấp hơn hai mô hình Siamese khác là SiamRPN++ và Ocean, lý do các mô hình Siamese này sử dụng ba đến bốn lớp (layer) của mạng trích chọn đặc trưng (ResNet) làm đầu vào (như SiamRPN++) và huấn luyện trên tập dữ liệu bổ sung là Youtube BB [27] hoặc dùng cơ chế cập nhật trực tuyến (online) như Ocean. Bảng 3.10. So sánh kết quả trên bộ dữ liệu OTB100 của mô hình TrackerLT Nguồn Mô hình Điểm thành công(↑) Điểm chính xác(↑) Ours TrackerLT 0,701 0,896 CVPR 2021 SiamRN [100] 0,701 0,931 Ours SiamTLT 0,698 0,906 CVPR 2021 AR-DiMP50 [12] 0,698 0,881 CVPR 2020 SiamCAR [23] 0,697 0,910 CVPR 2020 PrDiMP50 [71] 0,696 - CVPR 2019 SiamRPN++ [14] 0,696 0,915 CVPR 2022 MixFormer1K [117] 0,696 0,911 CVPR 2020 SiamBAN [120] 0,696 0,910 ECCV 2020 KYS [31] 0,695 0,904 CVPR 2021 TransT [110] 0,691 0,893 ICCV 2019 DiMP50 [30] 0,688 0,900 ECCV 2020 Ocean [126] 0,684 0,920 + So sánh theo thuộc tính thách thức: So sánh điểm thành công trên các thuộc tính thách thức trên bộ dữ liệu OTB100 của mô hình TrackerLT đạt điểm cao nhất đối với thuộc tính ngoài khung hình-OV (0,697), điểm cao thứ nhì đối với thuộc tính mờ chuyển động-MB (0,741) và bị che lấp-OCC (0,655), cao thứ ba đối với các thuộc tính thay đổi độ sáng-IV (0,718), biến dạng-DEF (0,669) và thay đổi kích thước-SV (0,703). Mô hình này đạt điểm thành công thấp trên thuộc tính độ phân giải thấp, nền lộn xộn so với các phương pháp mới đề xuất năm 2021. 112 Bảng 3.11. So sánh điểm thành công trên các thuộc tính thách thức trên bộ dữ liệu OTB100 của mô hình TrackerLT Mô hình IV(↑) LR(↑) DEF(↑) OV(↑) IPR(↑) MB(↑) OPR(↑) SV(↑) BC(↑) OCC(↑) FM(↑) TrackerLT (Our) 0,718 0,643 0,669 0,697 0,695 0,741 0,677 0,703 0,677 0,665 0,701 SiamTLT (Our) 0,700 0,710 0,667 0,619 0,695 0,703 0,685 0,696 0,662 0,659 0,671 SiamRN [100] 0,720 0,702 0,672 0,651 0,709 0,709 0,698 0,700 0,694 0,672 0,695 AR-DiMP50 [12] 0,695 0,699 0,653 0,696 0,709 0,750 0,688 0,702 0,656 0,657 0,703 SiamCAR [23] 0,703 0,712 0,651 0,661 0,703 0,715 0,679 0,698 0,672 0,653 0,703 SiamRPN++ [14] 0,713 0,696 0,663 0,646 0,694 0,703 0,680 0,694 0,691 0,663 0,686 MixFormer1K [117] 0,687 0,691 0,666 0,661 0,684 0,739 0,669 0,711 0,674 0,652 0,706 SiamBAN [120] 0,724 0,719 0,662 0,640 0,717 0,698 0,687 0,693 0,680 0,648 0,687 KYS [31] 0,720 0,701 0,675 0,635 0,700 0,709 0,684 0,693 0,662 0,657 0,693 TransT [110] 0,669 0,714 0,644 0,684 0,687 0,731 0,668 0,727 0,627 0,656 0,711 DiMP50 [30] 0,695 0,664 0,672 0,624 0,686 0,702 0,671 0,694 0,646 0,659 0,683 Ocean [126] 0,704 0,687 0,652 0,660 0,695 0,697 0,683 0,685 0,660 0,646 0,689 Bảng 3.12. So sánh kết quả trên bộ dữ liệu LaSOT của mô hình TrackerLT Nguồn Mô hình Điểm thành công(↑) Điểm chính xác(↑) Ours TrackerLT 0,604 0,608 CVPR 2021 AR-DiMP50 [12] 0,602 - CVPR 2020 PrDiMP50 [71] 0,598 - ICCV 2021 AutoMatch [127] 0,582 0,599 ICCV 2019 DiMP50 [30] 0,569 - CVPR 2021 SiamGAT [24] 0,539 0,530 ECCV 2020 Ocean [126] 0,516 0,526 CVPR 2019 SiamRPN++ [14] 0,496 0,569 CVPR 2019 SiamDW [125] 0,385 0,389 • Trên bộ dữ liệu LaSOT. Luận án thực hiện so sánh kết quả của Track- erLT trên bộ dữ liệu LaSOT với chín mô hình được công bố tại ba hội nghị hàng đầu về thị giác máy tính là, ECCV, CVPR và ICCV từ 2019 đến 2021, bao gồm SiamDW [125], SiamRPN++[14], DiMP50 [30], PrDiMP50 [71], SiamCAR [23], Ocean [126], AutoMatch [127], SiamGAT [24] và AR-DiMP50 [12]. Mô hình TrackerLT đề xuất đạt điểm thành công (0,604) và điểm chính xác (0,608), cao hơn các phương pháp khác cả hai chỉ số này. So với DiMP50, điểm số thành công cải thiện 3,5% sau khi áp dụng TrackerLT vào mô hình cơ sở này. So với AR-DiMP50, mô hình đề xuất có điểm thành công cao hơn 0,2%. Ngoài ra, TrackerLT cao hơn hai mô hình đề xuất năm 2021 là AutoMatch và SiamGAT lần lượt là 2,2% và 6,5% đối với điểm thành công, 0,9% và 7,8% xét về điểm chính xác. Kết quả cho thấy đề xuất đạt kết quả cạnh tranh (state-of-the-art), chi tiết được thể hiện trong bảng 3.12. Các số liệu trong bảng được tham khảo từ bài báo gốc hoặc kết quả mà tác giả bài báo xuất bản trên github.com đi kèm với mã nguồn của bài báo. 113 • Trên bộ dữ liệu GOT-10k. Trên bộ dữ liệu GOT10K, luận án thực hiện so sánh kết quả của TrackerLT với bảy mô hình mới được công bố tại ba hội nghị hàng đầu về thị giác máy tính là, ECCV, CVPR và ICCV từ 2019 đến 2021, bao gồm DiMP50 [30], PrDiMP50 [71], Ocean [126], AutoMatch [127], SiamGAT [24] và AR-DiMP50 [12] như hình 3.13. Mô hình đề xuất đạt điểm AO là 0,650. So với DiMP50, điểm số AO cải thiện 3,9% sau khi áp dụng TrackerLT vào mô hình này. Ngoài ra, TrackerLT cao hơn hai mô hình đề xuất năm 2021 là AutoMatch và SiamGAT lần lượt là 3,5% và 7,8% đối với điểm thành công. Kết quả cho thấy đề xuất đạt kết quả mới (state-of-the-art). Các số liệu trong bảng được lấy từ bài báo gốc tương ứng. Kết quả của TrackerLT được đánh giá thông qua trang chủ GOT-10k ( Bảng 3.13. So sánh kết quả trên bộ dữ liệu GOT-10k của mô hình TrackerLT theo tỷ lệ thành công (SR) và chồng chéo trung bình (AO). Nguồn Mô hình SR0.5(↑) SR0.75(↑) AO(↑) TrackerLT(Ours) 0,741 0,547 0,650 CVPR 2021 AR-DiMP50 [12] 0,743 0,585 0,654 CVPR 2020 PrDiMP50 [71] 0,738 0,543 0,634 ICCV 2021 AutoMatch [127] 0,766 0,543 0,652 ICCV 2019 DiMP50 [30] 0,717 0,492 0,611 CVPR 2021 SiamGAT [24] 0,743 0,488 0,627 ECCV 2020 Ocean [126] 0,721 - 0,611 CVPR 2020 SiamCAR [23] 0,683 0,441 0,581 3.3.5. Vai trò của mô-đun đề xuất trong TrackerLT + Số lớp tự mã hóa và mã hóa chéo: Để so sánh ảnh hưởng của số lớp chuyển đổi tuyến tính đối với bộ dữ liệu đánh giá. Luận án đã thử nghiệm với L = 2 và L = 4. Như được hiển thị trong bảng 3.14, trên bộ dữ liệu VOT2018, khi L = 2, TrackerLT đạt điểm EAO cao hơn 2,6% so với L = 4. Hơn nữa, mạng chạy với tốc độ 30 FPS trên GPU RTX 3070, bộ nhớ GPU là 3,238 GB khi L = 2 và chạy với tốc độ 26 FPS, bộ nhớ GPU 3,31 GB khi L = 4. + So sánh loại kết hợp: Luận án so sánh thực nghiệm kết quả của hai loại kết hợp là PW-Corr [12] và FFM. Kết quả như trong bảng 3.15, trên VOT2018, FFM với L = 2 có EAO là 0,492, cao hơn 0,6% so với PW-Corr. + So sánh với mô hình cơ sở: Bảng 3.16 so sánh TrackerLT với trình theo bám cơ sở DiMP trên sáu bộ dữ liệu chuẩn. Kết quả cho thấy trên bốn bộ dữ liệu LaSOT, VOT2019, GOT-10K, VOT2018 điểm số tăng lần lượt là 3,5%, 3,9%, 4,1%, 5,3%. 114 Đánh giá kết quả trên bộ dữ liệu Anti-UAV: Với mô hình cơ sở là TrackingUAV, TrackerLT cải thiện điểm chính xác trung bình acc của TrackingUAV 1,8% từ 0,654 lên 0,672, như trong bảng 3.17. Chi tiết điểm acc của từng video được thể hiện trong bảng 3.18. 3.3.6. Minh họa kết quả theo bám của TrạckerLT Hình 3.16 cung cấp một số kết quả trực quan so sánh độ chính xác của các mô hình. Từ trên xuốn dưỡi là các video thuộc VOT2018 gồm nature, car1 và basketball. Có thể thấy rằng TrackerLT có độ chính xác cao hơn DiMP [30] và AR-DiMP [12] trong nhiều trường hợp hình ảnh thách thức. Ghi chú màu: Ground-Truth , DiMP , AR-DiMP và TrackerLT Bảng 3.14. Kết quả so sánh TrackerLT với các biến thể về số lớp L trên bộ dữ liệu VOT2018. Kết quả tốt hơn được đánh dấu bằng màu đỏ. Bộ dữ liệu L EAO(↑) FPS(↑) Bộ nhớ GPU(↓) VOT2018 2 0,492 30 3,238 GB 4 0,466 26 3,310 GB Bảng 3.15. Kết quả so sánh định lượng mô hình đề xuất với hai loại kết hợp khác nhau trên bộ dữ liệu VOT2018. Bộ dữ liệu Kết hợp EAO(↑) VOT2018 PW-Corr 0,486 FFM 0,492 Bảng 3.16. So sánh TrackerLT với DiMP trên sáu bộ dữ liệu chuẩn Bộ dữ liệu DiMP TrackerLT(Our) △ VOT2018 [73] (EAO) 0,439 0,492 5,3% ↑ VOT2019 [74] (EAO) 0,391 0,350 4,1% ↑ GOT-10k [63] (AO) 0,611 0,650 3,9% ↑ LaSOT [36] (AUC) 0,569 0,604 3,5% ↑ UAV123 [75] (AUC) 0,671 0,642 2,9% ↑ OTB100 [113] (AUC) 0,688 0,701 1,3% ↑ Bảng 3.17. So sánh TrackerLT với trình theo bám cơ sở TrackingUAV trên bộ dữ liệu Anti-UAV Bộ dữ liệu TrackingUAV TrackerLT(Our) △ Anti-UAV [80] (acc) 0,654 0,672 1,8% ↑ 115 Bảng 3.18. Kết quả thực nghiệm trên bộ dữ liệu Anti-UAV của mô hình TrackerLT với mô hình cơ sở là TrackingUAV Video acc(↑) Video acc(↑) Video acc(↑) Video acc(↑) 20190925-210802-1-4 0.844 20190926-141816-1-1 0.865 20190925-213001-1-7 0.485 20190925-200320-1-2 0.806 20190926-103046-1-1 0.502 20190925-194211-1-2 0.496 20190925-133630-1-4 0.725 20190925-131530-15 0.825 20190926-183400-1-9 0.447 20190925-222534-1-3 0.800 20190925-141417-1-3 0.147 20190925-152412-1-8 0.554 20190925-205804-1-2 0.849 20190925-140917-1-2 0.416 20190926-130341-1-8 0.828 20190926-183941-1-4 0.727 20190925-205804-1-1 0.778 20190925-133630-1-8 0.512 20190925-140917-1-5 0.294 20190925-152412-1-7 0.384 20190925-210802-1-7 0.861 20190925-140917-1-4 0.348 20190926-183941-1-6 0.777 20190925-143900-1-5 0.548 20190926-133516-1-1 0.847 20190925-194211-1-6 0.551 20190925-133630-1-3 0.811 20190925-183946-1-5 0.746 20190926-130341-1-6 0.831 20190925-200320-1-6 0.787 20190925-101846-1-3 0.531 20190926-144550-1-3 0.764 20190925-200320-1-3 0.734 20190925-130434-1-7 0.784 20190926-144550-1-2 0.755 20190926-144550-1-5 0.758 20190925-141417-1-8 0.693 20190925-130434-1-9 0.737 20190926-193515-1-2 0.699 20190925-131530-1-7 0.409 20190926-195921-1-9 0.681 20190926-143632-1-5 0.750 20190925-213001-1-6 0.519 20190926-144550-1-9 0.873 20190925-130434-1-4 0.849 20190925-133630-1-1 0.779 20190926-193515-1-1 0.733 20190925-210802-1-1 0.814 20190926-130341-1-1 0.882 20190925-200320-1-5 0.796 20190926-183941-1-8 0.765 20190925-143900-1-8 0.653 20190925-143900-1-4 0.317 20190926-142435-1-5 0.779 20190925-183946-1-6 0.637 20190926-195921-1-8 0.613 20190925-194211-1-1 0.340 20190925-205804-1-4 0.841 20190926-141816-1-5 0.830 20190925-131530-1-4 0.705 20190926-103046-1-4 0.631 20190926-142435-1-3 0.746 20190926-183400-1-8 0.789 20190926-133516-1-7 0.704 20190926-143632-1-6 0.761 20190926-193515-1-8 0.766 20190926-130341-1-3 0.820 20190926-141816-1-7 0.764 20190926-193515-1-7 0.692 20190925-222534-1-1 0.805 20190925-133630-1-7 0.216 20190926-130341-1-4 0.824 20190926-142435-1-8 0.168 20190925-101846-1-8 0.552 20190926-183400-1-5 0.768 20190925-213001-1-2 0.742 20190926-183400-1-3 0.782 20190925-213001-1-5 0.590 20190926-142435-1-4 0.787 20190925-143900-1-3 0.699 20190925-101846-1-1 0.642 20190925-131530-1-1 0.356 20190925-101846-1-7 0.412 20190926-142435-1-7 0.718 20190926-143632-1-7 0.541 20190925-183946-1-8 0.791 20190925-140917-1-7 0.724 20190925-222534-1-4 0.730 20190926-183941-1-9 0.828 20190926-200510-1-1 0.783 20190925-194211-1-7 0.757 20190925-133630-1-2 0.752 20190925-152412-1-6 0.514 20190926-183941-1-2 0.731 20190925-152412-1-2 0.620 20190926-144550-1-8 0.782 20190925-152412-1-1 0.306 20190925-210802-1-2 0.817 20190925-213001-1-4 0.687 20190926-193515-1-3 0.673 (a) DiMP (b) AR-DiMP (c) TrackerLT (d) DiMP (e) AR-DiMP (f) TrackerLT (g) DiMP (h) AR-DiMP (i) TrackerLT Hình 3.16. So sánh trực quan TrackerLT và các mô hình khác. 116 Một số hình ảnh minh họa kết quả theo bám trên các bộ dữ liệu. - Trên video drone1 (hình 3.17) và drone-across (hình 3.18) thuộc VOT2018. (a) khung hình 01 (b) khung hình 100 (c) khung hình 200 (d) khung hình 354 Hình 3.17. Minh họa kết quả theo bám drone trên video drone1 của bộ dữ liệu VOT2018 của TrackerLT. Màu xanh là nhãn, màu vàng là kết quả theo bám (a) khung hình 01 (b) khung hình 40 (c) khung hình 100 (d) khung hình 146 Hình 3.18. Minh họa kết quả theo bám drone trên video drone-across của bộ dữ liệu VOT2018 của mô hình TrackerLT. 117 - Trên video uav1-1 thuộc bộ UAV123, hình 3.19. (a) khung hình 001 (b) khung hình 100 (c) khung hình 200 (d) khung hình 300 (e) khung hình 500 (f) khung hình 600 (g) khung hình 800 (h) khung hình 1300 Hình 3.19. Minh họa kết quả theo bám drone trên video uav1-1 của bộ dữ liệu UAV123. Màu xanh là nhãn, màu vàng là kết quả theo bám 118 3.4. Kết luận chương 3 Chương 3 của luận án đã đề xuất hai mô hình học sâu theo kiến trúc mạng Siamese sử dụng mạng chuyển đổi tuyến tính. Trong mô hình SiamTLT, luận án đã đề xuất sử dụng mạng chuyển đổi tuyến tính để tăng cường dữ liệu hai nhánh của mạng Siamese, sau đó dùng tiếp mạng chuyển đổi tuyến tính để kết hợp đặc trưng đã tăng cường để thu được đặc trưng kết hợp. Kết quả thử nghiệm trên ba bộ dữ liệu gồm OTB100, UAV123, VOT2018 cho kết quả cao (state-of-the-art) khi so sánh với các trình theo bám khác và chạy với tốc độ thời gian thực khoảng 39 FPS. Đề xuất TrackerLT, với trình theo bám bất kỳ (ví dụ DiMP), kết quả theo bám của trình này kết hợp với ROI để tạo ra đặc trưng của ảnh mẫu của nhánh mẫu mạng Siamese. Tiếp đó, luận án sử dụng mạng chuyển đổi tuyến tính để tăng cường đặc trưng và kết hợp đặc trưng giữa hai nhánh của mạng Siamese mà không dùng tương quan. Mạng dự đoán đầu ra dùng cơ chế phát hiện góc giúp mô hình dự đoán kết quả chính xác hơn. Kết quả thử nghiệm trên bốn bộ dữ liệu dạng ngắn (VOT2018, VOT2019, UAV123 và OTB100), hai bộ dữ liệu dạng dài (LaSOT, GOT10K) và bộ chống UAV (Anti-UAV) cho thấy mô hình TrackerLT đạt hiệu suất cao khi so ánh với với một số mô hình mới được đề xuất năm 2020, 2021, và 2022 tại các hội nghị hàng đầu về thị giác máy tính là CVPR, ECCV và ICCV. Kết quả nghiên cứu trong chương này đã được công bố tại công trình [CT4], [CT6] trong danh mục các công trình đã công bố. 119 KẾT LUẬN 1. Các kết quả nghiên cứu của luận án Trí tuệ nhân tạo (AI) đã và đang trở thành xu hướng tất yếu trong giải quyết các bài toán thực tiễn và ngày càng được nhiều ngành, nhiều nhà khoa học quan tâm, đầu tư nghiên cứu, trong đó có các nghiên cứu ứng dụng AI vào trong các bài toán thị giác máy tính. Bài toán theo bám đối tượng trong video là một trong những bài toán có tính ứng dụng thực tế của lĩnh vực thị giác máy tính. Hiện nay, có nhiều hướng tiếp cận khác nhau để giải quyết bài toán này và đây vẫn là bài toán chưa có lời giải hoàn chỉnh. Luận án này tập trung vào giải quyết bài toán theo bám đối tượng trong video sử dụng các mô hình học sâu và kỹ thuật thị giác máy tính tiên tiến. Các kết quả chính của luận án bao gồm: - Nghiên cứu tổng quan bài toán theo bám đối tượng, các ứng dụng và thách thức mà bài toán đang gặp phải; nghiên cứu các chỉ số và các bộ dữ liệu chuẩn dùng để đánh giá các mô hình theo bám đơn đối tượng trong video; nghiên cứu các hướng tiếp cận giải quyết bài toán theo bám đối tượng trong video. Từ đó đề xuất các mô hình theo bám đối tượng trong video có hiệu năng cao so sánh với các phương pháp mới đề xuất của cộng đồng theo bám đối tượng trên thế giới. - Nghiên cứu các mô hình theo bám đối tượng sử dụng kiến trúc mạng Siamese trên bộ dữ liệu ảnh RGB, từ đó đề xuất mô hình theo bám và đánh giá kết quả trên bộ dữ liệu chống UAV hồng ngoại có kết quả cao. - Nghiên cứu các cơ chế tập trung và phương pháp phát hiện đối tượng mới, từ đó đề xuất phương pháp theo bám đối tượng trong video theo kiến trúc mạng Siamese. Đề xuất cho phép tăng cường đặc trưng hai nhánh của mạng với cơ chế tự tập trung và tập trung chéo, mạng hồi quy kết quả không dùng khung neo giúp mô hình giảm số tham số và chạy với thời gian thực. - Nghiên cứu các mạng chuyển đổi tuyến tính, từ đó xây dựng các mô hình theo bám đối tượng theo kiến trúc Siamese có kết quả cao khi so với các phương pháp khác mới công bố năm 2020, 2021 tại các hội nghị hàng đầu về thị giác máy tính như CVPR, ICCV, ECCV. - Nghiên cứu đề xuất mô hình tăng cường hiệu năng của trình theo bám cơ sở. Việc này giúp cải thiện độ chính xác của mô hình theo dõi tổng thể. Kết quả thử nghiệm trên bốn bộ dữ liệu dạng ngắn (VOT2018, VOT2019, UAV123 và 120 OTB100) và hai bộ dữ liệu dạng dài (LaSOT, GOT10K) cho thấy mô hình đề xuất đạt hiệu suất cao khi so ánh với với một số mô hình mới năm 2020, 2021 và 2022 được đề xuất tại các hội nghị hàng đầu về thị giác máy tính là CVPR, ECCV và ICCV. Các nội dung và kết quả chính của luận án được công bố trong 06 công trình khoa học, trong đó có 03 công trình trong các hội thảo khoa học quốc tế thuộc danh mục Scopus và 03 công trình ở tạp chí trong nước được HĐGSNN tính điểm. 2. Những đóng góp mới của luận án - Đề xuất một số kỹ thuật cải tiến mạng Siamese trong bài toán theo bám đối tượng sử dụng cơ chế tập trung, mạng thích ứng điểm không dùng khung neo. - Đề xuất sử dụng mạng chuyển đổi nhẹ trên kiến trúc mạng Siamese trong bài toán theo bám đối tượng thời gian thực. - Đề xuất sử dụng mạng chuyển đổi tuyến tính và cơ chế tập trung trên kiến trúc mạng Siamese giúp tăng cường hiệu năng của trình theo bám đối tượng cơ sở. 3. Hướng nghiên cứu tiếp theo Hướng nghiên cứu tiếp theo của luận án nhằm phát triển công trình để có thể đưa kết quả nghiên cứu vào ứng dụng trong thực tiễn: - Tiếp tục nghiên cứu, cải tiến các phương pháp đã đề xuất, từ đó chuyển đổi mã nguồn sang TensorRT để có thể triển khai vào ứng dụng thực tế chạy được trên môi trường máy tính PC hoặc thiết bị nhúng. - Nghiên cứu các mô hình học sâu mới cho bài toán phát hiện đối tượng trong ảnh, bài toán theo bám và phân vùng đối tượng trong video, bài toán theo bám đa đối tượng. Nhằm đề xuất mô hình kết hợp phân vùng với theo bám đơn và đa đối tượng. 121 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [CT1] Hoang Dinh Thang, Tran Quoc Long, Thai Kien Trung, Nguyen Chi Thanh, “Tracking UAV in infrared videos using Siamese networks”, Tạp chí Nghiên cứu KH&CN Quân sự, Số đặc san hội thảo Quốc gia FEE, 10–2020, tr. 455–462, 2020. [CT2] Hoàng Đình Thắng, Trần Quốc Long, Thái Trung Kiên, “Nghiên cứu các phương pháp theo dõi đối tượng sử dụng kiến trúc mạng Siamese’, Tạp chí Nghiên cứu KH&CN Quân sự, Số đặc san hội thảo Quốc gia FEE, 10-2021, tr. 211–219, 2021. [CT3] Thang Hoang Dinh, Long Tran Quoc, Kien Thai Trung, “Siamese At- tention and Point Adaptive Network for Visual Tracking”, In 2021 In- ternational Conference on Multimedia Analysis and Pattern Recognition (MAPR), IEEE, 2021. [CT4] Dinh Thang Hoang, Trung Kien Thai, Thanh Nguyen Chi, and Long Quoc Tran, “Real-Time Siamese Visual Tracking with Lightweight Trans- former”, In The 2021 8th NAFOSTED Conference on Information and Com- puter Science (NICS), IEEE, 2021, pp. 265–270. [CT5] Hoang Dinh Thang, Do Ngoc Tuan, Thai Trung Kien, Tran Quoc Long, “Real-time Siamese visual object tracking using attention and anchor-free mechanism”, In Journal of Military Science and Technology, 80 (6-2022), pp. 132–141. [CT6] Thang Hoang Dinh, Kien Thai Trung, Thanh Nguyen Chi, and Long Quoc Tran, “Improving the Accuracy of Tracker by Linearized Transformer”, In Proceedings of the 12th International Conference on Pattern Recognition Applications and Methods, ISBN 978-989-758-626-2, ISSN 2184-4313, 2023, pp. 607–614. 122 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Thi Thu Hồng, “Nghiên cứu phát triển một số kỹ thuật học sâu áp dụng trong phân tích ảnh nội soi tuyến tiêu hóa”, v: Luận án tiến sĩ toán học, Viện Khoa học và Công nghệ quân sự, 2021. [2] Nguyễn Thị Hằng, “Ứng dụng phương pháp lọc bayes và mô hình markov ẩn trong bài toán quan sát quỹ đạo đa mục tiêu”, v: Luận án tiến sĩ toán học, Viện Khoa học và Công nghệ quân sự, 2021. [3] Nguyễn Văn Căn, “Nghiên cứu phát triển một số thuật toán phát hiện và phân loại phương tiện từ dữ liệu video giao thông”, v: Luận án tiến sĩ toán học, Viện Khoa học và Công nghệ quân sự, 2015. [4] Nguyễn Văn Hùng, “Nghiên cứu phương pháp xử lý ảnh trong phát hiện, bám một số chủng loại mục tiêu và áp dụng trong điều hiển vũ khí tự động”, v: Luận án tiến sĩ toán học, Viện Khoa học và Công nghệ quân sự, 2017. Tiếng Anh: [5] Alan Lukezˇicˇ et al., “Discriminative correlation filter tracker with chan- nel and spatial reliability”, in: Int. J. Comput. Vis. Volume 126, 7, 2018, pages 671–688. [6] Alex Krizhevsky et al., “Imagenet classification with deep convolu- tional neural networks”, in: Advances in NIPS, volume 25, 2012. [7] Alexey Bochkovskiy et al., “Yolov4: Optimal speed and accuracy of object detection”, in: arXiv:2004.10934, 2020. [8] Angelos Katharopoulos et al., “Transformers are rnns: Fast autore- gressive transformers with linear attention”, in: ICML, PMLR, 2020, pages 5156–5165. [9] Arkadi Nemirovski et al., “On Cezari’s convergence of the steepest de- scent method for approximating saddle point of convex-concave func- tions”, in: Soviet Mathematics. Doklady, volume 19, 2, 1978, pages 258– 269. [10] Ashish Vaswani et al., “Attention is all you need”, in: Advances in NIPS, volume 30, 2017. 123 [11] Bin Wu et al., “A method for plane-symmetrical vehicle trajectory tracking in maneuver flight”, in: 35th Chinese Control Conference (CCC), IEEE, 2016, pages 5743–5746. [12] Bin Yan et al., “Alpha-refine: Boosting tracking performance by precise bounding box estimation”, in: CVPR, 2021, pages 5289–5298. [13] Bo Li et al., “High performance visual tracking with siamese region proposal network”, in: CVPR, 2018, pages 8971–8980. [14] Bo Li et al., “Siamrpn++: Evolution of siamese visual tracking with very deep networks”, in: CVPR, 2019, pages 4282–4291. [15] Borui Jiang et al., “Acquisition of localization confidence for accurate object detection”, in: ECCV, 2018. [16] Changlin Xiao et al., “Efficient tracking with distinctive target colors and silhouette”, in: ICPR, IEEE, 2016, pages 2728–2733. [17] Cheng-Yang Fu et al., “RetinaMask: Learning to predict masks im- proves state-of-the-art single-shot detection for free”, in: arXiv:1901.03353, 2019. [18] Christian Szegedy et al., “Going deeper with convolutions”, in: CVPR, 2015, pages 1–9. [19] Cong Phuc Nguyen et al., “Multi-task Deep-Learning Vehicle Detec- tion and Tracking based on Aerial Views from UAV”, in: 2022 Inter- national Conference on Advanced Technologies for Communications (ATC), IEEE, 2022, pages 86–91. [20] Cyril Robin et al., “Multi-robot target detection and tracking: taxon- omy and survey”, in: Autonomous Robots, volume 40, 4, Springer, 2016, pages 729–760. [21] David Silver et al., “Mastering the game of Go with deep neural net- works and tree search”, in: nature, volume 529, 7587, Nature Publishing Group, 2016, pages 484–489. [22] Diogo C Luvizon et al., “Human pose regression by combining indirect part detection and contextual information”, in: Computers & Graphics, volume 85, Elsevier, 2019, pages 15–22. [23] Dongyan Guo et al., “SiamCAR: Siamese fully convolutional classifica- tion and regression for visual tracking”, in: CVPR, 2020, pages 6269– 6277. 124 [24] Dongyan Guo et al., “Graph attention tracking”, in: CVPR, 2021, pages 9543–9552. [25] Duc-Thinh Bui et al., “Aerial image semantic segmentation using neu- ral search network architecture”, in: International Conference on Multi- disciplinary Trends in Artificial Intelligence, Springer, 2018, pages 113– 124. [26] Esteban Real et al., “Youtube-boundingboxes: A large high-precision human-annotated data set for object detection in video”, in: CVPR, 2017, pages 5296–5305. [27] Esteban Real et al., “Youtube-boundingboxes: A large high-precision human-annotated data set for object detection in video”, in: CVPR, 2017, pages 5296–5305. [28] Fan Li et al., “Training-set distillation for real-time uav object track- ing”, in: IEEE ICRA, IEEE, 2020, pages 9715–9721. [29] Goutam Bhat et al., “Unveiling the power of deep tracking”, in: ECCV, 2018, pages 483–498. [30] Goutam Bhat et al., “Learning discriminative model prediction for tracking”, in: ICCV, 2019, pages 6182–6191. [31] Goutam Bhat et al., “Know your surroundings: Exploiting scene in- formation for object tracking”, in: ECCV, Springer, 2020, pages 205– 221. [32] Guiguang Ding et al., “Real-time scalable visual tracking via quadran- gle kernelized correlation filters”, in: TITS, volume 19, 1, IEEE, 2017, pages 140–150. [33] Hao Peng et al., “Random feature attention”, in: arXiv:2103.02143, 2021. [34] Haoyang Zhang et al., “Varifocalnet: An iou-aware dense object detec- tor”, in: CVPR, 2021, pages 8514–8523. [35] Hei Law et al., “Cornernet: Detecting objects as paired keypoints”, in: ECCV, 2018, pages 734–750. [36] Heng Fan et al., “Lasot: A high-quality benchmark for large-scale single object tracking”, in: CVPR, 2019, pages 5374–5383. [37] Huajun Liu et al., “Polarized self-attention: towards high-quality pixel- wise regression”, in: arXiv:2107.00782, 2021. 125 [38] Huiyu Zhou et al., “Object tracking using SIFT features and mean shift”, in: Computer vision and image understanding, volume 113, 3, Elsevier, 2009, pages 345–352. [39] Hyeonseob Nam et al., “Learning multi-domain convolutional neural networks for visual tracking”, in: CVPR, 2016, pages 4293–4302. [40] I Haritaoglu et al., W4: Real-time surveillance of people and their ac- tivities. 22 (8): 809–830, 2000. [41] Iacopo Masi et al., “Learning pose-aware models for pose-invariant face recognition in the wild”, in: TPAMI, volume 41, 2, IEEE, 2018, pages 379–393. [42] Igor I Lychkov et al., “Tracking of moving objects with regeneration of object feature points”, in: GloSIC, IEEE, 2018, pages 1–6. [43] Ilchae Jung et al., “Real-time mdnet”, in: ECCV, 2018, pages 83–98. [44] Imanol Schlag et al., “Linear transformers are secretly fast weight pro- grammers”, in: ICML, PMLR, 2021, pages 9355–9366. [45] Irwan Bello et al., “Attention augmented convolutional networks”, in: ICCV, 2019, pages 3286–3295. [46] Janghoon Choi et al., “Deep meta learning for real-time target-aware visual tracking”, in: ICCV, 2019, pages 911–920. [47] Jean-Baptiste Cordonnier et al., “On the relationship between self- attention and convolutional layers”, in: ICLR, 2020. [48] Jen-Chao Tai et al., “Real-time image tracking for automatic traffic monitoring and enforcement applications”, in: Image and Vision Com- puting, volume 22, 6, Elsevier, 2004, pages 485–501. [49] Jiahui Yu et al., “Unitbox: An advanced object detection network”, in: 24th ACM international conference on Multimedia, 2016, pages 516– 520. [50] Jinghao Zhou et al., “Discriminative and robust online learning for siamese visual tracking”, in: AAAI, volume 34, 07, 2020, pages 13017– 13024. [51] Jingxuan Hao et al., “A review of target tracking algorithm based on UAV”, in: IEEE International Conference on Cyborg and Bionic Systems (CBS), IEEE, 2018, pages 328–333. 126 [52] João F Henriques et al., “High-speed tracking with kernelized correla- tion filters”, in: TPAMI, volume 37, 3, IEEE, 2014, pages 583–596. [53] Joost Van De Weijer et al., “Learning color names from real-world images”, in: CVPR, IEEE, 2007, pages 1–8. [54] Jordi Pont-Tuset et al., “The 2017 davis challenge on video object segmentation”, in: arXiv:1704.00675, 2017. [55] Joseph Redmon et al., “You only look once: Unified, real-time object detection”, in: CVPR, 2016, pages 779–788. [56] Jun Fu et al., “Dual attention network for scene segmentation”, in: CVPR, 2019, pages 3146–3154. [57] Junhai Luo et al., “Underwater acoustic target tracking: A review”, in: Sensors, volume 18, 1, Multidisciplinary Digital Publishing Institute, 2018, page 112. [58] Kaiming He et al., “Deep residual learning for image recognition”, in: CVPR, 2016, pages 770–778. [59] Kaiwen Duan et al., “Centernet: Keypoint triplets for object detection”, in: ICCV, 2019, pages 6569–6578. [60] Kenan Dai et al., “High-performance long-term tracking with meta- updater”, in: CVPR, 2020, pages 6298–6307. [61] Kim-Phuong Phung et al., “Multi-model deep learning drone detec- tion and tracking in complex background conditions”, in: 2021 Inter- national Conference on Advanced Technologies for Communications (ATC), IEEE, 2021, pages 189–194. [62] Kuan-Hui Lee et al., “Ground-moving-platform-based human tracking using visual SLAM and constrained multiple kernels”, in: TITS, vol- ume 17, 12, IEEE, 2016, pages 3602–3612. [63] Lianghua Huang et al., “Got-10k: A large high-diversity benchmark for generic object tracking in the wild”, in: TPAMI, volume 43, 5, IEEE, 2019, pages 1562–1577. [64] Lili Pei et al., “Improved Camshift object tracking algorithm in oc- cluded scenes based on AKAZE and Kalman”, in: Multimedia Tools and Applications, volume 81, 2, Springer, 2022, pages 2145–2159. [65] Luca Bertinetto et al., “Fully-convolutional siamese networks for object tracking”, in: ECCV, Springer, 2016, pages 850–865. 127 [66] Martin Danelljan et al., “Learning spatially regularized correlation fil- ters for visual tracking”, in: ICCV, 2015, pages 4310–4318. [67] Martin Danelljan et al., “Adaptive decontamination of the training set: A unified formulation for discriminative visual tracking”, in: CVPR, 2016, pages 1430–1438. [68] Martin Danelljan et al., “Beyond correlation filters: Learning contin- uous convolution operators for visual tracking”, in: ECCV, Springer, 2016, pages 472–488. [69] Martin Danelljan et al., “Eco: Efficient convolution operators for track- ing”, in: CVPR, 2017, pages 6638–6646. [70] Martin Danelljan et al., “Atom: Accurate tracking by overlap maxi- mization”, in: CVPR, 2019, pages 4660–4669. [71] Martin Danelljan et al., “Probabilistic regression for visual tracking”, in: CVPR, 2020, pages 7183–7192. [72] Martin Danelljan et al., Visual tracking library based on PyTorch, url: https://github.com/visionml/pytracking, accessed: 2022. [73] Matej Kristan et al., “The sixth visual object tracking vot2018 chal- lenge results”, in: ECCV Workshops, 2018. [74] Matej Kristan et al., “The seventh visual object tracking vot2019 chal- lenge results”, in: ICCV Workshops, 2019. [75] Matthias Mueller et al., “A benchmark and simulator for uav tracking”, in: ECCV, Springer, 2016, pages 445–461. [76] Matthias Muller et al., “Trackingnet: A large-scale dataset and bench- mark for object tracking in the wild”, in: ECCV, 2018, pages 300–317. [77] Ming Gao et al., “Manifold siamese network: A novel visual tracking ConvNet for autonomous vehicles”, in: TITS, volume 21, 4, IEEE, 2019, pages 1612–1623. [78] Moju Zhao et al., “Trtr: Visual tracking with transformer”, in: arXiv:2105.03817, 2021. [79] Mustansar Fiaz et al., “Handcrafted and deep trackers: Recent visual object tracking approaches and trends”, in: ACM Computing Surveys (CSUR), volume 52, 2, ACM New York, NY, USA, 2019, pages 1–44. [80] Nan Jiang et al., Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking, url: https://anti-uav.github.io, accessed: 2020. 128 [81] Navneet Dalal et al., “Histograms of oriented gradients for human detection”, in: IEEE Computer Society CVPR, volume 1, Ieee, 2005, pages 886–893. [82] Ngoc-Vuong Ho et al., “Point-Unet: A Context-Aware Point-Based Neural Network for Volumetric Segmentation”, in: International Con- ference on Medical Image Computing and Computer-Assisted Interven- tion, Springer, 2021, pages 644–655. [83] Nicolas Carion et al., “End-to-end object detection with transformers”, in: ECCV, Springer, 2020, pages 213–229. [84] Ning Wang et al., “Transformer meets tracker: Exploiting temporal context for robust visual tracking”, in: CVPR, 2021, pages 1571–1580. [85] Ning Xu et al., “Youtube-vos: A large-scale video object segmentation benchmark”, in: arXiv:1809.03327, 2018. [86] Olga Russakovsky et al., “Imagenet large scale visual recognition chal- lenge”, in: IJCV, volume 115, 3, Springer, 2015, pages 211–252. [87] Omkar M Parkhi et al., “Deep face recognition”, in: British Machine Vision Association, 2015. [88] P Kingma Diederik et al., “A method for stochastic optimization”, in: arXiv:1412.6980, CoRR, 2014. [89] Peixia Li et al., “Gradnet: Gradient-guided network for visual object tracking”, in: ICCV, 2019, pages 6162–6171. [90] Prajit Ramachandran et al., “Stand-alone self-attention in vision mod- els”, in: Advances in NIPS, volume 32, 2019. [91] Qiang Wang et al., “Learning attentions: residual attentional siamese network for high performance online visual tracking”, in: CVPR, 2018, pages 4854–4863. [92] Qiang Wang et al., “Fast online object tracking and segmentation: A unifying approach”, in: CVPR, 2019, pages 1328–1338. [93] Qilong Wang et al., “ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks”, in: CVPR, 2020, pages 11531–11539. [94] Qin Lei et al., “Tracking for near space nonballistic target based on several filter algorithms”, in: 34th Chinese Control Conference (CCC), IEEE, 2015, pages 4997–5002. 129 [95] Qing Guo et al., “Learning dynamic siamese network for visual object tracking”, in: ICCV, 2017, pages 1763–1771. [96] Ronan Collobert et al., “Natural language processing (almost) from scratch”, in: booktitle of machine learning research, volume 12, inpro- ceedings, 2011, pages 2493–2537. [97] Seong-Young Ko et al., “A surgical knowledge based interaction method for a laparoscopic assistant robot”, in: 13th IEEE International Work- shop on Robot and Human Interactive Communication, IEEE, 2004, pages 313–318. [98] Seyed Mojtaba Marvasti-Zadeh et al., “Deep learning for visual track- ing: A comprehensive survey”, in: TITS, IEEE, 2021. [99] Shaoqing Ren et al., “Faster r-cnn: Towards real-time object detection with region proposal networks”, in: Advances in NIPS, volume 28, 2015. [100] Siyuan Cheng et al., “Learning to filter: Siamese relation network for robust tracking”, in: CVPR, 2021, pages 4421–4431. [101] Stuart J. Russell et al. (2020), Artificial Intelligence: A Modern Ap- proach, 4th Ed. Prentice Hall. [102] Tianyang Lin et al., “A survey of transformers”, in: AI Open, Elsevier, 2022. [103] Tsung-Yi Lin et al., “Microsoft coco: Common objects in context”, in: ECCV, Springer, 2014, pages 740–755. [104] Tsung-Yi Lin et al., “Focal loss for dense object detection”, in: ICCV, 2017, pages 2980–2988. [105] Van-Viet Doan et al., “Real-time Image Semantic Segmentation Net- works with Residual Depth-wise Separable Blocks”, in: 2018 Joint 10th International Conference on Soft Computing and Intelligent Systems (SCIS) and 19th International Symposium on Advanced Intelligent Systems (ISIS), IEEE, 2018, pages 174–179. [106] Vittoria Bruni et al., “An improvement of kernel-based object tracking based on human perception”, in: IEEE Transactions on Systems, Man, and Cybernetics: Systems, volume 44, 11, IEEE, 2014, pages 1474– 1485. [107] Wei He et al., “Surf tracking”, in: ICCV, IEEE, 2009, pages 1586–1592. [108] Wei Liu et al., “Ssd: Single shot multibox detector”, in: ECCV, Springer, 2016, pages 21–37. 130 [109] Weiwei Xing et al., “Visual Object Tracking from Correlation Filter to Deep Learning”, in: Springer, 2021. [110] Xin Chen et al., “Transformer tracking”, in: CVPR, 2021, pages 8126– 8135. [111] Xinyu Zhang et al., “A study on key technologies of unmanned driv- ing”, in: CAAI Transactions on Intelligence Technology, volume 1, 1, Elsevier, 2016, pages 4–13. [112] Yi Wu et al., “Online object tracking: A benchmark”, in: CVPR, 2013, pages 2411–2418. [113] Yi Wu et al., “Object Tracking Benchmark”, in: TPAMI, volume 37, 9, 2015, pages 1834–1848. [114] Yiming Li et al., “AutoTrack: Towards high-performance visual track- ing for UAV with automatic spatio-temporal regularization”, in: CVPR, 2020, pages 11923–11932. [115] Ying Xia et al., “Dynamic Object Tracking Based on KAZE Features and Particle Filter”, in: Applied Mechanics and Materials, volume 556, Trans Tech Publ, 2014, pages 2702–2706. [116] Yuechen Yu et al., “Deformable siamese attention networks for visual object tracking”, in: CVPR, 2020, pages 6728–6737. [117] Yutao Cui et al., “MixFormer: End-to-End Tracking with Iterative Mixed Attention”, in: CVPR, 2022, pages 13608–13618. [118] Zanwu Xia et al., “Vision-based hand gesture recognition for human- robot collaboration: a survey”, in: ICCAR, IEEE, 2019, pages 198–205. [119] Ze Yang et al., “Reppoints: Point set representation for object detec- tion”, in: ICCV, 2019, pages 9657–9666. [120] Zedu Chen et al., “Siamese Box Adaptive Network for Visual Tracking”, in: CVPR, 2020, pages 6668–6677. [121] Zhang Stranger, Python Single Object Tracking Evaluation, url: https: //github.com/StrangerZhang/pysot-toolkit, accessed: 2020. [122] Zheng Tang et al., “Cityflow: A city-scale benchmark for multi-target multi-camera vehicle tracking and re-identification”, in: CVPR, 2019, pages 8797–8806. [123] Zheng Zhu et al., “Distractor-aware siamese networks for visual object tracking”, in: ECCV, 2018, pages 101–117. 131 [124] Zhi Tian et al., “Fcos: Fully convolutional one-stage object detection”, in: ICCV, 2019, pages 9627–9636. [125] Zhipeng Zhang et al., “Deeper and wider siamese networks for real-time visual tracking”, in: CVPR, 2019, pages 4591–4600. [126] Zhipeng Zhang et al., “Ocean: Object-aware anchor-free tracking”, in: ECCV, Springer, 2020, pages 771–787. [127] Zhipeng Zhang et al., “Learn to match: Automatic matching network design for visual tracking”, in: ICCV, 2021, pages 13339–13348.

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_phat_trien_mot_so_ky_thuat_theo_bam_doi_t.pdf
QĐ Hội đồng BVLATS Thắng.pdf.pdf
ThongTin KetLuanMoi LuanAn NCS HoangDinhThang.doc
ThongTin KetLuanMoi LuanAn NCS HoangDinhThang_1.doc
TomTat LuanAn NCS HoangDinhThang_TiengAnh.pdf
TomTat LuanAn NCS HoangDinhThang_TiengViet.pdf