Luận án Nghiên cứu, phát triển các kỹ thuật phân tích hoạt động của bàn tay từ chuỗi hình ảnh thu thập bằng cảm biến đeo, ứng dụng trong hỗ trợ đánh giá bài tập phục hồi chức năng

Khác biệt so với camera cố định, các camera đeo sẽ ghi lại chính xác những gì có trước mặt chủ thể, chuyển động của camera được định hướng bởi hoạt động và sự chú ý của người mang cảm biến. Với dữ liệu thu từ cảm biến đeo, tay và các đối tượng được tương tác có xu hướng xuất hiện ở trung tâm của khung hình. Những đặc trưng này của egocentric gợi ý hướng tiếp cận để nhận biết hoạt động dựa trên đặc trưng chuyển động tay, hướng nhìn, tương tác với đồ vật và ngữ cảnh. Khác với nhận dạng hoạt động thông thường, với các bài tập PHCN tay, quỹ đạo của tay thường tương tự nhau giữa một số bài tập nên thường có sự nhầm lẫn khi nhận biết các bài tập này. Với mỗi bài tập bệnh nhân thường thao tác trên một nhóm đồ vật đặc thù (khối gỗ, chai nước, hình trụ, quả bóng). Do vậy, các bài tập của bệnh nhân PHCN được đặc trưng không chỉ bởi tư thế của tay tập, các đồ vật tập cũng như vị trí của chúng trong các khung hình cũng là thông tin quan trọng để nhận biết nhãn của hoạt động. Xuất phát từ nhận xét trên, luận án đã đề xuất một mô hình nhận dạng hoạt động là sự kết hợp kết quả mạng học sâu R(2+1)D [72] nhận biết hoạt động dựa trên video RGB và thuật toán phát hiện đối tượng tương tác chính trong bài tập, từ đó cho ra kết quả nhận biết bài tập của bệnh nhân với độ chính xác cao. Thuật toán phát hiện đối tượng tương tác được phát triển dựa trên mô hình phát hiện đối tượng và kỹ thuật theo bám tay đã được đề xuất ở chương 3 của Luận án.

138 trang | Chia sẻ: trinhthuyen | Ngày: 29/11/2023 | Lượt xem: 113 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển các kỹ thuật phân tích hoạt động của bàn tay từ chuỗi hình ảnh thu thập bằng cảm biến đeo, ứng dụng trong hỗ trợ đánh giá bài tập phục hồi chức năng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

a bước thứ nhất. 95 So sánh vị trí và xác định loại đối tượng tương tác Đối tượng tương tác trong bài tập là đối tượng có khoảng cách tới tay tập ít thay đổi nhất qua các khung hình và có tỉ lệ vùng giao nhau với vùng tay tập là lớn nhất. Do đó luận án đề xuất thuật toán xác định đối tượng tương tác như sau: - Đối với mỗi khung hình thứ i trong chuỗi khung hình liên tiếp, tính điểm đánh giá vị trí giữa tay và từng đối tượng trên khung hình theo công thức:    , , , _ , _ _ , , _ k j i i k j Inter OBJ bbox Hand bbox Score A k j i OBJ bbox  (4.1) trong đó 𝑂𝐵𝐽_𝑏𝑏𝑜𝑥𝑘,𝑗: khung bao đối tượng thứ k thuộc lớp j là kết quả đầu ra của mạng phát hiện đối tượng trên khung hình thứ i. 𝐻𝑎𝑛𝑑_𝑏𝑏𝑜𝑥𝑖 là khung bao tay tập trên khung hình thứ i, là kết quả đầu ra của bộ theo bám tay. Inter (O, H) là vùng giao nhau giữa 2 vùng O và H. - Tính điểm đánh giá vị trí tay và lớp đối tượng thứ j trên khung hình thứ i:      _ _ , max _ , , k Object j Score C j i Score A k j i   (4.2) Trong đó 𝑗 = 1 ÷ 4 là lớp đối tượng thứ j, k là đối thứ k thuộc lớp đối tượng thứ j, trong trường hợp mạng Yolo không phát hiện được đối tượng nào thuộc lớp đối tượng thứ j trong khung hình thì 𝑆𝑐𝑜𝑟𝑒[𝑗, 𝑖]=0 - Tính điểm đánh giá vị trí tay và lớp đối tượng thứ j trong chuỗi n khung hình liên tiếp:     1 _ _ , n i Score F j Score C j i   (4.3) - Chuẩn hóa điểm đánh giá vị trí về khoảng [0,1]:       4 1 _ _ _ j Score F j Score F j Score F j    (4.4) Đầu ra của thuật toán so sánh véc-tơ điểm đánh giá các lớp đối tượng và tay tập {𝑆𝑐𝑜𝑟𝑒_𝐹[𝑗], 𝑗 = 1 ÷ 4 }. Trong đó điểm đánh giá càng cao thì khả năng lớp đối tượng là loại đối tượng tương tác càng cao. 96 4.2.4. Kết hợp nhận biết hoạt động và loại đối tượng tương tác chính Trong bộ dữ liệu RehabHand có một số các bài tập tương tự nhau, một số các cử chỉ của tay là như nhau với các bài tập này, ví dụ như bài tập với quả bóng (bài tập 1) và bài tập với khối lập phương (bài tập 3). Mạng nhận biết hoạt động tay rất dễ dự đoán nhầm các bài tập này. Mặt khác, từ việc nghiên cứu các dữ liệu video bài tập trong bộ RehabHand, luận án rút ra nhận xét mỗi bài tập PHCN được đặc trưng bởi một loại đối tượng tương tác chính. Bảng 4.1 là danh sách các bài tập và loại đối tượng tương tác tương ứng trong bài tập. Do đó, luận án đề xuất kết hợp thông tin về loại đối tượng tương tác trong bài tập để xác định chính xác loại bài tập bệnh nhân đã tập. Bảng 4.1 Danh sách bài tập và đối tượng tập tương ứng Thứ tự Bài tập Đối tượng tương tác 1 Bài tập 1 Quả bóng 2 Bài tập 2 Chai nước 3 Bài tập 3 Khối lập phương 4 Bài tập 4 Khối trụ tròn -Đầu ra của mạng nhận biết hoạt động là một véc tơ xác xuất dự đoán các bài tập thực hiện trong chuỗi khung hình: {𝑃𝑟𝑜𝑏_𝑅𝑒𝑐𝑜𝑔𝑛𝑖𝑧𝑒[𝑗], 𝑗 = 1 ÷ 4} - Đầu ra của mô hình xác định loại đối tượng tương tác là vec-tơ điểm đánh giá khả năng lớp đối tượng tương tác: {𝑆𝑐𝑜𝑟𝑒[𝑗], 𝑗 = 1 ÷ 4 } - Luận án đề xuất sử dụng phép nhân để kết hợp hai kết quả cho nhận dạng bài tập. Điểm đánh giá khả năng loại bài tập xác định theo công thức sau: 𝑆𝑐𝑜𝑟𝑒_𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒[𝑗] = 𝑃𝑟𝑜𝑏_𝑅𝑒𝑐𝑜𝑔𝑛𝑖𝑧𝑒[𝑗] × 𝑆𝑐𝑜𝑟𝑒[𝑗] (4.5) - Bài tập thực hiện trong chuỗi khung hình là có điểm đánh giá khả năng cao nhất: 𝑗0 = argmax𝑗=1÷4{𝑆𝑐𝑜𝑟𝑒_𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒[𝑗]} (4.6) 97 4.3. Thử nghiệm và đánh giá các kết quả 4.3.1. Bộ dữ liệu thử nghiệm Luận án sử dụng bộ dữ liệu RehabHand đã trình bày trong Chương 2 của luận án để thử nghiệm phương pháp đề xuất. Bệnh nhân tham gia thực hiện 4 bài tập: Bài tập 1- luyện tập với quả bóng; Bài tập 2 – luyện tập với chai nước; Bài tập 3 – luyện tập với khối gỗ lập phương; Bài tập 4 – luyện tập với khối hình trụ tròn. Các video thu được chia thành các video phân đoạn bài tập và được gán nhãn. Tổng cộng có 431 video phân đoạn bài tập của 10 bệnh nhân. Thời lượng mỗi video từ 2-5s. Bảng 4.2 là thống kê số lượng video bài tập của tương ứng với 10 bệnh nhân Bảng 4.2 Số lượng video bài tập của bộ RehabHand TT Bệnh nhân Bài tập 1 Bài tập 2 Bài tập 3 Bài tập 4 Huấn luyện Kiểm thử 1 Bệnh nhân số 1 10 32 11 12 X 2 Bệnh nhân số 2 26 8 17 9 X 3 Bệnh nhân số 3 23 6 9 X 4 Bệnh nhân số 4 9 4 X 5 Bệnh nhân số 5 15 7 13 X 6 Bệnh nhân số 6 6 X 7 Bệnh nhân số 7 8 4 9 X 8 Bệnh nhân số 8 7 6 8 X 9 Bệnh nhân số 9 16 23 47 30 X 10 Bệnh nhân số 10 10 6 22 18 X Tổng cộng 124 96 97 114 7 3 Các video bài tập đã được phân đoạn của bộ dữ liệu “RehabHand” sẽ được chia ra thành 2 tập là tập huấn luyện và tập kiểm tra. Tập kiểm tra gồm 3 98 bệnh nhân (Bệnh nhân số 1, Bệnh nhân số 5 và bệnh nhân số 9). Tập huấn luyện gồm 7 bệnh nhân còn lại. 4.3.2. Môi trường cài đặt huấn luyện và các độ đo đánh giá mô hình Các mô hình và thuật toán của luận án đều được lập trình và huấn luyện sử dụng ngôn ngữ lập trình Python và thư viện PytorchTensorflow backend trên máy tính với card GeForce GTX 1080 Ti GPU. Luận án đã sử dụng độ chính xác phân loại (accuracy) và ma trận nhầm lẫn (confusion matrix) để đánh giá các phương pháp nhận dạng bài tập. 4.3.3. Đánh giá độ chính xác của mạng R(2+1) D - Độ chính xác trên tập huấn luyện Luận án đã thử nghiệm cài đặt mạng R(2+1)D và huấn luyện mạng sử dụng bộ dữ liệu “RehabHand” cho nhận dạng bài tập với dữ liệu huấn luyện gồm các video thu bài tập của 7 bệnh nhân. Tập dữ liệu được chia thành theo tỉ lệ 8:2 cho huấn luyện (training) và xác thực mô hình (validation) Mô hình được huấn luyện với các tham số như sau: -batch_size = 16 (số lượng mẫu dữ liệu trong một lần huấn luyện) -input_size = 112 (kích thước chuẩn hóa của ảnh) -epoch = 30 (1 epoch là một lần duyệt qua hết các dữ liệu trong tập huấn luyện) -Learning rate = 1e-3 = 0,001 (tỷ lệ của một bước dịch chuyển trọng số mô hình được cập nhật theo các batch truyền vào) Hình 4.13 là độ chính xác trung bình của mô hình trong quá trình huấn luyện. Hình 4.13 Độ chính xác của mô hình R(2+1)D trong quá trình huấn luyện 99 Bảng 4.3 là kết quả về độ chính xác lớn nhất của mô hình với từng bài tập, và Hình 4.14 là ma trận nhầm lẫn của mô hình. Bảng 4.3 Độ chính xác của mô hình huấn luyện TT Bài tập Độ chính xác (%) 1 Bài tập 1 94 2 Bài tập 2 94 3 Bài tập 3 69 4 Bài tập 4 93 Trung bình các bài tập 86.3 Hình 4.14 Ma trận nhầm lẫn của mạng R(2+1)D trên tập huấn luyện Bảng số liệu và hình vẽ cho thấy giá trị độ chính xác trung bình của mô hình đạt được khá cao là 86,3%. Bài tập số 3 bị nhận nhầm sang bài tập 1 khá nhiều lên tới 31% có thể kết quả này do việc 2 bài tập này có không gian và cách thức thực hiện khá giống nhau. Kết quả của các bài tập còn lại rất cao với bài tập 1 và 2 là 94%, bài tập 4 là 93%. - Độ chính xác trên tập dữ liệu thử nghiệm Kết thúc huấn luyện mô hình R(2+1)D, tham số tốt nhất của mô hình được lưu lại. Tiếp theo luận án thực hiện đánh giá độ chính xác của mô hình 100 thu được trên tập dữ liệu test là các video bài tập của 3 bệnh nhân độc lập với dữ liệu huấn luyện. Kết quả đánh giá độ chính xác và ma trận nhầm lẫn với 4 lớp bài tập theo số lượng trong video test được thể hiện trong Bảng 4.4 và Hình 4.15. Độ chính xác của nhận dạng bài tập trong những các video test là: 86,11%. Kết quả này khá tương đồng với kết quả huấn luyện. Các bài tập 2 và 4 có kết quả nhận dạng khá tốt trong khi đó bài tập 1 và 3 có thấp hơn và bị nhầm lẫn với nhau nhiều. Bảng 4.4 Độ chính xác nhận dạng trên tập thử nghiệm TT Bài tập Tổng số video Số video nhận dạng đúng Độ chính xác (%) 1 Bài tập 1 41 27 65,85 2 Bài tập 2 62 62 100 3 Bài tập 3 58 45 77,59 4 Bài tập 4 55 52 94,54 Trung bình các bài tập 86,11 Hình 4.15 Ma trận nhầm lẫn của mạng R(2+1)D trên tập thử nghiệm 4.3.4. Đánh giá phương pháp xác định loại đối tượng tương tác chính Luận án đã thực hiện thử nghiệm để đánh giá độ chính xác của phương pháp xác định loại đối tượng tương tác chính trong các video bài tập của 3 bệnh nhân trong bộ dữ liệu thử nghiệm. Phương pháp thử nghiệm như sau: các khung hình liên tiếp trong video phân đoạn bài tập được đưa qua mạng phát hiện đối tượng để xác định các đối tượng (loại đối tượng và vị trí đối 101 tượng) có trong mỗi khung hình. Đồng thời các khung hình liên tiếp này cũng được đưa qua bộ theo bám tay để xác định được vị trí của tay tập trên mỗi khung hình. Các đầu ra của bộ phát hiện đối tượng và bộ theo bám tay được sử dụng để tính toán vec tơ điểm đánh giá các lớp đối tượng {𝑆𝑐𝑜𝑟𝑒[𝑗], 𝑗 = 1 ÷ 4 } như đã trình bày trong mục 4.2.3. Loại đối tượng tương tác chính trong video là đối tượng thứ 𝑗0 có điểm cao nhất: 𝑗0 = argmax 𝑗=1÷4 {𝑆𝑐𝑜𝑟𝑒[𝑗] } Kết quả đánh giá thể hiện trong Bảng 4.5 cho thấy độ chính xác của phương pháp xác định loại đối tượng tương tác chính trong các bài tập khá cao, trung bình trên tất cả các lớp là 80,09%. Cao nhất là loại đối tượng chai nước với độ chính xác là 93,55%, thấp nhất là đối tượng khối trụ tròn với độ chính xác là 76,36%. Điều này được giải thích là do đối tượng chai nước khá lớn trong khung hình không bị che khuất nhiều nên bộ phát hiện đối tượng dễ dàng phát hiện đúng, trong khi đó đối tượng khối trụ tròn khá bé và bị che khuất bởi tay nên bộ phát hiện đối tượng rất khó để phát hiện được loại này. Bảng 4.5 Độ chính xác phương pháp xác định loại đối tượng tương tác TT Đối tượng Tổng số video Xác định đúng Độ chính xác (%) 1 Quả bóng 41 33 80,49 2 Chai nước 62 58 93,55 3 Khối lập phương 58 40 68,96 4 Khối trụ tròn 55 42 76,36 Trung bình 80,09 4.3.5. Đánh giá độ chính xác của phương pháp nhận dạng đã đề xuất Luận án đã thực hiện cài đặt mô hình nhận biết bài tập PHCN đã đề xuất và đánh giá mô hình trên tập dữ liệu thử nghiệm gồm các video bài tập của 3 bệnh nhân. Các bước dự đoán bài tập thực hiện trong mỗi video theo phương pháp đề xuất như sau: chuỗi khung hình được lấy mẫu và đưa vào mạng R(2+1)D để xác định vectơ dự đoán xác xuất bài tập, đồng thời chuỗi khung hình được đưa qua thuật toán xác định loại bài tập tương tác để tính toán vec 102 tơ điểm đánh giá loại đối tượng. Sau đó kết hợp hai vec tơ đầu ra để xác định bài tập trên video theo phương pháp đã được trình bày trong mục 4.2.4. Bảng 4.6 là kết quả về độ chính xác với từng bài tập, và Hình 4.16 là ma trận nhầm lẫn. Độ chính xác nhận dạng bài tập trong những đoạn video bài tập trung bình là: 88.43%. Các bài tập 2 và 4 có kết quả nhận dạng khá tốt trong khi đó bài tập 1 và 3 thấp hơn và vẫn bị nhầm lẫn với nhau, nhưng số lượng không nhiều như trong kết quả nhận dạng của mạng R(2+1)D. Bảng 4.6 Độ chính xác nhận dạng trên tập thử nghiệm TT Bài tập Tổng số video Số video nhận dạng đúng Độ chính xác (%) 1 Bài tập 1 41 33 80,49 2 Bài tập 2 62 61 98,39 3 Bài tập 3 58 47 81,03 4 Bài tập 4 55 50 90,91 Trung bình 216 191 88,43 Hình 4.16 Ma trận nhầm lẫn của phương pháp đề xuất trên tập thử nghiệm Hình 4.17 là biểu đồ so sánh độ chính xác nhận dạng bài tập của phương pháp đề xuất và mạng R(2+1) D. Biểu đồ này cho thấy độ chính xác nhận dạng các bài tập của phương pháp so sánh nhìn chung là lớn hơn độ chính xác của mạng R(2+1)D. 103 Hình 4.17 So sánh mạng R(2+1)D và phương pháp đề xuất Phương pháp đề xuất cải thiện được độ chính xác trung bình của mạng R(2+1)D từ 86,11% lên 88,43%. Đặc biệt là phương pháp đề xuất có độ chính xác nhận dạng bài tập 1 tăng vượt trội từ 65,85% lên 80,49%, tăng 14,64%. Điều này có được là do thuật toán phát hiện loại đối tượng trong bài tập phát hiện khá tốt đối tượng tương tác “Quả bóng” do đó bổ sung thông tin cho việc nhận dạng “Bài tập 1” được chính xác hơn, giảm bớt nhầm lẫn với “Bài tập 3” đối tượng tập là “khối lập phương” 4.3.6. Thử nghiệm trên video tổng hợp gồm nhiều bài tập Luận án đã thực hiện đánh giá mô hình với video liên tục bao gồm nhiều bài tập thu được ban đầu chưa tách bài tập của một bệnh nhân - “Bệnh nhân số 9” trong bộ dữ liệu RehabHand để đánh giá được tính khả thi của phương pháp đề xuất. Video liên tục được lấy mẫu để đưa vào mô hình dự đoán theo phương pháp như sau: • Sử dụng cửa sổ trượt 2 giây (60 frames) do các cử chỉ thực hiện trong khoảng từ (1.5 giây -> 2.5 giây) bước nhảy 1 giây (30 frames). • Tại mỗi vị trí frameId >= 60 và chia hết cho 30 tiến hành lấy 16 frames ở trung tâm theo phương pháp lấy mẫu trên phân đoạn trong 60 frames trước sau đó đưa vào mô hình R(2+1)D để tính toán xác suất dự đoán bài tập của mô hình. Đồng thời toàn bộ 60 frames trước này được đưa vào bộ xác định loại đối tượng tương tác để tính toán vec tơ điểm đánh giá. Sau đó áp dụng thuật toán kết hợp để đưa ra nhãn dự đoán bài tập. • Nhãn dự đoán bài tập thu được trong mỗi lần nhận dạng sẽ được gán cho 1 giây kế tiếp (cho đến khi có nhãn mới) 6 5 .8 5 1 0 0 7 7 .5 9 9 4 .5 4 8 6 .1 1 8 0 .4 9 9 8 .3 9 8 1 .0 3 9 0 .9 1 8 8 .4 3 B À I T Ậ P 1 B À I T Ậ P 2 B À I T Ậ P 3 B À I T Ậ P 4 T R U N G B Ì N H R(2+1)D Phương pháp đề xuất 104 Video sau khi thực hiện nhận dạng sẽ hiển thị nhãn dự đoán (label) và nhãn đúng (Grouth_truth) nếu label và grouth_truth giống nhau thì dòng text sẽ hiển thị với màu xanh tức là đã nhận dạng chính xác, ngược lại thì dòng text sẽ hiển thị màu đỏ là nhận dạng sai như Hình 4.18. Hình 4.18 Minh họa kết quả nhận biết hoạt động Video kết quả nhận dạng trực quan cho thấy khả năng nhận dạng bài tập của phương pháp đề xuất khá tốt, đặc biệt với “Bài tập số 2”- luyện tập với chai nước kết quả nhận dạng rất tốt hầu như không có dự đoán sai. Tuy nhiên “Bài tập số 1” – tập với quả bóng và “Bài tập số 3”- tập với khối lập phương vẫn còn bị nhầm lẫn trên một số khung hình. Kết quả chạy thử nghiệm của mô hình đề xuất được lưu dưới dạng video tại đường dẫn: https://drive.google.com/drive/folders/1_uIGqIvVVm8K85zf5ggH89- iTx7HY16x?usp=share_link 4.4. Kết luận Chương 4 Chương 4 của luận án đã đề xuất một phương pháp nhận biết hoạt động của tay trong các bài tập PHCN từ video hướng tâm thu được từ camera bệnh nhân đeo khi thực hiện bài tập. Phương pháp đề xuất là kết hợp kết quả mạng học sâu R(2+1)D cho nhận biết hoạt động dựa trên video RGB và thuật toán phát hiện loại đối tượng tương tác chính trong bài tập, từ đó cho ra kết quả nhận biết bài tập của bệnh nhân với độ chính xác cao. Phương pháp đề xuất được cài đặt, huấn luyện và thử nghiệm trên bộ dữ liệu RehabHand. Kết quả thực nghiệm cho thấy độ chính xác trong nhận dạng bài tập khá cao và vượt trội so với kết quả nhận dạng của mạng R(2+1)D và làm giảm tỉ lệ nhầm lẫn giữa các bài tập có cử chỉ tay gần giống nhau. Điều này có được là do thuật toán xác định loại đối tượng chính trong bài tập có kết quả khá tốt. Kết quả nghiên cứu trong chương này đã được công bố tại công trình [CT6] 105 KẾT LUẬN 1. Các kết quả nghiên cứu của luận án Nhận biết hoạt động của tay từ cảm biến ảnh đeo trên người là một lĩnh vực nghiên cứu đang rất được quan tâm nhờ vào sự phát triển của khoa học và công nghệ cũng như khả năng áp dụng cho nhiều ứng dụng thực tiễn khác nhau. Qua phân tích, tìm hiểu bài toán, luận án đã đề xuất các cải tiến kỹ thuật cho bài toán nhận biết hoạt động của tay và ứng dụng trong lính vực PHCN tay tại các bệnh viện. Các kết quả chính của luận án bao gồm: - Đã khảo sát, phân tích, đánh giá các nghiên cứu liên quan đến bài toán nhận biết hoạt động trong FPV, các thách thức về kỹ thuật thị giác máy cần nghiên cứu tiếp theo về lĩnh vực này. - Đã khảo sát, phân tích, đánh giá các bộ dữ liệu FPV, đặc biệt là các bộ dữ liệu PHCN đã được công bố hiện nay. Từ đó đề xuất thu thập, xây dựng và công bố bộ dữ liệu bài tập PHCN tại bệnh viện từ cảm biến đeo trên người. - Đã thu thập, xử lý, gán nhãn và công bố bộ dữ liệu bài tập PHCN tại bệnh viện từ cảm biến đeo trên người bệnh nhân. - Đã triển khai một số mô hình thị giác máy tính tiên tiến và đưa ra điểm chuẩn cho các nhiệm vụ: phát hiện, phân đoạn, theo bám tay bệnh nhân trên bộ dữ liệu đã công bố. - Đã nghiên cứu, đề xuất cải tiến các kỹ thuật thị giác máy tính cho bài toán xác định tay (phân đoạn, xác định, theo bám, ước lượng tư thế tay) trong ảnh egocentric trên bộ dữ liệu PHCN. - Đã nghiên cứu, đề xuất mô hình thị giác máy tính nhận biết hoạt động tay trong các bài tập PHCN đạt hiệu suất cao. 2. Những đóng góp mới của luận án 1. Phát triển kỹ thuật xác định tay trong các bài tập PHCN bao gồm: phân đoạn, theo bám, ước lượng tư thế tay. 2. Đề xuất kỹ thuật nhận dạng hoạt động tay dựa trên việc kết hợp mô hình R(2+1)D và thông tin loại đối tượng tương tác chính trong các bài tập PHCN. 3. Xây dựng và công bố bộ dữ liệu bài tập PHCN tại bệnh viện từ các cảm biến đeo trên người bệnh nhân và thực nghiệm đánh giá ban đầu cho các nhiệm vụ liên quan. 106 3. Hướng nghiên cứu tiếp theo Hướng nghiên cứu tiếp theo của luận án nhằm để phát triển công trình để có thể đưa vào ứng dụng trong thực tiễn như sau: 1. Tiếp tục nghiên cứu các kỹ thuật thị giác máy tính tiên tiến cho bài toán nhận biết hoạt động của tay nói riêng và của người nói chung áp dụng cho các lĩnh vực khác nhau. 2. Kết hợp các nguồn dữ liệu khác nhau như ảnh RGB, RGB-D, gia tốc, con quay hồi chuyển cho bài toán nhận biết hoạt động. 3. Dựa trên các kết quả nghiên cứu, xây dựng các ứng dụng của bài toán trong lĩnh vực quân sự như nhận biết, đánh giá hoạt động của người lính trong quá trình huấn luyện. 107 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [CT1]. Sinh-Huy Nguyen and Van-Hung Le. "Standardized UCI-EGO Dataset for Evaluating 3D Hand Pose Estimation on the Point Cloud." ASTES Journal, Vol 6, Issue 1, pp. 1-9, 2021. [CT2]. Sinh-Huy Nguyen, Thi-Thu-Hong Le, Thai-Hoc Lu, Trung-Thanh Nguyen, Quang-Khai Tran, and Hai Vu. "Hand part segmentations in hand mask of egocentric images using Distance Transformation Map and SVM Classifier." In 2021 RIVF International Conference on Computing and Communication Technologies (RIVF), pp. 1-6. IEEE, 2021. [CT3]. Sinh-Huy Nguyen, Thi-Thu-Hong Le, Hoang-Bach Nguyen, Chi- Thanh Nguyen, Thi-Quynh-Tho Chu, Thi-Thanh-Huyen Nguyen, Hai Vu, “Hand Detection and Segmentation in First Person Image Using Mask R-CNN”, Journal on Information Technologies & Communications, pp. 1-11, 2022(1). [CT4]. Sinh Huy Nguyen, Hoang Bach Nguyen, Thi Thu Hong Le, Chi Thanh Nguyen, Van Loi Nguyen, Hai Vu, "Hand Tracking and Identifying in the Egocentric Video Using a Graph-Based Algorithm,” In Proceeding of the 2022 International Conference on Communications and Electronics (ICCE 2022). [CT5]. Sinh Huy Nguyen, Hoang Bach Nguyen, Thi Thu Hong Le, Chi Thanh Nguyen, Thanh-Tung Phan, Hai Vu “Improving the Hand Pose Estimation from Egocentric Vision via HOPE-Net and Mask R- CNN”, In Proceeding of the 5th International Conference on MultimediaAnalysis and Pattern Recognition (MAPR 2022). [CT6]. Nguyen Sinh Huy, Le Thi Thu Hong, Nguyen Hoang Bach, Nguyen Chi Thanh, Doan Quang Tu, Truong Van Minh, Vu Hai “Hand action recognition in rehabilitation exercise method using action recognition deep learning network and interactive object information”. Journal of Military Science and Technology, Special issue No.6, pp. 77-91, 12- 2022. 108 TÀI LIỆU THAM KHẢO Tiếng Anh: 1 . Bardia Doosti, et al. "HOPE-Net: A graph-based model for hand-object pose estimation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 2 . Badrinarayanan, Vijay, Alex Kendall, and Roberto Cipolla. "Segnet: A deep convolutional encoder-decoder architecture for image segmentation." IEEE transactions on pattern analysis and machine intelligence 39.12 (2017): 2481-2495. 3 . Bambach, Sven, et al. "Lending a hand: Detecting hands and recognizing activities in complex egocentric interactions." Proceedings of the IEEE international conference on computer vision. 2015. 4 . Bandini, Andrea, and José Zariffa. "Analysis of the hands in egocentric vision: A survey." IEEE transactions on pattern analysis and machine intelligence (2020). 5 . Baraldi, Lorenzo, et al. "Gesture recognition in ego-centric videos using dense trajectories and hand segmentation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2014. 6 . Baydoun, Mohamad, et al. "Hand pose recognition in First Person Vision through graph spectral analysis." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017. 7 . Betancourt, Alejandro, et al. "A sequential classifier for hand detection in the framework of egocentric vision." Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2014. 8 . Betancourt, Alejandro, et al. "GPU accelerated left/right hand- segmentation in first person vision." European Conference on Computer Vision. Springer, Cham, 2016. 9 . Bewley, Alex, et al. "Simple online and realtime tracking." 2016 IEEE international conference on image processing (ICIP). IEEE, 2016. 10 . Bochkovskiy, Alexey, Chien-Yao Wang, and Hong-Yuan Mark Liao. "Yolov4: Optimal speed and accuracy of object detection." arXiv preprint arXiv:2004.10934 (2020). 109 11 . Cai, Minjie, Feng Lu, and Yue Gao. "Desktop action recognition from first-person point-of-view." IEEE transactions on cybernetics 49.5 (2018): 1616-1628. 12 . Cai, Minjie, Kris M. Kitani, and Yoichi Sato. "A scalable approach for understanding the visual structures of hand grasps." 2015 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2015. 13 . Cai, Minjie, Kris M. Kitani, and Yoichi Sato. "Understanding Hand- Object Manipulation with Grasp Types and Object Attributes." Robotics: Science and Systems. Vol. 3. 2016. 14 . Cartas, Alejandro, Mariella Dimiccoli, and Petia Radeva. "Detecting hands in egocentric videos: Towards action recognition." International Conference on Computer Aided Systems Theory. Springer, Cham, 2017. 15 . Castro, Daniel, et al. "Predicting daily activities from egocentric images using deep learning." proceedings of the 2015 ACM International symposium on Wearable Computers. 2015. 16 . Coskun, Huseyin, et al. "Domain-specific priors and meta learning for few-shot first-person action recognition." IEEE Transactions on Pattern Analysis and Machine Intelligence (2021). 17 . Diep, Nguyen Ngoc, Cuong Pham, and Tu Minh Phuong. "An orientation histogram based approach for fall detection using wearable sensors." Pacific Rim International Conference on Artificial Intelligence. Springer, Cham, 2016. 18 . Diep, Nguyen Ngoc, Cuong Pham, and Tu Minh Phuong. "Motion primitive forests for human activity recognition using wearable sensors." Pacific Rim International Conference on Artificial Intelligence. Springer, Cham, 2016. 19 . Dimiccoli, Mariella, et al. "Sr-clustering: Semantic regularized clustering for egocentric photo streams segmentation." Computer Vision and Image Understanding 155 (2017): 55-69. 20 . Fathi, Alireza, Xiaofeng Ren, and James M. Rehg. "Learning to recognize objects in egocentric activities." CVPR 2011. IEEE, 2011. 21 . Feix, Thomas, et al. "The grasp taxonomy of human grasp types." IEEE Transactions on human-machine systems 46.1 (2015): 66-77. 22 . Gao, Shang-Hua, et al. "Res2net: A new multi-scale backbone architecture." IEEE transactions on pattern analysis and machine intelligence 43.2 (2019): 652-662. 110 23 . Hara, Kensho, Hirokatsu Kataoka, and Yutaka Satoh. "Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet?." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018. 24 . He, K., et al. "Mask R‐CNN". Proceedings of the IEEE International Conference on Computer Vision; 2017: 2961‐2969." 25 . He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. 26 . Tran, Son-Tung, et al. "A Local Structure-aware 3D Hand Pose Estimation Method for Egocentric Videos." 2022 IEEE Ninth International Conference on Communications and Electronics (ICCE). IEEE, 2022. 27 . Huang, De-An, et al. "How do we use our hands? discovering a diverse set of common grasps." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. 28 . Huang, Shao, et al. "Egocentric hand detection via dynamic region growing." ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 14.1 (2017): 1-17. 29 . Huang, Shao, Weiqiang Wang, and Ke Lu. "Egocentric hand detection via region growth." 2016 23rd International Conference on Pattern Recognition (ICPR). IEEE, 2016. 30 . Huang, Yichao, et al. "Deepfinger: A cascade convolutional neuron network approach to finger key point detection in egocentric vision with mobile camera." 2015 IEEE international conference on systems, man, and cybernetics. IEEE, 2015. 31 . Ishihara, Tatsuya, et al. "Recognizing hand-object interactions in wearable camera videos." 2015 IEEE International Conference on Image Processing (ICIP). IEEE, 2015. 32 . Jang, Youngkyoon, et al. "Metaphoric hand gestures for orientation- aware VR object manipulation with an egocentric viewpoint." IEEE Transactions on Human-Machine Systems 47.1 (2016): 113-127. 33 . Ji, Peng, et al. "Egocentric-vision based hand posture control system for reconnaissance robots." Journal of Intelligent & Robotic Systems 87.3 (2017): 583-599. 111 34 . Kapidis, Georgios, et al. "Egocentric hand track and object-based human action recognition." 2019 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI). IEEE, 2019. 35 . Le, Hoa M., Thi-Oanh Nguyen, and Dung Ngo-Tien. "Fully automated multi-label image annotation by convolutional neural network and adaptive thresholding." Proceedings of the Seventh Symposium on Information and Communication Technology. 2016. 36 . Le, Van-Hung, et al. "3d object finding using geometrical constraints on depth images." 2015 Seventh International Conference on Knowledge and Systems Engineering (KSE). IEEE, 2015. 37 . Li, Cheng, and Kris M. Kitani. "Pixel-level hand detection in ego- centric videos." Proceedings of the IEEE conference on computer vision and pattern recognition. 2013. 38 . Li, Minglei, Lei Sun, and Qiang Huo. "Flow-guided feature propagation with occlusion aware detail enhancement for hand segmentation in egocentric videos." Computer Vision and Image Understanding 187 (2019): 102785. 39 . Li, Yin, Zhefan Ye, and James M. Rehg. "Delving into egocentric actions." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. 40 . Li, Yinlin, et al. "Grasp type understanding—classification, localization and clustering." 2016 12th World Congress on Intelligent Control and Automation (WCICA). IEEE, 2016. 41 . Li, Yinlin, et al. "Un-supervised and semi-supervised hand segmentation in egocentric images with noisy label learning." Neurocomputing 334 (2019): 11-24. 42 . Liang, Hui, Junsong Yuan, and Daniel Thalman. "Egocentric hand pose estimation and distance recovery in a single RGB image." 2015 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2015. 43 . Likitlersuang, Jirapat, and Jose Zariffa. "Interaction detection in egocentric video: Toward a novel outcome measure for upper extremity function." IEEE journal of biomedical and health informatics 22.2 (2016): 561-569. 112 44 . Likitlersuang, Jirapat, et al. "Egocentric video: a new tool for capturing hand use of individuals with spinal cord injury at home." Journal of neuroengineering and rehabilitation 16.1 (2019): 1-11. 45 . Lin, T. Y., M. Maire, and S. Belongie. "Microsoft coco: Common objects in context. European conference on computer vision. Springer, Cham." (2014). 46 . Liu, Xiaorui, et al. "Fingertip in the eye: An attention-based method for real-time hand tracking and fingertip detection in egocentric videos." Chinese Conference on Pattern Recognition. Springer, Singapore, 2016. 47 . Ma, Minghuang, Haoqi Fan, and Kris M. Kitani. "Going deeper into first-person activity recognition." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. 48 . McCandless, Tomas, and Kristen Grauman. "Object-Centric Spatio- Temporal Pyramids for Egocentric Activity Recognition." BMVC. Vol. 2. 2013. 49 . Michiel, Vlaminck, et al. "Real-Time Table Plane Detection Using Accelerometer Information And Organized Point Cloud Data From Kinect Sensor." Journal of Computer Science and Cybernetics 32.3 (2016): 243-258. 50 . Mueller, Franziska, et al. "Real-time hand tracking under occlusion from an egocentric rgb-d sensor." Proceedings of the IEEE International Conference on Computer Vision. 2017. 51 . Nguyen, Thi-Hoa-Cuc, Jean-Christophe Nebel, and Francisco Florez- Revuelta. "Recognition of activities of daily living from egocentric videos using hands detected by a deep convolutional network." International Conference Image Analysis and Recognition. Springer, Cham, 2018. 52 . Nguyen, Thi-Hoa-Cuc, Jean-Christophe Nebel, and Francisco Florez- Revuelta. "Recognition of activities of daily living with egocentric vision: A review." Sensors 16.1 (2016): 72. 53 . Nguyen, Vinh-Tiep, et al. "Searching a specific person in a specific location using deep features." Proceedings of the Seventh Symposium on Information and Communication Technology. 2016. 113 54 . Oliva, Aude, and Antonio Torralba. "Modeling the shape of the scene: A holistic representation of the spatial envelope." International journal of computer vision 42.3 (2001): 145-175. 55 . Pham, Chinh Huu, Quoc Khanh Le, and Thanh Ha Le. "Human action recognition using dynamic time warping and voting algorithm." VNU Journal of Science: Computer Science and Communication Engineering 30.3 (2014). 56 . Pirsiavash, Hamed, and Deva Ramanan. "Detecting activities of daily living in first-person camera views." 2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012. 57 . Radosavovic, Ilija, et al. "Designing network design spaces." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 58 . Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems 28 (2015). 59 . Ren, Xiaofeng, and Chunhui Gu. "Figure-ground segmentation improves handled object recognition in egocentric video." 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2010. 60 . Ren, Xiaofeng, and Matthai Philipose. "Egocentric recognition of handled objects: Benchmark and analysis." 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2009. 61 . Rogez, Grégory, et al. "3d hand pose detection in egocentric rgb-d images." European Conference on Computer Vision. Springer, Cham, 2014. 62 . Rogez, Grégory, James S. Supancic, and Deva Ramanan. "First-person pose recognition using egocentric workspaces." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. 63 . Rogez, Grégory, James S. Supancic, and Deva Ramanan. "Understanding everyday hands in action from RGB-D images." Proceedings of the IEEE international conference on computer vision. 2015. 114 64 . Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015. 65 . Serra, Giuseppe, et al. "Hand segmentation for gesture recognition in ego-vision." Proceedings of the 3rd ACM international workshop on Interactive multimedia on mobile & portable devices. 2013. 66 . Singh, Suriya, Chetan Arora, and C. V. Jawahar. "First person action recognition using deep learned descriptors." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. 67 . Song, Hongyong, et al. "Towards robust ego-centric hand gesture analysis for robot control." 2016 IEEE International Conference on Signal and Image Processing (ICSIP). IEEE, 2016. 68 . Spriggs, Ekaterina H., Fernando De La Torre, and Martial Hebert. "Temporal segmentation and activity classification from first-person sensing." 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2009. 69 . Sunyoto, Andi, et al. "Wrist detection based on a minimum bounding box and geometric features." Journal of King Saud University- Computer and Information Sciences 32.2 (2020): 208-215. 70 . Tang, Yansong, et al. "Multi-stream deep neural networks for rgb-d egocentric action recognition." IEEE Transactions on Circuits and Systems for Video Technology 29.10 (2018): 3001-3015. 71 . Tekin, Bugra, Federica Bogo, and Marc Pollefeys. "H+ o: Unified egocentric recognition of 3d hand-object poses and interactions." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 72 . Tran, Du, et al. "A closer look at spatiotemporal convolutions for action recognition." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018. 73 . Urabe, Shuichi, Katsufumi Inoue, and Michifumi Yoshioka. "Cooking activities recognition in egocentric videos using combining 2DCNN and 3DCNN." Proceedings of the Joint Workshop on Multimedia for Cooking and Eating Activities and Multimedia Assisted Dietary Management. 2018. 115 74 . Viet, Vo Hoai, et al. "Multiple kernel learning and optical flow for action recognition in RGB-D video." 2015 Seventh International Conference on Knowledge and Systems Engineering (KSE). IEEE, 2015. 75 . Visee, Ryan J., Jirapat Likitlersuang, and Jose Zariffa. "An effective and efficient method for detecting hands in egocentric videos for rehabilitation applications." IEEE Transactions on Neural Systems and Rehabilitation Engineering 28.3 (2020): 748-755. 76 . Le, Viet-Duc, et al. "A unified deep framework for hand pose estimation and dynamic hand action recognition from first-person rgb videos." 2021 International Conference on Multimedia Analysis and Pattern Recognition (MAPR). IEEE, 2021. 77 . Wan, Shaohua, and J. K. Aggarwal. "Mining discriminative states of hands and objects to recognize egocentric actions with a wearable rgbd camera." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2015. 78 . Wang, Jingdong, et al. "Deep high-resolution representation learning for visual recognition." IEEE transactions on pattern analysis and machine intelligence 43.10 (2020): 3349-3364. 79 . Wang, Limin, et al. "Temporal segment networks for action recognition in videos." IEEE transactions on pattern analysis and machine intelligence 41.11 (2018): 2740-2755. 80 . Wang, Wei, et al. "Beyond One Glance: Gated Recurrent Architecture for Hand Segmentation." arXiv preprint arXiv:1811.10914 (2018). 81 . Wang, Wei, et al. "Recurrent U-Net for resource-constrained segmentation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019. 82 . Wojke, Nicolai, Alex Bewley, and Dietrich Paulus. "Simple online and realtime tracking with a deep association metric." 2017 IEEE international conference on image processing (ICIP). IEEE, 2017. 83 . Wu, Wenbin, et al. "Yolse: Egocentric fingertip detection from single rgb images." Proceedings of the IEEE International Conference on Computer Vision Workshops. 2017. 84 . Xie, Saining, et al. "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 116 85 . Xu, Bingyuan, et al. "Arm removal for static hand gesture recognition." Journal of Intelligent & Fuzzy Systems 35.6 (2018): 6489- 6500. 86 . Yamazaki, Wataru, et al. "Hand pose estimation and motion recognition using egocentric RGB-D video." 2017 IEEE International Conference on Robotics and Biomimetics (ROBIO). IEEE, 2017. 87 . Zariffa, José, and Milos R. Popovic. "Hand contour detection in wearable camera video using an adaptive histogram region of interest." Journal of neuroengineering and rehabilitation 10.1 (2013): 1-10. 88 . Zhang, Yifan, et al. "EgoGesture: A new dataset and benchmark for egocentric hand gesture recognition." IEEE Transactions on Multimedia 20.5 (2018): 1038-1050. 89 . Zhao, Hengshuang, et al. "Pyramid scene parsing network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 90 . Zhao, Ying, Zhiwei Luo, and Changqin Quan. "Coarse-to-fine online learning for hand segmentation in egocentric video." EURASIP Journal on Image and Video Processing 2018.1 (2018): 1-12. 91 . Zhao, Ying, Zhiwei Luo, and Changqin Quan. "Unsupervised online learning for fine-grained hand segmentation in egocentric video." 2017 14th Conference on Computer and Robot Vision (CRV). IEEE, 2017. 92 . Zhou, Yang, et al. "Cascaded interactional targeting network for egocentric video analysis." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. 93 . Zhu, Xiaolong, Xuhui Jia, and Kwan-Yee K. Wong. "Structured forests for pixel-level hand detection and hand part labelling." Computer Vision and Image Understanding 141 (2015): 95-107. 94 . Tran, Du, et al. "Learning spatiotemporal features with 3d convolutional networks." Proceedings of the IEEE international conference on computer vision. 2015. 95 . Howard, Andrew G., et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications." arXiv preprint arXiv:1704.04861 (2017). 96 . Gkioxari, Georgia, Ross Girshick, and Jitendra Malik. "Contextual action recognition with r* cnn." Proceedings of the IEEE international conference on computer vision. 2015. 117 PHỤ LỤC P.1 XÂY DỰNG BỘ DỮ LIỆU REHABHAND 1. Thiết lập và thu thập dữ liệu Bộ dữ liệu được thu nhận từ 10 bệnh nhân đang điều trị tại Khoa PHCN, Bệnh viện Đại học Y Hà Nội. Những bệnh nhân này tham gia một cách tự nguyện và không được hưởng quyền lợi tài chính. Người thu thập dữ liệu cũng cam kết không để lộ danh tính và hình ảnh cá nhân của họ. Những người tham gia nghiên cứu đã đồng ý bằng văn bản trước khi tham gia vào nghiên cứu và được sự đồng ý của Ban Giám đốc Bệnh viện Đại học Y Hà Nội. Những bệnh nhân này đều có bệnh lý trước đó như tai biến, thoái hóa cột sống, tai nạn chấn thương cần phẫu thuật, họ tập các bài tập theo phác đồ để PHCN tay. Bệnh nhân có thể thuận tay phải hoặc tay trái, nhưng họ luôn có một tay yếu cần tập để phục hồi. Điều này rất tốt để so sánh khả năng phục hồi tay của bệnh nhân. Nhóm thu thập dữ liệu đã sử dụng hai máy ảnh GoPro Hero4, San Mateo, California, Hoa Kỳ gắn trên ngực và đầu và đồng hồ Gear S3 Frontier, Samsung đeo trên tay bệnh nhân. Camera GoPro Hero4 có trọng lượng 149.6 gam và kích thước (rộng x dài x sâu) là 70.8 x 71.1 x 38.8mm. Đồng hồ Gear S3 Frontier có trọng lượng 63 gam, kích thước (rộng x dài x sâu) là 70.8 x 71.1 x 38.8mm. Các thiết bị này đảm bảo gọn, nhẹ không ảnh hưởng tới thao tác của bệnh nhân. Các video được quay ở định dạng MPEG-4 với độ phân giải 1080p và 30 khung hình/giây, ống kính mắt cá góc rộng cho phép nhóm nghiên cứu ghi lại toàn bộ không gian làm việc của hai tay và các đối tượng cầm trước cơ thể. Trong quá trình ghi, dữ liệu hình ảnh và gia tốc kế được đồng bộ hóa theo cách thủ công. Hình PL.1 là hình ảnh thực tế của bệnh nhân đeo thiết bị trong các bài tập. Hình PL.1 Thiết lập thiết bị thu thập dữ liệu P.2 a) Đồng hồ thông minh có cảm biến gia tốc và con quay hồi chuyển; b) máy ảnh đeo ở đầu và ngực; c) hình ảnh thực tế của bệnh nhân đang thực hiện các bài tập Bệnh nhân tham gia 4 bài tập PHCN cơ bản nhất sau đây do bác sĩ quy định, mỗi bài tập được lặp lại với một tần suất khác nhau: Bài tập 1- luyện tập với quả bóng: dùng tay nhặt các quả bóng tròn cho vào đúng lỗ. Bài tập 2 – luyện tập với chai nước: cầm chai nước đổ nước vào cốc đặt trên bàn. Bài tập 3 – luyện tập với khối gỗ lập phương: dùng tay nhặt các khối gỗ và cố gắng đặt chúng vào đúng lỗ. Bài tập 4 – luyện tập với khối hình trụ tròn: dùng tay nhặt các khối hình trụ cho vào đúng lỗ. Hình PL.2 là hình ảnh ví dụ minh họa 4 bài tập PHCN này. Trước khi ghi dữ liệu, thời lượng pin, chế độ xem camera và tín hiệu từ đồng hồ thông minh được kiểm tra để đảm bảo khả năng tiếp nhận dữ liệu tốt. Việc đánh dấu phần đầu và phần cuối của mỗi bài tập được thực hiện sử dụng một bảng kẹp (clapperboard) để đánh dấu bằng cách giữ bảng kẹp trước máy quay khi bắt đầu và kết thúc mỗi bài tập. Tín hiệu được truyền qua Bluetooth đến máy tính và được phần mềm GoPro Capture ghi lại. Mỗi người tham gia thực hiện tuần tự các bài tập, mỗi bài tập được lặp lại với tần suất khác nhau tùy theo khả năng của họ. Hình PL.2 Minh họa các bài tập PHCN P.3 Tổng cộng, 10 tệp video ở định dạng MPEG- 4 với tổng thời lượng là 4h và tổng dung lượng là 53 Gb được ghi lại. Tín hiệu gia tốc kế và con quay hồi chuyển được ghi lại dưới dạng tệp văn bản, phân biệt giữa tay phải và tay trái. Có ba kích thước x, y, z của gia tốc và con quay hồi chuyển tại các thời điểm khác nhau trong mỗi tệp văn bản. 2. Xử lý và gán nhãn dữ liệu Mỗi tệp video thô thu được chia thành các tệp thành các video nhỏ, mỗi tệp có một bài tập. Điều này có thể thực hiện được bằng cách đánh dấu bằng công cụ trực quan bảng kẹp ở phần đầu và phần cuối của một bài tập. Có 58 video bài tập được lưu trong các tệp định dạng ‘.avi’, bao gồm 20 video bài tập 1, 16 video bài tập 2, 12 video bài tập 3 và 10 video bài tập 4. Trong mỗi lần tập một bài tập, người bệnh thực hiện lặp đi lặp lại một động tác. Vì vậy, từ các video bài tập tiếp tục được tách thành các phân đoạn nhỏ; mỗi phân đoạn tương ứng với một lần thực hiện động tác. Tổng cộng có 431 phân đoạn đã được tách ra. Việc phân tách dữ liệu như trên sẽ giúp các nghiên cứu nhận ra các bài tập và đánh giá khả năng tập luyện của bệnh nhân. Hình PL.3 Đồng bộ hình ảnh, gia tốc, con quay hồi chuyển trên ELAN Để đồng bộ hóa dữ liệu hình ảnh và dữ liệu con quay hồi chuyển gia tốc, cần phải đồng bộ hóa thời gian bắt đầu và kết thúc ghi các loại dữ liệu này trong quá trình thu thập dữ liệu. Công cụ ELAN được sử dụng để đồng bộ P.4 hóa các kiểu dữ liệu ở giai đoạn xử lý này. Thời gian bắt đầu trên tệp con quay hồi chuyển gia tốc kế tương ứng với chỉ số khung hình bằng cách sử dụng công cụ này. Hình PL.3 trực quan hóa dữ liệu hình ảnh đồng bộ với gia tốc và dữ liệu con quay hồi chuyển trên ELAN. Hai tác vụ gán nhãn đã được thực hiện cùng với video đã thu thập. Một nhiệm vụ là gán nhãn phân đoạn tay và đối tượng mức pixel (Hand, object segmentation). Nhiệm vụ thứ hai là gán nhãn theo bám tay (hand tracking). Đối với gán nhãn phân đoạn, công cụ phân tách thủ công được sử dụng để gán nhãn ảnh. Có tám đối tượng được dán nhãn, đó là: Quả bóng (1), Cái cốc (2), Chai nước (3), Cái bát (4), Hình trụ (5), Khối (6), Tay trái (7), Tay phải (8). Các đối tượng được gắn nhãn là đa giác. Kết quả gắn nhãn được lưu trữ trong mỗi thư mục, trong đó chứa các ảnh và tệp ‘.json’ lưu trữ các kết quả gắn nhãn. Việc lấy mẫu các khung hình liên tục trên các video thô được thực hiện với tần suất trung bình là 4 khung hình/giây. Khoảng 4500 khung hình (1920x1440) được lưu trong tệp định dạng .png đã được gắn nhãn đầy đủ bằng tệp '.json', chứa thông tin chính: tên tệp của hình ảnh được gán nhãn, kích thước hình ảnh, thông tin tọa độ của các vùng được gắn nhãn, tọa độ của các cặp điểm (x, y) tương ứng với tất cả các cặp điểm (x, y) sẽ tạo thành vùng đa giác xung quanh bàn tay và các đối tượng được dán nhãn. Hình PL.4 là minh họa ảnh được gán nhãn phân đoạn tay và các đối tượng Hình PL.4 Minh họa gán nhãn phân đoạn tay và đồ vật. Một công cụ gán nhãn dữ liệu bán tự động được phát triển cho nhiệm vụ gán nhãn theo bám tay. Ý tưởng chính là đầu tiên huấn luyện các mô hình trên các tập dữ liệu có sẵn, sau đó đưa ra các đề xuất cho dữ liệu chưa được gắn P.5 nhãn và cuối cùng là điều chỉnh ground truth nếu cần. Quy trình cho phép các trình gán nhãn đánh dấu cả hộp giới hạn và quỹ đạo của tay và hỗ trợ nhiều chế độ như nhập dữ liệu, chọn mô hình, xem ground truth, gỡ lỗi và xuất đầu ra sang nhiều định dạng. Thông qua công cụ này, giảm thiểu tính chủ quan và thời gian gán nhãn, đồng thời có thể thống nhất và phối hợp giữa các gán nhãn của các cá nhân khác nhau. 3. Thống kê và xây dựng ứng dụng quản lý bộ dữ liệu Trong bộ dữ liệu RehabHand cung cấp tất cả dữ liệu đã được thu thập, bao gồm video gốc ở định dạng MPEG-4 và dữ liệu gia tốc kế và con quay hồi chuyển dưới dạng tệp văn bản. Thông tin chia video gốc thành các video phân đoạn bài tập và video trình tự và đồng bộ hóa với gia tốc kế, dữ liệu con quay hồi chuyển được tổ chức và lưu trữ trong cơ sở dữ liệu quan hệ. Đối với dữ liệu video phân đoạn chính xác, mỗi bản ghi chứa thông tin bao gồm bệnh nhân, ID bài tập, FrameID bắt đầu và FrameID kết thúc của đoạn video bài tập và mã thời gian bắt đầu và dừng của dữ liệu gia tốc kế và con quay hồi chuyển, tương ứng. Phương pháp lưu trữ này cũng áp dụng cho video theo trình tự nhưng sử dụng thời gian bắt đầu và kết thúc trình tự thay vì ID phân đoạn bài tập. Bộ dữ liệu RehabHand có chứa dữ liệu của có mười bệnh nhân tham gia vào 4 bài tập. Mười tệp video thô ở định dạng MPEG- 4 với tổng thời lượng 4h và tổng dung lượng là 53 Gb đã được thu thập. Các video thô được chia nhỏ thành các video tương ứng với từng bài tập. Tổng cộng có 56 video bài tập, trong đó có 18 video bài tập với bóng, 16 video bài tập với chai nước, 14 video bài tập với khối gỗ và 10 video bài tập với khối trụ. Các video bài tập được chia thành các video phân đoạn tương ứng với một bài tập tại một thời điểm. Có 431 video phân đoạn trong bộ dữ liệu. Ngoài dữ liệu gốc, bộ dữ liệu cũng cung cấp dữ liệu ghi nhãn cho cả tác vụ phân đoạn và theo bám bàn tay. Đối với tác vụ phân đoạn tay, luận án đã chọn 4500 khung hình ảnh để gán nhãn đa giác cho 8 đối tượng. Chiến lược để chọn các ảnh gán nhãn không phải là lấy mẫu hoàn toàn ngẫu nhiên mà theo cách làm cho mỗi phần phân chia đủ đại diện cho sự thay đổi của các bệnh nhân và các bài tập khác nhau. Dữ liệu huấn luyện và thử nghiệm được chia theo tỷ lệ 4: 1, trong đó 921 ảnh P.6 có nhãn của bộ dữ liệu thử nghiệm được lấy từ 2 bệnh nhân không có trong bộ dữ liệu huấn luyện. Đối với nhiệm vụ theo bám bàn tay, chúng tôi có 32 video với 10984 khung hình được gắn nhãn với hộp giới hạn tay. Bảng PL.1 là thống kế số lượng của bộ RehabHand và so sánh với các bộ dữ liệu về PHCN đã công bố. Hình PL.5 và hình PL.6 là biểu đồ thống kê số lượng dữ liệu thu thập và gán nhãn. Bảng PL.1 Thống kê các đặc điểm bộ dữ liệu Bộ dữ liệu Thiết bị Số lượng video Số lượng ảnh Độ phân giải Độ dài video Số đối tượng Bối cảnh Số hoạt động Nhãn ANS ablebod ied Looxc ie2 - - 640x 480 44.16 minute s 4 Phòng thí nghiệm mô phỏng nhà 14 hoạt động hàng ngày Phân đoạn tay ANS SCI GoPro Hero4 - 33,256 1920 x108 0 - 17 Nhà bếp, phòng khách ngủ 38 hoạt động hàng ngày Phát hiện tay Rehab Hand GoPro Hero4 431 103,01 9 1920 x144 0 4 hours 10 Phòng tập PHCN 4 bài tập PHCN 1098 nhãn theo bám tay 4500 phân đoạn tay và các đối tượng P.7 Hình PL.5 Biểu đồ thống kê dữ liệu thu thập và gán nhãn a) Số lượng frame mỗi bài tập và số lượng frame gán nhãn phân đoạn; b) Số lượng phân đoạn video bài tập; c) Số bài tập gán nhãn theo bám tay Hình PL.6 Thời gian trung bình thực hiện bài tập giữa tay yếu và tay khỏe Số liệu thống kê cho thấy, cả 5 tiêu chí đặt ra ban đầu khi tiến hành thu thập dữ liệu đều đã đạt được. Thứ nhất, bộ dữ liệu phải thu thập trong môi trường thực tế bệnh viện: Khoa PHCN của Đại học Y Hà Nội. Thứ hai, bệnh nhân đủ cả hai giới tính và độ tuổi đa dạng, bệnh lý có cả tai biến, thoái hóa cột sống, tai nạn chấn thương cần phẫu thuật. Thứ ba, bốn bài tập PHCN là bài tập cơ bản về tay (tập với khối lập phương, trụ tròn, chai nước, quả bóng) đám bảo các tư thế cầm nắm từ đơn giản đến phức tạp. Thứ tư, đã gán nhãn cho các nhiệm vụ phát hiện, phân đoạn, nhãn hoạt động và phân đoạn hoạt động, nhãn tay yếu và tay bình thường. Thứ năm, dữ liệu thu thập gồm hình ảnh, gia tốc, con quay hồi chuyển và được đồng bộ qua phần mềm ELAN. P.8 Hình PL.7 Giao diện trang web quản lý bộ dữ liệu RehabHand. NCS đã tiến hành xây dựng một website để quản lý bộ dữ liệu RehabHand tại địa chỉ Hình PL.7 thể hiện giao diện của trang web nhằm giới thiệu chung về bộ dữ liệu và kết quả của thực hiện mô hình cơ sở làm điểm chuẩn trên bộ dữ liệu. Ngoài ra trang web cho phép các nhà nghiên cứu tải bộ dữ liệu về để sử dụng

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_phat_trien_cac_ky_thuat_phan_tich_hoat_do.pdf
Ket_luan_moi_LA.docx
QĐ Hội đồng cấp Viện_ Ng Sinh Huy.pdf
TomTat LA_EN.pdf
TomTat LA_VI.pdf
Trich_yeu_LA.docx