Khác biệt so với camera cố định, các camera đeo sẽ ghi lại chính xác
những gì có trước mặt chủ thể, chuyển động của camera được định hướng bởi
hoạt động và sự chú ý của người mang cảm biến. Với dữ liệu thu từ cảm biến
đeo, tay và các đối tượng được tương tác có xu hướng xuất hiện ở trung tâm
của khung hình. Những đặc trưng này của egocentric gợi ý hướng tiếp cận để
nhận biết hoạt động dựa trên đặc trưng chuyển động tay, hướng nhìn, tương
tác với đồ vật và ngữ cảnh. Khác với nhận dạng hoạt động thông thường, với
các bài tập PHCN tay, quỹ đạo của tay thường tương tự nhau giữa một số bài
tập nên thường có sự nhầm lẫn khi nhận biết các bài tập này. Với mỗi bài tập
bệnh nhân thường thao tác trên một nhóm đồ vật đặc thù (khối gỗ, chai nước,
hình trụ, quả bóng). Do vậy, các bài tập của bệnh nhân PHCN được đặc trưng
không chỉ bởi tư thế của tay tập, các đồ vật tập cũng như vị trí của chúng
trong các khung hình cũng là thông tin quan trọng để nhận biết nhãn của hoạt
động.
Xuất phát từ nhận xét trên, luận án đã đề xuất một mô hình nhận dạng
hoạt động là sự kết hợp kết quả mạng học sâu R(2+1)D [72] nhận biết hoạt
động dựa trên video RGB và thuật toán phát hiện đối tượng tương tác chính
trong bài tập, từ đó cho ra kết quả nhận biết bài tập của bệnh nhân với độ
chính xác cao. Thuật toán phát hiện đối tượng tương tác được phát triển dựa
trên mô hình phát hiện đối tượng và kỹ thuật theo bám tay đã được đề xuất ở
chương 3 của Luận án.
138 trang |
Chia sẻ: trinhthuyen | Ngày: 29/11/2023 | Lượt xem: 270 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển các kỹ thuật phân tích hoạt động của bàn tay từ chuỗi hình ảnh thu thập bằng cảm biến đeo, ứng dụng trong hỗ trợ đánh giá bài tập phục hồi chức năng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
a bước thứ nhất.
95
So sánh vị trí và xác định loại đối tượng tương tác
Đối tượng tương tác trong bài tập là đối tượng có khoảng cách tới tay tập
ít thay đổi nhất qua các khung hình và có tỉ lệ vùng giao nhau với vùng tay
tập là lớn nhất. Do đó luận án đề xuất thuật toán xác định đối tượng tương tác
như sau:
- Đối với mỗi khung hình thứ i trong chuỗi khung hình liên tiếp, tính
điểm đánh giá vị trí giữa tay và từng đối tượng trên khung hình theo công
thức:
, ,
,
_ , _
_ , ,
_
k j i i
k j
Inter OBJ bbox Hand bbox
Score A k j i
OBJ bbox
(4.1)
trong đó 𝑂𝐵𝐽_𝑏𝑏𝑜𝑥𝑘,𝑗: khung bao đối tượng thứ k thuộc lớp j là kết quả
đầu ra của mạng phát hiện đối tượng trên khung hình thứ i. 𝐻𝑎𝑛𝑑_𝑏𝑏𝑜𝑥𝑖 là
khung bao tay tập trên khung hình thứ i, là kết quả đầu ra của bộ theo bám
tay. Inter (O, H) là vùng giao nhau giữa 2 vùng O và H.
- Tính điểm đánh giá vị trí tay và lớp đối tượng thứ j trên khung hình thứ
i:
_
_ , max _ , ,
k Object j
Score C j i Score A k j i
(4.2)
Trong đó 𝑗 = 1 ÷ 4 là lớp đối tượng thứ j, k là đối thứ k thuộc lớp đối
tượng thứ j, trong trường hợp mạng Yolo không phát hiện được đối tượng nào
thuộc lớp đối tượng thứ j trong khung hình thì 𝑆𝑐𝑜𝑟𝑒[𝑗, 𝑖]=0
- Tính điểm đánh giá vị trí tay và lớp đối tượng thứ j trong chuỗi n
khung hình liên tiếp:
1
_ _ ,
n
i
Score F j Score C j i
(4.3)
- Chuẩn hóa điểm đánh giá vị trí về khoảng [0,1]:
4
1
_
_
_
j
Score F j
Score F j
Score F j
(4.4)
Đầu ra của thuật toán so sánh véc-tơ điểm đánh giá các lớp đối tượng
và tay tập {𝑆𝑐𝑜𝑟𝑒_𝐹[𝑗], 𝑗 = 1 ÷ 4 }. Trong đó điểm đánh giá càng cao thì khả
năng lớp đối tượng là loại đối tượng tương tác càng cao.
96
4.2.4. Kết hợp nhận biết hoạt động và loại đối tượng tương tác chính
Trong bộ dữ liệu RehabHand có một số các bài tập tương tự nhau, một
số các cử chỉ của tay là như nhau với các bài tập này, ví dụ như bài tập với
quả bóng (bài tập 1) và bài tập với khối lập phương (bài tập 3). Mạng nhận
biết hoạt động tay rất dễ dự đoán nhầm các bài tập này. Mặt khác, từ việc
nghiên cứu các dữ liệu video bài tập trong bộ RehabHand, luận án rút ra nhận
xét mỗi bài tập PHCN được đặc trưng bởi một loại đối tượng tương tác chính.
Bảng 4.1 là danh sách các bài tập và loại đối tượng tương tác tương ứng trong
bài tập. Do đó, luận án đề xuất kết hợp thông tin về loại đối tượng tương tác
trong bài tập để xác định chính xác loại bài tập bệnh nhân đã tập.
Bảng 4.1 Danh sách bài tập và đối tượng tập tương ứng
Thứ tự Bài tập Đối tượng tương tác
1 Bài tập 1 Quả bóng
2 Bài tập 2 Chai nước
3 Bài tập 3 Khối lập phương
4 Bài tập 4 Khối trụ tròn
-Đầu ra của mạng nhận biết hoạt động là một véc tơ xác xuất dự đoán
các bài tập thực hiện trong chuỗi khung hình:
{𝑃𝑟𝑜𝑏_𝑅𝑒𝑐𝑜𝑔𝑛𝑖𝑧𝑒[𝑗], 𝑗 = 1 ÷ 4}
- Đầu ra của mô hình xác định loại đối tượng tương tác là vec-tơ điểm
đánh giá khả năng lớp đối tượng tương tác:
{𝑆𝑐𝑜𝑟𝑒[𝑗], 𝑗 = 1 ÷ 4 }
- Luận án đề xuất sử dụng phép nhân để kết hợp hai kết quả cho nhận
dạng bài tập. Điểm đánh giá khả năng loại bài tập xác định theo công thức
sau:
𝑆𝑐𝑜𝑟𝑒_𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒[𝑗] = 𝑃𝑟𝑜𝑏_𝑅𝑒𝑐𝑜𝑔𝑛𝑖𝑧𝑒[𝑗] × 𝑆𝑐𝑜𝑟𝑒[𝑗] (4.5)
- Bài tập thực hiện trong chuỗi khung hình là có điểm đánh giá khả
năng cao nhất:
𝑗0 = argmax𝑗=1÷4{𝑆𝑐𝑜𝑟𝑒_𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒[𝑗]} (4.6)
97
4.3. Thử nghiệm và đánh giá các kết quả
4.3.1. Bộ dữ liệu thử nghiệm
Luận án sử dụng bộ dữ liệu RehabHand đã trình bày trong Chương 2
của luận án để thử nghiệm phương pháp đề xuất. Bệnh nhân tham gia thực
hiện 4 bài tập: Bài tập 1- luyện tập với quả bóng; Bài tập 2 – luyện tập với
chai nước; Bài tập 3 – luyện tập với khối gỗ lập phương; Bài tập 4 – luyện tập
với khối hình trụ tròn.
Các video thu được chia thành các video phân đoạn bài tập và được gán
nhãn. Tổng cộng có 431 video phân đoạn bài tập của 10 bệnh nhân. Thời
lượng mỗi video từ 2-5s. Bảng 4.2 là thống kê số lượng video bài tập của
tương ứng với 10 bệnh nhân
Bảng 4.2 Số lượng video bài tập của bộ RehabHand
TT Bệnh nhân Bài
tập
1
Bài
tập 2
Bài
tập
3
Bài
tập
4
Huấn
luyện
Kiểm
thử
1 Bệnh nhân số 1 10 32 11 12 X
2 Bệnh nhân số 2 26 8 17 9 X
3 Bệnh nhân số 3 23 6 9 X
4 Bệnh nhân số 4 9 4 X
5 Bệnh nhân số 5 15 7 13 X
6 Bệnh nhân số 6 6 X
7 Bệnh nhân số 7 8 4 9 X
8 Bệnh nhân số 8 7 6 8 X
9 Bệnh nhân số 9 16 23 47 30 X
10 Bệnh nhân số 10 10 6 22 18 X
Tổng cộng 124 96 97 114 7 3
Các video bài tập đã được phân đoạn của bộ dữ liệu “RehabHand” sẽ
được chia ra thành 2 tập là tập huấn luyện và tập kiểm tra. Tập kiểm tra gồm 3
98
bệnh nhân (Bệnh nhân số 1, Bệnh nhân số 5 và bệnh nhân số 9). Tập huấn
luyện gồm 7 bệnh nhân còn lại.
4.3.2. Môi trường cài đặt huấn luyện và các độ đo đánh giá mô hình
Các mô hình và thuật toán của luận án đều được lập trình và huấn luyện
sử dụng ngôn ngữ lập trình Python và thư viện PytorchTensorflow backend
trên máy tính với card GeForce GTX 1080 Ti GPU.
Luận án đã sử dụng độ chính xác phân loại (accuracy) và ma trận nhầm
lẫn (confusion matrix) để đánh giá các phương pháp nhận dạng bài tập.
4.3.3. Đánh giá độ chính xác của mạng R(2+1) D
- Độ chính xác trên tập huấn luyện
Luận án đã thử nghiệm cài đặt mạng R(2+1)D và huấn luyện mạng sử
dụng bộ dữ liệu “RehabHand” cho nhận dạng bài tập với dữ liệu huấn luyện
gồm các video thu bài tập của 7 bệnh nhân. Tập dữ liệu được chia thành theo
tỉ lệ 8:2 cho huấn luyện (training) và xác thực mô hình (validation)
Mô hình được huấn luyện với các tham số như sau:
-batch_size = 16 (số lượng mẫu dữ liệu trong một lần huấn luyện)
-input_size = 112 (kích thước chuẩn hóa của ảnh)
-epoch = 30 (1 epoch là một lần duyệt qua hết các dữ liệu trong tập huấn
luyện)
-Learning rate = 1e-3 = 0,001 (tỷ lệ của một bước dịch chuyển trọng số
mô hình được cập nhật theo các batch truyền vào)
Hình 4.13 là độ chính xác trung bình của mô hình trong quá trình huấn
luyện.
Hình 4.13 Độ chính xác của mô hình R(2+1)D trong quá trình huấn luyện
99
Bảng 4.3 là kết quả về độ chính xác lớn nhất của mô hình với từng bài
tập, và Hình 4.14 là ma trận nhầm lẫn của mô hình.
Bảng 4.3 Độ chính xác của mô hình huấn luyện
TT
Bài tập Độ chính xác (%)
1
Bài tập 1 94
2
Bài tập 2 94
3
Bài tập 3 69
4
Bài tập 4 93
Trung bình các bài tập 86.3
Hình 4.14 Ma trận nhầm lẫn của mạng R(2+1)D trên tập huấn luyện
Bảng số liệu và hình vẽ cho thấy giá trị độ chính xác trung bình của mô
hình đạt được khá cao là 86,3%. Bài tập số 3 bị nhận nhầm sang bài tập 1 khá
nhiều lên tới 31% có thể kết quả này do việc 2 bài tập này có không gian và
cách thức thực hiện khá giống nhau. Kết quả của các bài tập còn lại rất cao
với bài tập 1 và 2 là 94%, bài tập 4 là 93%.
- Độ chính xác trên tập dữ liệu thử nghiệm
Kết thúc huấn luyện mô hình R(2+1)D, tham số tốt nhất của mô hình
được lưu lại. Tiếp theo luận án thực hiện đánh giá độ chính xác của mô hình
100
thu được trên tập dữ liệu test là các video bài tập của 3 bệnh nhân độc lập với
dữ liệu huấn luyện. Kết quả đánh giá độ chính xác và ma trận nhầm lẫn với 4
lớp bài tập theo số lượng trong video test được thể hiện trong Bảng 4.4 và
Hình 4.15. Độ chính xác của nhận dạng bài tập trong những các video test là:
86,11%. Kết quả này khá tương đồng với kết quả huấn luyện. Các bài tập 2 và
4 có kết quả nhận dạng khá tốt trong khi đó bài tập 1 và 3 có thấp hơn và bị
nhầm lẫn với nhau nhiều.
Bảng 4.4 Độ chính xác nhận dạng trên tập thử nghiệm
TT Bài tập
Tổng số
video
Số video nhận
dạng đúng
Độ chính xác
(%)
1 Bài tập 1 41 27 65,85
2 Bài tập 2 62 62 100
3 Bài tập 3 58 45 77,59
4 Bài tập 4 55 52 94,54
Trung bình
các bài tập
86,11
Hình 4.15 Ma trận nhầm lẫn của mạng R(2+1)D trên tập thử nghiệm
4.3.4. Đánh giá phương pháp xác định loại đối tượng tương tác chính
Luận án đã thực hiện thử nghiệm để đánh giá độ chính xác của phương
pháp xác định loại đối tượng tương tác chính trong các video bài tập của 3
bệnh nhân trong bộ dữ liệu thử nghiệm. Phương pháp thử nghiệm như sau:
các khung hình liên tiếp trong video phân đoạn bài tập được đưa qua mạng
phát hiện đối tượng để xác định các đối tượng (loại đối tượng và vị trí đối
101
tượng) có trong mỗi khung hình. Đồng thời các khung hình liên tiếp này cũng
được đưa qua bộ theo bám tay để xác định được vị trí của tay tập trên mỗi
khung hình. Các đầu ra của bộ phát hiện đối tượng và bộ theo bám tay được
sử dụng để tính toán vec tơ điểm đánh giá các lớp đối tượng {𝑆𝑐𝑜𝑟𝑒[𝑗], 𝑗 =
1 ÷ 4 } như đã trình bày trong mục 4.2.3. Loại đối tượng tương tác chính
trong video là đối tượng thứ 𝑗0 có điểm cao nhất:
𝑗0 = argmax
𝑗=1÷4
{𝑆𝑐𝑜𝑟𝑒[𝑗] }
Kết quả đánh giá thể hiện trong Bảng 4.5 cho thấy độ chính xác của
phương pháp xác định loại đối tượng tương tác chính trong các bài tập khá
cao, trung bình trên tất cả các lớp là 80,09%. Cao nhất là loại đối tượng chai
nước với độ chính xác là 93,55%, thấp nhất là đối tượng khối trụ tròn với độ
chính xác là 76,36%. Điều này được giải thích là do đối tượng chai nước khá
lớn trong khung hình không bị che khuất nhiều nên bộ phát hiện đối tượng dễ
dàng phát hiện đúng, trong khi đó đối tượng khối trụ tròn khá bé và bị che
khuất bởi tay nên bộ phát hiện đối tượng rất khó để phát hiện được loại này.
Bảng 4.5 Độ chính xác phương pháp xác định loại đối tượng tương tác
TT
Đối tượng Tổng số
video
Xác định
đúng
Độ chính xác
(%)
1
Quả bóng 41 33 80,49
2
Chai nước 62 58 93,55
3
Khối lập phương 58 40 68,96
4
Khối trụ tròn 55 42 76,36
Trung bình 80,09
4.3.5. Đánh giá độ chính xác của phương pháp nhận dạng đã đề xuất
Luận án đã thực hiện cài đặt mô hình nhận biết bài tập PHCN đã đề xuất
và đánh giá mô hình trên tập dữ liệu thử nghiệm gồm các video bài tập của 3
bệnh nhân. Các bước dự đoán bài tập thực hiện trong mỗi video theo phương
pháp đề xuất như sau: chuỗi khung hình được lấy mẫu và đưa vào mạng
R(2+1)D để xác định vectơ dự đoán xác xuất bài tập, đồng thời chuỗi khung
hình được đưa qua thuật toán xác định loại bài tập tương tác để tính toán vec
102
tơ điểm đánh giá loại đối tượng. Sau đó kết hợp hai vec tơ đầu ra để xác định
bài tập trên video theo phương pháp đã được trình bày trong mục 4.2.4.
Bảng 4.6 là kết quả về độ chính xác với từng bài tập, và Hình 4.16 là ma
trận nhầm lẫn. Độ chính xác nhận dạng bài tập trong những đoạn video bài
tập trung bình là: 88.43%. Các bài tập 2 và 4 có kết quả nhận dạng khá tốt
trong khi đó bài tập 1 và 3 thấp hơn và vẫn bị nhầm lẫn với nhau, nhưng số
lượng không nhiều như trong kết quả nhận dạng của mạng R(2+1)D.
Bảng 4.6 Độ chính xác nhận dạng trên tập thử nghiệm
TT
Bài tập Tổng số
video
Số video nhận
dạng đúng
Độ chính xác
(%)
1
Bài tập 1 41 33 80,49
2
Bài tập 2 62 61 98,39
3
Bài tập 3 58 47 81,03
4
Bài tập 4 55 50 90,91
Trung bình 216 191 88,43
Hình 4.16 Ma trận nhầm lẫn của phương pháp đề xuất trên tập thử nghiệm
Hình 4.17 là biểu đồ so sánh độ chính xác nhận dạng bài tập của phương pháp
đề xuất và mạng R(2+1) D. Biểu đồ này cho thấy độ chính xác nhận dạng các
bài tập của phương pháp so sánh nhìn chung là lớn hơn độ chính xác của
mạng R(2+1)D.
103
Hình 4.17 So sánh mạng R(2+1)D và phương pháp đề xuất
Phương pháp đề xuất cải thiện được độ chính xác trung bình của mạng
R(2+1)D từ 86,11% lên 88,43%. Đặc biệt là phương pháp đề xuất có độ chính
xác nhận dạng bài tập 1 tăng vượt trội từ 65,85% lên 80,49%, tăng 14,64%.
Điều này có được là do thuật toán phát hiện loại đối tượng trong bài tập phát
hiện khá tốt đối tượng tương tác “Quả bóng” do đó bổ sung thông tin cho việc
nhận dạng “Bài tập 1” được chính xác hơn, giảm bớt nhầm lẫn với “Bài tập 3”
đối tượng tập là “khối lập phương”
4.3.6. Thử nghiệm trên video tổng hợp gồm nhiều bài tập
Luận án đã thực hiện đánh giá mô hình với video liên tục bao gồm
nhiều bài tập thu được ban đầu chưa tách bài tập của một bệnh nhân - “Bệnh
nhân số 9” trong bộ dữ liệu RehabHand để đánh giá được tính khả thi của
phương pháp đề xuất. Video liên tục được lấy mẫu để đưa vào mô hình dự
đoán theo phương pháp như sau:
• Sử dụng cửa sổ trượt 2 giây (60 frames) do các cử chỉ thực hiện trong
khoảng từ (1.5 giây -> 2.5 giây) bước nhảy 1 giây (30 frames).
• Tại mỗi vị trí frameId >= 60 và chia hết cho 30 tiến hành lấy 16 frames
ở trung tâm theo phương pháp lấy mẫu trên phân đoạn trong 60 frames trước
sau đó đưa vào mô hình R(2+1)D để tính toán xác suất dự đoán bài tập của
mô hình. Đồng thời toàn bộ 60 frames trước này được đưa vào bộ xác định
loại đối tượng tương tác để tính toán vec tơ điểm đánh giá. Sau đó áp dụng
thuật toán kết hợp để đưa ra nhãn dự đoán bài tập.
• Nhãn dự đoán bài tập thu được trong mỗi lần nhận dạng sẽ được gán
cho 1 giây kế tiếp (cho đến khi có nhãn mới)
6
5
.8
5
1
0
0
7
7
.5
9
9
4
.5
4
8
6
.1
1
8
0
.4
9
9
8
.3
9
8
1
.0
3
9
0
.9
1
8
8
.4
3
B À I T Ậ P 1 B À I T Ậ P 2 B À I T Ậ P 3 B À I T Ậ P 4 T R U N G B Ì N H
R(2+1)D Phương pháp đề xuất
104
Video sau khi thực hiện nhận dạng sẽ hiển thị nhãn dự đoán (label) và
nhãn đúng (Grouth_truth) nếu label và grouth_truth giống nhau thì dòng text
sẽ hiển thị với màu xanh tức là đã nhận dạng chính xác, ngược lại thì dòng
text sẽ hiển thị màu đỏ là nhận dạng sai như Hình 4.18.
Hình 4.18 Minh họa kết quả nhận biết hoạt động
Video kết quả nhận dạng trực quan cho thấy khả năng nhận dạng bài tập
của phương pháp đề xuất khá tốt, đặc biệt với “Bài tập số 2”- luyện tập với
chai nước kết quả nhận dạng rất tốt hầu như không có dự đoán sai. Tuy nhiên
“Bài tập số 1” – tập với quả bóng và “Bài tập số 3”- tập với khối lập phương
vẫn còn bị nhầm lẫn trên một số khung hình. Kết quả chạy thử nghiệm của
mô hình đề xuất được lưu dưới dạng video tại đường dẫn:
https://drive.google.com/drive/folders/1_uIGqIvVVm8K85zf5ggH89-
iTx7HY16x?usp=share_link
4.4. Kết luận Chương 4
Chương 4 của luận án đã đề xuất một phương pháp nhận biết hoạt động
của tay trong các bài tập PHCN từ video hướng tâm thu được từ camera bệnh
nhân đeo khi thực hiện bài tập. Phương pháp đề xuất là kết hợp kết quả mạng
học sâu R(2+1)D cho nhận biết hoạt động dựa trên video RGB và thuật toán
phát hiện loại đối tượng tương tác chính trong bài tập, từ đó cho ra kết quả
nhận biết bài tập của bệnh nhân với độ chính xác cao.
Phương pháp đề xuất được cài đặt, huấn luyện và thử nghiệm trên bộ dữ
liệu RehabHand. Kết quả thực nghiệm cho thấy độ chính xác trong nhận dạng
bài tập khá cao và vượt trội so với kết quả nhận dạng của mạng R(2+1)D và
làm giảm tỉ lệ nhầm lẫn giữa các bài tập có cử chỉ tay gần giống nhau. Điều
này có được là do thuật toán xác định loại đối tượng chính trong bài tập có kết
quả khá tốt.
Kết quả nghiên cứu trong chương này đã được công bố tại công trình [CT6]
105
KẾT LUẬN
1. Các kết quả nghiên cứu của luận án
Nhận biết hoạt động của tay từ cảm biến ảnh đeo trên người là một lĩnh
vực nghiên cứu đang rất được quan tâm nhờ vào sự phát triển của khoa học và
công nghệ cũng như khả năng áp dụng cho nhiều ứng dụng thực tiễn khác
nhau. Qua phân tích, tìm hiểu bài toán, luận án đã đề xuất các cải tiến kỹ thuật
cho bài toán nhận biết hoạt động của tay và ứng dụng trong lính vực PHCN
tay tại các bệnh viện. Các kết quả chính của luận án bao gồm:
- Đã khảo sát, phân tích, đánh giá các nghiên cứu liên quan đến bài toán
nhận biết hoạt động trong FPV, các thách thức về kỹ thuật thị giác máy cần
nghiên cứu tiếp theo về lĩnh vực này.
- Đã khảo sát, phân tích, đánh giá các bộ dữ liệu FPV, đặc biệt là các bộ
dữ liệu PHCN đã được công bố hiện nay. Từ đó đề xuất thu thập, xây dựng và
công bố bộ dữ liệu bài tập PHCN tại bệnh viện từ cảm biến đeo trên người.
- Đã thu thập, xử lý, gán nhãn và công bố bộ dữ liệu bài tập PHCN tại
bệnh viện từ cảm biến đeo trên người bệnh nhân.
- Đã triển khai một số mô hình thị giác máy tính tiên tiến và đưa ra điểm
chuẩn cho các nhiệm vụ: phát hiện, phân đoạn, theo bám tay bệnh nhân trên
bộ dữ liệu đã công bố.
- Đã nghiên cứu, đề xuất cải tiến các kỹ thuật thị giác máy tính cho bài
toán xác định tay (phân đoạn, xác định, theo bám, ước lượng tư thế tay) trong
ảnh egocentric trên bộ dữ liệu PHCN.
- Đã nghiên cứu, đề xuất mô hình thị giác máy tính nhận biết hoạt động
tay trong các bài tập PHCN đạt hiệu suất cao.
2. Những đóng góp mới của luận án
1. Phát triển kỹ thuật xác định tay trong các bài tập PHCN bao gồm:
phân đoạn, theo bám, ước lượng tư thế tay.
2. Đề xuất kỹ thuật nhận dạng hoạt động tay dựa trên việc kết hợp mô
hình R(2+1)D và thông tin loại đối tượng tương tác chính trong các bài tập
PHCN.
3. Xây dựng và công bố bộ dữ liệu bài tập PHCN tại bệnh viện từ các
cảm biến đeo trên người bệnh nhân và thực nghiệm đánh giá ban đầu cho các
nhiệm vụ liên quan.
106
3. Hướng nghiên cứu tiếp theo
Hướng nghiên cứu tiếp theo của luận án nhằm để phát triển công trình
để có thể đưa vào ứng dụng trong thực tiễn như sau:
1. Tiếp tục nghiên cứu các kỹ thuật thị giác máy tính tiên tiến cho bài
toán nhận biết hoạt động của tay nói riêng và của người nói chung áp dụng
cho các lĩnh vực khác nhau.
2. Kết hợp các nguồn dữ liệu khác nhau như ảnh RGB, RGB-D, gia tốc,
con quay hồi chuyển cho bài toán nhận biết hoạt động.
3. Dựa trên các kết quả nghiên cứu, xây dựng các ứng dụng của bài toán
trong lĩnh vực quân sự như nhận biết, đánh giá hoạt động của người lính trong
quá trình huấn luyện.
107
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[CT1]. Sinh-Huy Nguyen and Van-Hung Le. "Standardized UCI-EGO
Dataset for Evaluating 3D Hand Pose Estimation on the Point Cloud."
ASTES Journal, Vol 6, Issue 1, pp. 1-9, 2021.
[CT2]. Sinh-Huy Nguyen, Thi-Thu-Hong Le, Thai-Hoc Lu, Trung-Thanh
Nguyen, Quang-Khai Tran, and Hai Vu. "Hand part segmentations in
hand mask of egocentric images using Distance Transformation Map
and SVM Classifier." In 2021 RIVF International Conference on
Computing and Communication Technologies (RIVF), pp. 1-6. IEEE,
2021.
[CT3]. Sinh-Huy Nguyen, Thi-Thu-Hong Le, Hoang-Bach Nguyen, Chi-
Thanh Nguyen, Thi-Quynh-Tho Chu, Thi-Thanh-Huyen Nguyen, Hai
Vu, “Hand Detection and Segmentation in First Person Image Using
Mask R-CNN”, Journal on Information Technologies &
Communications, pp. 1-11, 2022(1).
[CT4]. Sinh Huy Nguyen, Hoang Bach Nguyen, Thi Thu Hong Le, Chi
Thanh Nguyen, Van Loi Nguyen, Hai Vu, "Hand Tracking and
Identifying in the Egocentric Video Using a Graph-Based Algorithm,”
In Proceeding of the 2022 International Conference on
Communications and Electronics (ICCE 2022).
[CT5]. Sinh Huy Nguyen, Hoang Bach Nguyen, Thi Thu Hong Le, Chi
Thanh Nguyen, Thanh-Tung Phan, Hai Vu “Improving the Hand Pose
Estimation from Egocentric Vision via HOPE-Net and Mask R-
CNN”, In Proceeding of the 5th International Conference on
MultimediaAnalysis and Pattern Recognition (MAPR 2022).
[CT6]. Nguyen Sinh Huy, Le Thi Thu Hong, Nguyen Hoang Bach, Nguyen
Chi Thanh, Doan Quang Tu, Truong Van Minh, Vu Hai “Hand action
recognition in rehabilitation exercise method using action recognition
deep learning network and interactive object information”. Journal of
Military Science and Technology, Special issue No.6, pp. 77-91, 12-
2022.
108
TÀI LIỆU THAM KHẢO
Tiếng Anh:
1 . Bardia Doosti, et al. "HOPE-Net: A graph-based model for hand-object
pose estimation." Proceedings of the IEEE/CVF conference on
computer vision and pattern recognition. 2020.
2 . Badrinarayanan, Vijay, Alex Kendall, and Roberto Cipolla. "Segnet: A
deep convolutional encoder-decoder architecture for image
segmentation." IEEE transactions on pattern analysis and machine
intelligence 39.12 (2017): 2481-2495.
3 . Bambach, Sven, et al. "Lending a hand: Detecting hands and
recognizing activities in complex egocentric interactions." Proceedings
of the IEEE international conference on computer vision. 2015.
4 . Bandini, Andrea, and José Zariffa. "Analysis of the hands in egocentric
vision: A survey." IEEE transactions on pattern analysis and machine
intelligence (2020).
5 . Baraldi, Lorenzo, et al. "Gesture recognition in ego-centric videos using
dense trajectories and hand segmentation." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition Workshops.
2014.
6 . Baydoun, Mohamad, et al. "Hand pose recognition in First Person
Vision through graph spectral analysis." 2017 IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP).
IEEE, 2017.
7 . Betancourt, Alejandro, et al. "A sequential classifier for hand detection
in the framework of egocentric vision." Proceedings of the IEEE
conference on computer vision and pattern recognition workshops.
2014.
8 . Betancourt, Alejandro, et al. "GPU accelerated left/right hand-
segmentation in first person vision." European Conference on
Computer Vision. Springer, Cham, 2016.
9 . Bewley, Alex, et al. "Simple online and realtime tracking." 2016 IEEE
international conference on image processing (ICIP). IEEE, 2016.
10 . Bochkovskiy, Alexey, Chien-Yao Wang, and Hong-Yuan Mark Liao.
"Yolov4: Optimal speed and accuracy of object detection." arXiv
preprint arXiv:2004.10934 (2020).
109
11 . Cai, Minjie, Feng Lu, and Yue Gao. "Desktop action recognition from
first-person point-of-view." IEEE transactions on cybernetics 49.5
(2018): 1616-1628.
12 . Cai, Minjie, Kris M. Kitani, and Yoichi Sato. "A scalable approach for
understanding the visual structures of hand grasps." 2015 IEEE
International Conference on Robotics and Automation (ICRA). IEEE,
2015.
13 . Cai, Minjie, Kris M. Kitani, and Yoichi Sato. "Understanding Hand-
Object Manipulation with Grasp Types and Object
Attributes." Robotics: Science and Systems. Vol. 3. 2016.
14 . Cartas, Alejandro, Mariella Dimiccoli, and Petia Radeva. "Detecting
hands in egocentric videos: Towards action recognition." International
Conference on Computer Aided Systems Theory. Springer, Cham, 2017.
15 . Castro, Daniel, et al. "Predicting daily activities from egocentric images
using deep learning." proceedings of the 2015 ACM International
symposium on Wearable Computers. 2015.
16 . Coskun, Huseyin, et al. "Domain-specific priors and meta learning for
few-shot first-person action recognition." IEEE Transactions on Pattern
Analysis and Machine Intelligence (2021).
17 . Diep, Nguyen Ngoc, Cuong Pham, and Tu Minh Phuong. "An
orientation histogram based approach for fall detection using wearable
sensors." Pacific Rim International Conference on Artificial
Intelligence. Springer, Cham, 2016.
18 . Diep, Nguyen Ngoc, Cuong Pham, and Tu Minh Phuong. "Motion
primitive forests for human activity recognition using wearable
sensors." Pacific Rim International Conference on Artificial
Intelligence. Springer, Cham, 2016.
19 . Dimiccoli, Mariella, et al. "Sr-clustering: Semantic regularized
clustering for egocentric photo streams segmentation." Computer Vision
and Image Understanding 155 (2017): 55-69.
20 . Fathi, Alireza, Xiaofeng Ren, and James M. Rehg. "Learning to
recognize objects in egocentric activities." CVPR 2011. IEEE, 2011.
21 . Feix, Thomas, et al. "The grasp taxonomy of human grasp types." IEEE
Transactions on human-machine systems 46.1 (2015): 66-77.
22 . Gao, Shang-Hua, et al. "Res2net: A new multi-scale backbone
architecture." IEEE transactions on pattern analysis and machine
intelligence 43.2 (2019): 652-662.
110
23 . Hara, Kensho, Hirokatsu Kataoka, and Yutaka Satoh. "Can
spatiotemporal 3d cnns retrace the history of 2d cnns and
imagenet?." Proceedings of the IEEE conference on Computer Vision
and Pattern Recognition. 2018.
24 . He, K., et al. "Mask R‐CNN". Proceedings of the IEEE International
Conference on Computer Vision; 2017: 2961‐2969."
25 . He, Kaiming, et al. "Deep residual learning for image
recognition." Proceedings of the IEEE conference on computer vision
and pattern recognition. 2016.
26 . Tran, Son-Tung, et al. "A Local Structure-aware 3D Hand Pose
Estimation Method for Egocentric Videos." 2022 IEEE Ninth
International Conference on Communications and Electronics (ICCE).
IEEE, 2022.
27 . Huang, De-An, et al. "How do we use our hands? discovering a diverse
set of common grasps." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2015.
28 . Huang, Shao, et al. "Egocentric hand detection via dynamic region
growing." ACM Transactions on Multimedia Computing,
Communications, and Applications (TOMM) 14.1 (2017): 1-17.
29 . Huang, Shao, Weiqiang Wang, and Ke Lu. "Egocentric hand detection
via region growth." 2016 23rd International Conference on Pattern
Recognition (ICPR). IEEE, 2016.
30 . Huang, Yichao, et al. "Deepfinger: A cascade convolutional neuron
network approach to finger key point detection in egocentric vision with
mobile camera." 2015 IEEE international conference on systems, man,
and cybernetics. IEEE, 2015.
31 . Ishihara, Tatsuya, et al. "Recognizing hand-object interactions in
wearable camera videos." 2015 IEEE International Conference on
Image Processing (ICIP). IEEE, 2015.
32 . Jang, Youngkyoon, et al. "Metaphoric hand gestures for orientation-
aware VR object manipulation with an egocentric viewpoint." IEEE
Transactions on Human-Machine Systems 47.1 (2016): 113-127.
33 . Ji, Peng, et al. "Egocentric-vision based hand posture control system for
reconnaissance robots." Journal of Intelligent & Robotic Systems 87.3
(2017): 583-599.
111
34 . Kapidis, Georgios, et al. "Egocentric hand track and object-based
human action recognition." 2019 IEEE SmartWorld, Ubiquitous
Intelligence & Computing, Advanced & Trusted Computing, Scalable
Computing & Communications, Cloud & Big Data Computing, Internet
of People and Smart City Innovation
(SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI). IEEE, 2019.
35 . Le, Hoa M., Thi-Oanh Nguyen, and Dung Ngo-Tien. "Fully automated
multi-label image annotation by convolutional neural network and
adaptive thresholding." Proceedings of the Seventh Symposium on
Information and Communication Technology. 2016.
36 . Le, Van-Hung, et al. "3d object finding using geometrical constraints on
depth images." 2015 Seventh International Conference on Knowledge
and Systems Engineering (KSE). IEEE, 2015.
37 . Li, Cheng, and Kris M. Kitani. "Pixel-level hand detection in ego-
centric videos." Proceedings of the IEEE conference on computer vision
and pattern recognition. 2013.
38 . Li, Minglei, Lei Sun, and Qiang Huo. "Flow-guided feature propagation
with occlusion aware detail enhancement for hand segmentation in
egocentric videos." Computer Vision and Image Understanding 187
(2019): 102785.
39 . Li, Yin, Zhefan Ye, and James M. Rehg. "Delving into egocentric
actions." Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition. 2015.
40 . Li, Yinlin, et al. "Grasp type understanding—classification, localization
and clustering." 2016 12th World Congress on Intelligent Control and
Automation (WCICA). IEEE, 2016.
41 . Li, Yinlin, et al. "Un-supervised and semi-supervised hand
segmentation in egocentric images with noisy label
learning." Neurocomputing 334 (2019): 11-24.
42 . Liang, Hui, Junsong Yuan, and Daniel Thalman. "Egocentric hand pose
estimation and distance recovery in a single RGB image." 2015 IEEE
International Conference on Multimedia and Expo (ICME). IEEE,
2015.
43 . Likitlersuang, Jirapat, and Jose Zariffa. "Interaction detection in
egocentric video: Toward a novel outcome measure for upper extremity
function." IEEE journal of biomedical and health informatics 22.2
(2016): 561-569.
112
44 . Likitlersuang, Jirapat, et al. "Egocentric video: a new tool for capturing
hand use of individuals with spinal cord injury at home." Journal of
neuroengineering and rehabilitation 16.1 (2019): 1-11.
45 . Lin, T. Y., M. Maire, and S. Belongie. "Microsoft coco: Common
objects in context. European conference on computer vision. Springer,
Cham." (2014).
46 . Liu, Xiaorui, et al. "Fingertip in the eye: An attention-based method for
real-time hand tracking and fingertip detection in egocentric
videos." Chinese Conference on Pattern Recognition. Springer,
Singapore, 2016.
47 . Ma, Minghuang, Haoqi Fan, and Kris M. Kitani. "Going deeper into
first-person activity recognition." Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition. 2016.
48 . McCandless, Tomas, and Kristen Grauman. "Object-Centric Spatio-
Temporal Pyramids for Egocentric Activity Recognition." BMVC. Vol.
2. 2013.
49 . Michiel, Vlaminck, et al. "Real-Time Table Plane Detection Using
Accelerometer Information And Organized Point Cloud Data From
Kinect Sensor." Journal of Computer Science and Cybernetics 32.3
(2016): 243-258.
50 . Mueller, Franziska, et al. "Real-time hand tracking under occlusion
from an egocentric rgb-d sensor." Proceedings of the IEEE
International Conference on Computer Vision. 2017.
51 . Nguyen, Thi-Hoa-Cuc, Jean-Christophe Nebel, and Francisco Florez-
Revuelta. "Recognition of activities of daily living from egocentric
videos using hands detected by a deep convolutional
network." International Conference Image Analysis and Recognition.
Springer, Cham, 2018.
52 . Nguyen, Thi-Hoa-Cuc, Jean-Christophe Nebel, and Francisco Florez-
Revuelta. "Recognition of activities of daily living with egocentric
vision: A review." Sensors 16.1 (2016): 72.
53 . Nguyen, Vinh-Tiep, et al. "Searching a specific person in a specific
location using deep features." Proceedings of the Seventh Symposium
on Information and Communication Technology. 2016.
113
54 . Oliva, Aude, and Antonio Torralba. "Modeling the shape of the scene:
A holistic representation of the spatial envelope." International journal
of computer vision 42.3 (2001): 145-175.
55 . Pham, Chinh Huu, Quoc Khanh Le, and Thanh Ha Le. "Human action
recognition using dynamic time warping and voting algorithm." VNU
Journal of Science: Computer Science and Communication
Engineering 30.3 (2014).
56 . Pirsiavash, Hamed, and Deva Ramanan. "Detecting activities of daily
living in first-person camera views." 2012 IEEE conference on
computer vision and pattern recognition. IEEE, 2012.
57 . Radosavovic, Ilija, et al. "Designing network design
spaces." Proceedings of the IEEE/CVF conference on computer vision
and pattern recognition. 2020.
58 . Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection
with region proposal networks." Advances in neural information
processing systems 28 (2015).
59 . Ren, Xiaofeng, and Chunhui Gu. "Figure-ground segmentation
improves handled object recognition in egocentric video." 2010 IEEE
Computer Society Conference on Computer Vision and Pattern
Recognition. IEEE, 2010.
60 . Ren, Xiaofeng, and Matthai Philipose. "Egocentric recognition of
handled objects: Benchmark and analysis." 2009 IEEE Computer
Society Conference on Computer Vision and Pattern Recognition
Workshops. IEEE, 2009.
61 . Rogez, Grégory, et al. "3d hand pose detection in egocentric rgb-d
images." European Conference on Computer Vision. Springer, Cham,
2014.
62 . Rogez, Grégory, James S. Supancic, and Deva Ramanan. "First-person
pose recognition using egocentric workspaces." Proceedings of the
IEEE conference on computer vision and pattern recognition. 2015.
63 . Rogez, Grégory, James S. Supancic, and Deva Ramanan.
"Understanding everyday hands in action from RGB-D
images." Proceedings of the IEEE international conference on
computer vision. 2015.
114
64 . Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net:
Convolutional networks for biomedical image
segmentation." International Conference on Medical image computing
and computer-assisted intervention. Springer, Cham, 2015.
65 . Serra, Giuseppe, et al. "Hand segmentation for gesture recognition in
ego-vision." Proceedings of the 3rd ACM international workshop on
Interactive multimedia on mobile & portable devices. 2013.
66 . Singh, Suriya, Chetan Arora, and C. V. Jawahar. "First person action
recognition using deep learned descriptors." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. 2016.
67 . Song, Hongyong, et al. "Towards robust ego-centric hand gesture
analysis for robot control." 2016 IEEE International Conference on
Signal and Image Processing (ICSIP). IEEE, 2016.
68 . Spriggs, Ekaterina H., Fernando De La Torre, and Martial Hebert.
"Temporal segmentation and activity classification from first-person
sensing." 2009 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition Workshops. IEEE, 2009.
69 . Sunyoto, Andi, et al. "Wrist detection based on a minimum bounding
box and geometric features." Journal of King Saud University-
Computer and Information Sciences 32.2 (2020): 208-215.
70 . Tang, Yansong, et al. "Multi-stream deep neural networks for rgb-d
egocentric action recognition." IEEE Transactions on Circuits and
Systems for Video Technology 29.10 (2018): 3001-3015.
71 . Tekin, Bugra, Federica Bogo, and Marc Pollefeys. "H+ o: Unified
egocentric recognition of 3d hand-object poses and
interactions." Proceedings of the IEEE/CVF conference on computer
vision and pattern recognition. 2019.
72 . Tran, Du, et al. "A closer look at spatiotemporal convolutions for action
recognition." Proceedings of the IEEE conference on Computer Vision
and Pattern Recognition. 2018.
73 . Urabe, Shuichi, Katsufumi Inoue, and Michifumi Yoshioka. "Cooking
activities recognition in egocentric videos using combining 2DCNN and
3DCNN." Proceedings of the Joint Workshop on Multimedia for
Cooking and Eating Activities and Multimedia Assisted Dietary
Management. 2018.
115
74 . Viet, Vo Hoai, et al. "Multiple kernel learning and optical flow for
action recognition in RGB-D video." 2015 Seventh International
Conference on Knowledge and Systems Engineering (KSE). IEEE,
2015.
75 . Visee, Ryan J., Jirapat Likitlersuang, and Jose Zariffa. "An effective
and efficient method for detecting hands in egocentric videos for
rehabilitation applications." IEEE Transactions on Neural Systems and
Rehabilitation Engineering 28.3 (2020): 748-755.
76 . Le, Viet-Duc, et al. "A unified deep framework for hand pose
estimation and dynamic hand action recognition from first-person rgb
videos." 2021 International Conference on Multimedia Analysis and
Pattern Recognition (MAPR). IEEE, 2021.
77 . Wan, Shaohua, and J. K. Aggarwal. "Mining discriminative states of
hands and objects to recognize egocentric actions with a wearable rgbd
camera." Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition Workshops. 2015.
78 . Wang, Jingdong, et al. "Deep high-resolution representation learning
for visual recognition." IEEE transactions on pattern analysis and
machine intelligence 43.10 (2020): 3349-3364.
79 . Wang, Limin, et al. "Temporal segment networks for action recognition
in videos." IEEE transactions on pattern analysis and machine
intelligence 41.11 (2018): 2740-2755.
80 . Wang, Wei, et al. "Beyond One Glance: Gated Recurrent Architecture
for Hand Segmentation." arXiv preprint arXiv:1811.10914 (2018).
81 . Wang, Wei, et al. "Recurrent U-Net for resource-constrained
segmentation." Proceedings of the IEEE/CVF International Conference
on Computer Vision. 2019.
82 . Wojke, Nicolai, Alex Bewley, and Dietrich Paulus. "Simple online and
realtime tracking with a deep association metric." 2017 IEEE
international conference on image processing (ICIP). IEEE, 2017.
83 . Wu, Wenbin, et al. "Yolse: Egocentric fingertip detection from single
rgb images." Proceedings of the IEEE International Conference on
Computer Vision Workshops. 2017.
84 . Xie, Saining, et al. "Aggregated residual transformations for deep
neural networks." Proceedings of the IEEE conference on computer
vision and pattern recognition. 2017.
116
85 . Xu, Bingyuan, et al. "Arm removal for static hand gesture
recognition." Journal of Intelligent & Fuzzy Systems 35.6 (2018): 6489-
6500.
86 . Yamazaki, Wataru, et al. "Hand pose estimation and motion recognition
using egocentric RGB-D video." 2017 IEEE International Conference
on Robotics and Biomimetics (ROBIO). IEEE, 2017.
87 . Zariffa, José, and Milos R. Popovic. "Hand contour detection in
wearable camera video using an adaptive histogram region of interest."
Journal of neuroengineering and rehabilitation 10.1 (2013): 1-10.
88 . Zhang, Yifan, et al. "EgoGesture: A new dataset and benchmark for
egocentric hand gesture recognition." IEEE Transactions on
Multimedia 20.5 (2018): 1038-1050.
89 . Zhao, Hengshuang, et al. "Pyramid scene parsing
network." Proceedings of the IEEE conference on computer vision and
pattern recognition. 2017.
90 . Zhao, Ying, Zhiwei Luo, and Changqin Quan. "Coarse-to-fine online
learning for hand segmentation in egocentric video." EURASIP Journal
on Image and Video Processing 2018.1 (2018): 1-12.
91 . Zhao, Ying, Zhiwei Luo, and Changqin Quan. "Unsupervised online
learning for fine-grained hand segmentation in egocentric video." 2017
14th Conference on Computer and Robot Vision (CRV). IEEE, 2017.
92 . Zhou, Yang, et al. "Cascaded interactional targeting network for
egocentric video analysis." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2016.
93 . Zhu, Xiaolong, Xuhui Jia, and Kwan-Yee K. Wong. "Structured forests
for pixel-level hand detection and hand part labelling." Computer Vision
and Image Understanding 141 (2015): 95-107.
94 . Tran, Du, et al. "Learning spatiotemporal features with 3d convolutional
networks." Proceedings of the IEEE international conference on
computer vision. 2015.
95 . Howard, Andrew G., et al. "Mobilenets: Efficient convolutional neural
networks for mobile vision applications." arXiv preprint
arXiv:1704.04861 (2017).
96 . Gkioxari, Georgia, Ross Girshick, and Jitendra Malik. "Contextual
action recognition with r* cnn." Proceedings of the IEEE international
conference on computer vision. 2015.
117
PHỤ LỤC
P.1
XÂY DỰNG BỘ DỮ LIỆU REHABHAND
1. Thiết lập và thu thập dữ liệu
Bộ dữ liệu được thu nhận từ 10 bệnh nhân đang điều trị tại Khoa PHCN,
Bệnh viện Đại học Y Hà Nội. Những bệnh nhân này tham gia một cách tự
nguyện và không được hưởng quyền lợi tài chính. Người thu thập dữ liệu
cũng cam kết không để lộ danh tính và hình ảnh cá nhân của họ. Những người
tham gia nghiên cứu đã đồng ý bằng văn bản trước khi tham gia vào nghiên
cứu và được sự đồng ý của Ban Giám đốc Bệnh viện Đại học Y Hà Nội.
Những bệnh nhân này đều có bệnh lý trước đó như tai biến, thoái hóa cột
sống, tai nạn chấn thương cần phẫu thuật, họ tập các bài tập theo phác đồ để
PHCN tay. Bệnh nhân có thể thuận tay phải hoặc tay trái, nhưng họ luôn có
một tay yếu cần tập để phục hồi. Điều này rất tốt để so sánh khả năng phục
hồi tay của bệnh nhân. Nhóm thu thập dữ liệu đã sử dụng hai máy ảnh GoPro
Hero4, San Mateo, California, Hoa Kỳ gắn trên ngực và đầu và đồng hồ Gear
S3 Frontier, Samsung đeo trên tay bệnh nhân. Camera GoPro Hero4 có trọng
lượng 149.6 gam và kích thước (rộng x dài x sâu) là 70.8 x 71.1 x 38.8mm.
Đồng hồ Gear S3 Frontier có trọng lượng 63 gam, kích thước (rộng x dài x
sâu) là 70.8 x 71.1 x 38.8mm. Các thiết bị này đảm bảo gọn, nhẹ không ảnh
hưởng tới thao tác của bệnh nhân. Các video được quay ở định dạng MPEG-4
với độ phân giải 1080p và 30 khung hình/giây, ống kính mắt cá góc rộng cho
phép nhóm nghiên cứu ghi lại toàn bộ không gian làm việc của hai tay và các
đối tượng cầm trước cơ thể. Trong quá trình ghi, dữ liệu hình ảnh và gia tốc
kế được đồng bộ hóa theo cách thủ công. Hình PL.1 là hình ảnh thực tế của
bệnh nhân đeo thiết bị trong các bài tập.
Hình PL.1 Thiết lập thiết bị thu thập dữ liệu
P.2
a) Đồng hồ thông minh có cảm biến gia tốc và con quay hồi chuyển; b)
máy ảnh đeo ở đầu và ngực; c) hình ảnh thực tế của bệnh nhân đang thực hiện
các bài tập
Bệnh nhân tham gia 4 bài tập PHCN cơ bản nhất sau đây do bác sĩ quy
định, mỗi bài tập được lặp lại với một tần suất khác nhau:
Bài tập 1- luyện tập với quả bóng: dùng tay nhặt các quả bóng tròn cho
vào đúng lỗ.
Bài tập 2 – luyện tập với chai nước: cầm chai nước đổ nước vào cốc đặt
trên bàn.
Bài tập 3 – luyện tập với khối gỗ lập phương: dùng tay nhặt các khối gỗ
và cố gắng đặt chúng vào đúng lỗ.
Bài tập 4 – luyện tập với khối hình trụ tròn: dùng tay nhặt các khối hình
trụ cho vào đúng lỗ.
Hình PL.2 là hình ảnh ví dụ minh họa 4 bài tập PHCN này.
Trước khi ghi dữ liệu, thời lượng pin, chế độ xem camera và tín hiệu từ
đồng hồ thông minh được kiểm tra để đảm bảo khả năng tiếp nhận dữ liệu tốt.
Việc đánh dấu phần đầu và phần cuối của mỗi bài tập được thực hiện sử dụng
một bảng kẹp (clapperboard) để đánh dấu bằng cách giữ bảng kẹp trước máy
quay khi bắt đầu và kết thúc mỗi bài tập. Tín hiệu được truyền qua Bluetooth
đến máy tính và được phần mềm GoPro Capture ghi lại. Mỗi người tham gia
thực hiện tuần tự các bài tập, mỗi bài tập được lặp lại với tần suất khác nhau
tùy theo khả năng của họ.
Hình PL.2 Minh họa các bài tập PHCN
P.3
Tổng cộng, 10 tệp video ở định dạng MPEG- 4 với tổng thời lượng là 4h
và tổng dung lượng là 53 Gb được ghi lại. Tín hiệu gia tốc kế và con quay hồi
chuyển được ghi lại dưới dạng tệp văn bản, phân biệt giữa tay phải và tay trái.
Có ba kích thước x, y, z của gia tốc và con quay hồi chuyển tại các thời điểm
khác nhau trong mỗi tệp văn bản.
2. Xử lý và gán nhãn dữ liệu
Mỗi tệp video thô thu được chia thành các tệp thành các video nhỏ, mỗi
tệp có một bài tập. Điều này có thể thực hiện được bằng cách đánh dấu bằng
công cụ trực quan bảng kẹp ở phần đầu và phần cuối của một bài tập. Có 58
video bài tập được lưu trong các tệp định dạng ‘.avi’, bao gồm 20 video bài
tập 1, 16 video bài tập 2, 12 video bài tập 3 và 10 video bài tập 4. Trong mỗi
lần tập một bài tập, người bệnh thực hiện lặp đi lặp lại một động tác. Vì vậy,
từ các video bài tập tiếp tục được tách thành các phân đoạn nhỏ; mỗi phân
đoạn tương ứng với một lần thực hiện động tác. Tổng cộng có 431 phân đoạn
đã được tách ra. Việc phân tách dữ liệu như trên sẽ giúp các nghiên cứu nhận
ra các bài tập và đánh giá khả năng tập luyện của bệnh nhân.
Hình PL.3 Đồng bộ hình ảnh, gia tốc, con quay hồi chuyển trên ELAN
Để đồng bộ hóa dữ liệu hình ảnh và dữ liệu con quay hồi chuyển gia
tốc, cần phải đồng bộ hóa thời gian bắt đầu và kết thúc ghi các loại dữ liệu
này trong quá trình thu thập dữ liệu. Công cụ ELAN được sử dụng để đồng bộ
P.4
hóa các kiểu dữ liệu ở giai đoạn xử lý này. Thời gian bắt đầu trên tệp con
quay hồi chuyển gia tốc kế tương ứng với chỉ số khung hình bằng cách sử
dụng công cụ này. Hình PL.3 trực quan hóa dữ liệu hình ảnh đồng bộ với gia
tốc và dữ liệu con quay hồi chuyển trên ELAN.
Hai tác vụ gán nhãn đã được thực hiện cùng với video đã thu thập. Một
nhiệm vụ là gán nhãn phân đoạn tay và đối tượng mức pixel (Hand, object
segmentation). Nhiệm vụ thứ hai là gán nhãn theo bám tay (hand tracking).
Đối với gán nhãn phân đoạn, công cụ phân tách thủ công được sử dụng để gán
nhãn ảnh. Có tám đối tượng được dán nhãn, đó là: Quả bóng (1), Cái cốc (2),
Chai nước (3), Cái bát (4), Hình trụ (5), Khối (6), Tay trái (7), Tay phải (8).
Các đối tượng được gắn nhãn là đa giác. Kết quả gắn nhãn được lưu trữ trong
mỗi thư mục, trong đó chứa các ảnh và tệp ‘.json’ lưu trữ các kết quả gắn
nhãn. Việc lấy mẫu các khung hình liên tục trên các video thô được thực hiện
với tần suất trung bình là 4 khung hình/giây. Khoảng 4500 khung hình
(1920x1440) được lưu trong tệp định dạng .png đã được gắn nhãn đầy đủ
bằng tệp '.json', chứa thông tin chính: tên tệp của hình ảnh được gán nhãn,
kích thước hình ảnh, thông tin tọa độ của các vùng được gắn nhãn, tọa độ của
các cặp điểm (x, y) tương ứng với tất cả các cặp điểm (x, y) sẽ tạo thành vùng
đa giác xung quanh bàn tay và các đối tượng được dán nhãn. Hình PL.4 là
minh họa ảnh được gán nhãn phân đoạn tay và các đối tượng
Hình PL.4 Minh họa gán nhãn phân đoạn tay và đồ vật.
Một công cụ gán nhãn dữ liệu bán tự động được phát triển cho nhiệm vụ
gán nhãn theo bám tay. Ý tưởng chính là đầu tiên huấn luyện các mô hình trên
các tập dữ liệu có sẵn, sau đó đưa ra các đề xuất cho dữ liệu chưa được gắn
P.5
nhãn và cuối cùng là điều chỉnh ground truth nếu cần. Quy trình cho phép các
trình gán nhãn đánh dấu cả hộp giới hạn và quỹ đạo của tay và hỗ trợ nhiều
chế độ như nhập dữ liệu, chọn mô hình, xem ground truth, gỡ lỗi và xuất đầu
ra sang nhiều định dạng. Thông qua công cụ này, giảm thiểu tính chủ quan và
thời gian gán nhãn, đồng thời có thể thống nhất và phối hợp giữa các gán
nhãn của các cá nhân khác nhau.
3. Thống kê và xây dựng ứng dụng quản lý bộ dữ liệu
Trong bộ dữ liệu RehabHand cung cấp tất cả dữ liệu đã được thu thập,
bao gồm video gốc ở định dạng MPEG-4 và dữ liệu gia tốc kế và con quay
hồi chuyển dưới dạng tệp văn bản. Thông tin chia video gốc thành các video
phân đoạn bài tập và video trình tự và đồng bộ hóa với gia tốc kế, dữ liệu con
quay hồi chuyển được tổ chức và lưu trữ trong cơ sở dữ liệu quan hệ. Đối với
dữ liệu video phân đoạn chính xác, mỗi bản ghi chứa thông tin bao gồm bệnh
nhân, ID bài tập, FrameID bắt đầu và FrameID kết thúc của đoạn video bài
tập và mã thời gian bắt đầu và dừng của dữ liệu gia tốc kế và con quay hồi
chuyển, tương ứng. Phương pháp lưu trữ này cũng áp dụng cho video theo
trình tự nhưng sử dụng thời gian bắt đầu và kết thúc trình tự thay vì ID phân
đoạn bài tập.
Bộ dữ liệu RehabHand có chứa dữ liệu của có mười bệnh nhân tham gia
vào 4 bài tập. Mười tệp video thô ở định dạng MPEG- 4 với tổng thời lượng
4h và tổng dung lượng là 53 Gb đã được thu thập. Các video thô được chia
nhỏ thành các video tương ứng với từng bài tập. Tổng cộng có 56 video bài
tập, trong đó có 18 video bài tập với bóng, 16 video bài tập với chai nước, 14
video bài tập với khối gỗ và 10 video bài tập với khối trụ. Các video bài tập
được chia thành các video phân đoạn tương ứng với một bài tập tại một thời
điểm. Có 431 video phân đoạn trong bộ dữ liệu. Ngoài dữ liệu gốc, bộ dữ liệu
cũng cung cấp dữ liệu ghi nhãn cho cả tác vụ phân đoạn và theo bám bàn tay.
Đối với tác vụ phân đoạn tay, luận án đã chọn 4500 khung hình ảnh để gán
nhãn đa giác cho 8 đối tượng. Chiến lược để chọn các ảnh gán nhãn không
phải là lấy mẫu hoàn toàn ngẫu nhiên mà theo cách làm cho mỗi phần phân
chia đủ đại diện cho sự thay đổi của các bệnh nhân và các bài tập khác nhau.
Dữ liệu huấn luyện và thử nghiệm được chia theo tỷ lệ 4: 1, trong đó 921 ảnh
P.6
có nhãn của bộ dữ liệu thử nghiệm được lấy từ 2 bệnh nhân không có trong bộ
dữ liệu huấn luyện. Đối với nhiệm vụ theo bám bàn tay, chúng tôi có 32 video
với 10984 khung hình được gắn nhãn với hộp giới hạn tay. Bảng PL.1 là
thống kế số lượng của bộ RehabHand và so sánh với các bộ dữ liệu về PHCN
đã công bố. Hình PL.5 và hình PL.6 là biểu đồ thống kê số lượng dữ liệu thu
thập và gán nhãn.
Bảng PL.1 Thống kê các đặc điểm bộ dữ liệu
Bộ dữ
liệu
Thiết
bị
Số
lượng
video
Số
lượng
ảnh
Độ
phân
giải
Độ dài
video
Số
đối
tượng
Bối
cảnh
Số
hoạt
động
Nhãn
ANS
ablebod
ied
Looxc
ie2
- -
640x
480
44.16
minute
s
4
Phòng
thí
nghiệm
mô
phỏng
nhà
14 hoạt
động
hàng
ngày
Phân
đoạn
tay
ANS
SCI
GoPro
Hero4
- 33,256
1920
x108
0
- 17
Nhà
bếp,
phòng
khách
ngủ
38 hoạt
động
hàng
ngày
Phát
hiện
tay
Rehab
Hand
GoPro
Hero4
431
103,01
9
1920
x144
0
4
hours
10
Phòng
tập
PHCN
4 bài
tập
PHCN
1098
nhãn
theo
bám
tay
4500
phân
đoạn
tay và
các đối
tượng
P.7
Hình PL.5 Biểu đồ thống kê dữ liệu thu thập và gán nhãn
a) Số lượng frame mỗi bài tập và số lượng frame gán nhãn phân đoạn; b)
Số lượng phân đoạn video bài tập; c) Số bài tập gán nhãn theo bám tay
Hình PL.6 Thời gian trung bình thực hiện bài tập giữa tay yếu và tay khỏe
Số liệu thống kê cho thấy, cả 5 tiêu chí đặt ra ban đầu khi tiến hành thu
thập dữ liệu đều đã đạt được. Thứ nhất, bộ dữ liệu phải thu thập trong môi
trường thực tế bệnh viện: Khoa PHCN của Đại học Y Hà Nội. Thứ hai, bệnh
nhân đủ cả hai giới tính và độ tuổi đa dạng, bệnh lý có cả tai biến, thoái hóa
cột sống, tai nạn chấn thương cần phẫu thuật. Thứ ba, bốn bài tập PHCN là
bài tập cơ bản về tay (tập với khối lập phương, trụ tròn, chai nước, quả bóng)
đám bảo các tư thế cầm nắm từ đơn giản đến phức tạp. Thứ tư, đã gán nhãn
cho các nhiệm vụ phát hiện, phân đoạn, nhãn hoạt động và phân đoạn hoạt
động, nhãn tay yếu và tay bình thường. Thứ năm, dữ liệu thu thập gồm hình
ảnh, gia tốc, con quay hồi chuyển và được đồng bộ qua phần mềm ELAN.
P.8
Hình PL.7 Giao diện trang web quản lý bộ dữ liệu RehabHand.
NCS đã tiến hành xây dựng một website để quản lý bộ dữ liệu
RehabHand tại địa chỉ Hình PL.7 thể hiện giao diện
của trang web nhằm giới thiệu chung về bộ dữ liệu và kết quả của thực hiện
mô hình cơ sở làm điểm chuẩn trên bộ dữ liệu. Ngoài ra trang web cho phép
các nhà nghiên cứu tải bộ dữ liệu về để sử dụng