Luận văn nghiên cứu các kỹ thuật tiền xử lý ảnh và
trích chọn đặc trưng cũng như một số mô hình, thuật toán trong
việc nhận dạng hình. Qua các thử nghiệm trên nhiều mẫu hình
ảnh cử chỉ bàn tay khác nhau, tôi đã xác định được ngưỡng
nhận dạng mầu da bàn tay, qua đó, trích chọn được đặc trưng
để đưa vào huấn luyện theo mô hình SVM, hướng tới xây dựng
một siêu phẳng để cực tiểu hoá độ phân lớp sai của một đối
tượng dữ liệu mới, giúp cho SVM có khả năng mạnh mẽ ứng
dụng tốt trong bài toán nhận dạng.
28 trang |
Chia sẻ: lylyngoc | Lượt xem: 4450 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu kỹ thuật nhận dạng bàn tay người, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÊ VIỆT DŨNG
NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG BÀN TAY NGƯỜI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học:
PGS. TS. Ngô Quốc Tạo
Phản biện 1:
……………………………………………………………
…
Phản biện 2:
……………………………………………………………
…
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn
thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc:
....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông
1
MỞ ĐẦU
Ngày nay dưới sự phát triển rộng rãi của các ứng dụng
công nghệ thông tin vào trong cuộc sống, việc tương tác giữa
con người và thiết bị ngày càng trở nên quan trọng. Trước đây,
bàn phím và chuột là các giao diện chính để giao tiếp giữa
người và máy tính. Trong các lĩnh vực khác cần tới các thông
tin 3D, chẳng hạn như trò chơi máy tính, robot và lĩnh vực thiết
kế… các thiết bị cơ khí khác như bóng lăn, cần điều khiển hay
các găng tay dữ liệu đã được sử dụng. Tuy nhiên, con người
giao tiếp chủ yếu bởi “nghe” và “nhìn”, do đó một giao diện
người – máy sẽ trực quan hơn nếu con người có thể điều khiển
máy tính bằng giọng nói hay cử chỉ giống như khi tương tác
giữa người với người trong thế giới thực mà không cần thông
qua các thiết bị điều khiển khác như chuột hay bàn phím. Một
ưu điểm khác là người dùng có thể giao tiếp từ xa mà không
cần phải có tiếp xúc vật lý với máy tính. So với các hệ thống
điều khiển bằng lệnh âm thanh, một hệ thống thị giác sẽ thích
hợp hơn trong môi trường ồn ào hoặc trong trường hợp âm
thanh bị nhiễu.
Nhận dạng các cử động của tay người là cách tự nhiên
khi tương tác người – máy và ngày nay nhiều nhà nghiên cứu
trong các học viện và ngành công ghiệp đang quan tâm đến
2
hướng này. Nó cho phép con người tương tác với máy rất dễ
dàng và thuận tiện mà không cần phải mang thêm bất kỳ thiết
bị ngoại vi nào. Với mục đích nghiên cứu kỹ thuật nhận dạng
cử chỉ bàn tay người, luận văn sẽ tập trung trình bày một số nội
dung chính như sau.
Chương 1: Tìm hiểu tổng quan về bài toán nhận
dạng hình ảnh cử chỉ bàn tay người và các ứng dụng
trong thực tế.
Chương 2: Trình bày về một số kỹ thuật tiền xử lý
ảnh bao gồm phân đoạn ảnh và kỹ thuật lọc hình thái để
phục vụ cho trích chọn đặc trưng. Kỹ thuật phân đoạn sẽ
chuyển đổi ảnh về ảnh nhị phân chỉ chứa bàn tay hoặc
nền. Kỹ thuật lọc được sử dụng để loại bỏ nhiễu từ ảnh
để có thể thu được đường bao mịn màng.
Chương 3: Trình bày về một số kỹ thuật trích chọn
đặc trưng để phục vụ cho bài toán nhận dạng hình ảnh cử
chỉ bàn tay người. Các phương pháp tìm biên sẽ được sử
dụng để phát hiện đường biên, sau đó đặc trưng bàn tay
sẽ được trích chọn phục vụ cho bộ phân lớp.
Chương 4: Mô tả bộ dữ liệu huấn luyện và trình
bày các kết quả thực nghiệm trong việc nhận dạng và
phân loại hình ảnh cử chỉ của tay người.
3
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN
DẠNG HÌNH ẢNH CỬ CHỈ BÀN TAY
1.1. Hệ thống tương tác người máy
Những thiết bị input và output đặc biệt đã được thiết kế
trong những năm qua với mục đích làm cho giao tiếp giữa máy
tính và con người được thực hiện một cách dễ dàng. Hai thiết
bị phổ biến nhất là bàn phím và chuột.
Ý tưởng để làm cho máy tính hiểu ngôn ngữ con người
và phát triển giao diện người - máy thân thiện đang nhận được
sự quan tâm của cộng đồng các nhà nghiên cứu. Làm cho một
máy tính hiểu được lời nói, nét mặt, cử chỉ của con nghười là
một trong số những quan tâm đó. Trong tương tác người –
máy, các hình trạng khác nhau của bàn tay có thể giả định để
thao tác với các đối tượng hoặc truyền tải rất nhiều thông tin.
Do đó, bàn tay của con người có thể sử dụng làm “thiết bị đầu
vào” rất có giá trị.
Trong thế giới thực, chúng ta có thể cầm, thả, di
chuyển… các đối tượng bằng các cử chỉ của bàn tay. Tương tự
như vậy, khi tương tác với các thiết bị như máy tính, tivi, ô
tô… chỉ với vài cử chỉ của bàn tay là ta có thể điều khiển được
4
hoạt động của nó. Ví dụ như ta chỉ cần phẩy tay là có thể
chuyển kênh tivi, hay bật / tắt radio trên ô tô v.v… thay vì phải
tự tay nhấn nút trên bộ điều khiển. Để làm được điều này, bộ
điều khiển của các thiết bị phải được gắn một thiết bị cảm nhận
(camera/webcam), thiết bị cảm nhận này sẽ thu nhận hình ảnh
của bàn tay, nhận dạng cử chỉ để phát lệnh điều khiển tương
ứng. Ngoài ra, nhận dạng cử chỉ còn có rất nhiều ứng dụng
khác: cử chỉ bàn tay được sử dụng để giả lập các thao tác tương
tác với đối tượng trong thế giới ảo; trong tương tác giữa người
và robot, cử chỉ bàn tay chính là ngôn ngữ để con người và
robot có thể giao tiếp với nhau.
Để nhận dạng cử chỉ, bước đầu tiên trong các hệ thống
nhận dạng là phát hiện ra vị trí bàn bay bằng một thiết bị cảm
nhận để thu thập các quan sát cần cho việc phân loại hay miêu
tả; sau đó tiến hành xử lý hình ảnh, trích chọn đặc trưng
(feature extraction) để tính toán các thông tin dưới dạng số hay
dạng biểu tượng (symbolic) từ các dữ liệu quan sát và thực hiện
công việc phân loại dựa vào các đặc tính đã được trích chọn để
nhận dạng cử chỉ. Đó chính là nhiệm vụ của bài toán nhận dạng
cử động của bàn tay. Các cử động của bàn tay được phát hiện
dựa trên tập dữ liệu về bàn tay được thu thập từ trước. Hai
5
hướng tiếp cận chính để thu nhận thông tin về bàn tay người có
thể sử dụng là:
Dùng găng tay chuyên dụng với bộ cảm biến gắn
liền đo vị trí của các khớp ngón tay.
Phương pháp quang học.
1.2. Cử chỉ bàn tay
Thật khó có thể giải quyết với một định nghĩa cụ thể
nào của cử chỉ do có nhiều ứng dụng đề xuất và mỗi ứng dụng
chỉ có thể chỉ xác định trên một miền cụ thể của cử chỉ.
Bobick và Wilson đã định nghĩa cử chỉ như những
chuyển động của thân thể khi giao tiếp với những cá thể khác.
Để giao tiếp thành công, người truyền và người nhận phải có
cùng một tập hợp thông tin cho những cử chỉ đặc biệt.
Trong luận văn, cử chỉ được định nghĩa như một sự
chuyển động của những ngón tay như một tín hiệu đặc biệt,
để liên lạc chính xác giữa người gửi và thiết bị nhận.
1.3. Những ứng dụng dựa trên cử chỉ bàn tay
Các cử chỉ cơ bản được phân loại thành 2 nhóm dựa
trên cơ sở mục đích ứng dụng của chúng: đa điều khiển, ngôn
ngữ tượng trưng.
6
Thiết kế 3D: Việc thao tác đầu vào 3 chiều với con
chuột máy tính là một công việc rất phức tạp và tốn nhiều thời
gian. Viện công nghệ Massachuchetttes đã đưa ra các công
nghệ 3DRAW sử dụng một cây bút nhúng trong thiết bị
polhemus để theo dõi vị trí bút và định hướng trong 3D.
Điểu khiển từ xa: Làm tăng khả năng điều khiển bằng
tay trong một số trường hợp lỗi hệ thống, điều kiện khẩn cấp
hoặc vùng sâu vùng xa khó tiếp cận. Thường thì những điều
khiển này con người không thể tiếp cận gần máy móc. Điều
khiển từ xa là một lĩnh vực trí tuệ nhân tạo nhằm mục đích hỗ
trợ việc điều khiển cánh tay robot thông qua các cử chỉ cơ thể
để thực hiện các nhiệm vụ cần thiết
Virtual reality: Thực tế ảo được áp dụng Nâng cao, hệ
thống xúc giác tiên tiến hiện nay bao gồm thông tin xúc giác,
thường được gọi là lực lượng phản hồi, trong các ứng dụng y
tế và chơi game.
Ngôn ngữ ký hiệu: Ngôn ngữ kí hiệu là hình thức thô
nhất và tự nhiên của ngôn ngữ đánh dấu, ngày trở lại sớm
nhất là sự ra đời của nền văn minh của con người, khi các lý
thuyết đầu tiên của ngôn ngữ ký hiệu xuất hiện trong lịch sử.
Nó đã bắt đầu trước khi có sự xuất hiện của ngôn ngữ nói.
7
1.4. Những thách thức trong nhận dạng cử chỉ bàn tay
1.4.1 Tốc độ nhận dạng
Để nhận dạng cử chỉ bàn tay có thể tương tác được với
người dùng trong thực tế thì hệ thống này phải có thời gian
nhận dạng thời gian thực, tức là tốc độ xử lý phải nhanh.
1.4.2 Độ chính xác
Hiện nay, có nhiều hướng nghiên cứu về nhận dạng cử
động của bàn tay như sử dụng các phương pháp: Mô hình
Markov ẩn (Hidden Markov Models); Mô hình phân bố điểm
xấp xỉ tuyến tính thành phi tuyến (Linear approximation to
non-linear point distribution models); mô hình đối sánh/máy
trạng thái hữu hạn (Finite state machine/model matching); Đố
sánh mẫu nhanh (Fast template matching).
CHƯƠNG 2: MỘT SỐ KỸ THUẬT TIỀN XỬ LÝ
2.1. Giới thiệu
Tiền xử lý là nhiệm vụ quan trọng trong hệ thống nhận
dạng cử chỉ bàn tay tay. Tiền xử lý được áp dụng cho hình ảnh
trước khi chúng ta có thể trích chọn đặc trưng từ hình ảnh bàn
tay. Tiền xử lý bao gồm hai bước
8
Phân đoạn
Lọc hình thái
2.2. Phân đoạn ảnh dựa vào màu da
Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ
quá trình xử lý ảnh. Quá trình này thực hiện việc phân vùng
ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách
khác là xác định các biên của các vùng ảnh đó. Các vùng ảnh
đồng nhất này thông thường sẽ tương ứng với toàn bộ hay
từng phần của các đối tượng thật sự bên trong ảnh. Như vậy,
mục tiêu của phân đoạn ảnh là làm nổi bật hoặc tách hẳn đối
tượng cần quan tâm ra từ ảnh ban đầu, làm đơn giản hóa và
thay đổi cách biểu diễn để dễ dàng phân tích hơn. Vì thế, trong
hầu hết các ứng dụng của lĩnh vực xử lý và nhận dạng ảnh,
phân đoạn ảnh luôn đóng một vai trò quan trọng và cần thiết,
nó thường là bước tiền xử lý đầu tiên trong toàn bộ quá trình
trước khi thực hiện các thao tác khác ở mức cao hơn như nhận
dạng đối tượng, biểu diễn đối tượng hay truy vấn ảnh dựa vào
nội dung…
Da con người có màu rất đặc trưng, có thể dễ dàng
nhận dạng và nó cũng không bị ảnh hưởng bởi các phép biến
đổi hình học của đối tượng. Vì vậy, phát hiện bàn tay người
9
dựa trên việc phát hiện da là một phương pháp khá đơn giản và
có thể thực hiện được.
Phát hiện da là một bước xử lý tìm kiếm trong ảnh các
vùng và điểm ảnh có màu da rồi đưa ra kết quả vùng bàn tay
trên ảnh là vùng các điểm ảnh có màu da, phát hiện các điểm
ảnh màu da có vẻ như khá dễ dàng, tuy nhiên, do phương pháp
này chỉ dựa vào thông tin về màu sắc nên các vùng ảnh không
phải là bàn tay như khuôn mặt hay các vùng da khác trên cơ thể
con người, thậm chí là các đối tượng khác có màu giống với
màu da cũng bị nhận diện như là bàn tay.
Do đó, việc phát hiện bàn tay dựa trên màu da chỉ có
hiệu quả khi trong ảnh ngoài vùng bàn tay thì không chứa thêm
các đối tượng khác có màu da và vùng bàn tay phải có sự tách
biệt với nền.
Quy trình phát hiện da gồm 2 giai đoạn: Huấn luyện và
phát hiện. Huấn luyện để nhận dạng được màu da dựa trên 3
bước cơ bản sau:
Thu thập dữ liệu về da từ nhiều ảnh khác nhau của
nhiều người khác nhau và ảnh chụp trong các điều
kiện khác nhau.
Lựa chọn một không gian màu thích hợp.
Học các thông số về phân loại da.
10
Khi có bộ huấn luyện phát hiện da, tiến hành nhận dạng
các điểm ảnh có màu da từ ảnh:
Chuyển đổi ảnh sang không gian màu được sử dụng
trong giai đoạn huấn luyện.
Phân loại các điểm ảnh màu da hay không phải màu
da.
Hoàn tất xử lý các đặc trưng cần sử dụng hình thái
học để áp đặt không gian thuần nhất trên các vùng
được phát hiện.
2.2.1 Phân tách vùng màu da
Thuật toán này dựa trên việc xây dựng mô hình phân
bố màu da có tham số. Ví dụ từ ảnh gốc (RGB) được chuyển
đổi sang không gian màu YCrCb. Một tập hợp các mẫu màu da
được lấy ra từ các ảnh màu nhằm xác định phân bố màu da
trong không gian màu YCrCb và được giả định là có thể mô
hình hóa bởi phân bố Gaussian [18]. Các mẫu màu da được lọc
thông thấp để giảm nhiễu. Từ tập hợp các mẫu màu da đầu vào,
các tham số của mô hình được xây dựng trên cơ sở tính các
tham số thống kê sau:
∑ ∑
∑
11
Trong đó:
: là các vectơ mẫu màu da trích
chọn.
n : tổng số các mẫu màu da.
: vectơ trung bình của phân bố.
∑ ma trận hiệp biến của phân bố.
Từ đó, để xác định một điểm ảnh có là màu da hay
không, ta tính toán hàm mật độ xác suất của điểm ảnh đó trong
phân bố Gaussian.
∑
∑
Để phân biệt điểm ảnh nào thuộc màu da, ta dùng luật
phân lớp theo khoảng cách Mahalanobis từ tới và ∑ :
∑
Kết quả quá trình phân lớp phân hoạch tập các điểm
ảnh thành 2 lớp: lớp các điểm ảnh có màu da và lớp các điểm
ảnh không phải màu da.
12
2.2.2 Phân loại dựa vào ngưỡng trên mỗi kênh màu
Với ảnh được chụp dưới điều kiện ánh sáng được kiểm
soát, màu da con người phân bố thành một vùng nhỏ trong
không gian màu. Để phát hiện điểm ảnh có màu da, ta cần định
nghĩa ngưỡng cho các thành phần của không gian màu. Mỗi
thành phần có thể có một hay nhiều giá trị ngưỡng, các điểm
ảnh có giá trị thuộc phạm vi xác định trước của tất cả các thành
phần được coi là các điểm ảnh có màu da.
Karin Sobottka và Loannis Pitas [15] sử dụng các
ngưỡng cố định trong không gian màu HS. Các điểm ảnh có
giá trị H nằm trong khoảng [0, 50], giá trị S nằm trong khoảng
[0.23, 0.68] được xác định là điểm ảnh có màu da. Các giá trị
ngưỡng này phù hợp để phân loại các điểm ảnh có màu da đối
với ảnh chụp người da trắng và da vàng.
Douglas Chai và King N. Ngan [16] đề xuất một thuật
toán xác định các điểm ảnh có màu da có giá trị Cb nằm trong
khoảng [77, 127] và giá trị Cr nằm trong khoảng [133, 173].
Yanjiang Wang và Baozong Yuan [17] sử dụng các giá
trị ngưỡng trong không gian màu rgb (r + g + b = 1) và HSV.
Trong đó, giá trị thành phần r của các điểm ảnh nằm trong
khoảng [0.36, 0.465], giá trị thành phần g nằm trong khoảng
[0.28, 0.363], giá trị H nằm trong khoảng [0, 50], giá trị S nằm
13
trong khoảng [0.20, 0.68], giá trị V nằm trong khoảng [0.35, 1]
được xác định là điểm ảnh có màu da.
2.3. Kỹ thuật lọc hình thái
Khi nhìn cận cảnh với những hình ảnh phân đoạn và áp
dụng thuật toán Otsu vào hình ảnh xám ban đầu chúng ta thấy
rằng các phân khúc là không hoàn chỉnh. Nền có những số 1
được biết đến như nhiễu xung quanh và cử chỉ tay có một vài
số 0 được biết đến như nhiễu cử chỉ. Những nhiễu này có thể
dẫn đến một vấn đề trong việc phát hiện đường viền của cử chỉ
tay vì vậy chúng tôi cần phải loại bỏ các nhiễu này. Một
phương pháp bộ lọc hình thái học đã được áp dụng sử dụng
chuỗi các sự giãn nở và xói mòn để có được một đường viền
mịn, khép kín, và hoàn chỉnh của một cử chỉ.
CHƯƠNG 3: NHẬN DẠNG HÌNH ẢNH CỬ CHỈ BÀN
TAY
3.1. Kỹ thuật trích chọn đặc trưng
3.1.1 Kỹ thuật phát hiện biên
Biên là một trong những đặc trưng quan trọng của ảnh,
nó được dùng để mô tả hình dạng của đối tượng khá hiệu quả.
14
Để biểu diễn hình dạng đối tượng dựa trên đường biên, trước
hết cần xác định biên của đối tượng và biểu diễn nó theo một
phương pháp nào đó.
3.1.1.1 Kỹ thuật phát hiện biên Gradient
Đây là phương pháp dò biên cục bộ dựa vào cực đại
của đạo hàm. Theo định nghĩa, Gradient là một vectơ
có các thành phần biểu thị tốc độ thay đổi mức xám của điểm
ảnh theo hai hướng và (ảnh hai chiều
3.1.1.2 Kỹ thuật phát hiện biên Laplace
Để khắc phục hạn chế và nhược điểm của phương pháp
Gradient. Khi mức xám thay đổi chậm, miền chuyển tiếp trải
rộng, phương pháp cho hiệu quả hơn đó là phương pháp sử
dụng đạo hàm bậc hai Laplace.
Phương pháp Laplace tạo đường biên mảnh (độ rộng 1
pixel). Tuy nhiên, nhược điểm của kỹ thuật này là rất nhạy với
nhiễu nên đường biên thu được thường kém ổn định.
3.1.1.3 Kỹ thuật phát hiện biên Canny
Trong xử lý hình ảnh tìm thấy cạnh biên là vấn đề cơ
bản vì cạnh biên xác định ranh giới của các đối tượng khác
15
nhau. Thuật toán dò tìm cạnh biên Canny được biết như dò tìm
cạnh biên tối ưu. Canny, cải thiện dò tìm cạnh biên bằng cách
theo danh sách tiêu chí.
Đầu tiên là tỷ lệ lỗi thấp.
Tiêu chí thứ hai là các điểm cạnh biên khoanh vùng.
Tiêu chí thứ ba là để có một đáp ứng tới cạnh biên.
Dựa vào các tiêu chí này, dò tìm cạnh biên Canny đầu
tiên làm mịn hình ảnh để loại bỏ và nhiễu. Sau đó, nó tìm thấy
độ nghiêng hình ảnh để làm nổi bật vùng với phát sinh không
gian cao. Thuật toán sau đó theo dõi dọc theo các vùng này và
ngăn chặn bất kì điểm ảnh nào không phải là tối
3.1.1.4 Mô tả đường biên
Đường biên trước tiên phải được nhị phân hóa. Đây là
giai đoạn then chốt trong quá trình trích chọn vì nó xác định
đường bao nào thực sự cần và đường bao nào có thể loại bỏ.
Việc mã hóa đường bao có thể thực hiện theo nhiều
cách khác nhau. Có thể dùng biểu diễn chính xác đường biên
hay xấp xỉ nhờ nội suy. Thông thường các cấu trúc cơ sở mã
hóa đường biên gồm 4 loại: điểm, đoạn thẳng, cung và đường
cong.
16
Tuy nhiên, luôn có xung đột giữa độ phức tạp tính toán
và khả năng biểu diễn ảnh của cách mã hóa thông tin. Biểu
diễn đường biên bởi các điểm nói chung không phức tạp song
lại rất nghèo nàn về cấu trúc và không cô đọng. Trong khi đó,
biểu diễn bằng đường cong đa thức bậc cao làm tăng độ phức
tạp tính toán, song bù lại cấu trúc dữ liệu lại rất cô đọng.
3.1.2 Trích chọn đặc trưng dựa vùng liên kết
Các đối tượng hình học được phát hiện thường thông
qua các kỹ thuật dò biên, kết quả tìm được này là các đường
biên xác định đối tượng. Đó là, một dãy các điểm liên tiếp
đóng kín, sử dụng các thuật toán đơn giản hóa như Douglas
Peucker, Band Width, Angle v.v.. ta sẽ thu được một polyline
hay nói khác đi là thu được một đa giác xác định đối tượng.
Vấn đề là ta cần phải xác định xem đối tượng có phải là đối
tượng cần tách hay không? Như ta đã biết một đa giác có thể có
hình dạng tựa như một hình cơ sở, có thể có nhiều cách tiếp
cận xấp xỉ khác nhau. Cách xấp xỉ dựa trên các đặc trưng cơ
bản sau:
Đặc trưng toàn cục: Các mômen thống kê, số đo
hình học như chu vi, diện tích, tập tối ưu các hình
chữ nhật phủ hay nội tiếp đa giác v.v…
17
Đặc trưng địa phương: Các số đo đặc trưng của
đường cong như góc, điểm lồi, lõm, uốn, cực trị
v.v…
Việc xấp xỉ tỏ ra rất có hiệu quả đối với một số hình
phẳng đặc biệt như tam giác, đường tròn, hình chữ nhật, hình
vuông, hình ellipse và một đa giác mẫu.
3.1.2.1 Xấp xỉ đa giác theo bất biến aphin
Mô hình chuẩn tắc về bất biến aphin cho phép chúng ta
có thể chuyển bài toán xấp xỉ đối tượng bởi bất biến aphin về
bài toán xấp xỉ mẫu trên các dạng chuẩn tắc. Như vậy có thể
đưa việc đối sánh các đối tượng với mẫu bởi các bất biến đồng
dạng, chẳng hạn việc xấp xỉ bởi tam giác, hình bình hành,
ellipse tương đương với xấp xỉ tam giác đều, hình vuông, hình
tròn v.v
3.1.3 Trích chọn đặc trưng dựa vào chuỗi đường bao cục
bộ
Sau khi phát hiện cạnh biên chúng ta có ranh giới bàn
tay trong hình ảnh đó là đường viền hình ảnh tay của chúng ta.
Bây giờ, thuật toán dược áp dụng trên đường viền để truy tìm
nó theo hướng chiều kim đồng hồ và đường viền điểm ảnh
18
được đánh số tuần tự. Đầu tiên chúng ta chạy 1 tìm kiếm trong
hình ảnh để tìm thấy giá trị cao nhất khác 0, ví dụ đường viền
điểm ảnh sau khi đánh số đường viền theo tuần tự chiều kim
đồng hồ từ điểm đó.
3.1.4 Trích chọn đặc trưng dựa trên phân bố mức xám
Một kỹ thuật trích chọn đặc trưng dựa trên phân bố
mức xám là phép biến đổi Haar-like do Viola và Jones công bố,
đặc trưng Haar-like dựa trên ý tưởng tính độ chênh lệch giữa
các giá trị mức xám của các điểm ảnh trong các vùng kề nhau
trong ảnh xám, mỗi đặc trưng là sự kết hợp của hai hay ba hình
chữ nhật “trắng” hay “đen” .
Lợi ích của đặc trưng Haar-like là nó diễn đạt được tri
thức về các đối tượng trong ảnh vì nó biểu diễn mối liên hệ
giữa các bộ phận của đối tượng, điều mà bản thân từng điểm
ảnh không diễn đạt được. Giá trị của đặc trưng Haar-like là sự
chênh lệch giữa tổng giá trị các pixel của các vùng đen và các
vùng trắng
3.2. Phân loại hình ảnh cử chỉ bàn tay bằng SVM
Máy hỗ trợ vectơ SVM (Support Vector Machines)
được sử dụng khá thông dụng và đạt nhiều thành công trong
19
lĩnh vực phân loại. Tức là, nếu ta có một loạt các dữ liệu cần
chia lớp nhưng không biết quy tắc để phân loại chúng, khi nhận
được dữ liệu mẫu mới, thuật toán huấn luyện SVM sẽ xây dựng
một mô hình cho phép dự đoán lớp của một mẫu mới đưa vào.
Nguồn gốc của SVM dựa trên sự chắc chắn về lỗi chính xác, có
thể phân loại ngẫu nhiên các mẫu đối tượng được chọn mà lỗi
được giữ sao cho nhỏ nhất. Vì vậy, giải thuật SVM giúp giảm
thiểu biên trên các lỗi chính xác và làm cho hệ thống tin cậy
hơn.
Ý tưởng chính của SVM là chuyển tập mẫu từ không
gian biểu diễn Rn của chúng sang một không gian Rd có số
chiều lớn hơn. Trong không gian Rd, tìm một siêu phẳng tối ưu
để phân hoạch tập mẫu này dựa trên phân lớp của chúng, cũng
có nghĩa là tìm ra miền phân bố của từng lớp trong không gian
Rn để từ đó xác định được phân lớp của một mẫu cần nhận
dạng. Chất lượng của siêu phẳng này phụ thuộc vào các đặc
trưng của ảnh.
Vì vậy, ta tìm được một tập các thông số tốt, sau đó sẽ
sử dụng để tạo các mẫu và sử dụng mô hình cuối cùng cho dự
báo (trên dữ liệu thử nghiệm chưa rõ). SVM chủ yếu là một
phương pháp phân lớp thực hiện nhiệm vụ phân loại bằng cách
20
xây dựng siêu phẳng trong một không gian đa chiều. SVM hỗ
trợ cả hai nhiệm vụ hồi quy và phân loại. Dựa trên một số kết
hợp có các trọng số của một tập con nhỏ các vectơ huấn luyện,
các vectơ này được gọi là vectơ hỗ trợ (support vector). Ước
lượng siêu phẳng trong SVM thì tương đương giải một bài toán
tuyến tính bậc hai. Chất lượng của siêu phẳng này được quyết
định bởi khoảng cách (biên) của điểm dữ liệu gần nhất của mỗi
lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì mặt
phẳng quyết định càng tốt đồng thời việc phân loại càng chính
xác. Mục đích thuật toán SVM tìm ra được khoảng cách biên
lớn nhất để tạo kết quả phân lớp tốt.
CHƯƠNG 4: THỰC NGHIỆM
4.1. Mô tả cơ sở dữ liệu
Bộ dữ liệu dùng để huấn luyện và thử nghiệm chúng tôi
thu thập được khoảng gần 1000 mẫu ảnh bàn tay, độ phân giải
320×240, hình được chụp trong các điều kiện môi trường khác
nhau như ánh sáng tự nhiên ngoài trời và ánh sáng đèn điện ở
nhiều vị trí và các thời điểm khác nhau.
Hình bàn tay chụp được đảm bảo rõ nét, bàn tay luôn
nằm ở vị trí giữa khuôn hình.
21
22
4.2. Mô tả hệ thống
Nạp ảnh trực tiếp từ camera hoặc file ảnh
(Không gian mầu GRB, kích thước 320x240)
Tiền xử lý
Trích chọn đặc trưng
Phân loại cử động bằng phương pháp học máy SVM
Chuyển đồi không gian mầu RGB sang SHL
Xác định ngưỡng mầu da bàn tay
Nhị phân ảnh
Tìm đường biên bàn tay qua ảnh nhị phân
Xấp xỉ đa giác qua đường biên tìm được
Tìm và xác đinh các điểm khuyết
Tạo bộ dữ liệu huấn luyện dựa trên các đặc trưng
Huấn luyện và phân loại cử chỉ bàn tay
23
4.3. Thực nghiệm tiền xử lý
Ở phần này đầu tiên chúng tôi sẽ chuyển đổi ảnh RGB
qua ảnh với hệ màu khác là hệ màu HSL, HSL là một không
gian màu dựa trên 3 số liệu: Vùng màu (H), Độ bão hòa (S),
và Độ sáng (L).
Bước tiếp theo phân ngưỡng ảnh nhằm tăng độ tương
phản giữa màu bàn tay và màu nền, ảnh bàn tay được chuyển
thành ảnh nhị phân trong đó mỗi điểm ảnh chỉ được biểu diễn
một trong hai giá trị 0 (màu đen) hoặc 1 (màu trắng).
Sau khi xác định vùng bày tay, chúng tôi tiếp tục xử lý
ảnh và xóa nhiễu, tách các thành phần liên thông trong nhận
dạng bàn tay ra khỏi môi trường xung quanh thành từng ảnh
riêng biệt trước đi đưa vào nhận dạng.
Phép Erosion thì làm cho đối tượng ảnh trở nên nhỏ
hơn, ít điểm ảnh hơn. Phép bà o mòn thay những điểm đen
thành điểm trắng khi mà lân cận của nó có ít nhất một điểm
trắng.
Phép Dilation thì mở rộng thêm điểm ảnh vào đối tượng
ảnh, làm cho ảnh trở nên lớn hơn.
4.4. Thực nghiệm trích chọn đặc trưng
Để tiến hành nhận dạng cử chỉ của bàn tay, chúng tôi
tiến hành trích chọn đặc trưng đường bao thu được ở phần phát
24
hiện vùng đối tượng. Ở bước này có thể sử dụng các kỹ thuật
phân tích hình dạng đối tượng khác nhau như: sử dụng các
dạng moment, phân tích đường bao theo đặc trưng Fourier 2D,
sử dụng curvefitting … tuy nhiên trong nghiên cứu của mình
bước đầu tôi sử dụng kỹ thuật xấp xỉ đa giác cho vùng đường
bao và tìm bao lồi nhỏ nhất chứa vùng bàn tay, tiếp đó trích
chọn các đặc trưng theo đa giác
Trong đó để phân biệt các ngón tay, chúng tôi tiến hành
phân tích độ sâu các kẽ tay dựa trên các góc khuyết, đồng thời
loại bỏ các kẽ không phù hợp về độ sâu.
Hình. Phát hiện kẽ ngón tay
Các thao tác về xấp xỉ đa giác và tìm bao lồi được
chúng tôi sử dụng thuật toán Douglas–Peucker tích hợp sẵn
trong bộ thư viện mã nguồn mở OpenCV.
Góc khuyết
25
Khi đó, vector đặc trưng cho vùng bàn tay cuối cùng
được xác định gồm các thành phần sau: f1 số lượng kẽ tay; f2
độ sâu trung bình của các kẽ tay; f3 diện tích vùng bàn tay, f4
giá trị
00 , yx
depthI của tâm bàn tay; f5 khoảng cách trung
bình giữa hai kẽ tay liên tiếp; f6 số đỉnh bao lồi; f7 độ dài cạnh
lớn nhất của bao lồi, f8 độ dài cạnh nhỏ nhất của bao lồi bàn
tay.
Kết thúc giai đoạn này mỗi tư thế của bàn tay có thể xác
định bởi hàm phân loại từ 8 đặc trưng
821 ,, fffGh
SVM
4.5. Thực nghiệm nhận dạng hình ảnh cử chỉ bàn tay
Từ bộ ảnh thu thập được, chúng tôi chia ra thành nhiều
nhóm con theo mỗi loại cử chỉ, và đưa vào tập huấn luyện, qua
bước huấn luyện, chúng tôi tạo ra 01 file để ghi lại dữ liệu của
8 đặc trưng đã trích chọn ở phần trên. Kết quả thử nghiệm
Trong quá trình thực nhiệm nhận dạng trên nhiều mẫu
ảnh, chúng tôi nhận thấy với những ảnh chụp có điều kiện ánh
sáng tốt, phông nền trơn độ tương phản cao so với da bàn tay
26
thì kết quả nhận dạng là rất tốt đạt độ chính xác đạt 98%. tuy
nhiên, với những ảnh chụp trên phông nền có mầu gần giống
như mầu da thì hệ thống nhận dạng rất kém gần như không thể
nhận dạng được.
KẾT LUẬN
Luận văn nghiên cứu các kỹ thuật tiền xử lý ảnh và
trích chọn đặc trưng cũng như một số mô hình, thuật toán trong
việc nhận dạng hình. Qua các thử nghiệm trên nhiều mẫu hình
ảnh cử chỉ bàn tay khác nhau, tôi đã xác định được ngưỡng
nhận dạng mầu da bàn tay, qua đó, trích chọn được đặc trưng
để đưa vào huấn luyện theo mô hình SVM, hướng tới xây dựng
một siêu phẳng để cực tiểu hoá độ phân lớp sai của một đối
tượng dữ liệu mới, giúp cho SVM có khả năng mạnh mẽ ứng
dụng tốt trong bài toán nhận dạng.
Tôi dự định sau đây sẽ tiếp tục nghiên các kỹ thuật
huấn luyện máy tính để bổ sung tập các đặc trưng cũng như các
cử động của bàn tay và sẽ khảo sát kỹ hơn mức độ nhầm lẫn
giữa các cử chỉ và xây dựng ứng dụng tương tác người máy
thời gian thực.
Các file đính kèm theo tài liệu này:
- ttlv_le_viet_dung_0538.pdf