Phương pháp của chúng tôi dựa trên hai hướng
tiếp cận chính là: Xác định điểm đặc trưng bằng luật và trích chọn đặc trưng dùng bộ
lọc Gabor kết hợp với phương pháp học máy Suport Vector Machine. Trong hướng
tiếp cận bằng luật, chúng tôi xác định 6 điểm đặc trưng là hai mống mắt, hai điểm lỗ
mũi và hai khóe miệng.
67 trang |
Chia sẻ: lylyngoc | Lượt xem: 4199 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Luận văn Trích chọn đặc trưng trên khuôn mặt người, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
hép chiếu toàn bộ.
Để dò tìm khóe miệng sử dụng hai phương pháp:
+ Tìm điểm ảnh có độ xám lớn nhất trong các vùng dự kiến sau đó tìm xác định điểm
khóe miệng sẽ nằm trên đường giữa 2 môi.
+ Tìm phần có giá trị điểm ảnh tối nhất trên đường giữa hai môi, chắc chắn khoảng
cách giữa 2 vùng đảm bảo điều kiện thỏa mãn về khoảng cách giữa 2 khóe miệng trên
thực tế và chọn vị trí có độ tương phản là cao nhất.
Hình 8 − Xác định 2 đường biên ngang của môi.
Phương pháp trên có một số những ưu điểm như thỏa mãn điều kiện thực thi với thời
gian thực. Một số phương pháp có thể áp dụng với những độ phân giải khác nhau (với
cả độ phân giải thấp), tuy nhiên vẫn có trường hợp phát hiện ra lông mày thay vì mắt.
Tian [4] đã giải quyết vấn đề bằng cách phát hiện cả vùng mắt và lông mày. Bằng cách
đó, không chỉ trích chọn được thêm đặc trưng mà tỷ lệ chính xác còn được tăng lên.
Đối với xác định khóe miệng, trường hợp sai là khi miệng không ở trạng thái bình
thường và phương pháp áp dụng đối với mặt trực diện hoặc gần trực diện.
Vukadinovic & Pantic [5] sử dụng Gabor – wavalets và Gentle – Boost để xây dựng hệ
thống nhận dạng tự động 20 điểm đặc trưng. Trong phương pháp, họ chia khuôn mặt
thành 20 vùng nhỏ (ROIs) và mỗi vùng ứng với một điểm đặc trưng. Mỗi một vector
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
16
đặc trưng ứng với vùng ảnh kích thước 13x13 pixel, có độ lớn là 13x13x(18+1) =
8281. Những vector đặc trưng được sử dụng để xây dựng một mô hình và dự đoán một
điểm có là điểm đặc trưng hay không. Trong khi huấn luyện, mô hình đặc trưng Gentle
– boost sử dụng các vector đặc trưng trích chọn từ các ví dụ huấn luyện. Trong khi
kiểm tra, một của sổ kích thước 13x13 pixel được quét trên toàn bộ vùng quan tâm.
Với mỗi một vị trí của cửa sổ trượt, so sánh sự giống nhau giữa giá trị của cửa sổ trượt
và mô hình mẫu. Sau khi quét hết vùng quan tâm thì điểm có độ lệch với mẫu là nhỏ
nhất sẽ được chọn.
Hình 9 − Sơ đồ hệ thống tự động xác định điểm đặc trưng.
3.2.2 Phát hiện hình dáng các bộ phận trên khuôn mặt
Tian [17] phát triển phương pháp nhiều trạng thái để trích chọn đặc trưng hình học
trong hình Hình 10. Một mô hình môi 3 trạng thái miêu tả trạng thái của môi: mở,
đóng, ngậm chặt. Mô hình 2 trạng thái được dùng cho mỗi mắt, mô hình một trạng thái
cho má và lông mày. Một số đặc trưng diện mạo sử dụng mô hình 2 trạng thái: có thể
hiện và vắng mặt. Đường viền của các đặc trưng và thành phần được điều chỉnh bằng
tay trong bước khởi tạo. Sau khi khởi tạo, tất cả các thay đổi của đặc trưng sẽ được dò
tìm và phát hiện trong chuỗi ảnh. Thuật toán sử dụng các trạng thái dò tìm khác nhau
là cải tiển của thuật toán Lucas-Kanade [11]. Tuy nhiên có giới hạn là chuyển động
của đầu.
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
17
Phương pháp có thể phát hiện 16 Aus với độ chính xác là 95.5% trên bộ cơ sở dữ
liệu Cohn – Kanade.
Hình 10 – Mô hình nhiều trạng thái với mặt trực diện.
3.2.3 Nhân trắc học và áp dụng với phương pháp trích chọn đặc trưng
hình học
Nhân trắc học là một ngành khoa học nghiên cứu về đo lường các thành phần khác
nhau trên cơ thể con người. Những thông tin về kích thước, vị trí của các thành phần
trên cơ thể phụ thuộc vào tri thức về chủng tộc, nhóm người. Sau khi đo đạc chính xác
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
18
các chỉ số từ 300 bức ảnh của 150 người ở các vùng địa lý khác nhau có thể xây dựng
một mô hình cho khuôn mặt dùng để định vị các vùng đặc trưng từ bức ảnh khuôn mặt
Tốt hơn là sử dụng toàn bộ mốc như Farkas [28] đã dùng, trong mô hình chỉ sử dụng
một lượng nhỏ các điểm làm mốc.
Hình 11 – Mô hình nhân trắc học của mặt (a) Các điểm mốc, (b) Khoảng cách.
Bảng 1 – Tỷ lệ khoảng cách giữa các mốc.
Tỷ lệ Miêu tả Hằng số
D2/D1 Tỷ lệ khoảng cách giữa tâm mắt phải và tâm lông
mày phải với khoảng cách giữa 2 tâm mắt
~ 0.33
D3/D1 Tỷ lệ khoảng cách giữa tâm mắt trái và tâm lông
mày trái với khoảng cách giữa 2 tâm mắt
~0.33
D4/D1 Tỷ lệ khoảng cách giữa tâm 2 mắt và đỉnh mũi với
khoảng cách giữa 2 tâm mắt.
~ 0.6
D5/D1 Tỷ lệ khoảng cách giữa tâm 2 mắt và điểm giữa
miệng với khoảng cách giữa 2 tâm mắt.
~1.1
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
19
3.3 Trích chọn đặc trưng diện mạo
3.3.1 Tổng quan
Một dạng khác của trích chọn đặc trưng là trích trọn đặc trưng diện mạo để xác định
những thay đổi trên khuôn mặt. Một số phương pháp tiểu biểu như : Principle
Component Analsys (PCA) [19], Gabor Wavelet Analysis [1,19] và Local Binary
Pattern [20,21] và được áp dụng trên toàn bộ bề mặt bức ảnh hoặc một phần để trích ra
các đặc trưng và phát hiện sự thay đổi của khuôn mặt
3.3.2 Mã LBP
LBP là viết tắt của Local Binary Pattern hay là mẫu nhị phân địa phương được Ojala
[29] trình bày vào năm 1996 như là một đơn vị đo độ tương phản cục bộ của ảnh.
Phiên bản đầu tiên của LBP được dùng với 8 điểm ảnh xung quanh và sử dụng giá trị
của điểm ảnh ở trung tâm làm ngưỡng. Giá trị LBP được xác định bằng cách nhân các
giá trị ngưỡng với trọng số ứng với mỗi điểm ảnh sau đó cộng tổng lại.
Kể từ khi được đưa ra, theo định nghĩa là bất biến với những thay đổi đơn điệu trong
ảnh đen trắng. Để cải tiến phương pháp, bổ sung thêm phương pháp tương phản trực
giao địa phương. Hình dưới minh họa cách tính độ tương phản trực giao (C) là hiệu
cấp độ xám trung bình của các điểm ảnh lớn hơn hoặc bằng ngưỡng với các điểm ảnh
thấp hơn ngưỡng. Phân phối hai chiều của mã LBP và độ tương phản cục bộ được lấy
làm đặc trưng gọi là LBP/C.
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
20
Hình 12 - Ví dụ về LBP và độ tương phản cục bộ C
Nguồn gốc
Dãy LBP được Ojala [29] trình bày vào năm 2002. Định nghĩa một cấu trúc điểm
ảnh T là một phân phối đại số của cấp độ xám của P +1 (P > 0) điểm ảnh.
T = t(gc,g0,…,gp-1)
Với gc ứng với cấp độ xám của điểm ảnh trung tâm Ptt , gp (p = 0,..,1) tương ứng với P
điểm ảnh xung quanh, P điểm ảnh này nẳm trên đường tròn bán kính R và tâm là Ptt .
Hình 13 - Tập hợp các điểm xung quanh Ptt.
Không mất thông tin, có thể trừ gp đi một lượng là gc
T = t(gc,g0 – gc ,…,gp - gc)
Giả sử sự sai số giữa gp và gc là độc lập với gc, ta có thể nhân tử hóa gc như sau
T = t(gc)t(g0-gc,…,gp-1-gc)
t(gc) biểu thị xu hướng độ sáng tối của cả bức ảnh nên không liên quan đến kết cấu của
ảnh cục bộ do đó có thể bỏ qua
T~t((g0 - gc),…,(gp-1-gc))
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
21
Mặc dù tính bất biến ngược với độ thay đổi tỷ lệ xám của điểm ảnh, sự khác biệt ảnh
hưởng bởi tỷ lệ. Để thu được đặc điểm bất biến với bất kỳ một sự thay đổi nào của ảnh
đen trắng (gray scale) chỉ quan tâm đến dấu của độ lệch:
T~t(s(g0 - gc),…,s(gp-1-gc))
Với s là hàm dấu s(x) =
1 𝑥 ≥ 0
0 𝑥 < 0
Trọng số 2p được dùng cho các hàm dấu s(gp-gc) để chuyển sự khác biệt giữa các điểm
ảnh bên cạnh về một giá trị duy nhất.
LBPP,R = 𝑠 𝑔𝑝 − 𝑔𝑐
𝑃−1
𝑝=0 * 2
p
Theo Eq.2 cứ P pixel thì có 2p giá trị LBPP,R trong khoảng [0,2
p
– 1] nhưng để đơn
giản ta có thể chọn một số giá trị trong 2p giá trị ký hiệu là 𝐿𝐵𝑃𝑃 ,𝑅
𝑢2
Nguyên lý phân lớp không tham biến
Trong phân lớp, sự khác biệt giữa mẫu và mô hình phân phối LBP được đánh giả
bởi kiểm tra thống kê không tham biến.Phương pháp tiếp cận này có ưu điểm là không
cần phải có những giả thiết về phân phối của các đặc trưng.
Thông thường, những kiểm tra thống kê được chọn cho mục đích là nguyên lý cross-
entropy được giới thiệu bởi Kullback (1968). Sau đó, Sokal và Rohlf (1969) gọi cách
đo này là thống kê G.
G(S,M) = 2* 𝑆𝑏𝐵𝑏=1 log
𝑆𝑏
𝑀𝑏
= 2 [𝑆𝑏 ∗ 𝑙𝑜𝑔𝑆𝑏 − 𝑆𝑏 ∗ 𝑙𝑜𝑔𝑀𝑏]𝐵𝑏=1
Với S,M kí hiệu phân phối mẫu và mô hình mong muốn. Sb và Mb là xác suất đề b
thuộc vào phân phối mẫu hoặc mô hình . B là số phần tử trong phân phối.
Thống kê G sử dụng trong phân lớp có thể viết lại như sau.
L(S,M) = − 𝑆𝑏𝐵𝑏=1 log Mb
Kiến trúc mô hình có thể xem như xử lý ngẫu nhiên có đặc tính có thể xác định bởi
phân phối LBP. Trong một phân lớp đơn giản , mỗi lớp được biểu diễn bởi một mô
hình phân phối đơn giản Mi . Tương tự , một kiến trúc mẫu không xác định có thể
miêu tả bởi phân phối S. L là một giả ma trận đo khả năng mẫu S có thể thuộc lớp i.
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
22
Lớp C của một mẫu không xác định có thể được xác định bởi luật “hàng xóm gần
nhất”:
C = argminiL(S,M
i
)
Bên cạnh đó , một thống kê log-likelihood có thể xem như đơn vị đo sự khác biệt và có
thể sử dụng để liên kết nhiều bộ phân lớp giống như bộ phân lớp k-NN hoặc self-
oganizing map ( SOM). Log-likelihood đúng trong một số trường hợp nhưng không
ổn định khi mà cỡ mẫu nhỏ.Trong trường hợp này Chi-square-distance thường cho kết
quả tốt hơn :
𝑋2(S,M) =
(𝑆𝑏−𝑀𝑏)2
𝑆𝑏+𝑀𝑏
𝐵
𝑏=1
Để đạt được độ chính xác cao sử dụng giao histogram
H(S,M) = min(𝑆𝑏,𝑀𝑏)𝐵𝑏=1
Phép quay bất biến
Để không bị ảnh hưởng bởi sự quay, mỗi giá trị LBP cần quay ngược lại về vị trí
ban đầu, cách tốt nhất là tạo ra tất cả các trường hợp quay của một mẫu, sự quay có thể
định nghĩa như sau
𝐿𝐵𝑃𝑅 ,𝐼
𝑟𝑖 = min { ROR(LBPP,R,i) i=0,1,…,P-1}
Trong đó ri là viết tắt của rotation invariant ( quay bất biến), ROR(x,i) dịch vòng tròn
số nhị phân P - bit (x) i lần theo chiều kim đồng hồ.
Độ tương phản và kết cấu mẫu
Kết cấu có thể được coi là một hiện tượng hai chiều được đặc trưng bởi hai đặc tính
trực giao: cấu trúc không gian (mô hình) và độ tương phản (độ mạnh của mô hình)
Quay bất biến tương phản địa phương có thể được đo trong một hình tròn đối xứng
xunh quanh giống như LBP:
VARP,R =
1
𝑃
𝑔𝑝 − 𝜇
2𝑃−1
𝑝=0
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
23
Trong đó 𝜇 =
1
𝑃
𝑔𝑝
𝑃−1
𝑝=0
Tổng hợp lại ta có : 𝐿𝐵𝑃𝑃1,𝑅1
𝑟𝑖 / VARP2,R2
3.3.3 Bộ lọc Gabor
Bộ lọc Gabor thực ra là một bộ lọc tuyến tính được sử dụng như là một phương
pháp phát hiện cạnh trong xử lý ảnh. Tần suất và hướng dùng để biểu diễn bộ lọc
Gabor tương tự như hệ thống thị giác của con người và nó được tìm ra như một cách
tiếp cận đặc biệt cho biểu diễn cấu trúc và sự phân biệt. Trong miền không gian, bộ lọc
Gabor 2 chiều là một hàm nhân Gauss được điều chỉnh bởi một mặt phẳng sóng sin.
Các bộ lọc Gabor tương tự nhau và tất cả bộ lọc được sinh ra từ Gabor-wavelet bởi sự
co giãn và xoay.
Hình 14 – Phần thực của bộ lọc Gabor với 5 tần xuất và 8 hướng với wmax = 𝝅/2, hàng
ứng với sự thay đổi tần suất, cột ứng với sự thay đổi hướng.
Một bộ lọc Gabor được định nghĩa như sau :
𝛾 𝑥,𝑦,𝜔,𝜃 =
1
2𝜋𝜎2
𝑒
−
𝑥′2+ 𝑦′2
2𝜋2 [𝑒𝑖𝜔𝑥
′
− 𝑒−
𝜔2𝜎2
2 ]
𝑥 ′ = 𝑥𝑐𝑜𝑠𝜃 + 𝑦𝑠𝑖𝑛𝜃 , 𝑦′ = −𝑥𝑠𝑖𝑛𝜃 + 𝑦𝑐𝑜𝑠𝜃
Trong đó (x,y) là vị trí điểm ảnh trong không gian, 𝜔 tần số góc , 𝜃 hướng của bộ lọc
Gabor, 𝜎 độ lệch chuẩn của hàm Gauss giữa trục x và y.
Chương 3 : Trích chọn đặc trưng trên khuôn mặt Nguyễn Thành Trung
24
Thành phần thứ 2 của bộ lọc Gabor 𝑒−
𝜔2𝜎2
2 bù cho giá trị DC bới thành phần cos khác
0 có nghĩa giá trị sin có thể bằng 0. Đặt 𝜎 = 𝜋/𝜔 thể hiện mối quan hệ giữa 𝜎 và 𝜔.
Hầu hết các trường hợp của bộ lọc Gabor đều sử dụng với 5 tần suất và 8 hướng để
trích chọn đặc trưng cho biểu diễn khuôn mặt. Chọn tần suất cực đại 𝜔𝑚𝑎𝑥 = 𝜋/2 ,
𝜔𝑚 = 𝜔𝑚𝑎𝑥 ∗ 𝜆
−(𝑚−1) , m = 1,2,3,4,5 𝜆 = 2 , 𝜃𝑛 = 𝑛 − 1 𝜋/8 , n = 1,2,3,…,8.
Biểu diễn đặc trưng Gabor
Biểu diễn đặc trưng Gabor của một bức ảnh I (x,y) được xác định bằng cách nhân xoắn
bức ảnh với Gabor-filter bank 𝛾 𝑥,𝑦,𝜔,𝜃 như sau:
𝑂𝑚 ,𝑛 𝑥, 𝑦 = 𝐼 𝑥,𝑦 ∗ 𝛾 𝑥,𝑦,𝜔,𝜃
Trong đó * ký hiệu toán tử nhân xoắn. Cường độ bức ảnh của kết quả nhân xoắn ứng
với những bộ lọc Gabor được chỉ ra trong hình trên.
Hình 15 – Một ví dụ về ảnh sau khi nhân xoắn với 48 bộ lọc Gabor
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
25
Chương 4
Xây dựng hệ thống nhận dạng các điểm đặc
trưng
4.1 Tổng quan về hệ thống
Trong chương này chúng tôi sẽ trình bày về xây dựng hệ thống nhận dạng các điểm
đặc trưng theo hướng tiếp cận đặc trưng hình học. Trong hệ thống chúng tôi xác định
20 điểm đặc trưng như sau:
Hình 16 – 20 điểm đặc trưng.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
26
Bảng 2 – Danh sách các điểm đặc trưng.
Điểm đặc trưng Miêu tả
P1 Ngoài cùng lông mày phải
P2 Trong cùng lông mày phải
P3 Trong cùng lông mày trái
P4 Ngoài cùng lông mày trái
P5 Đuôi mắt phải
P6 Trên cùng mắt phải
P7 Mống mắt phải
P8 Khoé mắt phải
P9 Khoé mắt trái
P10 Mống mắt trái
P11 Trên cùng mắt trái
P12 Đuôi mắt trái
P13 Dưới cùng mắt phải
P14 Dưới cùng mắt trái
P15 Lỗ mũi phải
P16 Lỗ mũi trái
P17 Khoé miệng phải
P18 Trên cùng môi trên
P19 Khoé miệng trái
P20 Dưới cùng môi dưới
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
27
Trong hệ thống chúng tôi xây dựng luật để xác định 6 điểm đặc trưng là 2 điểm
mống mắt (P7,P10), 2 điểm lỗ mũi (P15,P16) và 2 điểm khóe miệng (P17,P19). Với 14
điểm còn lại, chúng tôi chọn phương pháp trích chọn đặc trưng dùng bộ lọc Gabor kết
hợp với phương pháp học máy là Suport Vector Machine để nhận dạng. Cụ thể về hệ
thống sẽ được trình bày trong phần 4.2.
4.2 Thiết kế hệ thống
Hình 17 – Hệ thống nhận dạng 20 điểm đặc trưng.
Hệ thống của chúng tôi chia thành 4 môđun chính như sau:
Môđun thứ nhất làm nhiệm vụ xác định bức ảnh đầu vào có phải là ảnh khuôn mặt
không, nếu là ảnh khuôn mặt thì sẽ phát hiện ra vùng ảnh chứa khuôn mặt. Trong mô
đun này chúng tôi sử dụng thuật toán phát hiện khuôn mặt dùng đặc trưng giống Haar
đã được trình bày trong mục 2.3.
Môđun thứ hai làm nhiệm vụ phát hiện các vùng đặc trưng như vùng xung quanh
mắt, mũi, miệng,…Trong môđun này bước đầu chúng tôi dùng phương pháp đơn giản
nhất là chia khuôn mặt thành 3 phần, sau đó dùng đặc trưng giống Haar để phát hiện ra
các vùng đặc trưng.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
28
Với môđun thứ ba, chúng tôi xây dựng các luật để xác định ra 6 điểm đặc trưng.
Trong đó:
Để xác định 2 mống mắt chúng tôi dùng 2 phương pháp sau:
Phương pháp thứ nhất: Do đặc trưng hình học của mắt là có phần con ngươi sẫm
màu và là hình tròn có tỷ lệ kích thước so với mắt tương đối lớn do đó chúng ta có thể
xác định vị trí mống mắt (nằm trong con ngươi) bằng phép chiếu toàn bộ theo hàng và
cột.
Hình 18 – Vị trị, kích thước con ngươi.
Phép chiếu toàn bộ theo hàng (cột) thực chất là xác định vị trí hàng (cột) có số
lượng điểm ảnh xám là nhiều nhất. Công thức tính histogram (tổng) theo hàng và cột
như sau
H(theo hàng) = 255 − 𝑝𝑖𝑥𝑒𝑙 ∗ (255− 𝑝𝑖𝑥𝑒𝑙)à𝑛𝑔
H(theo cột) = 255 − 𝑝𝑖𝑥𝑒𝑙 ∗ (255− 𝑝𝑖𝑥𝑒𝑙)𝑐ộ𝑡
Để xác định vị trí mống mắt, đầu tiên ta xác định vị trí mống mắt theo tọa độ y sử
dụng H theo hàng như sau: Tính histogram theo hàng, ta được một dãy các giá trị, biểu
diễn các giá trị này bằng một đường cong, ta gọi đó là đường cong histogram. Sau đó,
ta xác định vị trí y của điểm mống mắt bằng cách chọn ra vị trí hàng đạt giá trị lớn
nhất trong đường cong
Phương pháp thứ hai: Khi xác định được vùng chữ nhật chứa mắt thì tâm thường
nằm trong vùng con ngươi và lệch so với mống mắt một lượng nhỏ. Đầu tiên, chúng
tôi xác định tâm của hình chữ nhật chứa mắt là Oc. Sau đó, chúng tôi đánh giá độ xám
của điểm ảnh trong hình vuông kích thước 16x16 xung quanh điểm Oc, các điểm này
chúng tôi gọi là Ct (t=1,256). Mục tiêu của chúng tôi là xác định một số điểm Ct đạt
tiêu chí sau: Lấy một hình vuông kích thước 8x8 với Ct là tâm, tính tổng cấp độ xám
tất cả các điểm trong hình vuông đó, nếu tổng này mà lớn hơn tổng của Oc thì điểm
này sẽ được chọn, gọi tập hợp các điểm này là St. Cuối cùng, chúng tôi tính trung bình
tất cả các điểm St để chọn ra điểm cần tìm.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
29
Xác định 2 lỗ mũi
Sau khi xác định được 2 mống mắt, dựa trên khoảng cách giữa 2 mống mắt và tỷ lệ
kích thước được tìm ra từ nhân trắc học ở Bảng 1 ta có thể chia lại các vùng đặc trưng
trên mặt như sau.
Hình 19 – Các vùng đặc trưng trên khuôn mặt.
Sau đó chúng tôi xác định 2 lỗ mũi trong vùng M3 theo thuật toán sau:
Bước 1: Lấy ngưỡng vùng ảnh ở nhiều ngưỡng khác nhau sau đó dùng thuật toán phát
hiện cạnh Canny để xác định ra đường viễn lỗ mũi trong vùng ảnh. Mới đầu thử dùng
thuật toán phát hiện đường tròn Hough nhưng do đường cạnh không liên tục và, vùng
mũi quá nhỏ nên không phát hiện ra được.
Bước 2: Với mỗi ngưỡng, xác định 2 đường liên tục dài nhất trong vùng ảnh (2 đường
liên thông ), 2 đường này chính là 2 đường viền xung quanh của 2 lỗ mũi. Sau khi xác
định được 2 đường viền ta áp dụng thuật toán tìm tâm (*) của một tập hợp các điểm
rời rạc, ta thu được 2 lỗ mũi là tâm của 2 đường liên tục. Trong trường hợp chỉ tìm
được 1 bên lỗ mũi thì lấy điểm đối xứng của điểm đó qua đường chính giữa làm điểm
lỗ mũi còn lại.
Bước 3: Trong tập các cặp điểm xác định cặp điểm có khoảng cách lớn nhất là 2 lỗ
mũi.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
30
Thuật toán tìm tâm (*):
Giả sử có K điểm X1,…,Xk , Xi 𝜖 R
n
thì tâm C xác định như sau:
C =
𝑋1+𝑋2+⋯+𝑋𝑘
𝑘
Phương pháp trên cho kết quả không được tốt, vì cách tính trung bình bị ảnh hưởng
bởi mật độ của các điểm trong đường viền. Khi tách ngưỡng, số lượng điểm nằm ở
một vùng đen thường vượt trội hơn hẳn so với các vùng khác nhiều, khi tính trung
bình thì kết quả không chính xác. Để bị ảnh hưởng bởi mật độ các điểm trong đường
viền ta sử dụng thuật toán tương tự như thuật toán 3 đỉnh tam giác (Centroid Of
triangle) nhưng ở đây chúng ta chỉ sử dụng 2 đỉnh thay vì 3 đỉnh.
Thuật toán 2 đỉnh tam giác
Nếu chúng ta có 2 đỉnh a = (Xa,Ya), b = (Xb,Yb) thì tâm được xác định như sau
C =
1
2
𝑎 + 𝑏 =
1
2
𝑥𝑎 + 𝑥𝑏 ,
1
2
𝑦𝑎 + 𝑦𝑏
Tổng quát, nếu chúng ta có n đỉnh chúng ta sẽ lấy 2 đỉnh đầu, tính tâm 2 đỉnh đó được
đỉnh t1 thêm vào n-2 đỉnh còn lại , tiếp túc với n-2+1 đỉnh cho đến khi còn 1 đỉnh duy
nhất một đỉnh.
Ví dụ ở đây có 4 đỉnh P1,P2,P3,P4. Ta tính tâm sẽ là đỉnh t3 như hình vẽ.
Hình 20 – Thuật toán 2 đỉnh.
Để xác định khóe miệng, chúng tôi dùng phương pháp sau:
Bước 1: Do vùng ảnh miệng thường rất rõ ràng, sắc nét và có độ rộng tương đối lớn so
với vùng ảnh do đó có thể dùng thuật toán phát hiện cạnh để xác định 2 mép và 2 khóe
miệng. Để thực hiện theo hướng này, đầu tiên chúng tôi lấy ngưỡng ảnh vùng miệng
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
31
với một ngưỡng thích hợp. Mục đích của việc lấy ngưỡng là làm rõ sự khác biệt giữa
vùng miệng và các vùng xung quanh giúp cho việc phát hiện cạnh dễ dàng hơn. Sau đó
áp dụng thuật toán phát hiện cạnh (cụ thể là thuật toán Canny) để phát hiện cạnh ta có
đường biên xung quanh miệng.
Bước 2: Ta xác định 2 khóe miệng là 2 vị trí ngoài cùng trên đường biên.Tuy nhiên,
khi áp dụng phương pháp nảy sinh một số khó khăn như sau :
Thứ nhất, trong bước lấy ngưỡng để chọn ra một ngưỡng chung cho tất cả bức ảnh
là rất khó (không khả thi) do với mỗi bức ảnh vùng miệng có cường độ và độ sáng tối
là khác nhau. Bước này ta phải chọn ra một số ngưỡng thích hợp (do thực nghiệm),
trong bài đã chọn ra được một số ngưỡng : 5, 8, 10 , 15 , 13 , 18 , 25, 27 , 32. Những
ngưỡng này thường nằm trong khoảng (5,50).
Thứ hai, khi xác định được đường biên xung quanh miệng thì lựa chọn điểm khóe
miệng như thế nào thì độ sai số là nhỏ nhất. Nếu lựa chọn là điểm ngoài cùng thì
không chính xác, do xuất hiện một số điểm không xác định thường nằm ngoài cùng
đường biên. Nhận thấy đường biên xung quanh miệng luôn là đường liên tục (hoặc
gián đoạn một đoạn nhỏ) và có số lượng các đỉnh (ở đây là các điểm ảnh) lớn nhất, do
đó ta áp dụng thuật toán tìm đồ thị liên thông mở rộng (*) vào bức ảnh để tìm ra các
điểm khóe miệng.
Hình 21 – Xác định đường biên chính bằng thuật toán đồ thị liên thông.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
32
Bước 3: Sau khi lấy được các cặp điểm khóe miệng ứng với các ngưỡng khác nhau thì
vấn đề còn lại là chọn ra vị trí 2 điểm khóe miệng gần với vị trí cần tìm nhất. Chúng
tôi sử dụng ra 2 cách chọn có hiệu quả tốt là :
Trong tất cả các tập hợp điểm khóe miệng bên trái và khóe miệng bên phải ta chọn
ra điểm nào có số lần lặp lại nhiều nhất (tần suất xuất hiện trong tất cả các ngưỡng
là lớn nhất).
Trong tập hợp các cặp điểm tìm ra cặp điểm có khoảng cách là lớn nhất.
(*) Thuật toán tìm đồ thị liên thông mở rộng :
+ Ta coi mỗi điểm ảnh có độ xám khác 0 là một đỉnh của đồ thị, bức ảnh nxn sau khi
phát hiện cạnh là một đồ thị liên thông.
+ Sử dụng mảng bool nxn để đánh dấu vị trí duyệt , và hàng đợi để lưu các đỉnh.
+ Duyệt qua toàn bộ các đỉnh , nếu đỉnh có đỉnh kề ( thỏa mãn điều kiện mở rộng ) thì
thêm đỉnh kề đó vào hàng đợi, đánh dấu điểm đó đã thăm, lấy điểm tiếp theo trong
hàng đợi, tiếp tục cho đến khi hàng đợi rỗng.
+ Xác định đường liên thông dài nhất, sau đó xác định 2 vị trị ngoài cùng làm 2 mép.
(*) Luật mở rộng : thay vì các đỉnh đồ phải kề nhau ta coi các điểm nằm trong một
hình chữ nhật kích thước axb là kề nhau (do một số đường bị rời rạc khi lấy ngưỡng
và phát hiện cạnh).
Môđun thứ tư có nhiệm vụ là xác định ra 14 điểm đặc trưng, môđun bao gồm 3 thành
phần chính, đầu tiên là bộ trích chọn đặc trưng Gabor có nhiệm vụ trích chọn ra vector
đặc trưng của một điểm từ bức ảnh, tiếp theo là 14 bộ phân lớp tương ứng với 14 điểm
đặc trưng, khi vector dữ liệu ứng với mỗi điểm được cho qua các bộ phân lớp này,
điểm đó sẽ được xác định là có phải điểm đặc trưng đó không, do có một số điểm sai
mà bộ phân lớp không nhận ra, để giảm số lượng các điểm sai này chúng tôi dùng
thêm bộ luật. Ứng với mỗi một điểm đặc trưng, bộ luật sẽ có một số luật tương ứng
với điểm đó, nhiệm vụ của bộ luật là giảm những điểm đặc trưng sai mà bộ phân lớp
không nhận ra. Cuối cùng, chúng tôi sử dụng thuật toán trọng tâm để xác định ra điểm
đặc trưng gần trọng tâm ứng với 14 cụm điểm nhất của 14 điểm đặc trưng. Kết quả sẽ
thu được 14 điểm đặc trưng. Cụ thể các phần như sau:
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
33
Để trích chọn đặc trưng Gabor, chúng tôi chọn ra một số bức ảnh của những người
khác nhau dùng làm mẫu trích chọn đặc trưng. Với mỗi bức ảnh chúng tôi chấm bằng
tay vị trí các điểm đặc trưng. Để trích chọn đặc trưng Gabor cho mỗi điểm Pi, chúng
tôi lấy vùng ảnh Mi kích thước 10x10 pixel có tâm là điểm Pi. Sau đó nhân xoắn vùng
ảnh Mi với 48 bộ lọc Gabor đuợc 48 ảnh mới MGi , lấy 10x10 giá trị điểm ảnh trong
vùng ảnh Mi với 48x10x10 giá trị điểm ảnh trong 48 ảnh MGi làm vector đặc trưng cho
điểm đặc trưng. Như vậy mỗi điểm đặc trưng bởi một vector đặc trưng Vj = (x0,…,xk |
k = 4899). Để tăng số lượng vector đặc trưng cho học máy và tăng độ chính xác cho hệ
thống, với mỗi điểm đặc trưng chấm bằng tay, chúng tôi sẽ xác định thêm 24 điểm:
+ 8 điểm đúng nằm trong hình vuông 3x3 pixel mà tâm là điểm đặc trưng Pi
+ 16 điểm sai, chúng tôi lựa chọn ngẫu nhiên các điểm thoả mãn: Nằm trong hình
vuông kích thước 50x50 pixel với tâm là Pi và khoảng cách từ điểm ngẫu nhiện đến
Pi luôn lớn hơn 8 pixel.
Để xây dựng bộ phân lớp cho 14 điểm đặc trưng chúng tôi cho các vector đặc trưng
ứng với từng điểm Pi (i = 1,14) vào huấn luyện trong Weka với thuật toán huấn luyện
là SMO (Suport Vector Machine), sau khi huấn luyện bằng Weka chúng tôi thu đuợc
14 model ứng với 14 điểm Pi và dùng các model này để kiểm tra xem một điểm bất kỳ
có thuộc vào một trong 14 điểm đặc trưng không.
Với mỗi điểm đặc trưng chúng tôi đưa ra một số luật về vị trí để giới hạn lại số điểm
đúng sau đó áp dụng phương pháp tính trung bình (tính trung bình tất cả các điểm sau
đó chọn ra điểm có vị trí gần điểm trung bình nhất) để chọn ra điểm đúng nhất.
4.3 Thực nghiệm
4.3.1 Phát hiện khuôn mặt trong ảnh
Phương pháp phát hiện khuôn mặt dùng đặc trưng Giống Haarkết hợp Adaboost
đã được cài đặt sẵn trong thư viện mở OpenCV của Intel. Do vậy, chúng tôi sẽ xây
dựng bộ phát hiện khuôn mặt bằng ngôn ngữ C++ , dùng môi trường lập trình là MS
Visual Studio 2005 và thư viện mở OpenCV.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
34
Nhiệm vụ của chúng tôi trong phần này là chạy thử nghiệm với các bộ tham số
[scale_factor, min_neighbors, min_size] khác nhau của hàm cvHaarDetectObjects trên
hệ cơ sở dữ liệu Cohn – Kanade để tìm ra bộ tham số phù hợp.
Bảng 3 - Bộ cơ sở dữ liệu Cohn – Kanade.
Tổng số ảnh 8,842 ảnh trực diện khuôn mặt
Số người Của 97 người.
Tổng số thư mục Chia vào 585 thư mục.
Ghi chú
Mỗi người có 6 thư mục là
chuỗi ảnh về 6 cảm xúc.
Hàm cvHaarDetectObjects có các tham số sau :
CVAPI(CvSeq*) cvHaarDetectObjects( const CvArr* image,
CvHaarClassifierCascade* cascade,
CvMemStorage* storage, double scale_factor
CV_DEFAULT(1.1),
int min_neighbors CV_DEFAULT(3), int flags
CV_DEFAULT(0),
CvSize min_size CV_DEFAULT(cvSize(0,0)));
Trong đó CvArr* image là tập các ảnh cần nhận dạng khuôn mặt,
CvHaarClassifierCascade* cascade là bộ phân lớp và là thành phần quan trọng nhất
trong hệ thống, được tải từ file xml hoặc ymxl được xây dựng sẵn trên các bộ cơ sở dữ
liệu chuẩn. OpenCV cho phép đối với mỗi bộ cơ sở dữ liệu chúng ta có thể xây dựng
một file xml riêng, trong thư viện cài đặt sẵn hàm xây dựng file xml
cvCreateHidHaarClassifierCascade. Để tải một cascade ta có thể sử dụng hàm
cvLoad trong OpenCV
char *fdata = "haarcascade_frontalface_alt_tree.xml";
//load classfier
cascade = ( CvHaarClassifierCascade* )cvLoad( fdata, 0, 0, 0 ),
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
35
CvMemStorage* storage dùng lưu trữ tập hợp hình chữ nhật thỏa mãn điều kiện tìm
kiếm. Scale_factor là tỷ lệ tăng kích thước của cửa sổ (window) trong quá trình dịch
cửa sổ trên toàn bộ bức ảnh.Ví dụ 1.1 có nghĩa là tăng kích thước của cửa sổ 10%,
Min_neighbors giá trị nhỏ nhất (trừ đi 1) của những “hình chữ nhật hàng xóm” tạo nên
một đối tượng, tất cả những nhóm có số lượng hình chữ nhật nhỏ hơn min_neighbors –
1 đều bị bỏ qua. Nếu min_neighbors = 0 , hàm sẽ không nhóm các hình chữ nhật lại,
có thể sử dụng khi mà chúng ta có các thủ tục nhóm riêng. Flags: quy định phương
thức thực hiện. Hiện tại chỉ có một cờ được chỉ rõ là CV_HAAR_DO_CANNY_PRUNING.
Nếu cờ được đặt, hàm sẽ sử dụng bộ phát hiện cạnh Canny để bỏ qua một số vùng có
chứa quá ít hoặc quá nhiều cạnh. Giá trị lấy ngưỡng thực tế được điều chỉnh cho nhận
dạng khuôn mặt, trong trường hợp này, cắt tỉa làm tăng tốc độ xử lý. min_size : kích
thước nhỏ nhất chấp nhận được của khuôn mặt.
Sau đây là kết quả chạy thuật toán phát hiện khuôn mặt trên bộ thư viện Conh –
Kanade với bộ tham số chúng tôi chọn là [1.1 , 2 , (200,200)].
Bảng 4 – Kết quả nhận dạng khuôn mặt trên bộ cơ sở dữ liệu Cohn – Kanade.
Trường hợp Số lượng Lý do
Nhận dạng đúng 8779
Nhận dạng sai 63 Phát hiện nhiều hơn một khuôn mặt trong ảnh
Không nhận dạng được 0
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
36
Hình 22 – Một số ví dụ phát hiện khuôn mặt bằng đặc trưng giống Haar trên hệ cơ sở
dữ liệu Conh – Kanade .
Kết quả thử nghiệm trên camera
Hình 23 – Kết quả nhận dạng khuôn mặt thời gian thực (sử dụng camera).
4.3.2 Xác định các vùng đặc trưng
Trong khi thao tác các bước để tách đặc trưng trên khuôn mặt thì chúng ta không
cần phải thao tác trên toàn bộ bức ảnh (do lãng phí thời gian và giảm độ chính xác) do
đó chúng ta sẽ xác định các vùng nhỏ cần quan tâm ứng với mỗi thao tác tách đặc
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
37
trưng trên toàn bộ bức ảnh lớn.Việc xác định vùng quan tâm chính xác (Có kích thước
đủ nhỏ nhưng vẫn chứa đầy đủ những phần của khuôn mặt) sẽ làm giảm thời gian và
tăng độ chính xác lên rất nhiều. Các vùng quan tâm thường là mắt, mũi, miệng, trán,
má,…Vì đây là những phần chứa nhiều thông tin về cảm xúc của con người. Trong
phần này trình bày phương pháp xác định các vùng đặc trưng của mắt, mũi và miệng là
các phần chứa thông tin về cảm xúc nhiều nhất.
Phương pháp đơn giản là sau khi đã xác định được vùng ảnh chứa khuôn mặt ta
chia ảnh ra làm 3 phần: mắt trái , mắt phải và miệng.
Hình 24 – Chia khuôn mặt thành 3 phần.
Tuy nhiên, phương pháp này quá đơn giản, vùng quan tâm thu được còn quá rộng
thời gian thực hiện các thao tác xử lý ảnh vẫn còn cao do đó cần có phương pháp mới
tối ưu hơn.Trong phần tiếp theo, chúng tôi sẽ trình bày về cách xác định vùng đặc
trưng sử dụng đặc trưng Giống Haarđã trình bày ở phần xác định khuôn mặt để xác
định ra các vùng đặc trưng mắt, miệng. Riêng vùng mũi chúng tôi sẽ trình bày sau khi
xác định được 2 mống mắt. Như đã trình bày ở mục 2.3, thành phần quan trọng nhất
trong hàm phát hiện đối tượng sử dụng đặc trưng Haar – like cascade, do đó nhiệm vụ
đầu tiên là cần tìm kiếm các cascade cho từng bộ phận của khuôn mặt riêng. Dưới đây
là thông tin về một số bộ cascade dùng để xác định vùng đặc trưng mắt.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
38
Bảng 5 – Các bộ phân lớp cascade.
Tên Xây dựng
cho bộ
phận
Kích cỡ
ảnh sử
dụng
Xây dựng trên
lượng positive
sample
Thông
tin khác
haarcascade_eye.xml Mắt 25x15 Trực
diện
haarcascade_frontalface_alt Mặt 20x20 Trực
diện
frontalEyes35x16.xml Mắt 35x16 Trực
diện
ojoI.xml Mắt 18x12 7000 Mắt trái
ojoD.xml Mắt 18x12 7000 Mắt
phải
Mouth.xml Miệng 25x15 7000 Trực
diện
Nariz.xml Mũi 25x15 7000 Trực
diện
Cũng tương tự như công việc của phần phát hiện khuôn mặt, trong phần này chúng
tôi thử nghiệm thuật toán trên cơ sở dữ liệu Cohn – Kanade sau đó chọn ra bộ tham số
[scale_factor, min_neighbors, min_size] phù hợp nhất.
Đối với mắt phải, chúng tôi dùng cascade được xây dựng từ file ojoD.xml được
giới thiệu trong Bảng 5 với bộ tham số [1.1, 2, (35,16)]. Sau đây là kết quả chạy thử
nghiệm trên cơ sở dữ liệu Cohn – Kanade:
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
39
Bảng 6 – Kết quả xác định vùng mắt phải.
Trường hợp Số lượng Giải thích
Tổng số 1002
Nhận dạng đúng 962
Nhận dạng sai 40 Do mắt nhắm hoặc bị tóc che khuất một phần
Không nhận dạng được 0
Hình 25 – Một số ví dụ về xác định vùng mắt phải.
Đối với mắt trái, chúng tôi dùng cascade được xây dựng từ file ojoI.xml được giới
thiệu trong Bảng 5 với bộ tham số [1.1, 2, (35,16)]. Sau đây là kết quả chạy thử
nghiệm trên cơ sở dữ liệu Cohn – Kanade:
Bảng 7 – Kết quả xác định vùng mắt trái.
Trường hợp Số lượng Giải thích
Tổng số 1001
Nhận dạng đúng 975
Nhận dạng sai 26 Do mắt nhắm hoặc bị tóc che khuất 1 phần
Không nhận dạng được 0
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
40
Hình 26 – Một số ví dụ về xác định vùng mắt trái.
Với miệng chúng tôi dùng bộ cascade được xây dựng từ file Mouth.xml với bộ
tham số là [1.1, 2, (40,25)], tuy nhiên trong trường hợp miệng, do cơ miệng có thể kéo
dãn tương đối rộng nên với những bức ảnh miệng mở quá lớn thì phát hiện vùng đặc
trưng thường bị thiếu, mất. Với những trường hợp này chúng tôi lấy vùng miệng là 1/3
vùng mặt dưới như Hình 24.
Bảng 8 – Kết quả xác định vùng miệng.
Trường hợp Số lượng Giải thích
Tổng số 1000
Nhận dạng đúng 920
Nhận dạng sai 80 Do vùng miệng phát hiện quá rộng, hoặc bị
mất một phần
Không nhận dạng được 0
Sau đây là một số ví dụ về trường hợp xác định vùng miệng:
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
41
Hình 27 – Một số ví dụ xác định vùng miệng (a) đúng, (b) sai.
4.3.3 Xác định 6 điểm đặc trưng
Xác định 2 mống mắt
Sử dụng phương pháp phép chiếu toàn bộ kết hợp với tính histogram tuy nhiên độ
chính xác của phương pháp không cao do trong ảnh thường có nhiễu hoặc một số ảnh
có chứa cả phần tóc làm cho thuật toán không còn chính xác, để cải tiến phương pháp,
chúng tôi chọn ra tập hợp các điểm đạt cực đại trong đường cong. Sau đó dùng phương
pháp hợp nhị phân, chọn 2 điểm ngoài cùng của dãy, tính điểm giữa của 2 điểm đó,
thêm vào dãy, sắp xếp dãy tăng dần theo tọa độ y. Lặp lại quá trình cho đến khi còn
một vị trí duy nhất thì ta được vị trí cần tìm.
Hình 28 – Đánh dấu hàng có histogram lớn nhất.
Tiếp theo, để xác định vị trí mống mắt theo tọa độ x (theo cột), chúng tôi tính
histogram theo cột sau đó chọn ra vị trí x có giá trị histogram là lớn nhất.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
42
Hình 29 – Xác định vị trí mống mắt bằng histogram.
Thử nghiệm phương pháp trên thu được kết quả không cao, rõ ràng phương pháp
xác định mống mắt bằng histogram bị ảnh hưởng bởi các yếu tố nhiễu, cường độ
sáng,… quá nhiều. Áp dụng phương pháp thứ 2 và chấp nhận sai số khoảng từ 1 đến 2
pixel, kết quả thu được tốt hơn rất nhiều.
Bảng 9 – Kết quả nhận dạng điểm mống mắt.
Trường hợp Số lượng Giải thích
Tổng số 1001
Nhận dạng đúng 975
Nhận dạng sai 26 Do mắt nhắm hoặc bị tóc che khuất 1 phần
Không nhận dạng được 0
Hình 32 – Xác định mống mắt là tâm vùng đặc trưng.
Xác định 2 lỗ mũi
Chúng tôi áp dụng thuật toán trên với bộ dữ liệu Cohn – Kanade, kết quả thu được
tương đối tốt.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
43
Bảng 10 – Kết quả nhận dạng 2 lỗ mũi.
Trường hợp Số
lượng
Giải thích
Tổng số 1000
Nhận dạng đúng 820
Nhận dạng sai 180 Do vùng mũi bị thiếu hoặc chứa một phần vùng
miệng.
Không nhận dạng
được
0
Hình 31 – Một ví dụ dùng thuật toán phát hiện cạnh Canny sau khi lấy ngưỡng.
Hình 32 – Ví dụ về xác định 2 lỗ mũi.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
44
Xác định 2 khóe miệng
Đầu tiên, để xác định khóe miệng, chúng tôi dùng phép chiếu histogram theo hàng
để xác định đường giữa 2 môi. Kết quả thu được không cao, với những miệng ở trạng
thái bình thường thì kết quả cho tương đối chính xác, nhưng những miệng ở trạng thái
vui, buồn, tức giận,… thì kết quả cho rất kém.
Hình 33 – Xác định đường mép bằng histogram
(a)Trường hợp chính xác, (b) Trường hợp không chính xác.
Áp dụng thuật toán thứ hai với bộ Cohn – Kanade kết quả thu được như sau:
Bảng 11 – Kết quả xác định 2 khóe miệng.
Trường hợp Số lượng Giải thích
Tổng số 1001
Nhận dạng đúng 975
Nhận dạng sai 26 Do phát hiện sai vùng miệng
Không nhận dạng được 0
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
45
Hình 34 – Ví dụ lấy ngưỡng trong khoảng [5 50].
Hình 35 – Ví dụ xác định cạnh bằng thuật toán Canny.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
46
Hình 36 – Ví dụ xác định 2 điểm khóe miệng.
4.3.3 Xác định 14 điểm đặc trưng
Trong phần này chúng tôi xây dựng hệ thống xác định 14 điểm đặc trưng như Hình 37
Hình 37 – Thực nghiệm 8 điểm đặc trưng.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
47
Để xây dựng bộ phân lớp cho 8 điểm, chúng tôi chọn 50 bức ảnh của 22 người
trong bộ dữ liệu Cohn – Kanade để làm mẫu. Sau đó chúng tôi tạo ra 14 model ứng với
14 điểm như phương pháp trình bày trong mục 4.2.
Để kiểm tra hệ thống, chúng tôi lấy 20 bức ảnh trong đó có 10 ảnh vùng mắt và 10
ảnh vùng miệng của 10 người khác nhau (trong 10 bức ảnh của 10 người có 2 bức đã
được dùng để huấn luyện) để làm dữ liệu kiểm tra. Để xác định điểm đặc trưng trong
một bức ảnh, chúng tôi xác định vùng đặc trưng xung quanh điểm đó sau đó dùng một
cửa sổ kích thước 10x10 pixel (có kích thước bằng bộ lọc Gabor) quét trên toàn bộ
vùng ảnh đặc trưng với tỷ lệ dịch là 1 pixel, với mỗi lần quét, chúng tôi trích chọn đặc
trưng Gabor của vùng ảnh trong cửa sổ đó theo phương pháp trình bày trong bước thứ
nhất, với mỗi điểm chúng tôi thu được một vector đặc trưng vj, sau đó cho vector vj lần
luợt qua 14 model xây dựng trong bước thứ 2 để dự đoán xem có thuộc vào 1 trong 14
lớp không. Kết thúc bước này, chúng tôi thu được 14 tập hợp các điểm được dự đoán
là true. Sau đó chúng tôi dùng một số luật để đánh giá chọn ra điểm đúng, cụ thể
chúng tôi trình bày về các luật ứng với 14 điểm Pt t=1,14 như sau:
Luật cho điểm P1 và P9:
P1 x < M.x và y < M.y.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
48
Luật cho điểm P2 và P10:
P2 x < M.x và y < M.y.
Luật cho điểm P3, P5, P11 và P13:
P3: x < M.x và M.y – α/2 < y < M.y + α/2 với α = 20 pixel.
P5: x > M.x và M.y – α/2 < y < M.y + α/2 với α = 20 pixel.
Với P11 và P13 đối xứng với P3 và P5 nên ta có luật tương tự.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
49
Luật cho điểm P4, P6, P12 và P14:
P4: y < M.y và M.x – β/2 < x < M.x + β/2 với β = 60.
P6: y > M.y và M.x – β/2 < x < M.x + β/2 với β = 60.
P12 và P14 đối xứng với P4 và P6 nên ta có luật tương tự.
Luật cho điểm P7 và P8:
P7 : M1.x < x < M2.x và y < M.y
P8 : M1.x M.y với α = 20 và β = 40.
Dưới đây chúng tôi trình bày kết quả xác định 8 điểm đặc trưng từ Pt t=1,8. Do 6 điểm
Pt t=9,14 đối xứng với 6 điểm t=1,6 nên cách xác định cũng tương tự.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
50
Kết quả xác định 6 điểm đặc trưng Pt t =1,6 với 10 ảnh vùng mắt kích thước như sau:
Bảng 12 – Danh sách kích thước ảnh mẫu kiểm tra.
Ảnh Kích thước Ảnh Kích thước
eye_test1 96x60 mouth_test1 139x67
eye_test2 87x55 mouth_test2 147x68
eye_test3 79x50 mouth_test3 148x61
eye_test4 80x52 mouth_test4 125x53
eye_test5 84x51 mouth_test5 121x55
eye_test6 74x52 mouth_test6 132x71
eye_test7 84x49 mouth_test7 115x59
eye_test8 83x52 mouth_test8 122x58
eye_test9 114x60 mouth_test9 115x55
eye_test10 101x54 mouth_test10 92x46
Test 1
Điểm x y x' y' Khoảng cách
P1 19 20 21 13 7.28011
P2 74 16 79 17 5.09902
P3 23 31 19 40 9.848858
P4 45 22 45 18 4
P5 70 38 64 34 7.211103
P6 44 49 44 45 4
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
51
Test 2
Điểm x y x' y' Khoảng cách
P1 6 16 13 21 8.602325
P2 67 18 67 19 1
P3 23 35 22 35 1
P4 45 25 40 23 5.385165
P5 68 36 67 37 1.414214
P6 42 41 41 43 2.236068
Test 3
Điểm x y x' y' Khoảng cách
P1 9 14 13 12 4.472136
P2 60 11 52 9 8.246211
P3 19 29 19 24 5
P4 38 21 35 19 3.605551
P5 56 29 49 28 7.071068
P6 36 34 36 31 3
Test 4
Điểm x y x' y' Khoảng cách
P1 10 13 17 12 7.071068
P2 57 12 51 11 6.082763
P3 19 35 20 36 1.414214
P4 40 25 37 22 4.242641
P5 61 37 59 33 4.472136
P6 39 39 38 39 1
Test 5
Điểm x y x' y' Khoảng cách
P1 17 22 19 17 5.385165
P2 69 15 58 10 12.08305
P3 21 42 24 36 6.708204
P4 46 29 45 30 1.414214
P5 65 39 60 38 5.09902
P6 44 43 43 40 3.162278
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
52
Test 6
Điểm x y x' y' Khoảng cách
P1 7 21 11 19 4.472136
P2 58 16 51 14 7.28011
P3 18 34 15 30 5
P4 37 24 36 17 7.071068
P5 52 32 54 30 2.828427
P6 35 38 33 36 2.828427
Test 7
Điểm x y x' y' Khoảng cách
P1 9 16 13 17 4.123106
P2 58 12 61 14 3.605551
P3 20 37 23 32 5.830952
P4 42 26 43 27 1.414214
P5 59 30 60 34 4.123106
P6 42 39 40 38 2.236068
Test 8
Điểm x y x' y' Khoảng cách
P1 12 19 18 18 6.082763
P2 63 19 60 15 5
P3 24 37 26 35 2.828427
P4 42 26 43 24 2.236068
P5 64 34 60 33 4.123106
P6 42 41 41 38 3.162278
Test 9
Điểm x y x' y' Khoảng cách
P1 5 23 5 24 1
P2 87 14 85 13 2.236068
P3 27 43 31 42 4.123106
P4 56 27 54 25 2.828427
P5 87 49 84 45 5
P6 54 48 56 44 4.472136
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
53
Test 10
Điểm x y x’ x’ Khoảng cách
P1 14 18 20 20 6.324555
P2 82 23 75 22 7.071068
P3 17 39 22 35 6.403124
P4 46 28 38 26 8.246211
P5 76 41 72 36 6.403124
P6 45 45 42 44 3.162278
Trung bình sai số:
Bảng 13 – Sai số trung bình.
Điểm Khoảng cách trung bình
P1 5.48
P2 5.77
P3 4.81
P4 4.04
P5 4.77
P6 2.92
Qua bảng kết quả, với sai số epsilon = 6 thì kết quả nhận dạng trung bình sẽ là 100%,
với epsilon = 5 thì kết quả nhận dạng là 4/6 = 66,6%. Nguyên nhân có sai số như vậy
là do trong bước huấn luyện chúng ta cũng không xác định rõ được duy nhất một điểm
đúng mà là xác định một vùng đặc trưng xung quanh điểm đó. Thứ hai, trong bước
chấm các điểm bằng tay thì cũng đã có sai lệch. Do đó, sai số trong khoảng 5 – 6 pixel
là chấp nhận được như Hình 38.
Chương 4 : Xây dựng hệ thống nhận dạng các điểm đặc trưng Nguyễn Thành Trung
54
Hình 38 – Ví dụ về xác định 8 điểm đặc trưng.
Qua bảng tính trung bình chúng ta nhận thấy rằng P6 có độ lệch trung bình là nhỏ nhất
cho thấy tỷ lệ xác định đúng điểm P6 là cao nhất, nhận thấy rằng vị trị điểm P6 trong
vùng mắt là vị trí khác nhất, không bị đan xen hay cắt vị trí điểm đặc trưng khác hay
nói cách khác là khác biệt với vùng xunh quanh là rõ ràng nhất. Điều đó chứng tỏ đặc
trưng diện mạo (ở đây là Gabor) thường cho kết quả tốt khi dùng với các vùng có sự
khác biệt rõ ràng.
Kết quả xác định 2 điểm P7, P8 với 10 ảnh vùng miệng:
Bảng 14 – Kết quả xác định 2 điểm P7,P8 với 10 mẫu.
Test
Điểm chuẩn Thực nghiệm
Khoảng cách
Điểm chuẩn Thực nghiệm
Khoảng cách
x y X‟ Y‟ x y X‟ Y‟
test 1 72 18 66 16 6.324555 73 48 73 44 4
test 2 77 18 75 16 2.828427 78 47 68 48 10.04988
test 3 76 12 74 12 2 76 42 76 40 2
test 4 66 15 66 14 1 66 34 66 34 0
test 5 56 15 53 14 3.162278 56 35 57 41 6.082763
test 6 67 19 65 17 2.828427 67 52 73 47 7.81025
test 7 60 11 56 12 4.123106 60 38 58 36 2.828427
test 8 58 13 56 13 2 61 38 54 38 7
test 9 58 14 55 13 3.162278 59 35 57 34 2.236068
test10 48 12 45 12 3 47 33 41 33 6
3.042970 4.80
Qua bảng tính khoảng cách sai số trung bình của 2 điểm P7 và P8 cho thấy kết quả xác
định 2 điểm này chính xác hơn so với các điểm Pt t=1,6. Rõ ràng rằng sự khác biệt
giữa các vùng xung quanh 2 điểm này là rõ rệt, kết quả này chứng mình nhận định trên
của chúng tôi là đúng.
Chương 5 : Tổng kết Nguyễn Thành Trung
55
Chương 5
Tổng kết và hướng phát triển
Trong khóa luận này chúng tôi đã đưa ra một phương pháp lai nhằm mục đích xác
định 20 điểm đặc trưng trên khuôn mặt như một vấn đề cốt lỗi trong bài toán nhận
dạng khuôn mặt, nhận dạng cảm xúc. Phương pháp của chúng tôi dựa trên hai hướng
tiếp cận chính là: Xác định điểm đặc trưng bằng luật và trích chọn đặc trưng dùng bộ
lọc Gabor kết hợp với phương pháp học máy Suport Vector Machine. Trong hướng
tiếp cận bằng luật, chúng tôi xác định 6 điểm đặc trưng là hai mống mắt, hai điểm lỗ
mũi và hai khóe miệng. Để xác định hai mống mắt chúng tôi xác định vùng quan tâm
của mắt phải và mắt trái thông qua phương pháp phát hiện thành phần với đặc trưng
giống Haar. Với hai điểm lỗ mũi và hai khóe miệng chúng tôi lấy ngưỡng vùng ảnh
quan tâm của hai thành phần này sau đó dùng thuật toán Canny để phát hiện cạnh của
các phần và xác định ra đường biên của các vùng dựa trên tư tưởng đồ thị liên thông.
Để xác định 14 điểm đặc trưng còn lại chúng tôi lấy đặc trưng Gabor đối với từng
điểm. Mỗi điểm tương ứng với một vector đặc trưng Gabor bao gồm giá trị điểm ảnh
của vùng ảnh 10x10 pixel và giá trị điểm ảnh của 48 vùng ảnh Gabor. Sau đó chúng
tôi áp dụng phương pháp học máy Suport Vector Machine để xây dựng nên 14 model
nhận dạng cho 14 điểm tương ứng.
Với hệ thống đã xây dựng các kết quả thu được trên bộ dữ liệu chuẩn Cohn –
Kanade hệ thống của chúng tôi xác định được 6 điểm dựa trên hướng tiếp cận bằng
luật với độ chính xác trên 90%, kết quả xác định 14 điểm còn lại bằng đặc trưng Gabor
và phương pháp học máy Suport Vector Machine với sai số epsilon = 5 pixel là 66,6%.
Trong thời gian tới, chúng tôi tiếp tục cải tiến phương pháp tốt hơn dùng để trích chọn
đặc trưng từ ảnh khuôn mặt 2D trong hệ thống nhận dạng cảm xúc tự động.
Phụ lục Nguyễn Thành Trung
56
Tài liệu tham khảo
[1] Z.Zhang, M.Lyons, M.Schuster, S.Akamatsu. Comparison Between Geometry-
Based and Gabor-Wavelets-Based Facial Expression Recognition Using Multi-
Layer Perceptron. IEEE International Conference on Automatic Face and
Gesture Recognition. 1998.
[2] M.F.Valstar, M.Pantic. Fully automatic facial action unit detection and
temporal analysis. IEEE International Conference on Computer Vision and
Pattern Recognition. 2006.
[3] J.Yang, R.Stiefelhagen, U.Meier, A.Waibel. Real-time face and facial feature
tracking and applications. In Proceedings of Auditory-Visual Speech
Processing, New South Wales, Australia. 1998.
[4] Y.L.Tian, L.Brown, A.Hampapur, S.Pankanti, A.Senior, R.Bolle. Real world
real-time automatic recognition of facial expressions. IEEE Workshop on
Performance Evaluation of Tracking and Surveillance. 2003.
[5] D.Vukadinovic, M.Pantic. Fully Automatic Facial Feature Point Detection
Using Gabor Feature Based Boosted Classifiers. IEEE International Conference
on Systems, Man and Cybernetics. 2005.
[6] I. Kotsia, I. Pitas. Facial expression recognition in image sequences using
geometric deformation features and support vector machines. IEEE
Transactions on Image Processing. 2007.
[7] J. Y. Bouguet. Pyramidal Implementation of the Lucas-Kanade Feature
Tracker. Tech. Rep. Intel Corporation, Microprocessor Research Labs. 2000.
[8] I. Matthews, S. Baker. Active Appearance Models revisited. International
Journal of Computer Vision. 2004.
[9] S.Lucey, A.B.Ashraf, J.F.Cohn. Investigating Spontaneous Facial Action
Recognition through AAM Representations of the Face. In Face Recognition,
K.Delac, M.Grgic, Eds. Vienna, Austria: I-Tech Education and Publishing.
2007.
[10] T. Cootes, G. Edwards, C. Taylor. Active appearance models. IEEE
Transactions on Pattern Analysis and Machine Intelligence. 2001.
[11] B.D.Lucas, T.Kanade. An iterative image registration technique with an
application to stereo vision. Conference on Artificial Intelligence. 1981.
[12] J.Shi, C.Tomasi. Good features to track.. IEEE International Conference on
Computer Vision and Pattern Recognition. 1994.
Phụ lục Nguyễn Thành Trung
57
[13] Y.Zhang, Q.Ji. Active and dynamic information fusion for facial expression
understanding from image sequence. IEEE Transactions on Pattern Analysis
and Machine Intelligence. 2005.
[14] M.Isard, A.Blake. Condensation - conditional density propagation for visual
tracking. International Journal of Computer Vision.1998.
[15] M.K.Pitt, N.Shephard. Filtering via simulation: auxiliary particle filtering.
Journal of the American Statistical Association. 1999.
[16] I.Patras, M.Pantic. Particle filtering with factorized likelihoods for tracking
facial features. IEEE International Conference Face and Gesture Recognition.
2004.
[17] Y.L.Tian, T.Kanade, J.Cohn. Recognizing action units for facial expression
analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence.
2001.
[18] L.Ding, A.M.Martinez. Precise Detailed Detection of Faces and Facial
Features. IEEE Conference on Computer Vision and Pattern Recognition. 2008.
[19] H.B.Deng, L.W.Jin, L.X.Zhen, J.C.Huang. A New Facial Expression
Recognition Method Based on Local Gabor Filter Bank and PCA plus LDA.
International Journal of Information Technology. 2005.
[20] T. Ojala, M. Pietikäinen, and T. Maenpaa. Multiresolution Gray Scale and
Rotation Invariant Texture Analysis with Local Binary Patterns. IEEE
Transactions on Pattern Analysis and Machine Intelligence. 2002.
[21] G.Zhao, M.Pietikäinen. Dynamic texture recognition using local binary patterns
with an application to facial expressions. IEEE Transactions on Pattern
Analysis and Machine Intelligence. 2007.
[22] M. J. Lyons, S. Akamatsu, M. Kamachi, J. Gyoba. Coding Facial Expressions
with Gabor Wavelets. The 3th IEEE International Conference on Automatic
Face and Gesture Recognition, Nara, Japan. 1998.
[23] Takeo Kanade, Jeffrey Cohn, and Ying-li Tian. Comprehensive database for
facial expression analysis. International Conference on Automatic Face and
Gesture Recognition. 2000.
[24] T.F.Cootes, C.J.Taylor, D.Cooper, and J.Graham. Active shape models – their
training and applications. Computer Vision and Image Understanding. 1995.
[25] M. Turk and A. Pentland (1991). "Face recognition using eigenfaces". Proc.
IEEE Conference on Computer Vision and Pattern Recognition.
[26] Gorsuch, R. L. (1983) Factor Analysis. Hillsdale, NJ: Lawrence Erlbaum.
Phụ lục Nguyễn Thành Trung
58
[27] Mika, S. et al. (1999). "Fisher Discriminant Analysis with Kernels". IEEE
Conference on Neural Networks for Signal Processing IX: 41–48.
[28] L. Farkas, "Anthropometry of the Head and Face," Raven Press, New York, vol.
98, 1994, pp. 182-210.
[29] T. Ojala, M. Pietikäinen, and D. Harwood (1996), "A Comparative Study of
Texture Measures with Classification Based on Feature Distributions", Pattern
Recognition, vol. 29, pp. 51-59
[30] P. Viola, & M. Jones. (2004). Robust real-time face detection. International
Journal of Computer Vision, 57(2), 137-154.
[31] Yoav Freund and Robert E. Schapire. Experiments with a new boosting
algorithm. In Machine Learning: Proceedings of the Thirteenth International
Conference, pages 148–156,1996.
Các file đính kèm theo tài liệu này:
- LUẬN VĂN- TRÍCH CHỌN ĐẶC TRƯNG TRÊN KHUÔN MẶT NGƯỜI.pdf