Luận văn Nhận dạng mặt người dùng biến đổi Gabor Wavelet

LỜI MỞ ĐẦU Trước sự phát triển của khoa học kỹ thuật, ngành điều khiển học và tự động hóa đã có những bước tiến lớn. Điều khiển học và tự động hóa ngày càng đóng vai trò quan trọng trong việc tăng năng xuất lao động, giảm giá thành, tăng sự ổn định chất lượng của sản phẩm. Trong xã hội công nghiệp ngày nay, việc ứng dụng các robot tự hành, các cánh tay máy, có khả năng hoạt động độc lập ngày càng phổ biến. Để có khả năng thông minh đó, chúng phải có khả năng nhìn, nhận dạng các tình huống, xử lý tình huống như như con người Đáp ứng nhu cầu đó, xử lý ảnh đã tham gia vào điều khiển học và tự động hóa. Dữ liệu về hình ảnh có lượng thông tin lớn và chính xác hơn các loại dữ liệu từ các cảm biến khác. Điều này giúp cho việc giải quyết các vấn đề trong lĩnh vực điều khiển tự động dễ dàng hơn. Một trong những bài toán về xử lý ảnh phổ biến hiện nay là nhận dạng khuôn mặt người. Hơn một thập kỷ qua có rất nhiều công trình nghiên cứu về bài toán nhận dạng khuôn mặt người từ ảnh đen trắng, xám đến ảnh màu như ngày hôm nay. Các nghiên cứu đi từ bài toán đơn giản, mỗi ảnh chỉ có một khuôn mặt người nhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng trong ảnh đen trắng. Cho đến ngày hôm nay bài toán mở rộng cho ảnh màu, có nhiều khuôn mặt trong cùng một ảnh, có nhiều tư thế thay đổi trong ảnh. Không những vậy mà còn mở rộng cả phạm vi từ môi trường xung quanh khá đơn giản (trong phòng thí nghiệm) cho đến môi trường xung quanh rất phức tạp (như trong tự nhiên) nhằm đáp ứng nhu cầu thật sự và rất nhiều của con người. Góp phần tìm hiểu về vấn đề này chúng em thực hiện đề tài “Nhận dạng mặt người dùng biến đổi Gabor Wavelet” trên tập ảnh động và tĩnh, đơn gồm các ảnh mặt người với độ sáng tối và góc chụp khác nhau. . MỤC LỤC Đề mục Trang Chương I : CÁC PHƯƠNG PHÁP NHẬN DẠNG 1/ Phương pháp phân tích các thành phần độc lập (ICA) . 1 2/ Nhận dạng mặt người bằng AdaBoost kết hợp mạng nơron . 5 3/ Nhận dạng dùng Support Vector Machine (SVM) 9 SVM tuyến tính 12 SVM phi tuyến . 14 4/ Nhận dạng dùng Fuzzy SVM (SVM mờ) . 15 5/ Nhân dạng bằng mạng Nơron . 18 Chương II : GABOR WAVELETS 1/ Tổng quát về biến đổi Gabor Wavelet 25 2/ Biểu diễn hình ảnh bằng Gabor Wavelet . 27 Chương III: ỨNG DỤNG GABOR WAVELETS TRONG THUẬT TOÁN NHẬN DẠNG KHUÔN MẶT 1/ Chiết xuất đặc trưng 30 1a/ Xác định tọa độ các điểm đặc trưng 30 1b/ Xuất vector đặc trưng 31 2/ Tính toán mức độ tương tự 32 3/ So sánh khuôn mặt . 33 CHƯƠNG IV: CHƯƠNG TRÌNH MÔ PHỎNG 1/ Tổng quan về Matlab . 36 1a/ Giới thiệu chung . 36 1b/ Các đặc điểm cơ bản của MATLAB 36 1c/ Phân tích và tiếp cận dữ liệu 38 2/ Lưu đồ giải thuật 40 2a/ Nhận dạng ảnh động 40 2b/ Nhận dạng ảnh tĩnh . 42 3/ Chương trình mô phỏng 42 CHƯƠNG V: KẾT QUẢ THỰC HIỆN 1/ Tập dữ liệu ảnh . 47 2/ Xây dựng tập ảnh mẫu và các ma trận đặc trưng mẫu 48 3/ Các kết quả thử nghiệm . 49 3a/ Nhận dạng khuôn mặt từ ảnh dùng tập ảnh mẫu thứ nhất 49 3b/ Nhận dạng khuôn mặt từ ảnh dùng tập ảnh mẫu thứ hai 50 3c/ Nhận dạng khuôn mặt từ webcam . 50 3d/ Tốc độ thực hiện 51 4/ Kết luận . 51 5/ Hướng phát triển của đề tài 52 TÀI LIỆU THAM KHẢO . 54 PHỤ LỤC: SOURCE MATLAB

54 trang | Chia sẻ: lvcdongnoi | Lượt xem: 4508 | Lượt tải: 3

Bạn đang xem trước 20 trang tài liệu Luận văn Nhận dạng mặt người dùng biến đổi Gabor Wavelet, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

tương tự phương pháp “phân chia nguồn mù” (BBS) hoặc phân chia tín hiệu chưa biết.”Nguồn” có nghĩa là các tín hiệu gốc, là các thành phần độc lập, tương tự như trong bài toán cocktail-party.”Mù” có nghĩa là biết rất ít. ICA là một phương pháp có thể được ứng dụng rất rộng rãi trong việc trình bày quá trình phân chia nguồn mù. Trong nhiều ứng dụng, chúng ta giả thiết có thêm nhiễu trong quá trình đo đạc, có nghĩa là phải thêm thành phần nhiễu vào mô hình tính toán. Để đơn giản đôi khi ta có thể bỏ qua thành phần nhiễu. Các điểm không xác định trong ICA: Trong mô hình ICA (2.2), chúng ta có thể thấy các điểm không xác định như sau: Chúng ta không thể xác định được thành phần biến (số cột ma trận tương quan) của các thành phần độc lập. Lý do là cả S và A đều không được biết, phép nhân vô hướng của nguồn si có thể khử bằng cách chia cho cột tương ứng ai của A với cùng hướng (2.3). Hệ quả, chúng ta phải hiệu chỉnh biên độ của thành phần độc lập; như ta biết, các ICA đều là các biến ngẫu nhiên, cách đơn giản ta giả sử mỗi nguồn đều có thành phần biến số đơn vị. Sau đó ma trận A sẽ đáp ứng với phương pháp giải ICA để khắc phục các hạn chế này. Ta có thể loại bỏ những dấu hiệu bất định này: ta có thể nhân thành phần độc lập với -1 mà không làm ảnh hưởng đến mô hình tính. Trong hầu hết các ứng dụng yếu tố dấu không có nghĩa. Chúng ta không thể xác định được thứ tự của các thành phần độc lập. Lý do là cả S và A đều không được biết, chúng ta có thể thay đổi tùy ý trật tự của phép tính trong công thức (2.3), và có thể gọi bất cứ thành phần độc lập nào là thành phần đầu tiên. Ma trận hoán vị P và phép biến đổi ngược của nó có thể được thay thế trong công thức . Các phần tử của Ps là các thành phần biến độc lập gốc sj , nhưng theo thứ tự khác. Ma trận AP-1 được biết như là một ma trận trộn mới chưa biết được dùng để giải bài toán ICA . 2/ Nhận dạng mặt người bằng AdaBoost kết hợp mạng nơron: Phát hiện mặt người là bước đầu tiên của hệ nhận dạng mặt người. Tốc độ xử lý và hiệu suất của hệ nhận dạng phụ thuộc rất nhiều vào quá trình phát hiện khuôn mặt. Phương pháp AdaBoost được đánh giá là nhanh nhất trong các thuật toán dò tìm hiện nay. Tuy nhiên những khuôn mặt tìm được có độ chính xác chưa cao (kết quả dò tìm thừa). Vì vậy cần một bộ lọc để loại bỏ các kết quả thừa. Mạng nơron có khả năng dò tìm tương đối tốt. Ngoài ra khả năng chứng thực mặt người của mạng nơron là rất tốt. Vì vậy ta có thể kết hợp với AdaBoost ở tầng cuối để tạo thành một hệ thống nhất. AdaBoost – NN là mô hình dò tìm khuôn mặt bằng AdaBoost kết hợp mạng nơron. AdaBoost sẽ đóng vai trò là bộ dò tìm nhanh các khuôn mặt. Mạng nơron sẽ lọc ra các dò tìm sai để cho kết quả chính xác hơn. Ảnh sau khi qua mạng nơron sẽ xác định chính xác vị trí của khuôn mặt. Hệ thống dò tìm được minh hoạ trong hình sau: Tiền xử lý ảnh Ảnh đầu vào Ảnh khuôn mặt Ảnh đã tiền xử lý Bộ dò tìm AdaBoost Ảnh ứng viên khuôn mặt Chứng thực ảnh bằng mạng nơron Phát hiện khuôn mặt nhanh bằng AdaBoost : Các ảnh đầu vào sẽ được tính tích phân của ảnh theo các đặc trưng Haar – like. Các đặc trưng này sẽ được chọn lựa lại theo mô hình phân tầng. Đầu ra của hệ thống sẽ là các ảnh ứng viên khuôn mặt dò tìm được. Chứng thực mặt người bằng mạng Nơron : Ảnh ứng viên dò tìm được bởi AdaBoost sẽ được đưa về kích thước 30x30 pixel. Chuyển đổi ảnh màu thành ảnh grayscale. Sau đó thực hiện điều chỉnh độ tương phản của ảnh và thực hiện cân bằng lược đồ mức xám.. Khi quá trình tiền xử lý hoàn tất, ta dùng một cửa sổ trượt có kích thước 20x20 để dò tìm tất cả các vị trí trong ảnh. Nếu có một ảnh con được xác nhận là khuôn mặt thì ảnh gốc cần chứng thực là khuôn mặt. Ngược lại, nếu không có cửa sổ con nào được xác nhận là khuôn mặt thì thì ảnh đầu vào không phải là ảnh khuôn mặt. Đầu vào của ảnh Tập ảnh lớn (kho ảnh). Ảnh khuôn mặt mẫu của đối tượng cần tìm. File data (nếu có) lưu vị trí và kích thước của ảnh khuôn mặt. Quá trình xử lý: Từ tập ảnh mẫu, huấn luyện mạng nơron để chuẩn bị đối sánh mẫu. Từ mỗi ảnh trong kho ảnh, dò tìm khuôn mặt trong ảnh bằng hệ AdaBoost-NN đã xây dựng. Nếu tìm thấy ảnh mặt người thì lưu vị trí và kích thước của ảnh vào file data, đồng thời đối sánh từng khuôn mặt tìm được với ảnh mẫu (dùng mạng nơron). Nếu ảnh tìm được khớp với ảnh mẫu thì chép ảnh gốc có chứa khuôn mặt của đối tượng vào một thư mục cho trước. Ý nghĩa: Việc lưu vị trí ảnh khuôn mặt vào file data nhằm phục vụ cho những lần tìm kiếm sau. Nếu đã có file data thì chương trình không cần dò tìm khuôn mặt mà sẽ lấy ảnh khuôn mặt theo mô tả trong file data. Việc chép ảnh gốc vào thư mục riêng nhằm phục vụ cho các điều tra viên kiểm tra lại ảnh tìm được. Vì tập ảnh lớn, thời gian chạy chương trình sẽ rất lâu cho nên người dùng không thể ngồi theo dõi chương trình mà phải chép ảnh tìm được vào một thư mục riêng. Tập ảnh lớn (kho ảnh) Lưu vị trí và kích thước ảnh vào file data Ảnh khuôn mặt mẫu Mạng nơron Chép ảnh gốc vào thư mục cho trước Tiền xử lý và rút trích đặc trưng Bộ trọng số của mạng nơron đã được huấn luyện Ảnh khuôn mặt tìm được Dò tìm bằng AdaBoost-NN hoặc đọc ảnh từ file data Có khuôn mặt Đối sánh ảnh tìm được với ảnh mẫu (bằng mạng nơron) Khớp nhau Duyệt từng ảnh Tập tin lưu vị trí và kích thước các ảnh mặt người Thư mục chứa các file ảnh có chứa đối tượng cần tìm Sơ đồ xử lý nhận dạng khuôn mặt Thuật toán AdaBoost: B1. Đầu vào (1) Tập Z = {(x1, y1), .., (xN, yN)} với: N = a + b a là số mẫu thuộc phân lớp yi = +1 b là số mẫu thuộc phân lớp yi = -1 (2) Số lớp yếu tối đa Mmax sẽ được kết hợp. B2. Khởi tạo giá trị với các mẫu thuộc lớp yi = +1 với các mẫu thuộc lớp yi = -1 M = 0 B3. Suy diễn tiến While M < Mmax (1) M <- M +1 (2) Chọn hm dựa theo biểu thức (4) (3) Cập nhật và chuẩn hóa để Để B4. Đầu ra Σ = = M 3/ Nhận dạng dùng Support Vector Machine (SVM) : SVM (Support Vector Machines) là phương pháp nhận dạng do Vladimir N. vapnik đề xuất năm 1995. SVM là phương pháp nhận dạng dựa trên lý thuyết học thống kê ngày càng đươọc sử dụng phổ biến trong nhiều lĩnh vực, đặc biệt là lĩnh vực phân loại mẫu và nhận dạng mẫu. Đồng thời có nhiều tình năng ưu việt so với các phương pháp cổ điển khác: dể dàng xử lý, xử lý với tính ổn định cao trên dữ liệu phức tạp, có thể có số chiều lớn và quan trọng hơn cả là khả năng xử lý tổng quát. SVM (Support Vector Machines) là một phương pháp máy học tiên tiến đã có nhiều thành công không chỉ trong các lĩnh vực khai phá dữ liệu mà còn trong lĩnh vực nhận dạng. Trong những thập niên gần đây, SVM được đánh giá là một trong những phương pháp phân lớp có độ chính xác rất cao và nó cũng đã được áp dụng nhiều trong các bài toán nhận dạng. Vì vậy chúng ta có thể ứng dụngtrong nhận dạng trên cơ sở phương pháp phân lớp SVM. Trích chọn đặc trưng phục vụ cho công việc huấn luyện và nhận dạng là một bước rất quan trọng trong một hệ thống nhận dạng. Phương pháp SVM: gồm hai giai đoạn là huấn luyện và nhận dạng Giai đoạn huấn luyện :Các ảnh mẫu được véc tơ hóa x = {x1, . .,x900} rồi dùng phương pháp PCA để rút trích đặc trưng thành véc tơ y={y1, . .,y100} rồi đưa vào bộ huấn luyện SVM . Giai đoạn nhận dạng: Mẫu cần nhận dạng được cũng được véc tơ hóa và rút trích như trên sau đó đưa vào bộ nhận dạng SVM để xác định lớp cho mẫu . Tuy nhiên SVM là phương pháp phân lớp rất nhanh nhưng SVM có thể phân một đối tượng nhầm lớp nên có thể dùng thêm phương pháp mạng Nơron để so sánh. Phương pháp phân lớp SVM : Hàm mục tiêu của một máy phân lớp SVM nhị phân có thể được phát biểu như sau: g(x) = w.Φ(x) + b (1) Trong đó : - Véc tơ đầu vào x - w là véc tơ chuẩn của siêu phẳng phân cách trong không gian đặc trưng được sinh ra từ ánh xạ Φ(x): - (F > D, Φ(x) có thể tuyến tính hoặc phi tuyến) và b là độ lệch so với gốc tọa độ. Ban đầu, SVM được thiết kế cho bài toán phân lớp nhị phân, do đó dấu của g(x) cho biết véc tơ x thuộc lớp +1 hay lớp -1. Cho tập mẫu {(x1,y1),...,(xN,yN)} trong đó xiRD và yi{±1}, mục tiêu của phương pháp phân lớp SVM là tìm một siêu phẳng phân cách sao cho khoảng cách lề (margin) giữa hai lớp đạt cực đại Khoảng cách lề giữa hai lớp là . Để nới lỏng điều kiện phân lớp, thêm vào một số yếu tố cân bằng và việc huấn luyện SVM chính là giải bài toán tối ưu có ràng buộc: sao cho: yi(w. Φ(xi) + b) ≥ 1-ξi ξi ≥ 0, trong đó : C là tham số nới lỏng điều kiện phân lớp [1]. Thay vì giải bài toán (2), ta giải bài toán đối ngẫu của nó bằng cách giải bài toán qui hoạch toàn phương (QP-Quadratic programming): (3) Thỏa mãn: và , trong đó α =[α1,..., αN]T và H là ma trận kích thước N×N được gọi là ma trận nhân (kernel matrix) với mỗi phần tử H(i,j) = yiyjΦ(xi).Φ(xj). Giải bài toán QP (3) ta thu được: (4) Mỗi mẫu huấn luyện xi tương ứng với một hệ số Lagrange αi. Sau khi huấn luyện, các mẫu có αi>0 được gọi là véc tơ hỗ trợ. Thế (4) vào (1), ta có : (5) Giả sử Φ(xi).Φ(xj) = K(xi,xj). Nghĩa là, tích vô hướng trong không gian đặc trưng tương đương với một hàm nhân K của không gian đầu vào. Vì vậy, ta không cần phải tính trực tiếp các giá trị Φ(xi), Φ(xj) mà chỉ cần tính tích vô hướng gián tiếp thông qua hàm nhân K(xi,xj). Nếu sử dụng hàm nhân là hàm tuyến tính thì SVM được gọi là SVM tuyến tính, ngược lại thì gọi là SVM phi tuyến. Như vậy, hàm mục tiêu cho bài toán phân lớp SVM nhị phân có dạng: (6) Chỉ có các véc tơ hỗ trợ tham gia vào việc xây dựng siêu phẳng phân cách, do đó một mẫu x sẽ được phân lớp theo hàm quyết định: (7) trong đó, NSV là số véc tơ hỗ trợ. SVM gồm có SVM tuyến tính và SVM phi tuyến. SVM tuyến tính Giả sử cho tập (1) trong đó xi Rn và yi {+1,-1}. Mục đích của SVM là tìm ra siêu mặt phân cách thỏa: xi +b≥1 khi yi =+1 xi +b≥−1 khi yi =−1 (2) trong đó w Rn và cũng là vectơ pháp tuyến của siêu mặt. Nếu như các thành phần của tập học S thỏa bất phương trình (2) thì ta nói đây là trường hợp phân cách tuyến tính. Trong việc huấn luyện siêu mặt, SVM tìm cách cực đại khoảng cách bờ ρ giữa hai lớp với . Do đó trong trường hợp tuyến tính, việc tìm siêu mặt phân cách cũng chính là giải hệ sau: Cực tiểu : (3) với ràng buộc i = 1,2,…,n (4) Nếu như bất phương trình (2) không đúng với một số phần tử trong tập học,ta nói đây không phải là trường hợp phân cách tuyến tính. Trong trường hợp này tabờ mặt phân cách là “mềm”( soft margin) nếu như có một vài phần tử không thỏa (2) như trên. Để giải quyến trường hợp này, tập được thêm vào (2) như sau: i=1,2,…,n (5) và ξi được gọi là các biến slack (lỏng). Khi 0<ξi <1 thì các điểm rơi đúng vào hần ngăn cách của bờ ngăn cách. Khi có lỗi xuất hiện tức có điểm rơi vào bờ bên kia, ξi tương ứng sẽ lớn hơn 1. Do đó mục đích SVM bây giờ là tìm siêu phằng phân cách sao cho lỗi phân loại ít nhất và khoảng cách bờ lớn nhất. trong trường hợp không thể phân cách tuyến tính, bài toán trở thành: Cực tiểu : (6) Với ĐK : i=1,2,…,n (7) và ξ ≥ 0,i = 1,2,..., n (8) Trong đó C là tham số do người dùng chọn. Một cách để giải quyết bài toán là dùng hàm Largange. Có hai lý do cho điều này. Thứ nhất là ràng buộc (7 - 8) sẽ được thế bằng ràng buộc trên hệ số nhân Lagrange, để dễ làm việc hơn. Thứ hai là dữ liệu huấn luyện sẽ chỉ xuất hiện dưới dạng phép nhân vô hướng giữa các vector. Điều này cho phép tổng quát hoá cho trường hợp phi tuyến. Đưa ra các hệ số nhân Lagrange không âm αi, và βi , cho các ràng buộc bất đẳng thức (7-8). Bài toán đối ngẫu trở thành : Cực đại : (9) Với ĐK : (10) i=1,2,…,n (11) Trong bài toán đối ngẫu hàm lượng giá Q(α) cực đại chỉ phụ thuộc vào dữ liệu dưới dạng tích vô hướng. Do đó các hệ số nhân Lagrange có thể tính được dựa trên các ràng buộc (10-11). Điều kiện Karush-Kuhn-Tucker (KKT) có vai trò quan trọng đối với bài toán tối ưu ràng buộc. Với bài toán trên, điều kiện KKT có thể phát biểu: i=1,2,…n (12) Trong đó : Có hai dạng tham số , nếu như 0< ≤C thì mẫu tương ứng là véctơ hỗ trợ. Véctơ lời giải cho bài toán chính là véctơ xác định bởi: (14) Trong đó : Ns chính là số lượng các vectơ hổ trợ. Tuy nhiên trong trường hợp 0< <C chúng ta có ξi = 0 theo phương trình (13) của điều kiện KKT. Do đó có thể lấy điểm huấn luyện bất kỳ thỏa 0< < C để dùng công thức (12) (với ξi = 0) để tính b0. Cuối cùng có thể lấy trung bình b0 trên toàn tập mẫu S. Một khi (w0,b0) được xác định, ta có hàm quyết định chính là: (15) đồng thời siêu mặt phân cách chính là g(x) = 0. Trường hợp khác xảy ra nữa là khi =C (ξi>0 có thể tính được bằng(12)) và = 0 (mẫu i đã được phân loại đúng) SVM phi tuyến: Trong trường hợp phi tuyến, ta chỉ cần ánh xạ véctơ dữ liệu vào không gian đặc trưng có số chiều cao hơn nhiều. Bằng cách sử dụng hàm ánh xạ , trong đó M>N, chúng ta có thể xây dựng siêu mặt phân cách trong không gian mới này. Hàm xử lý chính tích vô hướng K(x,xi) ánh xạ không gian phi tuyến vào không gian đặc trưng: (16) Do đó bài toán đối ngẫu trở thành : Cực đại : (17) Với cùng ràng buộc (10-11). Điều kiện duy nhất chính là hàm xử lý chính K(x,xi) phải thỏa điều kiện Mercer. Bằng cách sử dụng các hàm xử lý chính, dữ liệu có thể được phân loại như sau: Trong đó g(x) là hàm quyết định như sau: 4/ Nhận dạng dùng Fuzzy SVM (SVM mờ) : Với SVM, quá trình huấn luyện khá nhạy cảm với các mẫu cách quá xa lớp. Nếu như hai lớp có thể phân cách tuyến tính thì SVM có thể tìm ra siêu mặt phân cách mà không có mẫu nào bị phân loại sai kể hai tập mẫu có độ đo compact nhỏ đến mức độ nào. Tuy nhiên xét trường hợp hai lớp không thể phân cách tuyến tính, việc chọn đúng giá trị C có ý nghĩa khá quan trọng. (C chính là tham số do người dùng chọn cân bằng giữa độ phức tạp của hệ số và số lượng lổi ). C càng lớn thì lỗi phân cách càng nhỏ thì càng bỏ qua nhiều các mẫu phân cách sai, song bờ phân cách càng lớn. Dù C nhỏ hay lớn thì gái trị C vẫn cố định trong quá trình huấn luyện. Do đó các mẫu được huấn luyện ngang nhau, nên cuối cùng bớ phân cách sẽ nhạy cảm với những mẫu vượt. Việc xem vai trò các mẫu ngang nhau sẽ dẫn đến việc huấn luyện SVM “quá thích nghi” (overfit): Hình minh họa nhược điểm về điểm vượt của SVM Trong hình trên là ví dụ của việc huấn luyện mẫu hai chiều không thể phân cách tuyến tính được. Vùng ít quan trọng hơn là vùng chứa mẫu không tham gia và việc hình thành các véctơ hỗ trợ thỏa mãn phương trình (2). Ngược lại những mẫu tham gia vào hình thành véctơ hỗ trợ sẽ thuộc vùng quan trọng hơn. Với cùng giá trị C, nếu như tồn tại các mẫu vượt biên của lớp 1, siêu mặt phân cách sẽ hướng về lớp 2. Do đó độ dốc của siêu mặt cũng thay đổi do tập các véctơ hỗ trợ thay đổi theo phương trình (14). Điều đó kéo theo việc nhận dạng các mẫu của lớp 2 có nhiều lỗi hơn do việc huấn luyện “quá thích nghi”(overfit) gây ra bởi các phần tử vượt. Như ta thấy trên, các mẫu được huấn luyện ngang hang nhau, nên cuối cùng bờ phân cách sẻ nhạy cảm với những mẫu vượt. Việc xem các mẫu ngang hàng nhau có thể gây lỗi cho SVM. Do đó ý tưởng của FSVM là tương ứng với mỗi mẫu xi ta gọi Px(xi) là xác xuất xi là mẫu vượt, ta có thể sửa lỗi thành . Tuy nhiên, với từng mẫu trong tập mẫu ban đầu, nếu được một giá trị là độ đo thành viên. Khi đó tương ứng với xác xuất gây lỗi chính là độ đo thành viên xác độ gắn kết thành viên với cả tập mẫu ban đầu. Tập mẫu ban đầu trở thành tập mờ Sf : Với các mẫu dương(yi =+1) giá trị độ đo thành viên dược gán là và ngược lại là giá trị . Chúng được gán độc lập với nhau. Giả sử đã có tập mẫu đã mờ hóa, ta bắt đầu việc hình thành hàm lượng giá. FSVM vừa cực đại bờ phân cách và cực tiểu lỗi ngay cả với các mẫu vượt. Không giống như SVM, FSVM giảm ảnh hưởng của các mẫu ít quan trọng hơn bằng độ đo thành viên. Bài toán FSVM trở thành : Cực tiểu Với ĐK i = 1,2,…,n Trong đó m là độ mờ hóa của hàm lượng giá. Hàm Lagrange trở thành : Trong đó : và là các hệ số nhân Lagrange không âm, việc giải các phương trình đạo hàm riêng Q theo w,b và sẻ cho kết quả, do đó ta có phương trình sau : Thay 3 phương trình vào phương trình trên, hàm Lagrange là hàm theo : Cực đại : Với ĐK : Dể thấy sự khác biệt duy nhất giữa SVM và FSVM chính là chặn trên của hệ số nhân trong bài toán đối ngẫu. Nếu như với SVM, chặn số cố định với giá trị hằng số C, thì FSVM linh động hơn với độ đo thành viên của từng mẫu. Độ đo mẫu xi càng nhỏ thì vùng khả thi dọc theo trục càng hẹp. Cuối cùng ta có điều kiện là : i = 1,2,…,n 5/ Nhân dạng bằng mạng Nơron: Neural là một đơn vị tính toán có nhiều đầu vào và một đầu ra, mỗi đầu vào đến từ một liên kết. Đặc trưng của neural là một hàm kích hoạt phi tuyến chuyển đổi tổ hợp tuyến tính của tất cả các tín hiệu đầu vào thành tín hiệu đầu ra. Hàm kích hoạt này đảm bảo tính chất phi tuyến cho tính toán của mạng neural. w2 wk w1 y1 y2 b0 yk a f Đầu ra a=f( åw’y+b) Đầu vào Hình1.1: Mô hình một neural nhân tạo Một neural được cầu tạo gồm các thành phần chính : Liên kết neural. Bộ cộng . Hàm kích hoạt. Mạng neural là một hệ thống bao gồm nhiều phần tử xử lý đơn giản (hay còn gọi là neural) tựa như neural thần kinh của não người, hoạt động song song và được nối với nhau bởi các liên kết neural. Mỗi liên kết kèm theo một trọng số nào đó, đặc trưng cho tính kích hoạt hoặc ức chế giữa các neural. Hình 1.2: Sơ đồ đơn giản về một mạng neural Mô hình mạng neural ở trên gồm 3 lớp: Lớp nhập (input). Lớp ẩn(hidden). Lớp xuất (output). Phân loại mạng neural nhân tạo: Mạng neural dẫn tiến Mạng neural qui hồi Phương pháp mạng Nơron gồm hai giai đoạn là huấn luyện và nhận dạng như sau: Giai đoạn huấn luyện: Mạng neural phỏng theo việc xử lý thông tin của bộ não người, do vậy đặc trưng cơ bản của mạng là có khả năng học, khả năng tái tạo các hình ảnh và dữ liệu khi đã học. Có 3 kiểu học chính: Học có giám sát (có mẫu). Học không giám sát. Học tăng cường. Tập mẫu huấn luyện được véc tơ hóa dùng phương pháp chia lưới để tính trung bình mức xám của cửa sổ con kích thước 4x4, như vây với ảnh mẫu kích thước 100x100 sẽ được biến đổi thành véc tơ kích thước là {x1, …,x625} , các véc tơ này làm đầu vào cho bộ huấn luyện mạng Nơron. Mỗi đối tượng sẽ được huấn luyện với các tư thế khuôn mặt như nhìn thẳng, sang trái 300 và sang phải 300 trong một mạng Nơron riêng rẽ tạm gọi là chủ nhân của mạng này với ngõ ra mong muốn của đối tương chủ nhân là 1, các đối tượng không phải chủ nhân sẽ có ngõ ra là 0. Mô hình này đã cải tiến được yếu điểm của SVM. Giai đoạn nhận dạng: Ảnh cần nhận dạng cũng được véc tơ hóa như giai đoạn huấn luyện và là đầu vào của từng mạng nơron để xác định chủ nhân của mạng. Nếu không xác định được thì hệ thống thông báo là đối tượng này không có trong cơ sở dữ liệu. Thuật toán: Xét mạng neural 3 lớp : lớp nhập, lớp ẩn và lớp xuất. Hàm kích hoạt các neural : logistic (sigmoid). g(x)= Bước 1: Khởi tạo trọng số w ngẫu nhiên nhỏ. Bước 2 : Chọn lớp đầu vào x và đính nó vào lớp đầu vào . Bước 3 : Truyền sự kích hoạt qua trọng số đến khi kich hoạt các neural đầu ra. Bước 4: Tính đạo hàm riêng “δE” theo trọng số cho lớp xuất. sử dụng GRADIENT của hàm lỗi . Bước 5: Tính đạo hàm riêng “δE” theo trọng số cho lớp ẩn. sử dụng GRADIENT của hàm lỗi. Bước 6: Cập nhật tất cả trọng số theo Wi=W(i-1)-µ(δE/ δ Wi). Bước 7: quay lai “Bước 2” cho đến “Bước 6” cho tất cả các mẫu. w2 wk w1 z=g(v) v=b0 + g(x)= y1 y2 b0 yk Hàm lỗi: E(z)=(z - t)2 Đạo hàm riêng của hàm lỗi theo trọng số b: Ta có: Đặt: Ta được: a2 ad a1 y=g(u) v=a0 + x1 x2 a0 Lớp đầu ra Đối với các neural lớp ẩn: Đạo hàm riêng của hàm lỗi theo trọng số: Ta có: Đặt: Ta được: (1.8) Sau khi tính được đạo hàm riêng của hàm lỗi theo từng trọng số, trọng số sẽ được điều chỉnh bằng cách trừ bớt đi 1 lượng bằng tích của đạo hàm riêng và tốc độ học: CHƯƠNG II: GABOR WAVELETS 1/ Tổng quát về biến đổi Gabor Wavelet: Hàm Gabor Wavelet được đề xuất đầu tiên bởi Dennis Gabor như là 1 công cụ dùng để phát hiện tín hiệu từ tạp nhiễu. Sau đó, hàm Gabor Wavelet được Daugman tổng quát hóa thành dạng 2 chiều. Bộ lọc Gabor 2 chiều hiện nay được sử dụng rộng rãi trong nhiều ứng dụng xử lý ảnh trên máy tính. Mỗi là một sóng phẳng đặc trưng bởi vector hàm sóng Gauss , với là độ lệch tiêu chuẩn của hàm sóng Gauss. Tần số tiêu chuẩn của bộ lọc Gabor thứ i được cho bởi hàm sóng đặc trưng: Một số thông số quan trọng đối với biến đổi Gabor Wavelet: - mô tả hướng của Wavelet. Thông số này khiến cho Wavelet quay quanh tâm của nó. Trong đa số các trường hợp có giá trị trong khoảng 0 đến . Ở đây ta sẽ chọn từ với bước nhảy : với u=1,....,8 - mô tả bước sóng của sóng sin hoặc tần số trung tâm của Wavelet. Wavelet có bước sóng lớn sẽ đáp ứng với những thay đổi cường độ của ảnh. Wavelet có bước sóng nhỏ sẽ đáp ứng với những cạnh. Biểu diễn dạng ảnh của bộ lọc Gabor Wavelet với 5 tỉ lệ và 8 hướng: Biểu diễn biên độ của bộ lọc Gabor Wavelet Phần thực của bộ lọc Gabor Wavelet 2/ Biểu diễn hình ảnh bằng Gabor Wavelet: Biến đổi Gabor Wavelet của một ảnh I cho trước được cho bởi công thức sau: Với là cường độ ảnh tại vị trí Từ khi biến đổi Gabor Wavelet được giới thiệu trong lĩnh vực xử lý ảnh trên máy tính, một trong những ứng dụng quan trọng của biểu diễn Gabor Wavelet 2 chiều là nhận dạng khuôn mặt. Trong 1 hoạt động của chính phủ Mỹ (chương trình FERET ) để tìm ra hệ thống nhận dạng khuôn mặt tốt nhất, một hệ thống dựa trên biểu diễn Gabor Wavelet của ảnh khuôn mặt đã được chạy thử cùng với một số hệ thống khác trong một vài cuộc thử nghiệm. Việc sử dụng biểu diễn Gabor Wavelet trong xử lý ảnh trên máy tính được khởi xướng bởi Daugman vào những năm 1980. Gần đây, B.S. Manjunath et al đã phát triển một hệ thống nhận dạng khuôn mặt dựa trên biểu diễn Gabor Wavelet. Một hình ảnh có thể được biểu diễn bởi biến đổi Gabor Wavelet cho phép mô tả cả cấu trúc của không gian tần số và mối liên hệ không gian. Chập hình ảnh với tổ hợp bộ lọc Gabor cho 5 không gian tần số ( v = 0,...,4) và 8 hướng (u = 1,...,8) thu được toàn bộ mật độ phổ tần số, cả biên độ và pha. Cho ảnh gốc: Biểu diễn ảnh gốc bằng Gabor Wavelet: Phần thực Phần biên độ CHƯƠNG III: ỨNG DỤNG GABOR WAVELETS TRONG THUẬT TOÁN NHẬN DẠNG KHUÔN MẶT Một trong những kỹ thuật được sử dụng trong tài liệu này cho việc nhận dạng khuôn mặt dùng biến đổi Gabor Wavelet là việc sử dụng các vector đặc trưng để mã hóa khuôn mặt. Thay vì dùng biểu đồ các điểm đặc trưng trên khuôn mặt, các điểm có năng lượng cao sẽ được sử dụng để so sánh các khuôn mặt. Điều này không chỉ giúp giảm khối lượng tính toán mà còn tăng độ chính xác của thuật toán do không cần phải xác định các điểm đặc trưng trên khuôn mặt bằng tay 1/ Chiết xuất đặc trưng: Thuật toán chiết xuất đặc trưng gồm 2 bước chính: Xác định tọa độ các điểm đặc trưng Tính vector đặc trưng 1a/ Xác định tọa độ các điểm đặc trưng: Ở bước này, vector đặc trưng được tạo ra từ các điểm có nội dung thông tin cao trên hình ảnh khuôn mặt. Trông hầu hết các phương pháp dựa vào đặc trưng, các đặc trưng trên khuôn mặt là mắt, mũi, miệng. Tuy nhiên, ở đây chúng ta sẽ không áp đặt vị trí và số lượng các điểm đặc trưng. Số lượng điểm đặc trưng và vị trí của chúng có thể thay đổi nhằm mục đích biểu diễn các đặc trưng nhân diện đa dạng của nhiều khuôn mặt khác nhau như nếp nhăn, nốt ruồi,...cũng là những đặc điểm có thể sử dụng để nhận dạng khuôn mặt. Từ đáp ứng của khuôn mặt qua bộ lọc Gabor, ta sẽ tìm các điểm đặc trưng theo phương pháp sau: Một điểm là điểm đặc trưng nếu thỏa mãn các điều kiện sau: (3) (4) Với là đáp ứng của ảnh khuôn mặt đối với bộ lọc Gabor thứ j; là kích thước của ảnh khuôn mặt; là một hình vuông có cạnh WxW pixel có tâm tại . Kích thước W là một thông số quan trọng trong thuật toán này, nó phải được chọn đủ nhỏ để thu được những đặc điểm quan trọng, và đủ lớn để tránh phần dư thừa. Phương trình (4) được dùng để tránh bị mắc trong 1 khu vực địa phương mà không tìm ra được đinh của đáp ứng. Ở đây chúng ta sẽ chọn W=9 để tìm các điểm đặc trưng của khuôn mặt qua đáp ứng đối với bộ lọc Gabor. Một sơ đồ đặc trưng cho khuôn mặt được tạo nên bằng cách lần lượt thực hiện quá trình trên đối với 40 bộ lọc Gabor 1b/ Xuất vector đặc trưng: Vector đặc trưng được tạo ra tại các điểm đặc trưng ở dạng tổ hợp các hệ số của biến đổi Gabor Wavelet. Vector đặc trưng thứ k của hình ảnh khuôn mặt mẫu thứ i được định nghĩa như sau: Với 40 bộ lọc Gabor, vector đặc trưng có 42 thành phần. 2 thành phần đàu tiên trong vector đặc trưng biểu diễn vị trí của điểm đặc trưng theo tọa độ (x,y). Hai thông số này có vai trò rất quan trọng trong suốt quá trình so sánh nhận dạng khuôn mặt. 40 thành phần tiếp theo của vector đặc trưng là các giá trị của đáp ứng qua bộ lọc Gabor của hình ảnh khuôn mặt tại vị trí tương ứng. Việc xây dựng vector đặc trưng bằng các giá trị của biến đổi Gabor Wavelet là rất quan trọng. Vector đặc trưng cho phép thể hiện cấu trúc không gian tần số và cả mối quan hệ không gian của vùng ảnh địa phương xung quanh điểm đặc trưng tương ứng. 2/ Tính toán mức độ tương tự: Nhằm mục đích tính toán mức độ tương tự giữa 2 vector đặc trưng, ta sẽ sử dụng công thức tính mức độ tương tự sau đây: (5) thể hiện mức độ tương tự giữa vector đặc trưng thứ j của khuôn mặt kiểm tra đối với vector đặc trưng thứ k của khuôn mặt mẫu thứ i trong cơ sở dữ liệu. Đại lượng mức độ tương tự giữa 2 vector đặc trưng sẽ thỏa mãn 2 tính chất sau: Và nếu ảnh mẫu thứ i được dùng làm ảnh kiểm tra thì Thông tin về vị trí của điểm đặc trưng không được sử dụng để tính mức độ tương tự giữa các vector đặc trưng, chỉ có biên độ của hệ số wavelet được sử dụng trong công thức (5). Lưu ý rằng mức độ tương tự giữa 2 vector đặc trưng chỉ là một trong số những thông số được sử dụng trong thuật toán nhận dạng này. Thông tin về vị trí của vector đặc trưng cũng sẽ được sử dụng trong suốt quá trình nhận dạng. Công thức (5) chỉ là một biện pháp đo mức độ tương tự giữa hai vector đặc trưng dùng các hệ số của biến đổi Gabor Wavelet rất phổ biến. Tuy vậy đôi khi ta cần phải có một số thay đổi nhỏ. Trong một số tài liệu khác, đại lượng mức độ tương tự trong công thức (5) được sử dụng với các giá trị phức và hệ số pha của các giá trị biến đổi Gabor Wavelet. Trong các thử nghiệm trước đây người ta nhận thấy rằng những sự dịch chuyển nhỏ về không gian có thể gây nên các thay đổi trong giá trị phức của biến đổi Gabor Wavelet, qua đó kéo theo sự thay đổi về pha. Do đó đại lượng pha có thể được bỏ qua như trong [23]. Mặc dù sử dụng đại lượng mức độ tương tự được bù pha có thể tăng hiệu quả nhận dạng khuôn mặt, tuy nhiên đại lượng mức độ tương tự không được bù pha vẫn thường được sử dụng nhằm giảm mức độ phức tạp khi tính toán. 3/ So sánh khuôn mặt: Sau khi xây dựng xong vector đặc trưng từ ảnh kiểm tra, chúng được so sánh với những vector đặc trưng của mỗi ảnh mẫu trong cơ sở dữ liệu. Công đoạn so sánh này trải qua 2 bước. Trong bước đầu tiên, chúng ta sẽ loại trừ những vector đặc trưng của ảnh mẫu không đủ gần với vector đặc trưng của ảnh kiểm tra theo quan hệ về vị trí và mức độ tương tự. Chỉ có những vector đặc trưng thỏa mãn được 2 điều kiện sau mới được sử dụng để so sánh khuôn mặt trong các bước tiếp theo: 1. và biểu diễn vị trí của một diểm đặc trưng trên ảnh mẫu và ảnh kiểm tra tương ứng; là mức bán kính ngưỡng được chọn phù hợp để đạt được kết quả tốt nhất khi so sánh tọa độ giữa các điểm đặc trưng, nhằm tránh việc trùng khớp khi xác định vị trí của một điểm đặc trưng quanh mắt với một điểm đặc trưng quanh miệng của hình ảnh khuôn mặt mẫu. Sau khi xác định vị trí, chúng ta không cần để ý tới các thông tin về tọa độ của điểm đặc trưng trong các bước tiếp theo. 2. Mức độ tương tự giữa hai vector đặc trưng phải lớn hơn , với được chọn như là độ lệch tiêu chuẩn của mức độ tương tự giữa tất cả các vector đặc trưng. Việc chọn mức ngưỡng phù hợp sẽ giúp giảm số vector đặc trưng đủ tiêu chuẩn, qua đó tăng tốc độ tính toán ở các bước tiếp theo. Bằng cách thay đổi và chúng ta có thể kiểm soát được cấu trúc liên kết và giá trị mức độ tương tự giữa các vector đặc trưng. Việc tăng sẽ nới rộng khu vực tìm kiếm điểm đặc trưng có mức độ tương tự lớn hơn . Điều này có thể hữu ích khi vị trí của điểm đặc trưng thay đổi do lý do nào đó, thí dụ như ảnh được chụp với các góc độ, cảm xúc khuôn mặt khác nhau. Tuy nhiên nếu quá lớn sẽ khiến cho thông tin về cấu trúc liên kết khuôn mặt bị sai lệch hoàn toàn. Khi giữ nguyên và tăng trong một phạm vi lớn sẽ khiến cho kết quả thu được không có khuôn mặt trùng khớp; ngược lại nếu giảm sẽ làm xuất hiện các vector đặc trưng thừa khiến tăng khối lượng tính toán và làm giảm độ chính xác của quá trình nhận dạng. Tuy vậy sự thay đổi nhỏ của và có lại không ảnh hưởng đến hiệu quả của thuật toán. Sau khi thực hiện bước thứ nhất, các vector đặc trưng thỏa mãn được hai điều kiện trên của những ảnh mẫu trong cơ sở dữ liệu sẽ được dùng để tính toán các thông số tiếp theo nhằm phục vụ cho quá trình so sánh khuôn mặt. Tập hợp các vector này được ký hiệu là .Các vector còn lại sẽ được bỏ qua trong quá trình tính toán. Ở bước thứ 2, công thức sau được đưa ra để đảm bảo rằng chỉ có nhiều nhất là một vector đặc trưng của khuôn mặt mẫu trùng khớp với vector đặc trưng của khuôn mặt kiểm tra: Ở công thức trên, thể hiện mức độ tương tự của ảnh mẫu thứ i đối với ảnh kiểm tra dựa trên vector đặc trưng thứ j. Tiếp theo, ta tính mức độ tương tự của ảnh mẫu thứ i đối với ảnh kiểm tra bằng cách lấy trung bình cộng của các thông số thu được ở bước trên: Đại lượng sẽ thỏa mãn 2 tính chất sau: Và nếu ảnh mẫu thứ i được dùng làm ảnh kiểm tra thì Mặc dù OS là một thông số dùng để so sánh độ tương tự khá tốt, tuy nhiên ta có thể cải thiện độ chính xác của thuật toán bằng cách xét đến số lượng vector đặc trưng. Cần phải chú ý rằng số lượng điểm đặc trưng dùng để tính toán cho mỗi cặp ảnh là không giống nhau, ngay cả khi đó là ảnh của cùng một người (ví dụ: ảnh người có mang kính/không có mang kính; ảnh với các biểu hiện cảm xúc khác nhau; sự thay đổi độ sáng;....). Sự thay đổi số lương điểm đặc trưng này không được tính đến trong đại lượng OS. Do đó nếu chỉ sử dụng một đại lượng OS để so sánh thì sẽ không đạt được hiệu quả cao. Thí dụ: OS=0,85 là giá trị trung bình cộng của 20 đại lượng mức độ tương tự sẽ có giá trị hơn là OS=0,95 là giá trị trung bình cộng của 2 đại lượng mức độ tương tự. Hơn nữa, số lượng vector đặc trưng trùng khớp của mỗi ảnh mẫu đối với ảnh kiểm tra sẽ cung cấp thông tin về độ trùng khớp trong kết cấu liên kết khuôn mặt. Để sử dụng được thông tin chứa trong số lượng vector đặc trưng trùng khớp, ta sẽ tính một thông số mới C cho mỗi ảnh mẫu có trong cơ sở dữ liệu bằng cách đếm số lượng vector đặc trưng có độ tương tự cao nhất của ảnh mẫu đó với một vector đặc trưng của ảnh kiểm tra: l=1,...,số lương khuôn mặt mẫu có trong cơ sở dữ liệu Đối với mỗi ảnh mẫu sẽ có một đại lượng FSF được tính theo công thức sau: Trong đó là số lượng vector đặc trưng của ảnh mẫu thứ i; là các hệ số tỉ lệ được chọn phù hợp để đạt được kết quả tối ưu. Nếu ảnh mẫu thứ i cũng được dùng làm ảnh kiểm tra thì và CHƯƠNG IV: CHƯƠNG TRÌNH MÔ PHỎNG Chương trình được viết bằng ngôn ngữ Matlab. Phiên bản Matlab được sử dụng là Matlab 7.0.4 1/ Tổng quan về Matlab: 1a/ Giới thiệu chung: MATLAB có nguồn gốc từ chữ matrix laboratory, được Cleve Moler phát minh vào cuối thập niên 1970, là chủ nhiệm khoa máy tính tại Đại học New Mexico, là ngôn ngữ máy tính dùng để tính toán kỹ thuật. Trải qua nhiều phiên bản, năm 2004 MATLAB 7 phát hành, có khả năng chính xác đơn và kiểu nguyên, hỗ trợ hàm lồng nhau, công cụ vẽ điểm, và phát triển thuật toán tương tác. Ban đầu MATLAB được lập ra để giải quyết các phép toán trên ma trận, chính điều này làm cho MATLAB có ứng dụng rất lớn trong nhiều ngành kỹ thuật khác nhau so với các ngôn ngữ lập trình khác tính toán trên số vô hướng. MATLAB kết hợp tính toán và lập trình đồ họa trong môi trường phát triển tương tác, thời gian lập trình chỉ bằng một phần nhỏ so với các ngôn ngữ lập trình khác nhờ vào các hàm có sẵn. MATLAB là sản phẩm của công ty The Mathworks Inc. với địa chỉ www.mathworks.com và sử dụng MATLAB phải có bản quyền. Tuy nhiên có rất nhiều hàm MATLAB được viết bởi người sử dụng và phổ biến trên mạng giúp MATLAB ngày càng phong phú hơn. 1b/ Các đặc điểm cơ bản của MATLAB: Là ngôn ngữ bậc cao dùng cho các tính toán kỹ thuật. Là môi trường phát triển để quản lý dữ liệu. Gồm nhiều công cụ tương tác cho việc khai thác và xử lý dữ liệu, thiết kế và giải quyết vấn đề. Các hàm đồ thị đối với ảnh 2 hoặc 3 chiều cho phép hình ảnh hóa dữ liệu. Chứa các công cụ để xây dựng các giao diện đồ thị của người sử dụng. Gồm nhiều hàm chức năng dựa trên các giải thuật cơ sở nhằm tích hợp MATAB với các ứng dụng và ngôn ngữ lập trình khác như: C, C++, Fortran, Java, Microsoft excel… MATLAB là một ngôn ngữ bậc cao được tích hợp các công cụ phát triển giúp người sử dụng phát triển và phân tích các giải thuật và ứng dụng một cách nhanh chóng. Ngôn ngữ lập trình MATLAB hỗ trợ các phép toán đối với ma trận và vector cơ sở cho các vấn đề kỹ thuật và khoa học. Việc lập trình và phát triển giải thuật trong MATLAB có tốc độ nhanh hơn so với các ngôn ngữ lập trình truyền thống do MATLAB bỏ qua các công việc điều khiển bậc thấp như khai báo biến, khai báo mẫu dữ liệu và xác định vùng nhớ. Trong nhiều trường hợp, MATLAB còn bỏ qua cả sự cần thiết của các vòng lặp “for”. Kết quả là, một dòng lệnh được viết trong MATLAB có thể tương đương với nhiều dòng lệnh trong C hay C++. Là một công cụ lập trình mạnh, MATLAB vẫn hỗ trợ những đặc tính của một ngôn ngữ lập trình truyền thống như: toán tử số học, cấu trúc vòng, các cấu trúc và dạng dữ liệu cùng đặc tính gỡ rối. VD: Chương trình biểu diễn thuật toán điều chế tín hiệu truyền thông tạo ra 1024 điểm, thực hiện điều chế, thêm nhiễu phức Gauss và vẽ lại kết quả. % tạo một vector N bit N = 1024; bits = rand(N,1)>0.5; % chuyen sang ky tu Tx=1-2*bits; %them vao nhieu Gauss trang P=0.4 Nz=P*(randn(N,1)+i*randn(N,1)); Rx= Tx + Nz; %hien thi ket qua plot(Rx,'.'); axix([-2 2 -2 2]); axis square, grid; Hình 1.1 Trong khi đối với phần lớn các ngôn ngữ lập trình truyền thống phải trải qua giai đoạn dịch (compilation) và liên kết (linking) thì MATLAB cho phép người sử dụng có thể thực thi ngay các lệnh hoặc nhóm lệnh cùng lúc. Điều này làm cho tốc độ xử lý trên MATLAB nhanh hơn đáng kể so với trên các ngôn ngữ truyền thống. 1c/ Phân tích và tiếp cận dữ liệu: Trong quá trình phân tích dữ liệu, MATLAB hỗ trợ hầu hết các công đoạn như: thu nhận dữ liệu từ thiết bị ngoại vi, các phân tích số học, tiền xử lý, hình ảnh hóa… Phân tích dữ liệu: Chương trình MATLAB cung cấp các công cụ tương tác cũng như các hàm điều khiển theo dòng cho việc tính toán trong phân tích dữ liệu bao gồm: Các phép nội suy Trích chọn tính chất Chọn ngưỡng và lọc nhiễu Tương quan, phân tích Fourier và lọc Phát hiện các điểm đỉnh, đáy và điểm không Thống kê cơ bản và chuẩn hóa các đường cong Phân tích ma trận Tiếp cận dữ liệu Việc tiếp cận dữ liệu từ các thư mục, ứng dụng, cơ sở dữ liệu và thiết bị ngoại vi bởi MATLAB là hết sức dễ dàng. MATLAB hỗ trợ nhiều loại định dạng file: ASCII, nhị phân, các file hình ảnh và âm thanh hay thậm chí các file định dạng HDF. Trong MATLAB có nhiều hộp công cụ (toolbox) hỗ trợ cho việc tiếp cận dữ liệu như: hộp công cụ cơ sở dữ liệu (Database Toolbox), hộp công cụ thu nhận dữ liệu (Data Acquisition Toolbox) hay hộp công cụ điều khiển thiết bị (Instrument Control Toolbox). Hình ảnh hóa dữ liệu Tất cả các đặc tính về hình ảnh cần thiết cho hình ảnh hóa các dữ liệu khoa học kỹ thuật đều được tích hợp trong MATLAB. Những đặc tính này bao gồm: các hàm vẽ ảnh 2 và 3 chiều, các hàm vẽ thể tích 3 chiều, các công cụ tương tác tạo ảnh, khả năng xuất kết quả dưới các dạng file ảnh thông thường. VD: vẽ hàm y= sin(x) với -pi < x < pi Mã chương trình: >>x = -pi:.1:pi; >>y = sin(x); >> plot (x, y) Hình 1.2 Đồ thị hàm y = sin(x) 2/ Lưu đồ giải thuật: 2a/ Nhận dạng ảnh động: Y Y Begin Show webcam Chụp ảnh từ Webcam Tìm được 1 khuôn mặt? Tạo bộ lọc Gabor và biểu diễn hình ảnh khuôn mặt bằng Gabor Wavelet Tìm hình ảnh khuôn mặt Tìm vị trí các điểm đặc trưng Tạo ma trận vector đặc trưng Tính toán các thông số và tiến hành so sánh nhận dạng Tìm được khuôn mặt nhận dạng khớp? Hiển thị kết quả End Hiện bảng thông báo N N 2b/ Nhận dạng ảnh tĩnh: N Y Begin Tạo bộ lọc Gabor và biểu diễn hình ảnh khuôn mặt bằng Gabor Wavelet Tìm vị trí các điểm đặc trưng Tạo ma trận vector đặc trưng Tính toán các thông số và tiến hành so sánh nhận dạng Tìm được khuôn mặt nhận dạng khớp? Hiển thị kết quả End Chọn ảnh cần nhận dạng 3/ Chương trình mô phỏng: Chương trình có giao diện chính như hình dưới: Chức năng các nút nhấn trên giao diện chính: Nút WebCam: hiển thị hình ảnh thu từ webcam. Nút NHẬN DẠNG WC: tiến hành nhận dạng khuôn mặt thu được từ webcam. Nút LƯU WC: bổ sung vào cơ sở dữ liệu hình ảnh khuôn mặt thu được từ webcam. Nút NHẬN DẠNG ẢNH: tiến hành nhận dạng khuôn mặt từ file ảnh nhập vào. Nút LƯU ẢNH: bổ sung vào cơ sở dữ liệu từ hình ảnh khuôn mặt nhập vào. Nút CLOSE: thoát khỏi chương trình. Nút DỮ LIỆU WC: hiển thị một cửa sổ mới cho phép xem các khuôn mặt có trong cơ sở dữ liệu được chụp từ WebCam và xóa các khuôn mặt ra khỏi cơ sở dữ liệu: Nút DỮ LIỆU ẢNH: hiển thị một cửa sổ mới cho phép xem các khuôn mặt có trong cơ sở dữ liệu từ mẫu đã chọn và xóa các khuôn mặt ra khỏi cơ sở dữ liệu: Mô tả hoạt động của chương trình: Một cơ sở dữ liệu gồm các khuôn mặt mẫu được tạo sẵn cho chương trình. Khi muốn nhận dạng khuôn mặt lấy từ webcam, trước tiên ấn nút WebCam. Một khung hình ảnh video xuất hiện hiển thị hình ảnh đang thu được từ webcam. Ấn nút NHẬN DẠNG WC để tiến hành nhận dạng. Lưu ý: chương trình chỉ tiến hành nhận dạng khi hình ảnh thu được từ webcam đảm bảo các yêu cầu về độ sáng, kích thước, số lượng khuôn mặt trong ảnh. Nếu trong hình không có khuôn mặt nào hoặc có nhiều hơn 2 khuôn mặt, chương trình sẽ không tiến hành nhận dạng và hiện lên bảng thông báo: Hình ảnh cần nhận dạng sẽ được hiển thị lên bên trái giao diện chính.Sau khi tiến hành nhận dạng, nếu hình ảnh cần nhận dạng khớp với hình ảnh trong cơ sở dữ liệu, trên giao diện chính sẽ xuất hiện thông báo “TRÙNG KHỚP” và hình ảnh trong cơ sở dữ liệu khớp với ảnh cần nhận dạng sẽ hiện lên. Nếu không khớp thì trên giao diện chính sẽ xuất hiện thông báo “KHÔNG TRÙNG KHỚP”. Bổ sung vào cơ sở dữ liệu hình ảnh khuôn mặt thu được từ webcam: tương tự như nhận dạng khuôn mặt lấy từ webcam, nhưng thay vì ấn nút NHẬN DẠNG WC thì ta ấn nút LƯU WC. Khi muốn nhận dạng hình ảnh khuôn mặt từ file nhập vào: ấn nút NHẬN DẠNG ẢNH, một cửa sổ xuất hiện để ta nhập file hình ảnh khuôn mặt cần nhận dạng vào. Sau đó chương trình sẽ tiến hành nhận dạng và hiển thị kết quả tương tự như nhận dạng khuôn mặt bằng webcam. Bổ sung vào cơ sở dữ liệu hình ảnh khuôn mặt từ file nhập vào: ấn nút LƯU ẢNH, một cửa sổ xuất hiện để ta nhập file hình ảnh khuôn mặt cần bổ sung vào. Sau đó chương trình sẽ tiến hành tính toán và bổ sung hình ảnh khuôn mặt vừa nhập vào cơ sở dữ liệu. CHƯƠNG V: KẾT QUẢ THỰC HIỆN 1/ Tập dữ liệu ảnh: Taäp döõ lieäu aûnh goàm aûnh cuûa 40 caù nhaân vôùi khoaûng 450 aûnh ñöôïc laáy töø internet. Moãi caù nhaân coù khoaûng 10 aûnh coù nhöõng neùt khaùc nhau: Neùt bieåu caûm cuûa khuoân maët khaùc nhau: bình thöôøng, cöôøi, buoàn, nhaém maét, lieác maét … Tö theá khuoân maët khaùc nhau: aûnh tröïc dieän, ngöûa maët, cuùi maët, maët hôi nghieâng qua phaûi hay traùi, höôùng maët khaùc nhau … Ñoä chieáu saùng cuûa caùc khuoân maët khaùc nhau: thay ñoåi möùc saùng toái cuûa böùc aûnh, chieáu saùng ñeàu tröïc dieän hay ñöôïc chieáu saùng ôû hai beân hay phía treân, döôùi, aûnh ñöôïc chuïp ôû caùc goùc ñoä khaùc nhau… Khuoân maët coù ñeo theâm kính hay ñöôïc trang ñieåm, thay ñoåi raâu toùc … Aûnh coù theå bò hôi meùo daïng nhö co hai beân hay co treân vaø döôùi vaø kích thöôùc cuûa khuoân maët naèm trong aûnh khaùc nhau … Kích thöôùc cuûa aûnh 92x112 khaù caân ñoái vôùi kích thöôùc beà doïc vaø ngang cuûa khuoân maët thöïc teá. Ảnh cuûa moät soá caù nhaân trong taäp aûnh döõ lieäu 2/ Xây dựng tập ảnh mẫu và các ma trận đặc trưng mẫu: Chương trình được chạy thử nghiệm với 2 tập ảnh mẫu: Taäp aûnh maãu thöù nhaát chæ goàm 1 aûnh tröïc dieän ôû traïng thaùi bình thöôøng töông öùng vôùi moãi caù nhaân. Tập ảnh mẫu thứ hai bao gồm ảnh của 16 cá nhân ở các tư thế, biểu cảm khuôn mặt khác nhau. Mỗi cá nhân gồm 3 ảnh mẫu. Các ảnh mẫu này không được dùng trực tiếp để so sánh nhận dạng mà được chập với bộ lọc Gabor Wavelet để tính toán chiết xuất ma trận đặc trưng (như đã trình bày ở chương III). Mỗi ảnh sẽ có 1 ma trận đặc trưng. Kích thước ma trận đăc trưng của mỗi ảnh cũng sẽ khác nhau tùy thuộc vào số lượng điểm đặc trưng tìm được trên khuôn mặt. Các ma trận đặc trưng này sẽ được dùng để tính toán, so sánh và nhận dạng khuôn mặt. Mỗi tập ảnh mẫu sẽ có một bộ ma trận đặc trưng. Khi cần nhận dạng một cá nhân, ảnh khuôn mặt của cá nhân đó sẽ được chập với bộ lọc Gabor Wavelet, tạo ra ma trận đặc trưng và so sánh với bộ ma trận đặc trưng của tập ảnh mẫu. Moät ma traän ñaëc tröng coù 42 coät hai coät ñaàu tieân laø toaï ñoä cuûa ñieåm ñaëc tröng vaø 40 coät coøn laïi laø giaù trò cuûa ñieåm tröng ñoù ñöôïc laáy töø 40 ñaùp öùng cuûa boä loïc Gabor. Khi chaäp moät aûnh maët vôùi moät boä loïc Gabor thì caùc ñieåm coù giaù trò möùc xaùm khaùc nhieàu vôùi vuøng laän caän cuûa ñieåm aûnh ñoù seõ ñöôïc noåi baät leân (coøn goïi laø ñænh hay ñieåm coù naêng löôïng cao nghóa laø giaù trò möùc xaùm cuûa ñaùp öùng taïi vò trí ñieåm aûnh ñoù lôùn), coøn nhöõng vuøng coù caùc giaù trò ñieåm aûnh gaàn gioáng nhau thì khoâng ñöôïc laøm noåi leân. Treân khuoân maët con ngöôøi nhöõng vuøng coù nhieàu thay ñoåi khaùc nhau laø maét, muõi, mieäng, tai, chaân maøy, vieàn khuoân maët, nuùm ñoàng tieàn hay noát ruoài…. Vaø caùc ñieåm ñaëc tröng taäp chung ôû caùc vuøng naøy. Caùc ñieåm ñaëc tröng ñöôïc töï ñoäng trích theo giaûi thuaät ñöôïc trình baøy trong chöông III. 3/ Các kết quả thử nghiệm: 3a/ Nhận dạng khuôn mặt từ ảnh dùng tập ảnh mẫu thứ nhất: Tập ảnh mẫu sử dụng trong thí nghiệm này gồm 28 cá nhân, mỗi cá nhân có 1 ảnh. Tập ảnh kiểm tra thứ nhất gồm 292 ảnh của 28 cá nhân được đưa vào tập ảnh mẫu. Kết quả nhận dạng có 157 ảnh cho nhận dạng đúng (53.8%), 107 ảnh không tìm ra nhận dạng tương ứng (36.6%), 28 ảnh bị nhận nhầm với cá nhân khác(9.6%). Tập ảnh kiểm tra thứ hai gồm 96 ảnh của 16 cá nhân không được đưa vào tập ảnh mẫu. Kết quả nhận dạng có 80 ảnh cho kết quả chính xác (83.3%), 16 ảnh bị nhận nhầm với cá nhân khác (16.7%). 3b/ Nhận dạng khuôn mặt từ ảnh dùng tập ảnh mẫu thứ hai: Khi bổ sung ảnh khuôn mặt các cá nhân với các tư thế, biểu cảm khác nhau, hiệu quả nhận dạng được cải thiện rõ rang, tỉ lệ ảnh nhận dạng đúng tăng lên. Tập ảnh mẫu sử dụng trong thí nghiệm này gồm 16 cá nhân, mỗi cá nhân có 3 ảnh. Tập ảnh kiểm tra thứ nhất gồm 174 ảnh của 16 cá nhân được đưa vào tập ảnh mẫu. Kết quả nhận dạng có 155 ảnh cho nhận dạng đúng (89%), 20 ảnh không tìm ra nhận dạng tương ứng (11%), không có ảnh bị nhận nhầm với cá nhân khác. Tập ảnh kiểm tra thứ hai gồm 264 ảnh của 28 cá nhân không được đưa vào tập ảnh mẫu. Kết quả nhận dạng có 219 ảnh cho kết quả chính xác (83%), 45 ảnh bị nhận nhầm với cá nhân khác (17%). Có thể cải thiện hiệu quả nhận dạng bằng cách tăng thêm số ảnh mẫu. Tuy nhiên khi đó thời gian nhận dạng sẻ tăng lên. 3c/ Nhận dạng khuôn mặt từ webcam: Tập ảnh mẫu sử dụng trong thí nghiệm này gồm 6 cá nhân, mỗi cá nhân có 3 ảnh mẫu. Tập ảnh kiểm tra thứ nhất gồm 60 ảnh của 6 cá nhân được đưa vào tập ảnh mẫu. Kết quả nhận dạng có 44 ảnh cho nhận dạng đúng (73.3%), 12 ảnh không tìm ra nhận dạng tương ứng (20%), 4 ảnh bị nhận nhầm với cá nhân khác(6.7%). Tập ảnh kiểm tra thứ hai gồm 50 ảnh của 5 cá nhân không được đưa vào tập ảnh mẫu. Kết quả nhận dạng có 42 ảnh cho kết quả chính xác (84%), 8 ảnh bị nhận nhầm với cá nhân khác (16%). 3d/ Tốc độ thực hiện: Ñoái vôùi maùy tính Core i7 1.6GHz thôøi gian thöïc hieän: Tìm ảnh khuôn mặt từ ảnh chụp từ webcam mất 9s. Bieán ñoåi Gabor Wavelets cuûa moät aûnh maët maát 0,5s Xác định vị trí các điểm đặc trưng của khuôn mặt mất 0,2s Taïo ma traän ñaëc tröng cho aûnh töø 40 ñaùp öùng cuûa boä loïc Gabor maát 0,3s. Thôøi gian so khôùp aûnh caàn nhaän daïng vôùi moät aûnh trong taäp aûnh maãu tùy thuộc vào số lượng ảnh mẫu trong cơ sở dữ liệu, trong thí nghiệm dùng cơ sở dữ liệu có 28 hình ảnh mẫu mất khoảng 6 giây để so khớp. Aûnh coù kích thöôùc caøng lôùn thì khoaûng thôøi gian naøy caøng taêng. Toåâng thôøi gian nhaän daïng cuõng tæ leä thuaän vôùi soá löôïng aûnh coù trong taäp maãu. Vôùi maõ ñöôïc vieát baèng ngoân ngöõ Matlab chöa toái öu. Neáu maùy tính coù toác ñoâï cao hôn thì toác ñoä nhaän daïng seõ ñöôïc caûi thieän 4/ Kết luận: Nhaän daïng maët ngöôøi laø moät lónh vöïc haáp daãn ñoái vôùi ngaønh nghieân cöùu veà heä thaàn kinh vaø nghieân cöùu tröïc quan maùy tính. Con ngöôøi coù khaû naêng nhaïân daïng moät khuoân maët quen moät caùch deã daøng nhôø cô quan thò giaùc vaø lôùp voû baùn caàu naõo nhöng dung löôïng nhôù cuûa con ngöôøi laïi coù giôùi haïn. Caùc nghieân cöùu ñeå minh hoïa khaû naêng nhaän daïng treân maùy tính ra ñôøi vôùi öu ñieåm laø dung löôïng nhôù raát lôùn. Töø naêm 1988 nhieàu giaûi thuaät ñöôïc ñeà xuaát ñeå töï ñoäng nhaän daïng moät khuoân maët. Trong ñoù noåi baät laø phöông phaùp eigenface (taïo ma traän vector rieâng cuûa moät khuoân maët) ñôn giaûn vaø phöông phaùp so khôùp maët baèng ñoà thò löôùi ñaøn hoài cho ñoä chính xaùc cao hôn nhöng tính toaùn phöùc taïp vaø toán thôøi gian thöïc hieän. Sau ñoù laø keát hôïp vôùi maïng Neural Network ñeå taêng toác ñoâï vaø ñoä chính xaùc cuûa nhaän daïng, tuy nhieân dung löôïng aûnh döõ lieäu cuõng taêng leân do maïng caàn döõ lieäu ñeå hoïc taäp. Phöông phaùp nhaän daïng döïa treân vieäc trích caùc ñaëc tröng ra ñôøi laøm giaûm bôùt veà dung löôïng löu tröõ, vaø pheùp bieán ñoåi Gabor wavelets raát thuaän lôïi cho vieäc trích caùc ñieåm ñaëc tröng vaø vector ñaëc tröng. Nhieàu giaûi thuaät döïa treân pheùp bieán ñoåi GW ra ñôøi, öu ñieåm vaø ñieåm môùi cuûa giaûi thuaät trong luaän vaên naøy: Tìm ñieåm ñaëc tröng töï ñoäng thay cho vieäc ñònh vò ñieåm ñaëc tröng baèng tay. Ñieåm ñaëc tröng ñöôïc choïn laø caùc ñænh coù naêng löôïng cao cuûa ñaùp öùng sau khi chaäp aûnh vôùi boä loïc GW, ñieàu naøy giuùp cho moãi khuoân maët giöõ ñöôïc caùc neùt ñaëc thuø rieâng cuûa noù hôn laø phöông phaùp duøng nuùt ñoà thò trong phöông phaùp khôùp ñoà thò ñaøn hoài. Ñoái vôùi caùc phöông phaùp trích ñaëc tröng duøng GW laøm giaûm dung löôïng löu tröõ döõ lieäu raát nhieàu do chæ löu tröõ ma traän ñaëc tröng vôùi kích thöôùc nhoû vaøi chuïc (30-40) pixell vôi haøng laø soá ñieåm ñaëc tröng vaø coät laø soá boä loïc GW coäng theâm 2 coät chöùa vò trí ñieåm ñaëc tröng. Ñoàng thôøi soá löôïng aûnh maãu khoâng caàn nhieàu, moät aûnh maãu cuõng coù theå duøng ñeå nhaän daïng. Phöông phaùp naøy coù khaû naêng nhaän daïng toát ñoái vôùi söï thay ñoåi ñoä chieáu saùng cuûa moät aûnh maët, vaø tình traïng thay ñoåi neùt bieåu caûm treân khuoân maët. Vôùi giaûi thuaät so khôùp nhaän daïng vôùi hai ñieàu kieän khôûi ñaàu laø thoûa hai giaù trò ngöôõng th1 vaø th2, neáu ñöôïc choïn hôïp lyù seõ laøm taêng toác ñoä cuûa quaù trình so saùnh vaø nhaän daïng. Giaûi thuaät so khôùp tính toaùn ñôn giaûn vaø thôøi gian thöïc hieän toái öu hôn phöông phaùp so khôùp maët baèng ñoà thò löôùi ñaøn hoài. 5/ Hướng phát triển của đề tài: Höôùng phaùt trieån cuûa ñeà taøi ñöôïc ñeà xuaát nhö sau: Caûi thieän ngoân ngöõ xöû lyù ñeå taêng toác ñoä vôùi cô sôû aûnh maãu lôùn. Cải tiến thuật toán để tăng độ chính xác của quá trình nhận dạng. Phát triển khả năng nhận dạng theo thời gian thực qua camera để có thể áp dụng vào thực tế. TÀI LIỆU THAM KHẢO Burcu Kepenekci, “Face reconition using Gabor wavelet transform”, The Midle East Technical University, September 2001. T.S. Lee, “Image representation using 2-d Gabor wavelet”, IEEE Trans. On Pattern Analysis and Machine Intelligence, vol. 18, no.10, October 1996. Javier R. Movellan, “Tutorial on Gabor Filters”. David S. Bolme, “Elastic Bunch Graph Matching”, Colorado State University, Summer 2003.

Các file đính kèm theo tài liệu này:

chuong 1.doc
Bia.doc
CHUONG TRINH.rar
LOI MO DAU.doc
PHU LUC CODE.doc