[Tóm tắt] Luận văn Gán nhãn đối tượng dựa vào kỹ thuật nhận dạng

Nhận dạng và gán nhãn cho đối tượng trong cuộc sống thường ngày hiện nay đóng vai trò rất quan trọng và được áp dựng nhiều trong thực tế như: sản xuất và kiểm tra chất lượng, sự di chuyển của Robot, các phương tiện đi lại tự trị, công cụ hướng dẫn cho người mù, an ninh và giám sát, nhận dạng đối tượng, nhận dạng mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video, Luận văn tập trung vào nghiên cứu một số kỹ thuật gán nhãn đối tượng dựa vào kỹ thuật nhận dạng và đã đạt được các kết quả sau:  Trình bày khái quát về các kỹ thuật gán nhãn đối tượng dựa vào nhận dạng.  Hệ thống hóa lại các kiến thức: một số kỹ thuật gán nhãn, mạng neural nhân tạo, bài toán nhận dạng đối tượng và cách sử dụng mạng neural vào phân tích một bái toán cụ thể.

23 trang | Chia sẻ: builinh123 | Lượt xem: 1922 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu [Tóm tắt] Luận văn Gán nhãn đối tượng dựa vào kỹ thuật nhận dạng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1 ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN NGUYỄN VŨ QUANG GÁN NHÃN ĐỐI TƯỢNG DỰA VÀO KỸ THUẬT NHẬN DẠNG Ngành: Công nghệ thông tin Chuyên ngành: Quản lý Hệ thống thông tin Mã số: Chuyên ngành đào tạo thí điểm TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Đỗ Năng Toàn Hà Nội - 2015 2 PHẦN MỞ ĐẦU Cùng với sự phát triển ngày càng mạnh mẽ của khoa học kĩ thuật trong một vài thập kỷ gần đây, xử lý ảnh tuy là một ngành khoa học còn tương đối mới mẻ so với nhiều ngành khoa học khác nhưng hiện nay nó đang là một trong những lĩnh vực phát triển rất nhanh và thu hút sự quan tâm đặc biệt từ các nhà khoa học, thúc đẩy các trung tâm nghiên cứu, ứng dụng về lĩnh vực hấp dẫn này. Nhận dạng và gán nhãn cho hình ảnh đóng vai trò quan trọng trong nhiều ứng dụng thực tế về khoa học kĩ thuật cũng như trong cuộc sống thường ngày như: sản xuất và kiểm tra chất lượng, sự di chuyển của Robot, các phương tiện đi lại tự trị, công cụ hướng dẫn cho người mù, an ninh và giám sát, nhận dạng đối tượng, nhận dạng mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video, Một trong những ứng dụng quan trọng, là việc nhận dạng và gán nhãn cho các loại hình ảnh . Tự động nhận dạng ảnh và đặt vị trí nhãn là một lĩnh vực trong trực quan hóa thông tin. Nhãn là các đoạn văn bản nhằm truyền đạt thông tin, làm rõ ý nghĩa của các cấu trúc phức tạp được biểu diễn ở dạng đồ họa. Bài toán nhận dạng và gán nhãn đã được đề cập, nghiên cứu nhiều trên thế giới. Tại Việt Nam bài toán này cũng đang rất được chú trọng và được ứng dụng trong rất nhiều lĩnh vực. Vì vậy, đề tài này được xây dựng với các mục đích: Tìm hiểu về bài toán nhận dạng hình ảnh và gán nhãn, ứng dụng của nó trong các lĩnh vực; Tìm hiểu một số vấn đề, các thuật toán liên quan; Đặt nền tảng cho cá nhân nghiên cứu, tìm hiểu sâu hơn về vấn đề này. Từ đó thiết kế một chương trình thử nghiệm nhận dạng và gán nhãn cho một ảnh cụ thể. Luận văn gồm phần mở đầu, phần kết luận và 3 chương, nội dung các chương như sau: Chương 1: Khái quát về gán nhãn và bài toán nhận dạng đối tượng 3 Chương này khái quát lại cơ bản những kiến thức về bài toán gán nhãn gồm xử lý ảnh và gán nhãn trong xử lý ảnh. Đồng thời nói về bài toán nhận dạng đối tượng, vai trò và tầm quan trọng của bài toán nhận dạng đối tượng, các phương pháp nhận dạng đối tượng cũng như một số hệ thống nhận dạng đối tượng nổi tiếng trên thế giới Chương 2: Một số vấn đề trong nhận dạng đối tượng sử dụng mạng nơron Chương 2 đề cập đến một số vấn đề trong nhận dạng đối tượng sử dụng mạng nơron. Mô tả kiến trúc của một hệ thống nhận dạng đối tượng sử dụng mạng nơron nhân tạo và cách thiết kế, huấn luyện mạng nơron nhân tạo cho việc nhận dạng. Chương 3: Chương trình thử nghiệm Chương này áp dụng các kiến thức nghiên cứu trong chương 1 và chương 2, sử dụng mạng nơron nhiều lớp lan truyền ngược và kỹ thuật gán nhãn để xây dựng một chương trình nhận dạng ký tự. 4 CHƯƠNG 1: KHÁI QUÁT VỀ GÁN NHÃN VÀ BÀI TOÁN NHẬN DẠNG ĐỐI TƯỢNG Chương này khái quát lại cơ bản những kiến thức về bài toán gán nhãn gồm xử lý ảnh và gán nhãn trong xử lý ảnh. Đồng thời nói về bài toán nhận dạng đối tượng, vai trò và tầm quan trọng của bài toán nhận dạng đối tượng, các phương pháp nhận dạng đối tượng cũng như một số hệ thống nhận dạng đối tượng nổi tiếng trên thế giới. 1.1. Khái quát về gán nhãn 1.1.1. Xử lý ảnh Xử lý ảnh là một phần của lĩnh vực xử lý tín hiệu số. Tăng cường chất lượng thông tin hình ảnh đối với quá trình tri giác của con người và biễu diễn trên máy tính. Xử lý ảnh số bao gồm các phương pháp và kỹ thuật để biến đổi, để truyền tải hoặc mã hóa các ảnh tự nhiên. Xử lý ảnh liên quan đến việc thay đổi hình ảnh để đạt được một trong hai mục đích: - Thứ nhất: biến đổi ảnh và làm đẹp ảnh. - Thứ hai: tự động phân tích nhận dạng ảnh hay đoán nhận ảnh và đánh giá các nội dung của ảnh. Lý do phải xử lý ảnh: - Ảnh có thể bị lỗi trong quá trình thu ảnh, truyền dẫn và hiển thị (hồi phục, nâng cao chất lượng ảnh, nội suy) - Ảnh có thể mang các nội dung nhạy cảm (vd, chống lại copy không hợp pháp, giả mạo và lừa đảo) - Tạo các bức ảnh có hiệu ứng nghệ thuật Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật toán xử lý như sau: - Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các bộ lọc nhằm khử nhiễu trong ảnh, tăng cường độ 5 tương phản hay độ nét của ảnh. Trong trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học. - Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để phân lớp, phân đọan ảnh, xác định và dự đóan biên ảnh, nén anh để lưu trữ hoặc truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận được sau khi nén ảnh. - Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình ảnh. Đây cũng là quá trình xử lý được thực hiện trong hệ thống thì giác của con người. Chúng ta có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý ảnh nào cũng bắt buộc phải tuân theo các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý. Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng kí tự quang học, nhận dạng chữ viết tay vv. 1.1.2. Gán nhãn trong xử lý ảnh Nhãn là các đoạn văn bản nhằm truyền đạt thông tin, làm rõ ý nghĩa của các cấu trúc phức tạp được biểu diễn ở dạng đồ họa. Bài toán tự động gán nhãn được xác định là một lĩnh vực nghiên cứu quan trọng của ACM Computational Geometry Task Force (Đội tính toán hình học ACM) Gán nhãn là nguồn của nhiều bài toán tối ưu hóa hình học. Ngay cả khi nhãn được đặt vào vị trí cố định tương ứng với một điểm, đây vẫn là bài toán NP-hard. Các bản đồ cần được gán nhãn, vậy cần có các giải thuật hiệu quả, giải thuật heuristics để xác định những ràng buộc, vị trí có thể. 6 Gán nhãn cho đối tượng là xác định nhãn phân loại cho từng thành phần trong đối tượng quan sát được. Gán nhãn cho đối tượng được sử dụng nhiều trong các bài toán gán nhãn từ loại, nhận dạng hình ảnh, âm thanh hay các bài toán về dự đoán gen Đây là bài toán có ứng dụng trong nhiều lĩnh vực bao gồm vẽ bản đồ, hệ thống thông tin địa lý và vẽ đồ thị. Hiện trên thế giới đã có nhiều công trình nghiên cứu về bài toán gán nhãn tự động. Tuy nhiên ở Việt Nam, bài toán này còn được đề cập đến một cách hạn chế. Trong bài toán gán nhãn cho đối tượng thành công, nhãn phải được đặt sao cho người xem dễ đọc và theo tiêu chuẩn chất lượng thẩm mỹ cơ bản. Nhãn phải được đặt ở vị trí tốt nhất có sẵn theo một số quy tắc cơ bản: Nhãn phải được dễ dàng đọc, nhanh chóng xác định vị trí một nhãn và đối tượng mà nó thuộc về thì nên được dễ dàng thừa nhận, nhãn phải được đặt rất gần với các đối tượng của chúng, nhãn không được che khuất các nhãn khác hoặc các đối tượng khác, một nhãn phải được đặt ở vị trí thích hợp nhất trong số tất cả các vị trí dễ đọc. Tóm tắt các đánh giá chất lượng gán nhãn trong ba quy tắc cơ bản sau đây: - Không có sự chồng chéo của một nhãn với các nhãn khác, các đối tượng đồ họa khác của bản vẽ. - Mỗi nhãn có thể dễ dàng được xác định là của đối tượng nào trong hình vẽ. - Mỗi nhãn phải được đặt ở vị trí tốt nhất có thể (trong số tất cả các nhãn có vị trí chấp nhận được). Thứ tự hiển thị ưu tiên giữa các vị trí nhãn có thể thay đổi tùy theo ứng dụng cụ thể. 1.2. Bài toán nhận dạng đối tượng. 1.2.1. Giới thiệu Như chúng ta biết, sự xuất hiện hình ảnh của một bề mặt phụ thuộc vào nhiều yếu tố: Ánh sáng, các thông số máy ảnh và định vị máy ảnh. Trong rất nhiều lĩnh vực như điều khiển, tự động hóa, công nghệ thông tin, nhận dạng được đối tượng là vấn đề mấu chốt 7 quyết định sự thành công của bài toán. Nhận dạng là bước đầu tiên và quan trọng nhất của nhiều lĩnh vực khoa học, đặc biệt trong lĩnh vực điều khiển và tự động hóa nếu không nhận dạng chính xác đối tượng điều khiển thì sẽ không có giải pháp tối ưu nhất để điều khiển chúng. Từ việc một đối tượng phải được nhận dạng từ sự xuất hiện của nhiều vật thể, sự phức tạp của nhận dạng đối tượng phụ thuộc vào nhiều yếu tố. Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức là một dạng) dựa theo những quy luật và mẫu chuẩn. 1.2.2. Các cách tiếp cận 1.2.2.1. Nhận dạng đối tượng dùng thống kê Khái niệm: Nhận dạng đối tượng dùng thống kê là một phương pháp nhận dạng đối tượng dựa vào các đặc tính thống kê của các đối tượng. Nhận dạng đối tượng dùng thống kê sử dụng các phương pháp máy học dựa trên thống kê để học và rút ra đối tượng tham khảo từ một lượng dữ liệu lớn. 1.2.2.2. Nhận dạng dựa theo cấu trúc Biểu diễn định tính Trong cách biểu diễn này, người ta quan tâm đến các dạng và mối quan hệ giữa chúng. Giả thiết rằng, mỗi đối tượng được biểu diễn bởi một dãy ký tự, các đặc tính biểu diễn bởi cùng một số ký tự. Phương pháp nhận dạng ở đây là nhận dạng logic, dựa vào hàm phân biệt là hàm Bool. Cách nhận dạng là nhận dạng các từ có cùng độ dài. 1.2.2.3. Nhận dạng dựa trên mạng nơron Giới thiệu Xét trường hợp đối tượng phi tuyến có độ phức tạp cao, nếu sử dụng phương pháp giải tích thông thường để nhận dạng sẽ rất khó khăn, thậm chí không thực hiện được do sự hiểu biết nghèo nàn về đối tượng. Vì vậy các nhà khoa học đã đưa ra ý tưởng là sử dụng công cụ tính toán mềm như hệ mờ, mạng nơron, đại số gia tử để xấp 8 xỉ -chính là nhận dạng đối tượng. Mạng nơron là một trong những công cụ hữu hiệu để nhận dạng mô hình đối tượng, bằng phương pháp này ta không biết được mô hình toán thực sự của đối tượng nhưng hoàn toàn có thể sử dụng kết quả xấp xỉ để thay thế đối tượng. Cấu trúc neural nhân tạo Mô hình nơron nhân tạo gồm 3 phần chính: Bộ tổng liên kết đầu vào, bộ động học tuyến tính và bộ phi tuyến. 1.2.3. Một số hệ thống nhận dạng đối tượng hiện nay 1.2.4. Quy trình hoạt động của một hệ thống nhận dạng đối tượng 9 CHƯƠNG 2: NHẬN DẠNG ĐỐI TƯỢNG SỬ DỤNG MẠNG NƠRON Chương 2 đề cập đến một số vấn đề trong nhận dạng đối tượng sử dụng mạng Nơron. Mô tả kiến trúc của một hệ thống nhận dạng đối tượng sử dụng mạng nơron nhân tạo và cách thiết kế, huấn luyện mạng nơron nhân tạo cho việc nhận dạng. 2.1. Kiến trúc một hệ thống nhận dạng đối tượng sử dụng mạng nơron nhân tạo 2.1.1. Khái niệm mạng nơron nhân tạo Mạng nơron nhân tạo hay thường gọi ngắn gọn là mạng nơron, trong tiếng anh là Artificial Neural Network. Nó gồm có một nhóm các nơron nhân tạo nối với nhau, và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút. Trong nhiều trường hợp, mạng nơron nhân tạo là một hệ thống thích ứng, tự thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trong chảy qua mạng trong quá trình học. 2.1.2. Lịch sử phát triển của mạng nơron 2.1.3. Mô hình nơron 2.1.3.1. Nơron nhân tạo đơn giản Một nơron nhân tạo đơn giản là một thiết bị với nhiều đầu vào và có một đầu ra. Nơron có hai chế độ hoạt động: chế độ huấn luyện và chế độ sử dụng. Trong chế độ huấn luyện, nơron có thể được huấn luyện với một số các đối tượng đầu vào tới khi không được sử dụng nữa. Trong chế độ sử dụng thì khi phát hiện một đối tượng đã học tại đầu vào, đầu ra của nó sẽ trở thành đầu ra hiện tại. Nếu đối tượng đầu vào không thuộc vào danh sách đối tượng đã học thì luật loại bỏ được sử dụng để tiếp tục dùng hay loại bỏ nơron. 2.1.3.2. Nơron phức tạp hơn (Mô hình McCulloch và Pitts: MCP) Sự khác biệt với mô hình đơn giản ở trên là đầu vào của mô hình này có trọng số, hiệu quả của nó là mỗi đầu vào có một sự đưa 10 ra quyết định phụ thuộc vào trọng số của từng đầu vào. Trọng số của một đầu vào là một số mà khi nhân với đầu vào thì ta có được trọng số đầu vào. Những đầu vào trọng số này được nhóm lại với nhau và nếu chúng vượt quá giá trị ngưỡng thì nơron sẽ bị loại bỏ. Với các trường hợp khác thì nơron không bị loại bỏ. 2.1.4. So sánh mạng nơron với máy tính truyền thống 2.1.5. Một số kiến trúc mạng nơron dùng nhận dạng đối tượng 2.1.5.1. Mạng truyền thẳng Mạng truyền thẳng cho phép tín hiệu truyền chỉ theo một đường từ đầu vào tới đầu ra, không có sự phản hồi hay lặp lại. Mạng này có xu hướng truyền thẳng giữa đầu vào với đầu ra. Chúng được dùng rộng rãi trong nhận dạng đối tượng. Cách tổ chức trong mạng truyền thẳng là tham chiếu tới phương pháp từ dưới lên hoặc là từ trên xuống. 2.1.5.2. Mạng hồi quy Mạng hồi quy có kiến trúc tương tự mạng truyền thẳng (hình 2.3) nhưng có điểm khác nhau đó là nó cho phép tín hiệu truyền theo cả hai hướng. Mạng hồi quy truyền tín hiệu rất tốt và có thể trở lên rất phức tạp. Nó có tính động; trạng thái của nó thay đổi liên tục tới khi đạt tới điểm trạng thái cân bằng. Chúng duy trì điểm cân bằng tới khi đầu vào thay đổi và cần tìm một một trạng thái cân bằng mới. Kiến trúc hồi quy có thể tham chiếu tới việc tương tác. 2.1.5.3. Các lớp mạng Các loại phổ biến nhất của mạng nơron nhân tạo bao gồm ba nhóm hoặc lớp của các đơn vị: một lớp của các đơn vị "đầu vào" được kết nối với một lớp của các đơn vị "ẩn", và lớp đơn vị “ẩn” này được kết nối với một lớp của đơn vị "đầu ra". 2.1.5.4. Perceptrons Nghiên cứu có ảnh hưởng nhất trên mạng nơron trong những năm 60 được tiến hành dưới tiêu đề của “perceptron” một thuật ngữ 11 được đặt ra bởi Frank Rosenblatt. Perceptron (hình 2.5) trở thành một mô hình MCP (nơron với đầu vào trọng số) với một số bổ sung, sửa chữa, tiền xử lý. Các đơn vị có nhãn A1, A2, Aj, Ap được gọi là đơn vị kết nối và nhiệm vụ của chúng là trích xuất các đặc điểm riêng biệt từ những hình ảnh đầu vào. 2.1.6. Ứng dụng của mạng nơron nhân tạo 2.2. Thiết kế mạng nơron nhân tạo 2.2.1. Các bước thiết kế Các bước trong thiết kế một mô hình mạng nơron nhân tạo, gồm 7 bước:  Bước 1: Lựa chọn biến  Bước 2: Thu thập dữ liệu  Bước 3: Tiền xử lý dữ liệu  Bước 4: Các tập dữ liệu huấn luyện, kiểm thử, và chứng thực.  Bước 5: Sơ đồ mạng nơron:  Số lượng lớp ẩn,  Số lượng nơron ẩn,  Số lượng nơron đầu ra,  Hàm chuyển đổi.  Bước 6: Huấn luyện mạng nơron: Số lần lặp lại huấn luyện.  Bước 7: Triển khai 2.2.2. Chi tiết các bước thiết kế một mạng nơron. 2.2.2.1. Lựa chọn biến 2.2.2.2. Thu thập dữ liệu 2.2.2.3. Tiền xử lý dữ liệu 2.2.2.4. Các tập dữ liệu huấn luyện, kiểm thử, và chứng thực. 2.2.2.5. Sơ đồ mạng nơron 2.2.2.6. Quá trình huấn luyện mạng nơron 2.2.2.7. Triển khai 12 2.3. Huấn luyện mạng 2.3.1. Các phương pháp học Hình trạng mạng và trọng số của các liên kết bên trong mạng quyết định chức năng của một mạng nơron. Hình trạng của mạng bao gồm số lớp, số đơn vị trên mỗi tầng, và cách mà các lớp được liên kết với nhau của mạng và thường là cố định. Một thuật toán huấn luyện được lưa chọn sẽ quyết định các trọng số. Tiến trình điều chỉnh các trọng số để mạng “nhận biết” được quan hệ giữa đầu vào và đích mong muốn được gọi là học hay huấn luyện 2.3.2. Học có giám sát trong các mạng nơron Học có giám sát có thể được xem như việc xấp xỉ một ánh xạ: X→ Y, trong đó X là tập các vấn đề và Y là tập các lời giải tương ứng cho vấn đề đó. Các đối tượng (x, y) với x = (x1, x2,..., xn) ∈ X, y = (yl, y2,,ym) ∈ Y được cho trước. 2.3.3. Thuật toán lan truyền ngược Back-Propagation Thuật toán lan truyền ngược là dạng tổng quát của thuật toán trung bình bình phương tối thiểu. Thuật toán này thuộc dạng thuật toán xấp xỉ để tìm các điểm mà tại đó hiệu năng của mạng là tối ưu. Chỉ số tối ưu thường được xác định bởi một hàm số của ma trận trọng số và các đầu vào nào đó mà trong quá trình tìm hiểu bài toán đặt ra. 2.3.3.1. Mô tả thuật toán Mạng lan truyền ngược là một hàm phi tuyến có thể xấp xỉ gần đúng nhất một hàm đích được cho qua một số đối tượng trong tập đối tượng. Một mạng lan truyền tổng quát là một mạng có n (n>2) lớp: lớp thứ nhất gọi là lớp nhập, lớp thứ n là lớp xuất và n-2 lớp ẩn. Phần lớn các mạng chỉ có một biến phụ thuộc nhưng với mô hình tả trên mạng nơron cho phép số nút trong lớp nhập, lớp xuất, và lớp ẩn 13 là tùy ý. Số nút trong lớp nhập và lớp xuất phụ thuộc vào yêu cầu bài toán, số nút ẩn do người xây dựng mô hình quyết định. 2.3.3.2. Sử dụng thuật toán Back – Propagation 2.3.3.3. Đánh giá thuật toán  Ưu điểm của thuật toán: - Dễ dàng triển khai - Phương pháp chuẩn và hoạt động tốt - Thời gian tính toán giảm nếu các trọng số được chọn ban đầu nhỏ - Không yêu cầu đặc tính đặc biệt của hàm được học.  Nhược điểm thuật toán: - Có thể bị vướng vào tối thiểu địa phương trong nghiệm tối ưu. - Số lượng lớn đầu vào/đầu ra nhưng không chắc chắn về sự liên hệ giữa chúng với đầu ra. - Nghiệm của phương trình có thể thay đổi theo thời gian - Đầu ra có thể mờ và không phải là số. 2.4. Nhận dạng sử dụng mạng nơron 2.4.1. Khả năng sử dụng mạng nơron trong nhận dạng Xét trường hợp đối tượng phi tuyến tính có độ phức tạp cao, nếu sử dụng phương pháp giải tích thông thường để nhận dạng sẽ rất khó khăn, thậm chí không thực hiện được do sự hiểu biết nghèo nàn về đối tượng. Vì vậy các nhà khoa học đã đưa ra ý tưởng là sử dụng công cụ tính toán mềm như hệ mờ, mạng nơron, đại số gia tử để xấp xỉ. Mạng nơron là một trong những công cụ hữu hiệu để nhận dạng mô hình đối tượng. Bằng phương pháp này ta không biết được mô 14 hình toán thực sự của đối tượng nhưng hoàn toàn có thể dùng kết quả xấp xỉ để thay thế đối tượng. Vì tính phi tuyến của các mạng nơron (hàm kích hoạt phi tuyến), chúng được dùng để mô tả các hệ thống phi tuyến phức tạp. Mạng nơron là một trong những công cụ nhận dạng tốt nhất vì các đặc trưng sau: khả năng học từ kinh nghiệm hay được huấn luyện, khả năng khái quát hoá cho các đầu vào không được huấn luyện. Mạng nơron có khả năng xấp xỉ các hàm phi tuyến một cách đầy đủ và chính xác, nó được sử dụng tốt cho các mô hình động học phi tuyến. Điều quan trọng được sử dụng là thuật truyền ngược tĩnh và động của mạng nơron, nó được sử dụng để hiệu chỉnh các tham số trong quá trình nhận dạng. 2.4.2. Mô hình nhận dạng hệ thống sử dụng mạng nơron Việc nhận dạng là việc đầu tiên và quan trọng. Khi thông số của đối tượng là cần thiết để việc điều khiển đạt chất lượng mong muốn. Khi thông số của đối tượng tự thay đổi trong tiến trình làm việc (đối tượng phi tuyến) và có tính động học thì việc nhận dạng theo chúng sẽ phức tạp hơn nhiều so với đối tượng có thông số bất biến. Nhận dạng thường chia ra làm: nhận dạng mô hình và nhận dạng tham số. Nhận dạng mô hình là quá trình xác định mô hình của đối tượng và thông số trên cơ sở đầu vào và đầu ra của đối tượng. Mô hình thu được sau khi nhận dạng gọi là tốt nếu nó thể hiện được đúng đối tượng. 15 Nhận dạng tham số chính là huấn luyện mạng. Mô hình cơ bản của mạng nơron được luyện để mô phỏng hành vi của đối tượng giống như mô hình truyền thống được biểu diễn trên hình : 2.4.3. Nhận dạng hệ thống sử dụng mạng nơron Như vậy hai giai đoạn cần cho nhận dạng đó là lựa chọn mô hình và tối ưu tham số. Đối với mạng nơron dựa vào nhận dạng lựa chọn số nút ẩn, số lớp ẩn (cấu trúc của mạng) tương đương với mô hình lựa chọn. Mạng có thể được huấn luyện theo kiểu giám sát với kỹ thuật lan truyền ngược, dựa vào luật học sai số hiệu chỉnh. Tín hiệu sai số được lan truyền ngược qua mạng. Kỹ thuật lan truyền ngược sử dụng phương pháp giảm gradient để xác định các trọng của mạng vì vậy tương đương với tối ưu tham số. Mạng nơron được huấn luyện để xấp xỉ mối quan hệ giữa các biến.Mạng nơron được huấn luyện để tối thiểu hàm sai số. Mạng được huấn luyện để tối thiểu sai số bình phương giữa đầu ra của mạng và đầu vào hệ thống, xác định một hàm truyền ngược. Trong kiểu nhận dạng này đầu ra của mạng hội tụ về đầu vào hệ sau khi huấn luyện, vì vậy mạng đặc trưng cho hàm truyền ngược của hệ. Phương pháp nhận dạng khác cần phải hướng đầu ra hệ thống tới đầu ra của mạng. Trong kiểu này mạng đặc 16 trưng cho hàm truyền thẳng của hệ thống. Giả sử các hàm phi tuyến để mô tả hệ thuộc lớp hàm đã biết trong phạm vi quan tâm thì cấu trúc của mô hình nhận dạng phải phù hợp với hệ thống. Với giả thiết các ma trận trọng của mạng nơron trong mô hình nhận dạng tồn tại, cùng các điều kiện ban đầu thì cả hệ thống và mô hình có cùng lượng ra với bất kỳ lượng vào xác định. Do đó quá trình nhận dạng thực chất là điều chỉnh tham số của mạng nơron dựa vào sai lệch giữa các giá trị đầu ra của hệ thống và của mô hình. 17 CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM Chương này áp dụng các kiến thức nghiên cứu trong chương 1 và chương 2, sử dụng mạng nơron nhiều lớp lan truyền ngược để xây dựng một chương trình nhận dạng ký tự. Đồng thời, đánh giá kết quả đã đạt được và định hướng phát triển tương lai. 3.1. Giới thiệu Nhận dạng ký tự là một ứng dụng đang được rất nhiều quan tâm nhưng nó đầy khó khăn và thử thách. Điều rất khó của khả năng nhận dạng phù hợp kí tự là các kiểu ngôn ngữ rất phức tạp không theo quy luật do biến đổi trong font, kiểu và kích cỡ. Với một số phương thức lập trình truyền thống đã ánh xạ ảnh kí tự vào trong ma trận, phân tích ảnh hoặc vector dữ liệu, kiểm tra đưa ra quyết định phù hợp của kết quả. Việc thực thi này trong lập trình truyền thống cần viết mã nguồn vô tận cho mỗi kiểu đối với sự không nhất quán hay sự lệch với các giá trị đầu ra khác nhau. Lý thuyết này không hiện thực. Sử dụng mạng neural nhân tạo với những mạng làm việc đúng quy tắc từ việc cập nhật lại các trọng số liên kết giữa các nút mạng. Với ưu điểm là mạng có thể nhận dữ liệu từ những phân tích sinh động của các ảnh đầu vào và việc huấn luyện cho các ký tự đầu ra cho mẫu nói cách khác là khả năng thích nghi với môi trường dữ liệu đầu vào sinh động. 3.2. Các bước giải quyết bài toán 3.2.1. Xây dựng mạng nơron 3.2.2. Xử lý dữ liệu 3.2.3. Huấn luyện mạng 3.2.4. Nhận dạng ảnh Quá trình nhận dạng của mạng neural đơn giản và dễ hiểu. Khi chương trình chạy sẽ gọi các modun: phân tích ảnh, vector hóa... 18 trong quá trình huấn luyện có thể được sử dụng lại trong quá trình nhận dạng. 3.2.5. Lựa chọn công cụ Tôi lựa chọn ngôn ngữ C# và sử dụng nguồn opensource Neural Network Ocr được được cấp phép theo giấy phép GNU General Public (GPLv3), người phát triển đầu tiên và đưa ra các ví dụ là là Andrew Kirillov, một lập trình viên của IBM. 3.3. Một số kết quả thử nghiệm và đánh giá hệ thống nhận dạng ký tự 3.5.1. Thử nghiệm hệ thống nhận dạng ký tự 3.5.2. Ưu điểm và hạn chế Ưu điểm: Hệ thống đã nhận dạng tốt với các đối tượng ký tự chuẩn và tốc độ khá nhanh với lỗi rất thấp, còn các ký tự vẽ tay bằng paint kết quả nhận dạng chính xác nếu đầu vào vẽ ký tự chuẩn không quá xiên xẹo và hệ thống cần thời gian huấn luyện lâu . Nhược điểm: Hệ thống còn phụ thuộc nhiều ở đầu vào của ảnh. Đối với một số ký tự vẽ đứt nét ,độ lệch so với ký tự chuẩn quá nhiều cho kết quả không tốt ở phần nhận dạng ảnh. Hệ thống hiện nay mới chỉ triển khai trên môi trường desktop nên chưa thật sự tiện lợi cho người sử dụng. 3.5.3. Hướng phát triển trong tương lai Hệ thống hiện tại là bản nhận dạng một ký tự, trong tương lai em hi vọng có thể phát triển hệ thống nhận dạng được nhiều ký tự một lúc, trên nhiều hàng, nhiều dòng. Ngoài ra, hướng phát triển lâu dài mang tính tương lai là nhận dạng được chữ viết tay tiếng việt và trả về kết quả là giọng nói, từ đó có thể làm thành phần mềm hỗ trợ nghe đọc cho người mù. 19 PHẦN KẾT LUẬN Nhận dạng và gán nhãn cho đối tượng trong cuộc sống thường ngày hiện nay đóng vai trò rất quan trọng và được áp dựng nhiều trong thực tế như: sản xuất và kiểm tra chất lượng, sự di chuyển của Robot, các phương tiện đi lại tự trị, công cụ hướng dẫn cho người mù, an ninh và giám sát, nhận dạng đối tượng, nhận dạng mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video, Luận văn tập trung vào nghiên cứu một số kỹ thuật gán nhãn đối tượng dựa vào kỹ thuật nhận dạng và đã đạt được các kết quả sau :  Trình bày khái quát về các kỹ thuật gán nhãn đối tượng dựa vào nhận dạng.  Hệ thống hóa lại các kiến thức: một số kỹ thuật gán nhãn, mạng neural nhân tạo, bài toán nhận dạng đối tượng và cách sử dụng mạng neural vào phân tích một bái toán cụ thể.  Cài đặt chương trình thử nghiệm hệ thống nhận dạng ký tự. Hướng phát triển tiếp : Do có những hạn chế nhất định về mặt thời gian và kiến thức của bản thân, luận văn mới chỉ dừng lại ở mức thử nghiệm của hệ thống trên một ảnh với số lượng ảnh và thông tin trên ảnh khá khiêm tốn cho việc xác nhận ký tự. Trong thời gian tới, em sẽ tiến hành thử nghiệm hệ thống với tập dữ liệu chữ viết tay và quả đầy đủ hơn. Đồng thời, tăng số lượng 20 ảnh và chi tiết trong ảnh nhiều lên cần nhận dạng để xây dựng môt hệ thống hoàn chỉnh. Nhận dạng ảnh và gán nhãn là một phần rất quan trọng của lĩnh vực nhận dạng nói riêng và xử lý ảnh nói chung. Cùng với việc sử dụng công cụ là mạng neural là một lĩnh vực đã được sử dụng nhiều nhưng vẫn cần được phát triển hơn. 21 DANH MỤC TÀI LIỆU THAM KH O Tiếng việt [1] Đỗ Năng Toàn (2010), Giáo trình xử lý ảnh, Học viện Công nghệ Bưu chính Viễn thông. Tiếng Anh [2] D. Heckenberg, B. C. Lovell (2000), “A Gesture Driven Computer Interface”, Proceeding of Visual Communications and Image Processing, SPIE, 4067, 261-268. [3] Journal on Graphics (2006),Vision and Image Processing, 6. [4] J. Mathews (2002), “An Introduction to Edge Detection: The Sobel Edge Detector”. [5] Peter l. Rockett (2005), “An Improved Rotation-Invarient Thinning Algorithm”, IEEE transaction on Pattern, Analysis and Machine Intelligence, 27, 10. [6] Te-Hsiu Sun, Fang-Chih Tien (2008), Using Backpropagation Neural Network for Face Recognition with 2D+ 3D Hybrid Information, Elsevier: Expert System with Applications, 35,361-372. [7] N. Sakai, S. Yonekawa and A. Matsuzaki, Two-dimensional image analysis of the shape of rice and its applications to separating varieties”, Journal of Food Engineering, vol 27, 1996, pp. 397-407. [8] A. J. M. Timmermans, and A. A. Hulzebosch, Computer vison system for on-line sorting of pot plants using an artificial neural network classifier, Computers and Electronics in Agriculture, vol. 15, 1996, pp. 41-55. 22 [9] S. Abbasi, F. Mokhtarian, and J. Kittler, Reliable classification of chrysanthemum leaves through curvature scale space, Lecture Notes in Computer Science, vol. 1252, 1997, pp. 284- 295. [10] J. Camarero, S. Siso, and E.G-Pelegrin, Fractal dimension does not adequately describe the complexity of leaf margin in seedlings of Quercus species, Anales del Jardín Botánico de Madrid, vol. 60, no. 1, 2003, pp. 63-71. [11] C-L Lee, and S-Y Chen, Classification of leaf images, 16th IPPR Conference on Computer Vision, Graphics and Image Processing (CVGIP), 2003, pp. 355-362. [12] S. G. Wu, F. S. Bao, E. Y. Xu, Y-X Wang, Y-F Chang, and Q-L Xiang, A leaf recognition algorithm for plant classification using probabilistic neural network, The Computing Research Repository (CoRR), vol.1, 2007, pp. 11-16. [13] J. Pan and Y. He, Recognition of plants by leaves digital image and neural network, International Conference on Computer Science and Software Engineering, vol 4, 2008, pp. 906 – 910. 23

Các file đính kèm theo tài liệu này:

gan_nhan_doi_tuong_dua_vao_ky_thuat_nhan_dang_4189.pdf