Nhận dạng và gán nhãn cho đối tượng trong cuộc sống
thường ngày hiện nay đóng vai trò rất quan trọng và được áp dựng
nhiều trong thực tế như: sản xuất và kiểm tra chất lượng, sự di
chuyển của Robot, các phương tiện đi lại tự trị, công cụ hướng dẫn
cho người mù, an ninh và giám sát, nhận dạng đối tượng, nhận dạng
mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video,
Luận văn tập trung vào nghiên cứu một số kỹ thuật gán nhãn
đối tượng dựa vào kỹ thuật nhận dạng và đã đạt được các kết quả sau:
Trình bày khái quát về các kỹ thuật gán nhãn đối tượng dựa vào nhận dạng.
Hệ thống hóa lại các kiến thức: một số kỹ thuật gán nhãn,
mạng neural nhân tạo, bài toán nhận dạng đối tượng và
cách sử dụng mạng neural vào phân tích một bái toán cụ thể.
23 trang |
Chia sẻ: builinh123 | Lượt xem: 1660 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu [Tóm tắt] Luận văn Gán nhãn đối tượng dựa vào kỹ thuật nhận dạng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
NGUYỄN VŨ QUANG
GÁN NHÃN ĐỐI TƯỢNG DỰA VÀO
KỸ THUẬT NHẬN DẠNG
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý Hệ thống thông tin
Mã số: Chuyên ngành đào tạo thí điểm
TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Đỗ Năng Toàn
Hà Nội - 2015
2
PHẦN MỞ ĐẦU
Cùng với sự phát triển ngày càng mạnh mẽ của khoa học kĩ
thuật trong một vài thập kỷ gần đây, xử lý ảnh tuy là một ngành khoa
học còn tương đối mới mẻ so với nhiều ngành khoa học khác nhưng
hiện nay nó đang là một trong những lĩnh vực phát triển rất nhanh và
thu hút sự quan tâm đặc biệt từ các nhà khoa học, thúc đẩy các trung
tâm nghiên cứu, ứng dụng về lĩnh vực hấp dẫn này.
Nhận dạng và gán nhãn cho hình ảnh đóng vai trò quan trọng
trong nhiều ứng dụng thực tế về khoa học kĩ thuật cũng như trong
cuộc sống thường ngày như: sản xuất và kiểm tra chất lượng, sự di
chuyển của Robot, các phương tiện đi lại tự trị, công cụ hướng dẫn
cho người mù, an ninh và giám sát, nhận dạng đối tượng, nhận dạng
mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video,
Một trong những ứng dụng quan trọng, là việc nhận dạng và
gán nhãn cho các loại hình ảnh . Tự động nhận dạng ảnh và đặt vị
trí nhãn là một lĩnh vực trong trực quan hóa thông tin. Nhãn là các
đoạn văn bản nhằm truyền đạt thông tin, làm rõ ý nghĩa của các cấu
trúc phức tạp được biểu diễn ở dạng đồ họa.
Bài toán nhận dạng và gán nhãn đã được đề cập, nghiên cứu
nhiều trên thế giới. Tại Việt Nam bài toán này cũng đang rất được
chú trọng và được ứng dụng trong rất nhiều lĩnh vực. Vì vậy, đề tài
này được xây dựng với các mục đích: Tìm hiểu về bài toán nhận dạng
hình ảnh và gán nhãn, ứng dụng của nó trong các lĩnh vực; Tìm hiểu
một số vấn đề, các thuật toán liên quan; Đặt nền tảng cho cá nhân
nghiên cứu, tìm hiểu sâu hơn về vấn đề này. Từ đó thiết kế một
chương trình thử nghiệm nhận dạng và gán nhãn cho một ảnh cụ thể.
Luận văn gồm phần mở đầu, phần kết luận và 3 chương, nội
dung các chương như sau:
Chương 1: Khái quát về gán nhãn và bài toán nhận dạng
đối tượng
3
Chương này khái quát lại cơ bản những kiến thức về bài toán
gán nhãn gồm xử lý ảnh và gán nhãn trong xử lý ảnh. Đồng thời nói
về bài toán nhận dạng đối tượng, vai trò và tầm quan trọng của bài
toán nhận dạng đối tượng, các phương pháp nhận dạng đối tượng
cũng như một số hệ thống nhận dạng đối tượng nổi tiếng trên thế giới
Chương 2: Một số vấn đề trong nhận dạng đối tượng sử
dụng mạng nơron
Chương 2 đề cập đến một số vấn đề trong nhận dạng đối tượng
sử dụng mạng nơron. Mô tả kiến trúc của một hệ thống nhận dạng
đối tượng sử dụng mạng nơron nhân tạo và cách thiết kế, huấn luyện
mạng nơron nhân tạo cho việc nhận dạng.
Chương 3: Chương trình thử nghiệm
Chương này áp dụng các kiến thức nghiên cứu trong chương 1
và chương 2, sử dụng mạng nơron nhiều lớp lan truyền ngược và kỹ
thuật gán nhãn để xây dựng một chương trình nhận dạng ký tự.
4
CHƯƠNG 1: KHÁI QUÁT VỀ GÁN NHÃN VÀ BÀI TOÁN
NHẬN DẠNG ĐỐI TƯỢNG
Chương này khái quát lại cơ bản những kiến thức về bài toán
gán nhãn gồm xử lý ảnh và gán nhãn trong xử lý ảnh. Đồng thời nói
về bài toán nhận dạng đối tượng, vai trò và tầm quan trọng của bài
toán nhận dạng đối tượng, các phương pháp nhận dạng đối tượng
cũng như một số hệ thống nhận dạng đối tượng nổi tiếng trên thế
giới.
1.1. Khái quát về gán nhãn
1.1.1. Xử lý ảnh
Xử lý ảnh là một phần của lĩnh vực xử lý tín hiệu số. Tăng
cường chất lượng thông tin hình ảnh đối với quá trình tri giác của con
người và biễu diễn trên máy tính. Xử lý ảnh số bao gồm các phương
pháp và kỹ thuật để biến đổi, để truyền tải hoặc mã hóa các ảnh tự
nhiên.
Xử lý ảnh liên quan đến việc thay đổi hình ảnh để đạt được
một trong hai mục đích:
- Thứ nhất: biến đổi ảnh và làm đẹp ảnh.
- Thứ hai: tự động phân tích nhận dạng ảnh hay đoán nhận ảnh
và đánh giá các nội dung của ảnh.
Lý do phải xử lý ảnh:
- Ảnh có thể bị lỗi trong quá trình thu ảnh, truyền dẫn và hiển
thị (hồi phục, nâng cao chất lượng ảnh, nội suy)
- Ảnh có thể mang các nội dung nhạy cảm (vd, chống lại copy
không hợp pháp, giả mạo và lừa đảo)
- Tạo các bức ảnh có hiệu ứng nghệ thuật
Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức
tạp của thuật toán xử lý như sau:
- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản
như thực hiện các bộ lọc nhằm khử nhiễu trong ảnh, tăng cường độ
5
tương phản hay độ nét của ảnh. Trong trường hợp này, tín hiệu đưa
vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học.
- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường
được sử dụng để phân lớp, phân đọan ảnh, xác định và dự đóan biên
ảnh, nén anh để lưu trữ hoặc truyền phát. Đặc điểm của các hệ thống
xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn tín hiệu đầu
ra là các thành phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu
nhận được sau khi nén ảnh.
- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình
ảnh. Đây cũng là quá trình xử lý được thực hiện trong hệ thống thì
giác của con người.
Chúng ta có thể thấy rằng, không phải bất kỳ một ứng dụng xử
lý ảnh nào cũng bắt buộc phải tuân theo các bước xử lý đã nêu ở trên,
ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước
tiền xử lý. Một cách tổng quát thì những chức năng xử lý bao gồm cả
nhận dạng và giải thích thường chỉ có mặt trong hệ thống phân tích
ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thông
tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng kí tự quang
học, nhận dạng chữ viết tay vv.
1.1.2. Gán nhãn trong xử lý ảnh
Nhãn là các đoạn văn bản nhằm truyền đạt thông tin, làm rõ
ý nghĩa của các cấu trúc phức tạp được biểu diễn ở dạng đồ họa. Bài
toán tự động gán nhãn được xác định là một lĩnh vực nghiên cứu
quan trọng của ACM Computational Geometry Task Force (Đội tính
toán hình học ACM)
Gán nhãn là nguồn của nhiều bài toán tối ưu hóa hình học.
Ngay cả khi nhãn được đặt vào vị trí cố định tương ứng với một
điểm, đây vẫn là bài toán NP-hard. Các bản đồ cần được gán nhãn,
vậy cần có các giải thuật hiệu quả, giải thuật heuristics để xác định
những ràng buộc, vị trí có thể.
6
Gán nhãn cho đối tượng là xác định nhãn phân loại cho từng
thành phần trong đối tượng quan sát được. Gán nhãn cho đối tượng
được sử dụng nhiều trong các bài toán gán nhãn từ loại, nhận dạng
hình ảnh, âm thanh hay các bài toán về dự đoán gen
Đây là bài toán có ứng dụng trong nhiều lĩnh vực bao gồm vẽ
bản đồ, hệ thống thông tin địa lý và vẽ đồ thị. Hiện trên thế giới đã có
nhiều công trình nghiên cứu về bài toán gán nhãn tự động. Tuy nhiên
ở Việt Nam, bài toán này còn được đề cập đến một cách hạn chế.
Trong bài toán gán nhãn cho đối tượng thành công, nhãn phải
được đặt sao cho người xem dễ đọc và theo tiêu chuẩn chất lượng
thẩm mỹ cơ bản. Nhãn phải được đặt ở vị trí tốt nhất có sẵn theo một
số quy tắc cơ bản: Nhãn phải được dễ dàng đọc, nhanh chóng xác
định vị trí một nhãn và đối tượng mà nó thuộc về thì nên được dễ
dàng thừa nhận, nhãn phải được đặt rất gần với các đối tượng của
chúng, nhãn không được che khuất các nhãn khác hoặc các đối tượng
khác, một nhãn phải được đặt ở vị trí thích hợp nhất trong số tất cả
các vị trí dễ đọc. Tóm tắt các đánh giá chất lượng gán nhãn trong ba
quy tắc cơ bản sau đây:
- Không có sự chồng chéo của một nhãn với các nhãn khác,
các đối tượng đồ họa khác của bản vẽ.
- Mỗi nhãn có thể dễ dàng được xác định là của đối tượng
nào trong hình vẽ.
- Mỗi nhãn phải được đặt ở vị trí tốt nhất có thể (trong số tất
cả các nhãn có vị trí chấp nhận được). Thứ tự hiển thị ưu tiên giữa
các vị trí nhãn có thể thay đổi tùy theo ứng dụng cụ thể.
1.2. Bài toán nhận dạng đối tượng.
1.2.1. Giới thiệu
Như chúng ta biết, sự xuất hiện hình ảnh của một bề mặt phụ
thuộc vào nhiều yếu tố: Ánh sáng, các thông số máy ảnh và định vị
máy ảnh. Trong rất nhiều lĩnh vực như điều khiển, tự động hóa, công
nghệ thông tin, nhận dạng được đối tượng là vấn đề mấu chốt
7
quyết định sự thành công của bài toán. Nhận dạng là bước đầu tiên và
quan trọng nhất của nhiều lĩnh vực khoa học, đặc biệt trong lĩnh vực
điều khiển và tự động hóa nếu không nhận dạng chính xác đối tượng
điều khiển thì sẽ không có giải pháp tối ưu nhất để điều khiển chúng.
Từ việc một đối tượng phải được nhận dạng từ sự xuất hiện của nhiều
vật thể, sự phức tạp của nhận dạng đối tượng phụ thuộc vào nhiều
yếu tố. Nhận dạng là quá trình phân loại các đối tượng được biểu
diễn theo một mô hình nào đó và gán chúng một tên (gán cho đối
tượng một tên gọi, tức là một dạng) dựa theo những quy luật và mẫu
chuẩn.
1.2.2. Các cách tiếp cận
1.2.2.1. Nhận dạng đối tượng dùng thống kê
Khái niệm: Nhận dạng đối tượng dùng thống kê là một
phương pháp nhận dạng đối tượng dựa vào các đặc tính thống kê của
các đối tượng. Nhận dạng đối tượng dùng thống kê sử dụng các
phương pháp máy học dựa trên thống kê để học và rút ra đối tượng
tham khảo từ một lượng dữ liệu lớn.
1.2.2.2. Nhận dạng dựa theo cấu trúc
Biểu diễn định tính
Trong cách biểu diễn này, người ta quan tâm đến các dạng và
mối quan hệ giữa chúng. Giả thiết rằng, mỗi đối tượng được biểu
diễn bởi một dãy ký tự, các đặc tính biểu diễn bởi cùng một số ký tự.
Phương pháp nhận dạng ở đây là nhận dạng logic, dựa vào hàm phân
biệt là hàm Bool. Cách nhận dạng là nhận dạng các từ có cùng độ dài.
1.2.2.3. Nhận dạng dựa trên mạng nơron
Giới thiệu
Xét trường hợp đối tượng phi tuyến có độ phức tạp cao, nếu
sử dụng phương pháp giải tích thông thường để nhận dạng sẽ rất khó
khăn, thậm chí không thực hiện được do sự hiểu biết nghèo nàn về
đối tượng. Vì vậy các nhà khoa học đã đưa ra ý tưởng là sử dụng
công cụ tính toán mềm như hệ mờ, mạng nơron, đại số gia tử để xấp
8
xỉ -chính là nhận dạng đối tượng. Mạng nơron là một trong những
công cụ hữu hiệu để nhận dạng mô hình đối tượng, bằng phương
pháp này ta không biết được mô hình toán thực sự của đối tượng
nhưng hoàn toàn có thể sử dụng kết quả xấp xỉ để thay thế đối tượng.
Cấu trúc neural nhân tạo
Mô hình nơron nhân tạo gồm 3 phần chính: Bộ tổng liên kết
đầu vào, bộ động học tuyến tính và bộ phi tuyến.
1.2.3. Một số hệ thống nhận dạng đối tượng hiện nay
1.2.4. Quy trình hoạt động của một hệ thống nhận dạng đối
tượng
9
CHƯƠNG 2: NHẬN DẠNG ĐỐI TƯỢNG SỬ DỤNG MẠNG
NƠRON
Chương 2 đề cập đến một số vấn đề trong nhận dạng đối
tượng sử dụng mạng Nơron. Mô tả kiến trúc của một hệ thống nhận
dạng đối tượng sử dụng mạng nơron nhân tạo và cách thiết kế, huấn
luyện mạng nơron nhân tạo cho việc nhận dạng.
2.1. Kiến trúc một hệ thống nhận dạng đối tượng sử dụng mạng
nơron nhân tạo
2.1.1. Khái niệm mạng nơron nhân tạo
Mạng nơron nhân tạo hay thường gọi ngắn gọn là mạng
nơron, trong tiếng anh là Artificial Neural Network. Nó gồm có một
nhóm các nơron nhân tạo nối với nhau, và xử lý thông tin bằng cách
truyền theo các kết nối và tính giá trị mới tại các nút. Trong nhiều
trường hợp, mạng nơron nhân tạo là một hệ thống
thích ứng, tự thay đổi cấu trúc của mình dựa trên các thông tin bên
ngoài hay bên trong chảy qua mạng trong quá trình học.
2.1.2. Lịch sử phát triển của mạng nơron
2.1.3. Mô hình nơron
2.1.3.1. Nơron nhân tạo đơn giản
Một nơron nhân tạo đơn giản là một thiết bị với nhiều đầu
vào và có một đầu ra. Nơron có hai chế độ hoạt động: chế độ huấn
luyện và chế độ sử dụng. Trong chế độ huấn luyện, nơron có thể
được huấn luyện với một số các đối tượng đầu vào tới khi không
được sử dụng nữa. Trong chế độ sử dụng thì khi phát hiện một đối
tượng đã học tại đầu vào, đầu ra của nó sẽ trở thành đầu ra hiện tại.
Nếu đối tượng đầu vào không thuộc vào danh sách đối tượng đã học
thì luật loại bỏ được sử dụng để tiếp tục dùng hay loại bỏ nơron.
2.1.3.2. Nơron phức tạp hơn (Mô hình McCulloch và Pitts: MCP)
Sự khác biệt với mô hình đơn giản ở trên là đầu vào của mô
hình này có trọng số, hiệu quả của nó là mỗi đầu vào có một sự đưa
10
ra quyết định phụ thuộc vào trọng số của từng đầu vào. Trọng số của
một đầu vào là một số mà khi nhân với đầu vào thì ta có được trọng
số đầu vào. Những đầu vào trọng số này được nhóm lại với nhau và
nếu chúng vượt quá giá trị ngưỡng thì nơron sẽ bị loại bỏ. Với các
trường hợp khác thì nơron không bị loại bỏ.
2.1.4. So sánh mạng nơron với máy tính truyền thống
2.1.5. Một số kiến trúc mạng nơron dùng nhận dạng đối tượng
2.1.5.1. Mạng truyền thẳng
Mạng truyền thẳng cho phép tín hiệu truyền chỉ theo một
đường từ đầu vào tới đầu ra, không có sự phản hồi hay lặp lại. Mạng
này có xu hướng truyền thẳng giữa đầu vào với đầu ra. Chúng được
dùng rộng rãi trong nhận dạng đối tượng. Cách tổ chức trong mạng
truyền thẳng là tham chiếu tới phương pháp từ dưới lên hoặc là từ
trên xuống.
2.1.5.2. Mạng hồi quy
Mạng hồi quy có kiến trúc tương tự mạng truyền thẳng (hình
2.3) nhưng có điểm khác nhau đó là nó cho phép tín hiệu truyền theo
cả hai hướng. Mạng hồi quy truyền tín hiệu rất tốt và có thể trở lên
rất phức tạp. Nó có tính động; trạng thái của nó thay đổi liên tục tới
khi đạt tới điểm trạng thái cân bằng. Chúng duy trì điểm
cân bằng tới khi đầu vào thay đổi và cần tìm một một trạng thái cân
bằng mới. Kiến trúc hồi quy có thể tham chiếu tới việc tương tác.
2.1.5.3. Các lớp mạng
Các loại phổ biến nhất của mạng nơron nhân tạo bao gồm ba
nhóm hoặc lớp của các đơn vị: một lớp của các đơn vị "đầu vào"
được kết nối với một lớp của các đơn vị "ẩn", và lớp đơn vị “ẩn” này
được kết nối với một lớp của đơn vị "đầu ra".
2.1.5.4. Perceptrons
Nghiên cứu có ảnh hưởng nhất trên mạng nơron trong những
năm 60 được tiến hành dưới tiêu đề của “perceptron” một thuật ngữ
11
được đặt ra bởi Frank Rosenblatt. Perceptron (hình 2.5) trở thành một
mô hình MCP (nơron với đầu vào trọng số) với một số bổ sung, sửa
chữa, tiền xử lý. Các đơn vị có nhãn A1, A2, Aj, Ap được gọi là đơn
vị kết nối và nhiệm vụ của chúng là trích xuất các đặc điểm riêng biệt
từ những hình ảnh đầu vào.
2.1.6. Ứng dụng của mạng nơron nhân tạo
2.2. Thiết kế mạng nơron nhân tạo
2.2.1. Các bước thiết kế
Các bước trong thiết kế một mô hình mạng nơron nhân tạo,
gồm 7 bước:
Bước 1: Lựa chọn biến
Bước 2: Thu thập dữ liệu
Bước 3: Tiền xử lý dữ liệu
Bước 4: Các tập dữ liệu huấn luyện, kiểm thử, và chứng
thực.
Bước 5: Sơ đồ mạng nơron:
Số lượng lớp ẩn,
Số lượng nơron ẩn,
Số lượng nơron đầu ra,
Hàm chuyển đổi.
Bước 6: Huấn luyện mạng nơron: Số lần lặp lại huấn
luyện.
Bước 7: Triển khai
2.2.2. Chi tiết các bước thiết kế một mạng nơron.
2.2.2.1. Lựa chọn biến
2.2.2.2. Thu thập dữ liệu
2.2.2.3. Tiền xử lý dữ liệu
2.2.2.4. Các tập dữ liệu huấn luyện, kiểm thử, và chứng thực.
2.2.2.5. Sơ đồ mạng nơron
2.2.2.6. Quá trình huấn luyện mạng nơron
2.2.2.7. Triển khai
12
2.3. Huấn luyện mạng
2.3.1. Các phương pháp học
Hình trạng mạng và trọng số của các liên kết bên trong mạng
quyết định chức năng của một mạng nơron. Hình trạng của mạng bao
gồm số lớp, số đơn vị trên mỗi tầng, và cách mà các lớp được liên kết
với nhau của mạng và thường là cố định. Một thuật toán huấn luyện
được lưa chọn sẽ quyết định các trọng số. Tiến trình điều chỉnh các
trọng số để mạng “nhận biết” được quan hệ giữa đầu vào và đích
mong muốn được gọi là học hay huấn luyện
2.3.2. Học có giám sát trong các mạng nơron
Học có giám sát có thể được xem như việc xấp xỉ một ánh xạ:
X→ Y, trong đó X là tập các vấn đề và Y là tập các lời giải tương
ứng cho vấn đề đó. Các đối tượng (x, y) với x = (x1, x2,..., xn) ∈ X, y
= (yl, y2,,ym) ∈ Y được cho trước.
2.3.3. Thuật toán lan truyền ngược Back-Propagation
Thuật toán lan truyền ngược là dạng tổng quát của thuật toán
trung bình bình phương tối thiểu. Thuật toán này thuộc dạng thuật
toán xấp xỉ để tìm các điểm mà tại đó hiệu năng của mạng là tối ưu.
Chỉ số tối ưu thường được xác định bởi một hàm số của ma trận trọng
số và các đầu vào nào đó mà trong quá trình tìm hiểu
bài toán đặt ra.
2.3.3.1. Mô tả thuật toán
Mạng lan truyền ngược là một hàm phi tuyến có thể xấp xỉ
gần đúng nhất một hàm đích được cho qua một số đối tượng trong
tập đối tượng. Một mạng lan truyền tổng quát là một mạng có n (n>2)
lớp: lớp thứ nhất gọi là lớp nhập, lớp thứ n là lớp xuất và n-2 lớp ẩn.
Phần lớn các mạng chỉ có một biến phụ thuộc nhưng với mô hình tả
trên mạng nơron cho phép số nút trong lớp nhập, lớp xuất, và lớp ẩn
13
là tùy ý. Số nút trong lớp nhập và lớp xuất phụ thuộc vào yêu cầu bài
toán, số nút ẩn do người xây dựng mô hình quyết định.
2.3.3.2. Sử dụng thuật toán Back – Propagation
2.3.3.3. Đánh giá thuật toán
Ưu điểm của thuật toán:
- Dễ dàng triển khai
- Phương pháp chuẩn và hoạt động tốt
- Thời gian tính toán giảm nếu các trọng số được chọn ban
đầu nhỏ
- Không yêu cầu đặc tính đặc biệt của hàm được học.
Nhược điểm thuật toán:
- Có thể bị vướng vào tối thiểu địa phương trong nghiệm
tối ưu.
- Số lượng lớn đầu vào/đầu ra nhưng không chắc chắn về
sự liên hệ giữa chúng với đầu ra.
- Nghiệm của phương trình có thể thay đổi theo thời gian
- Đầu ra có thể mờ và không phải là số.
2.4. Nhận dạng sử dụng mạng nơron
2.4.1. Khả năng sử dụng mạng nơron trong nhận dạng
Xét trường hợp đối tượng phi tuyến tính có độ phức tạp cao,
nếu sử dụng phương pháp giải tích thông thường để nhận dạng sẽ rất
khó khăn, thậm chí không thực hiện được do sự hiểu biết nghèo nàn
về đối tượng. Vì vậy các nhà khoa học đã đưa ra ý tưởng là sử dụng
công cụ tính toán mềm như hệ mờ, mạng nơron, đại số gia tử để xấp
xỉ. Mạng nơron là một trong những công cụ hữu hiệu để nhận dạng
mô hình đối tượng. Bằng phương pháp này ta không biết được mô
14
hình toán thực sự của đối tượng nhưng hoàn toàn có thể dùng kết quả
xấp xỉ để thay thế đối tượng.
Vì tính phi tuyến của các mạng nơron (hàm kích hoạt phi
tuyến), chúng được dùng để mô tả các hệ thống phi tuyến phức tạp.
Mạng nơron là một trong những công cụ nhận dạng tốt nhất vì các
đặc trưng sau: khả năng học từ kinh nghiệm hay được huấn luyện,
khả năng khái quát hoá cho các đầu vào không được huấn luyện.
Mạng nơron có khả năng xấp xỉ các hàm phi tuyến một cách
đầy đủ và chính xác, nó được sử dụng tốt cho các mô hình động học
phi tuyến. Điều quan trọng được sử dụng là thuật truyền ngược tĩnh
và động của mạng nơron, nó được sử dụng để hiệu chỉnh các tham số
trong quá trình nhận dạng.
2.4.2. Mô hình nhận dạng hệ thống sử dụng mạng nơron
Việc nhận dạng là việc đầu tiên và quan trọng. Khi thông số
của đối tượng là cần thiết để việc điều khiển đạt chất lượng mong
muốn. Khi thông số của đối tượng tự thay đổi trong tiến trình làm
việc (đối tượng phi tuyến) và có tính động học thì việc nhận dạng
theo chúng sẽ phức tạp hơn nhiều so với đối tượng có thông số bất
biến.
Nhận dạng thường chia ra làm: nhận dạng mô hình và nhận
dạng tham số. Nhận dạng mô hình là quá trình xác định mô hình của
đối tượng và thông số trên cơ sở đầu vào và đầu ra của đối tượng. Mô
hình thu được sau khi nhận dạng gọi là tốt nếu nó thể hiện được đúng
đối tượng.
15
Nhận dạng tham số chính là huấn luyện mạng. Mô hình cơ
bản của mạng nơron được luyện để mô phỏng hành vi của đối tượng
giống như mô hình truyền thống được biểu diễn trên hình :
2.4.3. Nhận dạng hệ thống sử dụng mạng nơron
Như vậy hai giai đoạn cần cho nhận dạng đó là lựa chọn mô
hình và tối ưu tham số. Đối với mạng nơron dựa vào nhận dạng lựa
chọn số nút ẩn, số lớp ẩn (cấu trúc của mạng) tương đương với mô
hình lựa chọn. Mạng có thể được huấn luyện theo kiểu giám sát với
kỹ thuật lan truyền ngược, dựa vào luật học sai số hiệu chỉnh. Tín
hiệu sai số được lan truyền ngược qua mạng. Kỹ thuật lan truyền
ngược sử dụng phương pháp giảm gradient để xác định các trọng của
mạng vì vậy tương đương với tối ưu tham số. Mạng nơron được huấn
luyện để xấp xỉ mối quan hệ giữa các biến.Mạng nơron được huấn
luyện để tối thiểu hàm sai số. Mạng được huấn luyện để tối thiểu sai
số bình phương giữa đầu ra của mạng và đầu vào hệ thống, xác định
một hàm truyền ngược. Trong kiểu nhận dạng này đầu ra của mạng
hội tụ về đầu vào hệ sau khi huấn luyện, vì vậy mạng đặc trưng cho
hàm truyền ngược của hệ. Phương pháp nhận dạng khác cần phải
hướng đầu ra hệ thống tới đầu ra của mạng. Trong kiểu này mạng đặc
16
trưng cho hàm truyền thẳng của hệ thống. Giả sử các hàm phi tuyến
để mô tả hệ thuộc lớp hàm đã biết trong phạm vi quan tâm thì cấu
trúc của mô hình nhận dạng phải phù hợp với hệ thống. Với giả thiết
các ma trận trọng của mạng nơron trong mô hình nhận dạng tồn tại,
cùng các điều kiện ban đầu thì cả hệ thống và mô hình có cùng lượng
ra với bất kỳ lượng vào xác định. Do đó quá trình nhận dạng thực
chất là điều chỉnh tham số của mạng nơron dựa vào sai lệch giữa các
giá trị đầu ra của hệ thống và của mô hình.
17
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM
Chương này áp dụng các kiến thức nghiên cứu trong chương
1 và chương 2, sử dụng mạng nơron nhiều lớp lan truyền ngược để
xây dựng một chương trình nhận dạng ký tự. Đồng thời, đánh giá kết
quả đã đạt được và định hướng phát triển tương lai.
3.1. Giới thiệu
Nhận dạng ký tự là một ứng dụng đang được rất nhiều quan
tâm nhưng nó đầy khó khăn và thử thách.
Điều rất khó của khả năng nhận dạng phù hợp kí tự là các
kiểu ngôn ngữ rất phức tạp không theo quy luật do biến đổi trong
font, kiểu và kích cỡ.
Với một số phương thức lập trình truyền thống đã ánh xạ ảnh
kí tự vào trong ma trận, phân tích ảnh hoặc vector dữ liệu, kiểm tra
đưa ra quyết định phù hợp của kết quả. Việc thực thi này trong lập
trình truyền thống cần viết mã nguồn vô tận cho mỗi kiểu đối với sự
không nhất quán hay sự lệch với các giá trị đầu ra khác nhau. Lý
thuyết này không hiện thực.
Sử dụng mạng neural nhân tạo với những mạng làm việc
đúng quy tắc từ việc cập nhật lại các trọng số liên kết giữa các nút
mạng. Với ưu điểm là mạng có thể nhận dữ liệu từ những phân tích
sinh động của các ảnh đầu vào và việc huấn luyện cho các ký tự đầu
ra cho mẫu nói cách khác là khả năng thích nghi với môi trường dữ
liệu đầu vào sinh động.
3.2. Các bước giải quyết bài toán
3.2.1. Xây dựng mạng nơron
3.2.2. Xử lý dữ liệu
3.2.3. Huấn luyện mạng
3.2.4. Nhận dạng ảnh
Quá trình nhận dạng của mạng neural đơn giản và dễ hiểu.
Khi chương trình chạy sẽ gọi các modun: phân tích ảnh, vector hóa...
18
trong quá trình huấn luyện có thể được sử dụng lại trong quá trình
nhận dạng.
3.2.5. Lựa chọn công cụ
Tôi lựa chọn ngôn ngữ C# và sử dụng nguồn opensource
Neural Network Ocr được được cấp phép theo giấy phép GNU
General Public (GPLv3), người phát triển đầu tiên và đưa ra các ví dụ
là là Andrew Kirillov, một lập trình viên của IBM.
3.3. Một số kết quả thử nghiệm và đánh giá hệ thống nhận dạng
ký tự
3.5.1. Thử nghiệm hệ thống nhận dạng ký tự
3.5.2. Ưu điểm và hạn chế
Ưu điểm: Hệ thống đã nhận dạng tốt với các đối tượng ký tự
chuẩn và tốc độ khá nhanh với lỗi rất thấp, còn các ký tự vẽ tay bằng
paint kết quả nhận dạng chính xác nếu đầu vào vẽ ký tự chuẩn không
quá xiên xẹo và hệ thống cần thời gian huấn luyện lâu .
Nhược điểm: Hệ thống còn phụ thuộc nhiều ở đầu vào của
ảnh. Đối với một số ký tự vẽ đứt nét ,độ lệch so với ký tự chuẩn quá
nhiều cho kết quả không tốt ở phần nhận dạng ảnh. Hệ thống hiện
nay mới chỉ triển khai trên môi trường desktop nên chưa thật sự tiện
lợi cho người sử dụng.
3.5.3. Hướng phát triển trong tương lai
Hệ thống hiện tại là bản nhận dạng một ký tự, trong tương lai
em hi vọng có thể phát triển hệ thống nhận dạng được nhiều ký tự
một lúc, trên nhiều hàng, nhiều dòng. Ngoài ra, hướng phát triển lâu
dài mang tính tương lai là nhận dạng được chữ viết tay tiếng việt và
trả về kết quả là giọng nói, từ đó có thể làm thành phần mềm hỗ trợ
nghe đọc cho người mù.
19
PHẦN KẾT LUẬN
Nhận dạng và gán nhãn cho đối tượng trong cuộc sống
thường ngày hiện nay đóng vai trò rất quan trọng và được áp dựng
nhiều trong thực tế như: sản xuất và kiểm tra chất lượng, sự di
chuyển của Robot, các phương tiện đi lại tự trị, công cụ hướng dẫn
cho người mù, an ninh và giám sát, nhận dạng đối tượng, nhận dạng
mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video,
Luận văn tập trung vào nghiên cứu một số kỹ thuật gán nhãn
đối tượng dựa vào kỹ thuật nhận dạng và đã đạt được các kết quả sau
:
Trình bày khái quát về các kỹ thuật gán nhãn đối tượng dựa
vào nhận dạng.
Hệ thống hóa lại các kiến thức: một số kỹ thuật gán nhãn,
mạng neural nhân tạo, bài toán nhận dạng đối tượng và
cách sử dụng mạng neural vào phân tích một bái toán cụ
thể.
Cài đặt chương trình thử nghiệm hệ thống nhận dạng ký tự.
Hướng phát triển tiếp :
Do có những hạn chế nhất định về mặt thời gian và kiến thức
của bản thân, luận văn mới chỉ dừng lại ở mức thử nghiệm của hệ
thống trên một ảnh với số lượng ảnh và thông tin trên ảnh khá khiêm
tốn cho việc xác nhận ký tự.
Trong thời gian tới, em sẽ tiến hành thử nghiệm hệ thống với
tập dữ liệu chữ viết tay và quả đầy đủ hơn. Đồng thời, tăng số lượng
20
ảnh và chi tiết trong ảnh nhiều lên cần nhận dạng để xây dựng môt hệ
thống hoàn chỉnh.
Nhận dạng ảnh và gán nhãn là một phần rất quan trọng của
lĩnh vực nhận dạng nói riêng và xử lý ảnh nói chung. Cùng với việc
sử dụng công cụ là mạng neural là một lĩnh vực đã được sử dụng
nhiều nhưng vẫn cần được phát triển hơn.
21
DANH MỤC TÀI LIỆU THAM KH O
Tiếng việt
[1] Đỗ Năng Toàn (2010), Giáo trình xử lý ảnh, Học viện Công
nghệ Bưu chính Viễn thông.
Tiếng Anh
[2] D. Heckenberg, B. C. Lovell (2000), “A Gesture Driven
Computer Interface”, Proceeding of Visual Communications and
Image Processing, SPIE, 4067, 261-268.
[3] Journal on Graphics (2006),Vision and Image Processing, 6.
[4] J. Mathews (2002), “An Introduction to Edge Detection:
The Sobel Edge Detector”.
[5] Peter l. Rockett (2005), “An Improved Rotation-Invarient
Thinning Algorithm”, IEEE transaction on Pattern, Analysis and
Machine Intelligence, 27, 10.
[6] Te-Hsiu Sun, Fang-Chih Tien (2008), Using
Backpropagation Neural Network for Face Recognition with 2D+ 3D
Hybrid Information, Elsevier: Expert System with Applications,
35,361-372.
[7] N. Sakai, S. Yonekawa and A. Matsuzaki, Two-dimensional
image analysis of the shape of rice and its applications to separating
varieties”, Journal of Food Engineering, vol 27, 1996, pp. 397-407.
[8] A. J. M. Timmermans, and A. A. Hulzebosch, Computer
vison system for on-line sorting of pot plants using an artificial
neural network classifier, Computers and Electronics in Agriculture,
vol. 15, 1996, pp. 41-55.
22
[9] S. Abbasi, F. Mokhtarian, and J. Kittler, Reliable
classification of chrysanthemum leaves through curvature scale
space, Lecture Notes in Computer Science, vol. 1252, 1997, pp. 284-
295.
[10] J. Camarero, S. Siso, and E.G-Pelegrin, Fractal
dimension does not adequately describe the complexity of leaf
margin in seedlings of Quercus species, Anales del Jardín Botánico
de Madrid, vol. 60, no. 1, 2003, pp. 63-71.
[11] C-L Lee, and S-Y Chen, Classification of leaf images,
16th IPPR Conference on Computer Vision, Graphics and Image
Processing (CVGIP), 2003, pp. 355-362.
[12] S. G. Wu, F. S. Bao, E. Y. Xu, Y-X Wang, Y-F Chang,
and Q-L Xiang, A leaf recognition algorithm for plant classification
using probabilistic neural network, The Computing Research
Repository (CoRR), vol.1, 2007, pp. 11-16.
[13] J. Pan and Y. He, Recognition of plants by leaves
digital image and neural network, International Conference on
Computer Science and Software Engineering, vol 4, 2008, pp. 906 –
910.
23
Các file đính kèm theo tài liệu này:
- gan_nhan_doi_tuong_dua_vao_ky_thuat_nhan_dang_4189.pdf