Nhận dạng chữ là một lĩnh vực đã được quan tâm nghiên cứu và ứng dụng từ nhiều năm nay theo hai hướng chính:
ã Nhận dạng chữ in: phục vụ cho công việc tự động hóa đọc tài liệu, tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp từ các nguồn tài liệu.
ã Nhận dạng chữ viết tay: với những mức độ ràng buộc khác nhau về cách viết, kiểu chữ . phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo viết tay . Nhận dạng chữ viết tay được tách thành hai hướng phát triển: nhận dạng chữ viết tay trực tuyến (on-line) và nhận dạng chữ viết tay ngoại tuyến (off-line).
Đến thời điểm này, bài toán nhận dạng chữ in đã được giải quyết gần như trọn vẹn (sản phẩm FineReader 9.0 của hãng ABBYY có thể nhận dạng chữ in theo 20 ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu chứa hình ảnh, bảng và văn bản tiếng Việt với độ chính xác trên 98%, .). Tuy nhiên trên thế giới cũng như ở Việt Nam, bài toán nhận dạng chữ viết tay vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu. Bài toàn này chưa thể giải quyết trọn vẹn vì nó phụ thuộc quá nhiều vào người viết và sự biến đổi quá đa dạng trong cách viết và trạng thái tinh thần của từng người viết. Đặc biệt đối với việc nghiên cứu nhận dạng chữ viết tay tiếng Việt lại càng gặp nhiều khó khăn hơn do bộ ký tự tiếng Việt có thêm phần dấu, rất dễ nhầm lẫm với các nhiễu.
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CỤM TỪ VIẾT TẮT 3
PHẦN MỞ ĐẦU 4
CHƯƠNG I. TỔNG QUAN VỀ CHỮ VIẾT VÀ LÝ THUYẾT NHẬN DẠNG 5
1.1. GIỚI THIỆU 6
1.2. MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY 6
1.2.1. Tiền xử lý 6
1.2.1.1. Nhị phân hóa ảnh .7
1.2.1.2. Lọc nhiễu 7
1.2.1.3. Chuẩn hóa kích thước ảnh .7
1.2.1.4. Làm trơn biên chữ 8
1.2.1.5. Làm đầy chữ .8 1.2.1.6. Làm mảnh chữ 8
1.2.1.7. Điều chỉnh độ nghiêng của văn bản 8
1.2.2. Khối tách chữ 9
1.2.2.1. Tách chữ theo chiều nằm ngang và thẳng đứng 9
1.2.2.2. Tách chữ dùng lược đồ sáng 9
1.2.3. Trích chọn đặc trưng .10
1.2.3.1. Biến đổi toàn cục và khai triển chuỗi 10
1.2.3.2. Đặc trưng thống kê .11
1.2.3.3. Đặc trưng hình học và hình thái 11
1.2.4. Huấn luyện và nhận dạng .13
1.2.5. Hậu xử lý 13
CHƯƠNG II. CÁC PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIẾT TAY 13
2.1. Đối sánh mẫu .13
2.2. Phương pháp tiếp cận cấu trúc 14
2.2.1. Phương pháp ngữ pháp (Grammatical Methods): .15
2.2.2. Phương pháp đồ thị (Graphical Methods): 15
2.3. Mạng nơ ron .15
2.4. Mô hình Markov ẩn (HMM - Hidden Markov Model) .16
2.5. Máy véc tơ tựa (SVM) 16 2.5.1. Giới thiệu . .16
2.5.2. Mô hình nhận dạng chữ viết tay rời rạc 17
2.5.2.1. Tiền xử lý 18
2.5.2.2. Trích chọn đặc trưng . .18
2.5.2.3. Lựa chọn thuật toán huấn luyện phân lớp .19
2.5.2.4. Thuật toán nhận dạng chữ viết tay rời rạc 19
2.5.3. Kết quả thực nghiệm 20
2.5.3.1. Chuẩn bị các bộ dữ liệu thực nghiệm .21
2.5.3.2. Kết quả thực nghiệm trên bộ dữ liêu MNIST 21
2.5.3.3. Kết quả thực nghiệm trên dữ liệu chữ viết tay tiếng Việt 22
2.5.4. Đánh giá hiệu quả phân lớp SVM 22
2.5.5. Kết luận 23
2.6. Kết hợp các kỹ thuật nhận dạng .24
2.6.1. Kiến trúc tuần tự .24
2.6.2. Kiến trúc song song 25
2.6.3. Kiến trúc lai ghép .25
2.7. Kết luận 25
CHƯƠNG III. ĐÁNH GIÁ,SO SÁNH CÁC PHƯƠNG PHÁP NHẬN DẠNG . 26
TÀI LIỆU THAM KHẢO . 29
37 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 5328 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Nhận dạng chữ viết tay sử dụng phương pháp mạng Nơ ron, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
g này có thể phân thành các nhóm sau:
Trích chọn và đếm các cấu trúc hình thái: trong nhóm đặc trưng này, một cấu trúc đã xác định được tìm kiếm trong một ký tự hoặc một từ. Số lượng vị trí hoặc quan hệ vị trí của các cấu trúc trong ký tự này tạo thành các đặc trưng biểu diễn ký tự. Thông thường, các cấu trúc nguyên thủy (các đoạn thẳng, các cung) là các nét tạo ra ký tự. Các ký tự và các từ có thể được mô tả bằng cách trích chọn và đếm nhiều loại đặc trưng về hình thái như các điểm cực đại và cực tiểu, các điểm chóp trên và chop dưới của một ngưỡng nào đó, mở rộng cho các điểm trái, phải, trên, dưới và các giao điểm, các điểm nhánh, điểm cuối đoạn thẳng, hướng của một nét từ một điểm đặc biệt, các điểm cô lập... đã tạo nên các ký tự [36,37].
Đo và xấp xỉ các tính chất hình học: trong nhiều công trình nghiên cứu [38,39], các ký tự được biểu diễn bằng độ đo của các đại lượng hình học như tỷ số giữa chiều rộng và chiều cao của hộp chứa ký tự, quan hệ khoảng cách giữa hai điểm, so sánh độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa và chữ thường của các từ, độ dài từ. Một độ đo tiêu biểu rất quan trọng nữa là độ cong hoặc thay đổi độ cong [40]. Các đại lượng hình học đo được có thể xấp xỉ bởi một tập các đặc trưng hình học vừa đủ và thuận tiện hơn [41].
Đồ thị và cây: Đầu tiên, các từ hoặc các ký tự được phân chia thành một tập các đối tượng nguyên thủy như các nét, các điểm chạc... Sau đó, các thành phần nguyên thủy được thay thế bằng các thuộc tính hoặc các đồ thị liên quan [42]. Có hai loại đặc trưng ảnh được mô tả bằng đồ thị. Loại thứ nhất sử dụng các tọa độ của hình dáng ký tự [43]. Loại thứ hai là một đặc trưng trừu tượng, các nút của đồ thị tương ứng với các nét chữ và các cạnh của đồ thị tương ứng với các mối quan hệ giữa các nét chữ [44]. Cây cũng có thể dùng để biểu diễn các từ và các ký tự với một tập các đặc trưng theo một quan hệ phân cấp [45].
Trích chọn đặc trưng hầu hết được thực hiện trên ảnh nhị phân. Tuy nhiên, việc nhị phân hóa ảnh đa cấp xám có thể xóa đi một số thông tin quan trọng của các ký tự. Trong trường hợp này, cũng có một số công trình nghiên cứu để trích chọn các đặc trưng trực tiếp từ các ảnh đa cấp xám [46].
Cuối cùng, mục đích chính của việc trích chọn đặc trưng là lựa chọn một tập đặc trưng phục vụ cho việc phân lớp sao cho hệ thống nhận dạng đạt độ chính xác cao nhất với số lượng phần tử được trích chọn ít nhất.
Luận án chỉ tập trung nghiên cứu một số đặc trưng thống kê và đặc trưng wavelet cho bài toán nhận dạng chữ Việt viết tay rời rạc.
1.2.4. Huấn luyện và nhận dạng
Đây là giai đoạn quan trọng nhất, giai đoạn này quyết định độ chính xác của hệ thống nhận dạng. Có nhiều phương pháp phân lớp khác nhau được áp dụng cho các hệ thống nhận dạng chữ viết tay. Các phương pháp này sẽ được phân tích cụ thể trong phần 1.3.
1.2.5. Hậu xử lý
Đây là công đoạn cuối cùng của quá trình nhận dạng. Có thể hiểu hậu xử lý là bước ghép nối các kí tự đã nhận dạng thành các từ, các câu, các đoạn văn nhằm tái hiện lại văn bản đồng thời phát hiện ra các lỗi nhận dạng sai bằng cách kiểm tra chính tả dựa trên cấu trúc và ngữ nghĩa của các từ, các câu hoặc các đoạn văn. Việc phát hiện ra các lỗi, các sai sót trong nhận dạng ở bước này góp phần đáng kể vào việc nâng cao chất lượng nhận dạng.
Cách đơn giản nhất để kết nối các thông tin ngữ cảnh là tận dụng một từ điển để điều chỉnh các lỗi của hệ thống nhận dạng. Ý tưởng cơ bản này dựa trên cơ sở đánh vần kiểm tra đầu ra của hệ thống nhận dạng và cung cấp một số khả năng cho các đầu ra của máy nhận dạng khi các đầu ra này không nằm đúng vị trí trong từ điển [47]. Việc kiểm tra lỗi chính tả phù hợp với một số ngôn ngữ như Anh, Pháp, Đức, Việt Nam,...
Mô hình ngôn ngữ thống kê N-Grams đã được áp dụng khá thành công trong việc kiểm tra chính tả ở công đoạn hậu xử lý của các hệ thống nhận dạng chữ viết và các hệ thống nhận dạng tiếng nói [48,49]. Trong mô hình N-Grams, mỗi từ chỉ phụ thuộc vào n từ đứng trước, giả thiết này rất quan trọng trong việc huấn luyện mô hình vì nó làm giảm đáng kể độ phức tạp của bài toán học mô hình ngôn ngữ từ tập dữ liệu huấn luyện.
II. CÁC PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIẾT TAY
Có nhiều phương pháp nhận dạng mẫu khác nhau được áp dụng rộng rãi trong các hệ thống nhận dạng chữ viết tay. Các phương pháp này có thể được tích hợp trong các hướng tiếp cận sau: Đối sánh mẫu, thống kê, cấu trúc, mạng nơ ron và SVM.
2.1 Đối sánh mẫu
Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyên mẫu (prototype) với nhau để nhận dạng ký tự hoặc từ. Nói chung, toán tử đối sánh xác định mức độ giống nhau giữa hai vé tơ (nhóm các điểm, hình dạng, độ cong...) trong một không gian đặc trưng. Các kỹ thuật đối sánh có thể nghiên cứu theo ba hướng sau:
Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp xám hoặc ảnh nhị phân được so sánh trực tiếp với một tập mẫu chuẩn đã được lưu trữ. Việc so sánh dựa theo một
độ đo về sự tương đồng nào đó (chẳng hạn như độ đo Euclide) để nhận dạng. Các kỹ thuật đối sánh này có thể đơn giản như việc so sánh một – một hoặc phức tạp hơn như phân tích cây quyết định [50,51]. Mặc dù phương pháp đối sánh trực tiếp đơn giản và có một cơ sở toán học vững chắc nhưng kết quả nhận dạng của nó cũng rất nhạy cảm với nhiễu.
Các mẫu biến dạng và Đối sánh mềm: Một phương pháp đối sánh khác là sử dụng các mẫu biến dạng, trong đó một phép biến dạng ảnh được dùng để đối sánh một ảnh chưa biết với một cơ sở dữ liệu ảnh đã biết [52].
Ý tưởng cơ bản của đối sánh mềm là đối sánh một cách tối ưu mẫu chưa biết với tất cả các mẫu có thể mà các mẫu này có thể kéo giãn ra hoặc co lại. Chỉ một không gian đặc trưng được thành lập, các véc tơ chưa biết được đối sánh bằng cách sử dụng quy hoạch động và một hàm biến dạng [53,54].
Đối sánh giảm nhẹ: Đây là một kỹ thuật đối sánh ảnh ở mức độ tượng trưng, kỹ thuật này sử dụng hình dáng đặc trưng cơ bản của ảnh ký tự. Thứ nhất, các vùng đối sánh đã được nhận biết. Sau đó, trên cơ sở một số vùng đối sánh được đánh giá tốt, các phần tử của ảnh được so sánh với các vùng đối sánh này. Công việc này đòi hỏi một kỹ thuật tìm kiếm trong một không gian đa chiều để tìm cực đại toàn cục của một số hàm [55].
Các kỹ thuật đối sánh mẫu chỉ áp dụng tốt đối với nhận dạng chữ in, còn đối với chữ viết tay thì các kỹ thuật này tỏ ra kém hiệu quả.
2.2. Phương pháp tiếp cận cấu trúc
Cách tiếp cận của phương pháp này dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tự nhiên. Để mô tả đối tượng người ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung,… Mỗi đối tượng được mô tả như một sự kết hợp của các dạng nguyên thuỷ.
Các quy tắc kết hợp các dạng nguyên thuỷ được xây dựng giống như việc nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết định nhận dạng là quá trình phân tích cú pháp [57,58]. Phương pháp này đặt vấn đề để giải quyết bài toán nhận dạng chữ tổng quát. Tuy vậy, cho đến nay còn nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưa xây dựng được các thuật toán phổ dụng. Hiện nay, nhận dạng theo cấu trúc phổ biến là trích trọn các đặc trưng của mẫu học, phân hoạch bảng ký tự dựa trên các đặc trưng này, sau đó ảnh cần nhận dạng sẽ được trích chọn đặc trưng, sau đó so sánh trên bảng phân hoạch để tìm ra ký tự có các đặc trưng phù hợp.
Đối với nhận dạng chữ viết tay rời rạc dựa theo cấu trúc xương và đường biên, công việc này đòi hỏi phải xây dựng các đặc trưng của chữ, đặc biệt là đặc trưng về các điểm uốn, điểm gấp khúc và đặc trưng của các nét. Sau khi tiến hành công đoạn tiền xử lý, công việc tách các nét được tiến hành thông qua các điểm chạc. Sau đó trích chọn đặc trưng cấu trúc xương của chữ, mỗi nét đặc trưng bởi cặp chỉ số đầu và cuối tương ứng với thứ tự của điểm chạc đầu và điểm chạc cuối. Cuối cùng là xây dựng cây tìm kiếm, dựa vào đặc trưng về cấu trúc xương và cấu trúc biên để phân tập mẫu học thành các lớp. Quá trình tìm kiếm để phân lớp được tiến hành qua hai bước: Xác định lớp tương ứng với mẫu vào và tìm kiếm trong lớp đó mẫu nào gần giống với mẫu vào nhất [62,63].
Các phương pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ được phát triển theo hai hướng sau:
2.2.1. Phương pháp ngữ pháp (Grammatical Methods):
Giữa thập niên 1960, các nhà nghiên cứu bắt đầu xét các luật của ngôn ngữ học để phân tích tiếng nói và chữ viết. Sau đó, các luật đa dạng của chính tả, từ vựng và ngôn ngữ học đã được áp dụng cho các chiến lược nhận dạng. Các phương pháp ngữ pháp khởi tạo một số luật sinh để hình thành các ký tự từ một tập các công thức ngữ pháp nguyên thủy. Các luật sinh này có thể kết nối bất kỳ kiểu đặc trưng thống kê và đặc trưng hình thái nào dưới một số cú pháp hoặc các luật ngữ nghĩa [56,57,58]. Giống như lý thuyết ngôn ngữ, các luật sinh cho phép mô tả các cấu trúc câu có thể chấp nhận được và trích chọn thông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiểu ngữ pháp khác nhau [59].
Trong các phương pháp này, việc huấn luyện được thực hiện bằng cách mô tả mỗi ký tự bằng một văn phạm Gi. Còn trong pha nhận dạng thì chuỗi, cây hoặc đồ thị của một đơn vị viết bất kỳ (ký tự, từ hoặc câu) được phân tích để quyết định văn phạm của mẫu đó thuộc lớp nào. Các phương pháp ngữ pháp hầu hết được sử dụng trong giai đoạn hậu xử lý để sửa các lỗi mà khối nhận dạng đã thực hiện sai [60,61].
2.2.2. Phương pháp đồ thị (Graphical Methods):
Các đơn vị chữ viết được mô tả bởi các cây hoặc các đồ thị. Các dạng nguyên thủy của ký tự (các nét) được lựa chọn bởi một hướng tiếp cận cấu trúc. Đối với mỗi lớp, một đồ thị hoặc cây được thành lập trong giai đoạn huấn luyện để mô tả các nét, các ký tự hoặc các từ. Giai đoạn nhận dạng gán một đồ thị chưa biết vào một trong các lớp bằng cách sử dụng một độ đo để so sánh các đặc điểm giống nhau giữa các đồ thị.
Có rất nhiều hướng tiếp cận khác nhau sử dụng phương pháp đồ thị, tiêu biểu là hướng tiếp cận đồ thị phân cấp được dùng trong việc nhận dạng chữ viết tay Trung Quốc và Hàn Quốc [62,63].
2.3. Mạng nơ ron
Một mạng nơ ron được định nghĩa như một cấu trúc tính toán bao gồm nhiều bộ xử lý “nơ ron” được kết nối song song chằng chịt với nhau. Do bản chất song song của các nơ ron nên nó có thể thực hiện các tính toán với tốc độ cao hơn so với các kỹ thuật phân lớp khác. Một mạng nơ ron chứa nhiều nút, đầu ra của một nút được sử dụng cho một nút khác ở trong mạng và hàm quyết định cuối cùng phụ thuộc vào sự tương tác phức tạp giữa các nút. Mặc dù nguyên lý khác nhau, nhưng hầu hết các kiến trúc mạng nơ ron đều tương đương với các phương pháp nhận dạng mẫu thống kê [26,27].
Các kiến trúc mạng nơ ron có thể được phân thành hai nhóm chính: mạng truyền thẳng và mạng lan truyền ngược. Trong các hệ thống nhận dạng chữ, các mạng nơ ron sử dụng phổ biến nhất là mạng perceptron đa lớp thuộc nhóm mạng truyền thẳng và mạng SOM (Self Origanizing Map) của Kohonen thuộc nhóm mạng lan truyền ngược.
Mạng perceptron đa lớp được đề xuất bởi Rosenblatt [64] được nhiều tác giả sử dụng trong các hệ nhận dạng chữ viết tay [65,66]. Hầu hết các nghiên cứu phát triển nhận dạng chữ viết tay hiện nay đều tập trung vào mạng SOM [67]. SOM kết hợp trích chọn đặc trưng và nhận dạng trên một tập lớn các ký tự huấn luyện. Mạng này chứng tỏ rằng nó tương đương với thuật toán phân cụm k-means.
Với thuật toán đơn giản nhưng rất hiệu quả, cùng với thành công của mô hình này trong các ứng dụng thực tiễn, mạng nơ ron hiện đang là một trong các hướng nghiên cứu của lĩnh vực học máy. Mạng nơ ron tỏ ra phù hợp với các bài toán đối sánh, phân loại mẫu, xấp xỉ hàm, tối ưu hoá, lượng tử hoá véc tơ và phân hoạch không gian dữ liệu, trong khi các phương pháp truyền thống không đủ khả năng giải quyết các vấn đề nêu trên một cách hiệu quả. Đặc biệt trong các hệ thống nhận dạng sử dụng mạng nơ ron đã đạt được tỉ lệ nhận dạng khá chính xác, có thể so sánh với các phương pháp nhận dạng cấu trúc, thống kê, …
2.4. Mô hình Markov ẩn (HMM - Hidden Markov Model)
HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh tiến trình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát. Mỗi chuỗi quan sát được sinh ra bởi một chuỗi các phép chuyển trạng thái, bắt đầu từ trạng thái khởi đầu cho đến khi thu được trạng thái kết thúc. Tại mỗi trạng thái thì một phần tử của chuỗi quan sát được phát sinh ngẫu nhiên trước khi chuyển sang trạng thái tiếp theo. Các trạng thái của HMM được xem là ẩn bên trong mô hình vì tại mỗi thời điểm chỉ nhìn thấy các kí hiệu quan sát còn các trạng thái cũng như sự chuyển đổi trạng thái được vận hành ẩn bên trong mô hình [70].
HMM đã từng được áp dụng rộng rãi đối với các bài toán nhận dạng chữ viết tay ở mức từ [71,72,73,74,75].
2.5. Máy véc tơ tựa (SVM)
2.5.1. Giới thiệu
Cho đến nay, việc nhận dạng chữ viết tay vẫn chưa có được một giải pháp tổng thể, các ứng dụng của nó cũng chỉ giới hạn trong phạm vi hẹp. Các kết quả chủ yếu về lĩnh vực này chỉ tập trung trên các tập dữ liệu chữ số viết tay chuẩn như USPS và MNIST [5.3,5.1,87], bên cạnh đó cũng có một số công trình nghiên cứu trên các hệ chữ cái tiếng La tinh, Hy Lạp, Trung Quốc, Việt Nam... tuy nhiên các kết quả đạt được cũng còn nhiều hạn chế [88,89,5.2,5.4].
Các giải pháp tiếp cận để giải bài toán nhận dạng chữ viết tay khá phong phú, một số phương pháp học máy thường được áp dụng như: mô hình Markov ẩn, mạng nơ ron hay phương pháp máy véc tơ tựa (SVM - Support Vector Machines). Trong đó SVM được đánh giá là phương pháp học máy tiên tiến đang được áp dụng rộng rãi trong các lĩnh khai phá dữ liệu và thị giác máy tính… SVM gốc được thiết kế để giải bài toán phân lớp nhị phân, ý tưởng chính của phương pháp này là tìm một siêu phẳng phân cách sao cho khoảng cách lề giữa hai lớp đạt cực đại. Khoảng cách này được xác định bởi các véc tơ tựa (SV - Support Vector), các SV này được lọc ra từ tập mẫu huấn luyện bằng cách giải một bài toán tối ưu lồi [5.1].
Trong bài báo này, chúng tôi sẽ xây dựng mô hình nhận dạng chữ viết tay rời rạc dựa trên phương pháp SVM, đồng thời tiến hành cài đặt thử nghiệm trên các tập dữ liệu chữ số viết tay chuẩn MNIST và dữ liệu chữ viết tay tiếng Việt do chúng tôi tự thu thập.
2.5.2. Mô hình nhận dạng chữ viết tay rời rạc.
Trong phần này, chúng tôi sẽ tập trung xây dựng mô hình nhận dạng chữ viết tay rời rạc theo phương pháp phân lớp SVM. Công việc được thực hiện theo hai bước chính sau đây:
Bước 1: Xây dựng mô hình huấn luyện.
Tập dữ liệu huấn luyện sau khi qua các khâu tiền xử lý và trích chọn đặc trưng sẽ được đưa vào máy huấn luyện phân lớp SVM. Sau khi kết thúc quá trình huấn luyện, hệ thống sẽ lưu lại giá trị các tham số của hàm quyết định phân lớp để phục vụ cho việc nhận dạng sau này. Quá trình huấn luyện tiêu tốn khá nhiều thời gian, tốc độ huấn luyện nhanh hay chậm tùy thuộc vào từng thuật toán huấn luyện, chiến lược phân lớp SVM cũng như số lượng mẫu tham gia huấn luyện.
Bước 2: Phân lớp nhận dạng.
Dựa vào giá trị các tham số của hàm quyết định thu được ở Bước 1, một mẫu mới x sau khi đã qua các khâu tiền xử lý và trích chọn đặc trưng sẽ được đưa vào tính toán thông qua hàm quyết định để xác định lớp của mẫu x (Hình 2.1).
Hình 2.1. Mô hình nhận dạng chữ viết tay rời rạc.
2.5.2.1. Tiền xử lý.
Sau khi đã khử nhiễu, ảnh được chuẩn hóa về kích thước chuẩn 16´16. Việc chuẩn hóa kích thước ảnh được thực hiện theo các bước sau:
Bước 1: Nhị phân hóa ảnh.
Bước 2: Tìm hình chữ nhật R bé nhất chứa các điểm đen trên ảnh.
Bước 3: Lấy vùng ảnh I nằm trong hình chữ nhật R.
Bước 4: Chuẩn hóa ảnh I về kích thước chuẩn 16´16.
2.5.2.2. Trích chọn đặc trưng
Trong phần này, chúng tôi sẽ chọn phương pháp trích chọn đặc trưng đơn giản nhưng hiệu quả, có thể áp dụng cho các tập dữ liệu chữ viết tay rời rạc.
Ảnh ký tự sau khi đã chuẩn hóa về kích thước chuẩn sẽ được chia thành N´N vùng (Hình 2.2). Tổng số điểm đen của mỗi vùng sẽ được chọn để tạo thành các vectơ đặc trưng.
Hình 2.2. Trích chọn đặc trưng trọng số vùng.
Trong thực nghiệm, với ảnh kích thước 16´16, chọn N=8, như vậy có 8´8 = 64 đặc trưng.
2.5.2.3. Lựa chọn thuật toán huấn luyện phân lớp
Trong phần cài đặt thực nghiệm, chúng tôi áp dụng thuật toán SMO để huấn luyện phân lớp SVM nhị phân, sử dụng và kế thừa một số chức năng của phần mềm mã nguồn mở LibSVM [86] để phát triển ứng dụng nhận dạng chữ viết tay rời rạc.
2.5.2.4. Thuật toán nhận dạng chữ viết tay rời rạc.
Cả hai chiến lược phân lớp OVO và OVR đều có thể áp dụng để phân lớp dữ liệu một cách tổng quát mà không cần phải can thiệp sâu để phân tích các đặc trưng khác nhau giữa các lớp dữ liệu [5.3]. Vì vậy hai chiến lược phân lớp này sẽ được chúng tôi lựa chọn để cài đặt thử nghiệm thuật toán nhận dạng đối với dữ liệu chữ viết tay rời rạc.
Procedure SVMClassify
//Thuật toán phân lớp theo 2 chiến lược OVO và OVR
Input:
- Mẫu x;
- Số lớp N;
- Chiến lược phân lớp Strategy;
- Các mô hình đã huấn luyện {OVOModel, OVRModel}
Output:
label; // Nhãn lớp của mẫu x
Method
1. Case Strategy of
2. OVO:// Chiến lược một đối một
3. Khởi tạo Count[i] = 0; // i=0,..,N-1
4. LoadModel(OVOModel);
5. for (i=0; i < N-1; i++)
6. for (j=i+1; j < N; j++)
7. Count[BinarySVM(x,i,j)]++;
8. Count[label]=Max(Count[i]);
9. OVR: // Chiến lược một đối phần còn lại
10. LoadModel(OVRModel);
11. label=-1;
12. for (i=0; i < N; i++)
13.{
14. label=BinarySVM(x,i,Rest);
15. if(label=i) break;
16. }
17. EndCase;
18. Return label;
Trong đó:
BinarySVM(x,i,j) là hàm xếp x vào một trong hai lớp i hoặc j,
Count[ ] là mảng biến đếm để lưu số lần nhận diện của các lớp.
2.5.3. Kết quả thực nghiệm.
Các kết quả thực nghiệm được cài đặt và chạy thử nghiệm trên môi trường Window XP, máy PC Pentium 4 tốc độ 2.4 Ghz với dung lượng bộ nhớ RAM 1Gb.
2.5.3.1. Chuẩn bị các bộ dữ liệu thực nghiệm.
Bộ dữ liệu chuẩn MNIST
Bộ dữ liệu MNIST bao gồm 60.000 mẫu huấn luyện và 10.000 mẫu khác để nhận dạng, mỗi mẫu là một ảnh kích thước 28´28.
Bộ dữ liệu chữ viết tay tiếng Việt
Chúng tôi xây dựng bộ dữ liệu chữ viết tay tiếng Việt (VietData) phục vụ cho việc thực nghiệm bao gồm 89 lớp chữ cái in hoa, mỗi lớp chọn ra 200 mẫu, như vậy bộ dữ liệu VietData có tổng cộng 17800 mẫu.
2.5.3.2. Kết quả thực nghiệm trên bộ dữ liêu MNIST
Đầu tiên chúng tôi thử nghiệm hiệu quả của Thuật toán SVMClassify trên bộ dữ liệu MNIST với các chiến lược OVO và OVR. Mô hình SVM được sử dụng với hàm nhân Gauss và các tham số C = 10 (tham số hàm phạt), Cache = 1000 (kích thước vùng nhớ để lưu trữ các vectơ tựa).
Bảng 1: Kết quả thực nghiệm trên tập MNIST với hàm nhân RBF(s =0.08).
Kết quả thực nghiệm ở Bảng 1 cho thấy các chiến lược OVO và OVR đều có các ưu điểm và nhược điểm riêng.
Chúng tôi so sánh hiệu quả phân lớp của SVM so với phương pháp sử dụng mô hình mạng nơ ron 4 lớp (144 nơ ron lớp vào, 72+36 nơ ron ở các lớp ẩn, 10 nơ ron lớp ra) [5.4] trên cùng một bộ dữ liệu chuẩn MNIST (Bảng 2).
Bảng 2: So sánh kết quả nhận dạng của VM với mô hình mạng nơ ron.
Kết quả ở Bảng 2 cho thấy kết quả nhận dạng theo mô hình SVM có độ chính xác cao hơn so với mô hình mạng nơ ron, tuy nhiên tốc độ nhận dạng của SVM thì chậm hơn.
2.5.3.3. Kết quả thực nghiệm trên dữ liệu chữ viết tay tiếng Việt.
Việc thực nghiệm trên dữ liệu chữ viết tay tiếng Việt được tiến hành theo phương thức thẩm định chéo (Cross-Validation). Bộ dữ liệu VietData được chia thành k phần (ở đây k được chọn =10), sau đó sử dụng k-1 phần để huấn luyện và 1 phần còn lại để nhận dạng, quá trình được này được lặp đi lặp lại k lần. Các kết quả thực nghiệm được thể hiện trên Bảng 3.
Kết quả thực nghiệm ở Bảng 3 cho thấy tốc độ phân lớp của SVM đối với bài toán phân đa lớp là quá chậm, không thể đáp ứng được đối với một hệ thống nhận dạng thời gian thực. Vì vậy, cần phải có những giải pháp phù hợp để tăng tốc độ cũng như độ chính xác phân lớp đối với dữ liệu chữ viết tay tiếng Việt.
Bảng 3: Thực nghiệm trên tập dữ liệu chữ viết tay tiếng Việt.
2.5.4. Đánh giá hiệu quả phân lớp SVM
Áp dụng phương pháp phân lớp SVM vào bài toán nhận dạng chữ viết tay rời rạc, chúng tôi có một số nhận xét sau đây:
- SVM là một phương pháp học máy tiên tiến có cơ sở toán học chặt chẽ và đạt độ chính xác phân lớp cao. Tuy nhiên, hạn chế lớn nhất của SVM là tốc độ phân lớp chậm, tùy thuộc vào số lượng vectơ tựa thu được sau khi huấn luyện. Một hạn chế khác của SVM là pha huấn luyện đòi hỏi không gian nhớ lớn, vì vậy việc huấn luyện đối với các bài toán có số lượng mẫu lớn sẽ gặp trở ngại trong vấn đề lưu trữ.
- Bản chất nhị phân cũng là một hạn chế của SVM, việc mở rộng khả năng của SVM để giải quyết các bài toán phân loại nhiều lớp là vấn đề không đơn giản. Có nhiều chiến lược được đề xuất để mở rộng SVM cho bài toán phân loại nhiều lớp với những điểm mạnh, yếu khác nhau tùy thuộc vào từng loại dữ liệu cụ thể. Cho đến nay, việc lựa chọn các chiến lược phân lớp vẫn thường được tiến hành trên cơ sở thực nghiệm.
- Bài toán huấn luyện SVM thực chất là bài toán qui hoạch toàn phương (QP) trên một tập lồi, do đó luôn luôn tồn tại nghiệm toàn cục và duy nhất, đây là điểm khác biệt rõ nhất giữa SVM so với mạng nơ ron, vì mạng nơ ron vốn tồn tại nhiều cực trị địa phương. Bản chất của SVM là việc phân lớp được thực hiện gián tiếp trong không gian đặc trưng với số chiều cao hơn số chiều của không gian đầu vào thông qua hàm nhân. Do đó, hiệu quả phân lớp của SVM phụ thuộc vào hai yếu tố: giải bài toán QP và lựa chọn hàm nhân. Việc giải bài toán QP luôn luôn đạt được giải pháp tối ưu nên mọi cố gắng trong nghiên cứu lý thuyết SVM tập trung vào việc lựa chọn hàm nhân. Lựa chọn hàm nhân và các tham số của nó như thế nào để SVM phân lớp tốt nhất vẫn là một bài toán mở.
- Tốc độ phân lớp của SVM bị đánh giá là chậm so với các phương pháp phân lớp khác, tùy thuộc vào số lượng vectơ tựa thu được sau khi huấn luyện. Vì vậy, có nhiều công trình tập trung nghiên cứu để giảm tối đa số lượng vectơ tựa nhằm tăng tốc độ phân lớp của SVM, một số kết quả nghiên cứu có giá trị về SVM đã được công bố trong các công trình [86,5.1,5.2].
Muốn áp dụng kỹ thuật phân lớp SVM vào bài toán nhận dạng chữ viết tay tiếng Việt, cần phải có những giải pháp để tránh bùng nổ số phân lớp cũng như giảm tối đa số vectơ tựa để tăng tốc độ nhận dạng.
2.5.5. Kết luận
Phần này đã đề xuất mô hình nhận dạng chữ viết tay rời rạc trên cơ sở phương pháp máy véc tơ tựa. Các kết quả thực nghiệm cho thấy mô hình này có kết quả nhận dạng chính xác hơn so với mô hình mạng nơ ron. Tuy nhiên, khi áp dụng SVM vào bài toán nhận dạng cũng gặp phải một số hạn chế nhất định: bùng nổ số phân lớp và số ượng véc tơ tựa thu được sau khi huấn luyện sẽ dẫn đến việc phân lớp chậm.Chúng tôi sẽ tiếp tục nghiên cứu để đề xuất mô hình hiệu quả cho bài toán nhận dạng chữ viết tay tiếng Việt. Giảm thiểu số véc tơ tựa để cải thiện tốc độ phân lớp và lựa chọn các tham số của SVM cũng là vấn đề cần quan tâm. Mỗi phương pháp học máy đều có những ưu và nhược điểm riêng, vì vậy việc kết hợp, lai ghép giữa các phương pháp nhằm nâng cao hiệu suất nhận dạng cũng là hướng mà các nhà nghiên cứu đang quan tâm.
2.6. Kết hợp các kỹ thuật nhận dạng
Các phần đã trình bày ở trên cho thấy rằng có nhiều phương pháp phân lớp có thể áp dụng đối với các hệ nhận dạng chữ viết tay. Tất cả các phương pháp trên đều có những ưu điểm và nhược điểm riêng. Vấn đề đặt ra là các phương pháp trên có thể kết hợp với nhau theo một cách nào đó để nâng cao chất lượng nhận dạng hay không? Nhiều công trình nghiên cứu kiến trúc phân lớp theo ý tưởng kết hợp các phương pháp phân lớp đã nêu trên. Các hướng tiếp cận kiến trúc kết hợp để phân lớp có thể chia thành ba nhóm sau: Kiến trúc tuần tự, kiến trúc song song và kiến trúc lai ghép.
2.6.1. Kiến trúc tuần tự
Kiến trúc này chuyển kết quả đầu ra của một máy phân lớp thành đầu vào của máy phân lớp tiếp theo. Có bốn chiến lược cơ bản được sử dụng trong kiến trúc tuần tự, đó là dãy, chọn lựa, boosting và thác nước.
Trong chiến lược về dãy, mục tiêu của mỗi giai đoạn là thu gọn số lớp mà mẫu đầu vào có thể thuộc về các lớp đó. Số lớp có thể thu gọn tại mỗi giai đoạn sinh ra nhãn của mẫu ở giai đoạn cuối cùng [76].
Trong chiến lược chọn lựa, đầu tiên máy phân lớp gán mẫu chưa biết vào một nhóm ký tự gần giống nhau. Các nhóm này tiếp tục được phân lớp ở các giai đoạn sau đó theo một cây phân cấp. Tại mỗi mức của cây, nhánh con cùng mẹ là giống nhau theo một độ đo nào đó. Vì vậy, các máy phân lớp thực hiện phân lớp từ thô đến tinh dần trong các nhóm nhỏ [77].
Đối với chiến lược boosting, mỗi máy phân lớp điều khiển một số lớp, các máy phân lớp ở phía trước không thể điều khiển được các lớp của các máy phân lớp ở phía sau [79].
Cuối cùng, trong chiến lược thác nước, các máy phân lớp được kết nối từ đơn giản đến phức tạp. Các mẫu không thỏa mãn ở một mức độ tin cậy nào đó thì phải thông qua một máy phân lớp mạnh hơn trong một giới hạn nào đó của các đặc trưng hoặc các chiến lược nhận dạng khác [78].
2.6.2. Kiến trúc song song
Kiến trúc này kết nối kết quả của các thuật toán phân lớp độc lập bằng cách sử dụng nhiều phương pháp khác nhau. Trong số các kiến trúc này, tiêu biểu nhất là phương pháp bỏ phiếu [80] và luật quyết định Bayes [81].
2.6.3. Kiến trúc lai ghép
Kiến trúc này là một sự lai ghép giữa hai kiến trúc tuần tự và song song. Ý tưởng chính là kết hợp các điểm mạnh của cả hai kiến trúc trên và chặn bớt những khó khăn trong việc nhận dạng chữ viết.
Sau đây là một vài ví dụ điển hình về các hướng kết hợp các kỹ thuật nhận dạng:
Trong [82], một hướng tiếp cận dãy trên cơ sở phân lớp đa đặc trưng và đa mức được phát triển cho chữ viết tay Trung Quốc. Hệ thống này sử dụng mười lớp đặc trưng như các đặc trưng về hình dáng bên ngoài, các đặc trưng về mật độ nét bút và các đặc trưng về hướng nét bút. Đầu tiên, một nhóm các máy phân lớp phân chia toàn bộ các ký tự thành một số nhóm nhỏ hơn, vì vậy số lượng mẫu cần xử lý trong mỗi bước tiếp theo giảm đi đáng kể. Sau đó, phương pháp phân lớp ký tự đa mức được đề xuất với năm mức phục vụ cho quyết định phân lớp cuối cùng. Trong mức thứ nhất, một phân bố Gausse được lựa chọn để sử dụng cho việc lựa chọn một số mẫu nhỏ hơn từ một vài nhóm. Từ mức thứ hai đến mức thứ năm, các hướng tiếp cận đối sánh được sử dụng với các đặc trưng khác nhau để nhận dạng.
Trong [83] Srihari và các cộng sự đã đề xuất một hướng tiếp cận song song cho việc nhận dạng bản thảo viết tay ở mức từ, họ kết hợp ba thuật toán: đối sánh mẫu, phân lớp cấu trúc và phân lớp hỗn hợp giữa thống kê - cấu trúc. Các kết quả nhận được từ ba thuật toán trên được kết nối lại theo một trình tự thích hợp. Kết quả cho thấy tốc độ nhận dạng tăng lên đáng kể.
Một phương pháp lai ghép được đánh giá cao do nhóm nghiên cứu của IBM đề xuất [77] đã kết hợp mạng nơ ron và các phương pháp đối sánh mẫu trong một chiến lược nhận dạng đầy đủ các ký tự (chữ hoa, chữ thường, chữ số và các ký tự đặc biệt). Đầu tiên, máy phân lớp đa mạng hai giai đoạn (TSMN - two-stage multinetwork) nhận biết ba nhóm: chữ hoa, chữ thường và chữ số. TSMN bao gồm một dãy các mạng chuyên dụng, mỗi mạng được thiết kế để nhận dạng một tập con của toàn bộ tập ký tự. Một máy tiền phân lớp và một bộ phận lựa chọn mạng được sử dụng để kích hoạt các mạng chuyên dụng cần dùng. Sau đó, sử dụng máy phân lớp đối sánh mẫu để đối sánh mẫu đầu vào với các mẫu trong ba nhóm đã lựa chọn bởi máy phân lớp TSMN. Các khoảng cách đối sánh mẫu được dùng để chọn lại mạng nếu như TSMN không đảm bảo về quyết định nhận biết của nó.
2.7 KẾT LUẬN
Chương này đã giới thiệu một cách tổng quan về lĩnh vực nhận chữ viết. Cho đến nay các kết quả nghiên cứu nhận dạng chữ viết tay vẫn còn hạn chế, các ứng dụng chủ yếu chỉ tập trung ở một số lĩnh vực hẹp. Đặc biệt có rất ít kết quả liên quan đến nhận dạng chữ viết tay tiếng Việt, các kết quả nghiên cứu cũng chỉ tập trung vào chữ Việt viết tay on-line [25].
Có nhiều kỹ thuật tiên tiến đang được áp dụng cho bài toán nhận dạng chữ viết tay như HMM, mạng nơ ron, k-láng giềng gần nhất, luật quyết định Bayes, SVM... Trong số các kỹ thuật này thì SVM được đánh giá là phương pháp có độ chính xác phân lớp cao và phương pháp luận của nó được xây dựng dựa trên một nền tảng toán học rất chặt chẽ.
CHƯƠNG III. ĐÁNH GIÁ, SO SÁNH CÁC PHƯƠNG PHÁP NHẬN DẠNG.
PHƯƠNG PHÁP NHẬN DẠNG
ƯU ĐIỂM
NHƯỢC ĐIỂM
Đối sánh mẫu
Là kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyên mẫu(prototype) với nhau để nhận dạng ký tự hoặc từ. Các kỹ thuật đối sánh mẫu chỉ áp dụng tốt đối với nhận dạng chữ in.
Đối với chữ viết tay thì các kỹ thuật này tỏ ra kém hiệu quả, kết quả nhận dạng của nó cũng rất nhạy cảm với nhiễu
Phương pháp tiếp cận cấu trúc
Dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tự nhiên. Dễ thực hiện căn cứ vào quá trình phân tích cú pháp
Cho đến nay còn nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưa xây dựng được các thuật toán phổ dụng.
Mạng
nơ ron
Mạng nơ ron được ứng dụng nhiều trong các bài toán phân loại mẫu (điển hình là nhận dạng) bởi ưu điểm nổi trội của nó là dễ cài đặt cùng với khả năng học và tổng quát hoá rất cao. Với thuật toán đơn giản nhưng rất hiệu quả, cùng với thành công của mô hình này trong các ứng dụng thực tiễn, mạng nơ ron hiện đang là một trong các hướng nghiên cứu của lĩnh vực học máy.
Mạng nơ ron tỏ ra phù hợp với các bài toán đối sánh, phân loại mẫu, xấp xỉ hàm, tối ưu hoá, lượng tử hoá véc tơ và phân hoạch không gian dữ liệu, trong khi các phương pháp truyền thống không đủ khả năng giải quyết các vấn đề nêu trên một cách hiệu quả.
Đặc biệt trong các hệ thống nhận dạng sử dụng mạng nơ ron đã đạt được tỉ lệ nhận dạng khá chính xác, có thể so sánh với các phương pháp nhận dạng cấu trúc, thống kê, …,thiết kế và coding đơn giản,
Tính chậm và sắc xuất không cao không có quy tắc tổng quá để xác định cấu trúc mạng và các tham số học tối ưu cho một (lớp) bài toán nhất định. Tiêu chuẩn thu thập cơ sở dữ liệu huấn luyện còn khắt khe. Do đó, để hệ thống có thể ứng dụng trong thực tế cần phải nới lỏng hơn nữa các tiêu chuẩn này.
Mô hình Markov ẩn (HMM - Hidden Markov Model)
Phương pháp mô tả đường biên ít bị ảnh hưởng bởi kích thước chữ cũng như độ đậm, nhạt của nét chữ, ít bị tác động bởi nhiễu trên đường biên. Việc sử dụng các HMM để khử nhiễu và trích chọn đặc trưng cho kết quả tốt, với thời gian thực hiện chấp nhận được.
Từ việc đặc tả được cấu trúc, bằng kỹ thuật phân lớp và mã hoá mỗi lớp bằng một mô hình nhận dạng. Cơ sở dữ liệu các mô hình nhận dạng có khả năng tự động loại bỏ sự dư thừa, giảm thiểu thời gian truy xuất, đạt tốc độ tương đối tốt trong các thử nghiệm, xác suất cao, coding đơn giản, không dùng nhiều bộ nhớ.
Các thuật toán dò biên thường rất nhạy cảm khi chữ bị dính nét hay đứt nét, để khác phục điều này, hệ thống phải có khả năng lường trước những nét có thể bị dính hay bị đứt để đưa ra một mẫu phụ dùng trong trường hợp mẫu nhận dạng bị dính nét hay đứt nét. Phương pháp này chỉ cố gắng mô tả tốt nhất cấu trúc chữ mà chưa chú ý đến kích thước, điều này khiến cho hệ thống dễ nhầm lẫn chữ hoa và chữ thường, nhất là đối với những ký tự mà viết hoa hay viết thường chỉ khác nhau về mặt kích thước như chữ `c` và `C`, `x` và `X` ... .Nhược điểm là rất khó để phân lớp dữ liệu.
Phương pháp máy véc tơ tựa (SVM – support vector machies)
SVM được đánh giá là một hướng tiếp cận phân lớp đạt độ chính xác cao. phương pháp học máy tiên tiến đã đóng góp nhiều thành công trong các lĩnh vực khai phá dữ liệu cũng như trong lĩnh vực nhận dạng. Bài toán huấn luyện SVM thực chất là bài toán QP trên một tập lồi, do đó SVM luôn có nghiệm toàn cục và duy nhất, đây chính là điểm khác biệt rõ nhất giữa SVM so với phương pháp mạng nơ ron, vì mạng nơ ron vốn tồn tại nhiều điểm cực trị địa phương.
Hạn chế lớn nhất của SVM là tốc độ phân lớp rất chậm, tùy thuộc vào số lượng các véc tơ tựa. Mặt khác, giai đoạn huấn luyện SVM đòi hỏi bộ nhớ rất lớn, do đó các bài toán huấn luyện với số lượng mẫu lớn sẽ gặp trở ngại trong vấn đề lưu trữ. Hiệu quả phân lớp của SVM phụ thuộc vào hai yếu tố: giải bài toán QP và lựa chọn hàm nhân.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Hoàng Kiếm, Nguyễn Hồng Sơn, Đào Minh Sơn, “Ứng dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động”, Kỷ yếu hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, 2001, tr. 560-567.
[2] Bùi Minh Trí, “Quy hoạch toán học”, Nhà xuất bản Khoa học và kỹ thuật, Hà nội, 2006.
[3] Lê Hoài Bắc, Lê Hoàng Thái, “Neural Network & Genetic Algorithm in Application to Handwritten Character Recognition”, Tạp chí Tin học và Điều khiển học, Tập 17, số 4, 2001, tr. 57-65.
[4] Nguyễn Thị Thanh Tân, Ngô Quốc Tạo, “Một cấu trúc mạng nơ ron thích hợp cho việc nhận dạng chữ số viết tay”, Kỷ yếu hội thảo FAIR03, NXB KH&KT Hà Nội, 2004, tr. 200-210.
[5] Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học và Điều khiển học, Tập 22, số 2, 2006, tr. 141-154.
[5.1]. Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai, “Ứng dụng SVM cho bài toán phân lớp nhận dạng”, Kỷ yếu Hội thảo khoa học Quốc gia lần thứ ba về nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền thông (ICT.rda’06), nhà xuất bản Khoa học và Kỹ thuật, Hà nội, trang 393-400, 20-21/05/2006.
[5.2]. Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai, “Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt”, Tạp chí Công nghệ Thông tin và Truyền thông, ISSN 0866-7039, kỳ 3, số 20, 10-2008, tr 36-42.
[5.3]. Phạm Anh Phương, “Áp dụng một số chiến lược SVM đa lớp cho bài toán nhận dạng chữ viết tay hạn chế”, Tạp chí khoa học Đại học Huế, ISSN 1859-1388, số 45, 2008, tr. 109-118.
[5.4]. Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học và Điều khiển học, Tập 22, số 2, 2006, tr. 141-154.
Tiếng Anh
[6] T.Fujisaki, H.S.M.Beigi, C.C.Tappert, M.Ukelson and C.G.Wolf, “Online Recognition of Unconstrained Handprinting: A stroke-based”, From Pixels Features III: Frontiers in Handwriting Recognition, S.Impedovo and J.C.Simon (eds.), 1992, pp. 297-312.
[7] J.C.Simon and O.Baret, “Cursive Words Recognition”, From Pixels Features III: Frontiers in Handwriting Recognition, S.Impedovo and J.C.Simon (eds.), 1992, pp. 241-260.
[8] J.J.Hull, J.Favata, V.Govindaraju and S.N.Srihari, “Combination of segmentation-based and Wholistic Handwritten Word Recognition Algorithms”, From Pixels Features III: Frontiers in Handwriting Recognition, S.Impedovo and J.C.Simon (eds.), 1992, pp. 261-272.
[9] V. N. Vapnik, “The Nature of Statistical Learning Theory”, Springer Verlag, 1995.
[10] V. N. Vapnik, “Statistical Learning Theory”, N. Y.: John Wiley & Sons, 1998.
[11] J. Friedman., “Another Approach to Polychotomous Classifications”, Technical report, Stanford university, US, 1996.
[12] Christopher J. C. Burges, “A Tutorial on Support Vector Machines for Pattern Recognition”, Data Mining and Knowledge Discovery, ISSN:1384-5810, Vol. 2, No. 2, 1998, pp. 121-167.
[13] J. Platt, “Fast Training of Support Vector Machines Using Sequential Minimal Optimization”, In Advences in Kernel Methods - Support Vector Learning, pp. 185-208, Cambridge, M.A, 1999, MIT Press.
[14] Nello Cristianini and John Shawe-Taylor, “An Introduction to Support Vector Machines and other kernel-based learning methods”, Cambridge University Press, 2000.
[15] J. Platt, N. Cristianini and J. Shawe-Taylor, “Large Margin DAGs for Multiclass Classification”, In Advances in Neural Information Processing Systems, volume 2, pp. 547-553, 2000.
[16] T. Joachims, “Making large-Scale Support Vector Machine Learning Practical”, in Advances in Kernel Methods - Support Vector Learning, B. Schölkopf and C. Burges and A. Smola (ed.), MIT-Press, Cambridge, MA, 1998.
[17] R. Collobert and S. Bengio, “Svmtorch: Support Vector Machines for Large-scale Regression Problems”, The Journal of Machine Learning Research, Vol. 1, 2001, pp 143 – 160.
[18] J. X. Dong, A. Krzyzak and C. Y. Suen, “A Fast SVM Training Algorithm”, International Journal of Pattern Recognition and Artificial Intelligence, vol. 17, no. 3, 2003, pp. 367 – 384.
[19] Chih-Chung Chang and Chil-Jen Lin, “LIBSVM: a Library for Support Vector Machines”, National Taiwan University, 2004.
[20] Nguyen, D.D., Ho, T.B., A Bottom-up Method for Simplifying Support Vector Solutions, IEEE Transactions on Neural Networks, Vol.17, No. 3, 2006, pp. 792-796.
[21] Viola, P., Jones, M., “Rapid object detection using a boosted cascade of simple features”, Proc. Intl. Conf. on Computer Vision and Pattern Recognition (CVPR), Volume 1, pp. 511–518 , 2001.
[22] Gorgevik D., Cakmakov D., “An Efficient Three-Stage Classifier for Handwritten Digit Recognition”, Proceedings of 17 Int. Conference on Pattern Recognition, ICPR2004th, Vol. 4, pp. 507-510, IEEE Computer Society, Cambridge, UK, 23-26 August 2004.
[23] Cakmakov D., Gorgevik D., “Handwritten Digit Recognition Using Classifier Cooperation Schemes”, Proceedings of the 2nd Balkan Conference in Informatics, BCI 2005, pp. 23-30, Ohrid, November 17-19, 2005.
[24] G. Vamvakas, B. Gatos, I. Pratikakis, N. Stamatopoulos, A. Roniotis and S.J. Perantonis, "Hybrid Off-Line OCR for Isolated Handwritten Greek Characters", The Fourth IASTED International Conference on Signal Processing, Pattern Recognition, and Applications (SPPRA 2007), ISBN: 978-0-88986-646-1, Innsbruck, Austria, February 2007, pp. 197-202.
[25] Ngo Quoc Tao, Pham Van Hung, “Online Continues Vietnamese Handwritten Character Recognition based on Microsoft Handwritten Character Recognition Library”, IEEE Asia Pacific Conference on Circuits and Systems, APCCAS 2006, Singapore, pp. 2024-2026.
[26] Sergios Theodoridis and Konstantinos Koutroumbas, “Pattern Recognition”, Academic Press, 2006.
[27] Robert A. Dunne, “A Statistical Approach to Neural Networks for Pattern”, N. Y.: John Wiley & Sons, 2007.
[28] Mohamed Cheriet, Nawwaf Kharma, Cheng-Lin Liu And Ching Y. Suen, “Character Recognition Systems: A Guide for Students and Practioners”, N. Y.: John Wiley & Sons, 2007.
[29] S. S. Wang, P. C. Chen, W. G. Lin, “Invariant Pattern Recognition by Moment Fourier Descriptor”, Pattern Recognition, vol.27, pp.1735-1742, 1994.
[30] X. Zhu, Y. Shi, S. Wang, “A New Algorithm of Connected Character Image Based on Fourier Transform”, in Proc. 5th Int. Conf. Document Analysis and Recognition, pp.788-791, Bangalore, India, 1999.
[31] S. W. Lee, Y. J. Kim, “Multiresolutional Recognition of Handwritten Numerals with Wavelet Transform and Multilayer Cluster Neural Network”, in Proc. 3rd Int. Conf. Document Analysis and Recognition, pp.1010-1014, Montreal, Canada, 1995.
[32] T. Shioyama, H. Y. Wu, T. Nojima, “Recognition Algorithm Based On Wavelet Transform For Handprinted Chinese Characters”, in Proc. 14th Int. Conf. Pattern Recognition, vol.1, pp.229-232, 1998.
[33] Y. C. Chim, A. A. Kassim, Y. Ibrahim, “Character Recognition Using Statistical Moments”, Image and Vision Computing, vol.17, pp.299-307, 1999.
[34] D. Trier, A. K. Jain, T. Taxt, “Feature Extraction Method for Character Recognition - A Survey”, Pattern Recognition, vol.29, no.4, pp.641-662, 1996.
[35] N. Arica, F. T. Yarman Vural, “One Dimensional Representation Of Two Dimensional Information For HMM Based Handwritten Recognition”, Pattern Recognition Letters, vol.21 (6-7), pp.583-592, 2000.
[36] H. Bunke, M. Roth, E. G. Schukat-Talamazzani, “Off-line Recognition of Cursive Script Produced by Cooperative Writer”, in Proc. 12th Int.Conf. Pattern Recognition, pp. 146-151, Jerusalem, Israel, 1994.
[37] H. Nishida, “Structural Feature Extraction Using Multiple Bases”, Computer Vision and Image Understanding, vol.62 no1, pp. 78-89, July 1995.
[38] M. Cote, E. Lecolinet, M. Cheriet, C. Y. Suen, “Reading of Cursive Scripts Using A Reading Model and Perceptual Concepts, The PERCEPTO System”, Int. Journal Document Analysis and Recognition, vol.1, no.1, pp.3-17, 1998.
[39] A. Kundu, Y. He, “On optimal Order in Modeling Sequence Of Letters in Words Of Common Language As a Markov Chain”, Pattern Recognition, vol.24, no.7, pp.603 - 608, 1991.
[40] M. Okamoto, K. Yamamoto, “On-line Handwriting Character Recognition Method with Directional Features and Direction Change Features”, in Proc. 4th Int. Conf. Document Analysis and Recognition, pp.926-930, Ulm, Germany, 1997.
[41] J. Rocha, T. Pavlidis, “A Shape Analysis Model”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.16, no.4, pp.394-404, 1994.
[42] D. Guillevic, C. Y. Suen, “HMM-KNN Word Recognition Engine for Bank Cheque Processing”, in Proc. 14th Int. Conf. Pattern Recognition, pp. 1526-1529, Brisbane, Australia, 1998.
[43] M. Sekita, K. Toraichi, R. Mori, K. Yamamoto, H. Yamada, “Feature Extraction of Handwritten Japanese Characters by Spline Functions for Relaxation Matching”, Pattern Recognition, vol.21, no.1, pp. 9-17, 1988.
[44] W. Lu, Y. Ren, C. Y. Suen, “Hierarchical Attributed Graph Representation and ecognition of Handwritten Chinese Characters”, Pattern Recognition, vol. 24, no.7, pp. 617-632, 1991.
[45] S. Madhvanath, E. Kleinberg, V. Govindaraju, S. N. Srihari, “The HOVER System for Rapid Holistic Verification of Off-line Handwritten Phrases”, in
Proc. 4th Int. Conf. Document Analysis and Recognition, pp.855-890, Ulm, Germany,1997.
[46] S. W. Lee, Y. J. Kim, “Direct Extraction of Topographic Features for Gray Scale Character Recognition”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.17, no.7, pp.724-729, 1995.
[47] M. Bokser, “Omnifont Technologies”, Proc. of the IEEE, vol.80, no.7, pp.1066-1078, 1992.
[48] I. Guyon, F. Pereira, “Design of a Linguistic Postprocessor Using Variable Memory Length Markov Models”, in Proc. 3rd Int. Conf.Document Analysis and Recognition, pp.454-457, Montreal, Canada, 1995.
[49] A. Kornai, K. M. Mohiuddin, S. D. Connell, “Recognition of Cursive Writing on Personal Checks”, in Proc. Int. Workshop Frontiers in Handwriting Recognition, pp. 373-378, Essex, 1996.
[50] P. D. Gader, B. Forester, M. Ganzberger, A. Gillies, B. Mitchell, M.Whalen, and T. Yocum, “Recognition of Handwritten Digits Using Template and Model Matching”, Pattern Recognition, vol.24, no.5, pp.421-431, 1991.
[51] D. Tubbs, “A Note on Binary Template Matching”, Pattern Recognition, vol.22, no.4, pp.359 - 365, 1989.
[52] A. K. Jain, D. Zongker, “Representation and Recognition of Handwritten Digits Using Deformable Templates”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.19, no.12, pp.1386-1391, 1997.
[53] J. Hu, T. Pavlidis, “A Hierarchical Approach to Efficient Curvilinear Object Searching”, Computer Vision and Image Understanding, vol.63(2), pp. 208-220, 1996.
[54] C. C. Tappert, “Cursive Script Recognition by Elastic Matching”, IBM Journal of Research and Development, vol.26, no.6, pp.765-771, 1982.
[55] Keith E. Price, “Relaxation Matching Techniques Comparison”, IEEETrans. Pattern Analysis and Machine Intelligence, vol.7, no.5, pp. 617-623, 1985.
[56] M. Shridhar, A. Badreldin, “High Accuracy Syntactic Recognition Algorithm for Handwritten Numerals”, IEEE Trans. Systems Man and Cybernetics, vol.15, no.1, pp.152 - 158, 1985.
[57] M. Tayli, A I. Ai-Salamah, “Building Bilingual Microcomputer System” Communications of the ACM, vol.33, no.5, pp.495-504, 1990.
[58] T. Pavlidis, “Recognition of Printed Text under Realistic Conditions”, Pattern Recognition Letters, pp. 326, 1993.
[59] W. H. Tsai, K.S.Fu, “Attributed Grammar- A Tool for Combining Syntactic and Statistical Approaches to Pattern Recognition”, IEEE Trans. System Man and Cybernetics, vol.10, no.12, pp. 873-885, 1980.
[60] A. W. Senior, A. J. Robinson, “An Off-Line Cursive Handwriting Recognition”, IEEE Trans. Pattern Recognition and Machine Intelligence, vol.20, no.3, pp. 309-322, 1998.
[61] D. Bouchaffra, V. Govindaraju, S. N. Srihari, “Postprocessing of Recognized Strings Using Nonstationary Markovian Models”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.21, no.10, pp. 990-999, 1999.
[62] H. Y. Kim, J. H. Kim, “Handwritten Korean Character Recognition Based on Hierarchical Random Graph Modeling”, in Proc. Int. Workshop Frontiers in Handwriting Recognition, pp. 577-586, Korea, 1998.
[63] W. Lu, Y. Ren, C. Y. Suen, “Hierarchical Attributed Graph Representation and Recognition of Handwritten Chinese Characters”, Pattern Recognition, vol. 24, no.7, pp. 617-632, 1991.
[64] H. D. Block, B. W. Knight, F. Rosenblatt, “Analysis of A Four Layer Serious Coupled Perceptron”, II. Rev. Modern Physics, vol.34, pp.135-152, 1962.
[65] I. S. Oh, J. S. Lee, S. M. Choi, K. C. Hong, “Class-expert Approach to Unconstrained Handwritten Numeral Recognition”, in Proc.5th Int. Workshop Frontiers in Handwriting Recognition, pp. 95-102, Essex, England, 1996.
[66] L. F. C. Pessoa, P. Maragos, “Neural Networks with Hybrid Morphological/Rank/Linear Nodes: A Unifying Framework with Applications to Handwritten Character Recognition”, Pattern Recognition, vol.33, pp. 945-960, 2000.
[67] T. Kohonen, “Self Organizing Maps”, Springer Series in Information Sciences, vol.30, Berlin, 1995.
[68] S. Smith, M. Borgoin, K. Sims, H. Voorhees, “Handwritten Character Classification Using Nearest Neighbor in Large Databases”, IEEE Trans. Pattern Recognition and Machine Intelligence, vol.16, no.9, pp. 915-919, 1994.
[69] S. O. Belkasim, M. Shridhar, M. Ahmadi, “Pattern Recognition with Moment Invariants: A comparative Survey”, Pattern Recognition, vol.24, no.12, pp. 1117-1138, 1991.
[70] Rabiner L.R - "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" - Proceedings of IEEE, VOL.77, NO.2, FEB 1989, pp. 257-286.
[71] M. Y. Chen, A. Kundu, J. Zhou, “Off-line Handwritten Word Recognition Using a Hidden Markov Model Type Stochastic Network”, IEEE Trans. Pattern Recognition and Machine Intelligence, vol.16, pp.481-496, 1994.
[72] M. Y. Chen, A. Kundu, S. N. Srihari, “Variable Duration Hidden Markov Model and Morphological Segmentation for Handwritten Word Recognition”, IEEE Trans. Image Processing, vol.4, pp.1675-1688, 1995.
[73] A. Kornai, K. M. Mohiuddin, S. D. Connell, “An HMM-Based Legal Amount Field OCR System For Checks”, IEEE Trans, Systems, Man and Cybernetics, pp. 2800-2805, 1995.
[74] M. A. Mohamed, P. Gader, “Generalized Hidden Markov Models – Part II: Application to Handwritten Word Recognition”, IEEE Trans. Fuzzy Systems, vol.8, no.1, pp.82-95, 2000.
[75] M. A. Mohamed, P. Gader, “Handwritten Word Recognition Using Segmentation-Free Hidden Markov Modeling and Segmentation Based Dynamic Programming Techniques”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.18, no.5, pp.548-554, 1996.
[76] M. Nakagava, T. Oguni, A. Homma, “A coarse classification of on-line handwritten characters” in Proc. 5th Int. Workshop Frontiers in Handwriting Recognition, pp. 417-420, Essex, England, 1996.
[77] S. Gopisetty, R. Lorie, J. Mao, M. Mohiuddin, A. Sorin, E. Yair, “Automated forms-processing Software and Services”, IBM Journal of Research and Development, vol. 40, no. 2, pp.211-230, 1996.
[78] J. Park, V. Govindaraju, S. N. Srihari, “OCR in A Hierarchical Feature Space”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.22, no.4, pp.400-407, 2000.
[79] H. Drucker, R. Schapire, P. Simard, “Improving Performance in Neural Networks Using a Boosting Algorithm” in Advances in NIPS, S. J. Hanson, J. Cowan, L. Giles, Eds. Morgan Kaufmann, 1993, pp.42-49.
[80] L. Lam C. Y. Suen, “Increasing Experts for Majority Vote in OCR: Theoretical Considerations and Strategies”, in Proc. Int. Workshop Frontiers in Handwriting Recognition, pp. 245-254, Taiwan, 1994.
[81] H. J. Kang, S. W. Lee, “Combining Classifiers based on Minimization of a Bayes Error Rates”, in Proc. 5th Int. Conf. Document Analysis and Recognition, pp.398-401, Bangalore, India, 1999.
[82] Y. Tang, L. T. Tu, J. Liu, S. W. Lee, W. W. Lin, I. S. Shyu, “Off-line Recognition of Chinese Handwriting by Multifeature and Multilevel
Classification”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.20, no.5, pp.556-561, 1998.
[83] R. M. Bozinovic, S. N. Srihari, “Off-line Cursive Script Word Recognition”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.11, no.1, pp.68-83, 1989.
[84] C. J. C. Burges, “Simplified support vector decision rules”, Proc. 13th International Conference on Machine Learning, San Mateo, CA, 1996, pp. 71–77.
[85] Osuma E., Freund R., Girosi F., An Improved Training Algorithm for Support Vector Machines, Proc IEEE NNSP ’97, 1997, pp. 276-285.
[86] B. Schoelkopf, S. Mika, C. J. C. Burges, P. Knirsch, K. Muller, G. Ratsch and A. J. Smola, “Input space versus feature space in kernel-based methods”, IEEE Trans. Neural Networks, vol. 10, no. 5, pp. 1000-1017, 1999.
[86]. Chih-Chung Chang and Chil-Jen Lin, “LIBSVM: a Library for Support Vector Machines”, National Taiwan University, 2004.
[87]. Gorgevik D., Cakmakov D., “An Effcient Three-Stage Classifer for Handwritten Digit Recognition”, Proceedings of 17th Int. Conference on Pattern Recognition, ICPR2004, Vol. 4, pp. 507-510, IEEE Computer Society, Cambridge, UK, 23-26 August 2004.
[88]. G. Vamvakas, B. Gatos, I. Pratikakis, N. Stamatopoulos, A. Roniotis and S.J. Perantonis, "Hybrid Off-Line OCR for Isolated Handwritten Greek Characters", The Fourth IASTED International Conference on Signal Processing, Pattern Recognition, and Applications (SPPRA 2007), pp. 197-202, ISBN: 978-0-88986-646-1, Innsbruck, Austria, February 2007.
[89]. Pham Anh Phuong, Ngo Quoc Tao, Luong Chi Mai, “An Effcient Model for Isolated Vietnamese Handwritten Recognition”, The Fourth International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIH-MSP 2008), Harbin, China, August 15 - 17, 2008, pp. 358-361.
Các file đính kèm theo tài liệu này:
- Nhận dạng chữ viết tay sử dụng phương pháp mạng Nơ ron.docx