Luận văn Nhận dạng thực thể trong văn bản tiếng Việt

Ngoài thực thể thuộc về quốc gia và thực thể chỉ tổ chức , thực thể chỉ tên người cũng chưa thu được một kết quả nhận dạng như ý (F-measure: 81.22%), trong đó kết quả Recall khá thấp: 71.89%. Cá biệt khi xem xét những lỗi trong quá trình nhận dạng, chúng tôi phát hiện những đoạn văn gồm khá nhiều thực thể chỉ người bị bỏ sót.

pdf73 trang | Chia sẻ: lylyngoc | Lượt xem: 3168 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận văn Nhận dạng thực thể trong văn bản tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
pe) “Location”. Khi so sánh hai văn bản, những nhãn (annotation) giống nhau sẽ được bỏ qua, những nhãn khác nhau sẽ được hiển thị lên giao diện đồ họa để người dùng có thể dễ dàng quan sát được. Ngoài ra “Annotation Diff” cũng cung cấp ba thông số đo độ chính xác cơ bản là “Recall, Precision và F-Measure”. Tuy nhiên điểm hạn chế của “Annotation Diff” là chỉ so sánh được từng cặp văn bản, và từng kiểu nhãn khác nhau. 3.7.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) Đây là công cụ cho phép người sử dụng đánh giá độ tương đồng của các tập dữ liệu khác nhau như: tập dữ liệu được gán nhãn (annotated corpus) bằng tay, tập dữ liệu được xử lý bởi hệ thống hiện hành, hay tập dữ liệu được xử lý bởi một hệ thống được lưu trữ. Corpus Benchmark tool hoạt động cũng hoạt động tương tự như Annotation Diff, nhưng là trên một tập văn bản và tất cả các nhãn. Giao diện của Corpus Benchmark tool như hình 3.5. Chương 3. Giới thiệu GATE Nguyễn Bá Đạt 27 Hình 3.4 - Giao diện của Annotation Diff Hình 3.5 - Giao diện của Corpus Benchmark tool Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 28 Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt Cùng với sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt, bài toán nhận dạng thực thể trong văn bản tiếng Việt đã hình thành và bắt đầu thu được những kết quả khả quan. Một số hệ thống tiêu biểu như: hệ thống nhận dạng thực thể trong văn bản dựa trên mô hình Conditional Random Fields (CRF) (Nguyễn 2005), hệ thống nhận dạng thực thể sử dụng phương pháp máy vector hỗ trợ (SVM) (Phạm 2007), hệ thống VN-KIM NE, nhận biết và chú thích tự động cho các thực thể (Cao 2007). Tuy nhiên cho đến thời điểm này vẫn chưa có những quy chuẩn cho bài toán nhận dạng thực thể trong văn bản tiếng Việt, ví dụ như: Chưa có tập các loại nhãn chuẩn cho thực thể: Nguyễn đưa ra 8 loại nhãn cho thực thể (Nguyễn 2005), Phạm đưa ra 22 loại nhãn (Phạm 2007), trong khi Cao nhận diện 7 loại thực thể (Cao 2007). Chưa có một khung làm việc chuẩn. Các hệ thống nhận dạng thực thể hiện nay ở Việt Nam xây dựng trên nền mã nguồn đóng, và rất khó để cộng đồng có thể tiếp cận sử dụng và phát triển. Bởi vậy, chúng tôi quyết định xây dựng một hệ thống nhận dạng thực thể trong văn bản tiếng Việt bắt đầu từ việc định nghĩa các thực thể, các loại thực thể cho đến một khung làm việc và tập dữ liệu được gán nhãn chuẩn. Hệ thống sẽ được xây dựng trên khung làm việc GATE và được mở cho cộng đồng có thể sử dụng và phát triển. Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 29 4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các loại thực thể Trước hết, chúng ta cần có những định nghĩa về thực thể, các loại thực thể được nhận dạng và cách phân biệt các loại thực thể. Tham khảo các khái niệm này trong tiếng Anh (Annotation Guideline for Named Entity Recognization) và các tài liệu tiếng Việt (Mai 2008) liên quan, chúng tôi đưa ra các khái niệm cơ bản cho bài toán nhận dạng thực thể trong văn bản tiếng Việt (tham khảo chi tiết tại phụ lục A). 4.1.1 Các khái niệm cơ bản 4.1.1.1 Định nghĩa thực thể và tên thực thể Thực thể (entity): là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự nhiên. Thực thể thể hiện trong các dạng : o Tên riêng (name entity). o Danh từ hoặc cụm danh từ chung (common noun, noun phrase). o Đại từ (pronoun). Trong khuôn khổ của khóa luận, để thuận tiện chúng tôi sử dụng cụm “nhận dạng thực thể” để chỉ việc nhận dạng các thực thể có tên (thể hiện dưới dạng tên riêng). 4.1.1.2 Các loại thực thể được nhận dạng o Person: Thực thể chỉ người o Organization: Thực thể chỉ một tổ chức, một nhóm người được thành lập theo một cấu trúc phân cấp nào đó. o Facility: Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v… Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 30 o Location: Thực thể chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông, suối v.v… o Nationality: Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia. o Religion: Thực thể chỉ các tổ chức tôn giáo. 4.1.2 Quy tắc nhận dạng thực thể Khi nhận dạng thực thể trong văn bản ta phải đảm bảo quy tắc: không có các tên lồng nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ có hai tên có phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên dài nhất được nhận (longest matching – dài thì thắng). Ví dụ trong câu: “Phòng Giáo dục huyện Mỹ Đức đang họp giao ban.” ta chỉ nhận “Phòng Giáo dục huyện Mỹ Đức” là thực thể chỉ các tổ chức (Organization) và bỏ qua thực thể chỉ địa điểm “Mỹ Đức”. 4.2 Chuẩn bị tập dữ liệu Tuy không cần thiết có một tập dữ liệu được gán nhãn lớn để dùng trong giai đoạn huấn luyện như những hệ thống sử dụng các phương pháp học máy, nhưng với mục đích xây dựng thêm một bộ dữ liệu chuẩn, cùng với những khó khăn trong vấn đề nhập nhằng ngôn ngữ khi viết luật, chúng tôi quyết định xây dựng song song hệ thống nhận dạng thực thể và tập dữ liệu được gán nhãn chuẩn, trong đó tập văn bản ban đầu được lấy từ đề tài: “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC01.01/06-10. Quá trình phát triển đồng thời hai thành phần như vậy mang lại rất nhiều lợi ích như: Tiết kiệm thời gian và công sức so với việc hoàn toàn gán nhãn bằng tay cho tập dữ liệu. Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 31 Quá trình chuẩn hóa lại tập thực thể được nhận sai của hệ thống đem lại cho chúng tôi nhiều kinh nghiệm để hoàn thiện bộ luật cũng như bộ từ điển trong hệ thống. Mô hình của hệ thống được mô tả quá trình phát triển của hệ thống trong hình 4.1. Hình 4.1 - Mô hình các bước phát triển của hệ thống Đầu tiên chúng tôi xây dựng rất nhanh một hệ thống nhận dạng thực thể sử dụng bộ luật Jape cho văn bản tiếng Việt có thể dùng được. Sau khi hệ thống đã hình thành, chúng tôi sử dụng nó để gán nhãn tự động cho văn bản (một tập văn bản). Tập văn bản được gán nhãn tự động này còn mang nhiều lỗi, được chúng tôi chuẩn hóa thành những văn bản được gán nhãn chuẩn và thêm nó vào tập dữ liệu (corpus). Tuy đã tiết kiệm được khá nhiều thời gian và công sức nhờ mô hình gán nhãn tự động nhưng việc chuẩn hóa lại cũng gặp phải một số khó khăn như: Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 32 Mang tính chủ quan, dễ mắc sai sót. Nhiều trường hợp nhập nhằng rất khó để phân loại. Chính vì những lý do trên, chúng tôi chia ra làm hai đội, gán nhãn lại độc lập với nhau. Sau đó sử dụng bộ công cụ Coltech.NE.tool do nhóm tự xây dựng dựa trên các bộ công cụ quản lý chất lượng của GATE (Annotation Diff, Corpus Benchmark tool) để so khớp và thống nhất. Quá trình chuẩn hóa và phân tích lỗi giúp chúng tôi tiếp tục hoàn thiện hệ thống nhận dạng thực thể. Các bước cứ được tiến hành như vậy cho đến khi hệ thống nhận dạng thực thể đạt hiệu quả như mong muốn. 4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt Tính hiệu quả của khung làm việc GATE cho bài toán nhận dạng thực thể đã được chứng minh qua nhiều nghiên cứu (Maynard 2001, Cao 2007), bởi vậy chúng tôi quyết định xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt như một thành phần tích hợp (Plugin) trên GATE nhằm tận dụng những ưu điểm mà GATE mang lại. Tham khảo kiến trúc của bộ ANNIE (một thành phần tích hợp có sẵn trong GATE) chúng tôi đưa ra kiến trúc hệ thống như hình 4.2. Hình 4.2 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 33 Hệ thống bao gồm 4 phần chính: Bộ tách từ Bộ gán nhãn từ loại Bộ từ điển Bộ luật Ta có thể hình dung một cách tổng quan các bước hoạt động của hệ thống như sau: trước tiên, văn bản được tách từ và gán nhãn từ loại. Sau đó bộ từ điển hoạt động tìm ra một lớp các thực thể bằng phép so khớp (matching). Cuối cùng bộ luật nhận dạng lại các thực thể, gán nhãn cho từng thực thể trong văn bản, và trả ra kết quả. Để hiểu chi tiết hơn về hệ thống nhận dạng thực thể trong văn bản tiếng Việt trên nền GATE, ta sẽ đi sâu tìm hiểu từng bộ phận của hệ thống. 4.3.1 Bộ tách từ và bộ gán nhãn từ loại Một nét đặc trưng rất khác biệt của tiếng Việt so với tiếng Anh đó là vấn đề tách từ (word segmentation). Trong tiếng Anh các từ được phân biệt bởi dấu trống, tuy nhiên từ trong tiếng Việt thì không như vậy. Một từ có thể bao gồm một, hai, ba hoặc nhiều hơn các tiếng. Một tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo thành từ. Ví dụ như câu: “Học sinh học sinh học.” Có thể tách câu trên như sau: “Học_sinh học sinh_học.” hay “Học sinh_học sinh_học.” Như vậy tiếng “sinh” có thể kết hợp với tiếng “Học” đứng trước nó để tạo thành từ “Học sinh”, hay nó còn có thể kết hợp với tiếng “học” đứng sau nó để tạo thành từ “sinh_học”. Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 34 Quay trở lại bài toán nhận dạng thực thể trong văn bản tiếng Việt, đương nhiên thực thể phải là từ, hoặc cụm từ mang ý nghĩa. Chúng ta không thể nhận một cụm các tiếng không mang một ý nghĩa gì làm thực thể. Vậy yêu cầu đầu tiên của giai đoạn tiền xử lý cho bài toán nhận dạng thực thể là bài toán tách từ trong tiếng Việt. Một hệ thống nhận dạng thực thể chỉ có thể tốt khi có một bộ tách từ hoạt động tốt. Lấy câu sau đây làm ví dụ: “Anh Hùng lái xe trên đại lộ 5.” Nếu bộ tách từ hoạt động chính xác, câu đó sẽ được tách thành: “Anh Hùng lái_xe trên đại_lộ 5.” Từ “Hùng” đứng sau tiền tố nhận dạng “Anh” sẽ được nhận là thực thể chỉ người và chính xác. Tuy nhiên nếu bộ tách từ hoạt động không chính xác và câu được tách thành: “Anh_Hùng lái_xe trên đại_lộ 5.” Khi đó trong tập các từ hoàn toàn không có từ “Hùng” và việc nhận ra “Hùng” là thực thể tên người sẽ trở nên rất khó khăn. Ngoài yêu cầu bắt buộc về một bộ tách từ, chúng tôi còn sử dụng thêm bộ gán nhãn từ loại trong giai đoạn tiền xử lý của hệ thống, nhằm cung cấp được nhiều thống tin cho các giai đoạn xử lý tiếp theo. Chúng tôi đóng gói bộ WS&PT.2IN1.4VN (Phạm 2009) thành plugin Coltech.NLP.tokenizer trong khung làm việc GATE. Nhờ đó bộ tách từ và gán nhãn từ loại có thể dễ dàng thay đổi, cải tiến mà không làm ảnh hưởng đến kiến trúc của hệ thống. Các văn bản sau khi được xử lý bởi Coltech.NLP.tokenizer sẽ trở thành văn bản ở định dạng của GATE tức là gồm: nội dung văn bản, tập các nhãn (annotation) và tập các đặc trưng (tham khảo 3.2). Ở đây chúng tôi chỉ tạo ra các nhãn “Word” và “Split” Mỗi nhãn (annotation) “Word” được tạo mới trên một từ gồm một vài đặc trưng như: o Từ loại (POS): là từ loại của từ. Ví dụ: Np, Nn v.v…(tham khảo tại phụ lục B). Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 35 o Nội dung (string): là xâu thể hiện từ. Ví dụ: “học sinh”, “đại ca” v.v… o Viết hoa (upper): nếu ký tự đầu tiên của từ viết hoa thì upper = “true”. Ngược lại upper = “false”. o Ngoài ra còn một số đặc trưng như: kind, nation v.v…để giúp ích cho quá trình viết luật. Mỗi nhãn “Split” được tạo mới trên một dấu tách câu như: “.”, “?”, “!”, cũng có những đặc trưng tương tự như nhãn “Word”. Sau khi Coltech.NLP.tokenizer hoàn thành, chúng tôi bước vào xây dựng thành phần xử lý chính trong hệ thống: gồm hai nguồn xử lý (Processing Resource) VNEgazetteer như một bộ từ điển, và VNEtransducer như một bộ luật. Hai nguồn xử lý này được xây dựng và phát triển song song cùng với quá trình tạo tập dữ liệu được gán nhãn (Annotated corpus). 4.3.2 Bộ từ điển Bộ từ điển (VNEgazetteer) được tạo từ nhiều từ điển với các tiêu chí khác nhau, nhằm nhận dạng được một lớp các thực thể nhờ quá trình so khớp, cũng như cung cấp những thông tin cần thiết cho quá trình nhận dạng trong bộ luật. Mỗi từ điển gồm các từ mang cùng một ý nghĩa nào đó, có thể là chứa các thực thể cùng loại như: tên người, tên tổ chức v.v… hay chứa các từ, cụm từ đóng những vai trò giống nhau về mặt cú pháp, ngữ nghĩa, hoặc chỉ đơn giản là để sử dụng cho một luật nào đó trong bộ luật. Bộ từ điển được chúng tôi xây dựng nhờ những kinh nghiệm có được trong quá trình gán nhãn bằng tay, và vẫn đang được tiếp tục phát triển. Có thể chia bộ từ điển thành những nhóm sau: Những từ điển chứa các tên các thực thể được nhận dạng o Từ điển tên người:  Chứa các tên đầy đủ: Hồ Chí Minh, Nguyễn Tấn Dũng v.v…  Chứa các tên viết tắt: Sơn, Duy, Đại, Đạt v.v…  Chứa các tên đặc biệt: Bà Trưng, Bà Triệu v.v… Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 36 o Từ điển tên tổ chức: chứa tên các tổ chức như OPEC, G8, G7 v.v… o Từ điển tên địa điểm: gồm 3 từ điển nhỏ  Từ điển tên nước: Việt Nam, Pháp, Canada v.v…  Từ điển tên các thành phố trên thế giới: NewYork, Paris v.v…  Từ điển tên các vùng miền: miền Bắc, miền Anh, châu Á v.v… o Từ điển tên các công trình đặc biệt như: Kim tự tháp, BigBen v.v… o Từ điển tên các tổ chức tôn giáo: Hội Phật Giáo, Thiên Chúa Giáo v.v… Những từ điển dùng cho việc nhận dạng trong bộ luật: o Từ điển các từ đứng trước tên người: anh, cô, chú, ông v.v… o Từ điển các động từ thường đứng sau tên người: cười, khóc, nói v.v… o Từ điển các từ đứng trước tên tổ chức: công ty, tập đoàn, bệnh viện v.v… o Từ điển các từ đứng trước tên địa điểm: đảo, biển, thành phố, quận, huyện v.v… o Từ điển các từ đứng trước thực thể chỉ quốc gia: người, chính phủ v.v… o Từ điển các từ đứng trước các công trình: cầu, tòa nhà, cảng v.v… Từ điển chứa các từ gây ra sự nhập nhằng: o Từ điển các từ nhập nhằng giữa tổ chức và công trình như: Lầu Năm Góc, Nhà Trắng v.v… o Từ điển các từ nhập nhằng giữa tên người, tên địa điểm và quốc gia: Anh, Mỹ, Nga, Nhật v.v… VNEgazetteer hoạt động tạo ra một tập các nhãn (annotation) Lookup (loại nhãn mặc định của GATE). Mỗi một nhãn Lookup được tạo mới tương ứng với một từ hoặc cụm từ của văn bản xuất hiện trong bộ từ điển (gazetteer) và chứa các đặc trưng Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 37 của từ điển (bao gồm majorType và minorType). Như vậy sau hai quá trình xử lý là Coltech.NLP.tokenizer và VNEgazetteer, văn bản đã được gán ba kiểu nhãn (annotation) là: “Word”, “Split” và “Lookup”. 4.3.3 Bộ luật Song song với quá trình xây dựng bộ từ điển (VNEgazetteer) chúng tôi tiến hành xây dựng bộ luật (VNEtransducer) – thành phần quan trọng nhất trong hệ thống của chúng tôi. Bộ luật sử dụng các thông tin do các thành phần khác trong hệ thống (bộ tách từ, bộ gán nhãn từ loại, bộ từ điển) cung cấp để nhận dạng các thực thể (thực thể và loại thực thể). Có thể mô tả các bước hoạt động của bộ luật do chúng tôi xây dựng như sau: Tiền xử lý o Loại bỏ các nhãn “Lookup” không cần thiết, hoặc có thể đưa những thông tin sai cho quá trình nhận dạng. o Tạo ra nhãn (annotation) NamePhrase dùng làm thành phần chính cho quá trình nhận dạng thực thể. Xử lý o Nhận dạng các thực thể chỉ công trình và xử lý nhập nhằng giữa hai loại thực thể và o Nhận dạng các thực thể chỉ địa điểm và các thực thể thuộc về quốc gia o Nhận dạng các thực thể chỉ tổ chức o Nhận dạng các thực thể chỉ các tổ chức tôn giáo o Nhận dạng các thực thể chỉ người o Sử dụng ngữ cảnh và quá trình nhận dạng thông minh. Kiến trúc của bộ luật được chúng tôi đưa ra gồm nhiều bước, nhằm giải quyết từng nhóm thực thể mang độ nhập nhằng cao: và , và v.v… Ngoài ra, các bước xử lý sau có thể sử dụng các thực thể được Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 38 nhận dạng ở bước xử lý trước làm thông tin cho việc nhận dạng của mình. Ví dụ: sử dụng để nhận dạng (chi tiết tại mục 4.3.3.5). Bộ luật được phát triển dựa trên những kinh nghiệm của quá trình phân tích lỗi, hay nói cách khác nó ngày càng hoàn thiện hơn sau mỗi lần chúng tôi phát hiện lỗi và sửa lỗi. Để đảm bảo việc phát triển các luật không làm ảnh hưởng đến những thành quả đã có của hệ thộng, chúng tôi luôn sử dụng unit testing trong suốt quá trình viết luật. 4.3.3.1 Chuẩn hóa tập nhãn Lookup Hoạt động đầu tiên của bộ luật là loại bỏ đi những nhãn Lookup chỉ là tiếng không phải là từ, không mang đúng ngữ nghĩa trong văn cảnh. Ví dụ trong câu: “Thị trường Việt Nam thật ảm đảm trong thời kỳ khủng hoảng”. Vì trong từ điển các từ đứng trước các thực thể chỉ tổ chức do chúng tôi xây dựng có chứa từ “trường”, nên hiển nhiên sẽ có một nhãn (annotation) Lookup được tạo ra ở tiếng “trường”. Tuy nhiên nếu chúng ta thừa nhận nhãn (annotation) này tức là chúng ta công nhận tiếng “trường” như một từ mang ý nghĩa “trường học” và hiển nhiên là không đúng trong văn cảnh này bởi nó nằm trong từ “thị trường”. Những nhãn (annotation) như vậy bị chúng tôi loại bỏ vì nó sẽ mang lại những sai lầm trong quá trình nhận dạng. Nhờ có bước này mà từ “Việt Nam” trong câu ví dụ được nhận là chứ không phải là . 4.3.3.2 Tạo nhãn “NamePhrase” Sau quá trình chuẩn hóa tập nhãn “Lookup”, chúng tôi gộp những nhãn có kiểu “Word” và có đặc trưng “upper = true” cạnh nhau lại thành một nhãn (annotation) mới: nhãn “NamePhrase”. Ví dụ câu: “Chủ nhật tới, công ty TNHH Tân Phát Hoàn Cầu sẽ khai trương.” các nhãn Word: “TNHH”, “Tân Phát”, “Hoàn Cầu” sẽ được gộp lại với nhau thành một nhãn mới NamePhrase “TNHH Tân Phát Hoàn Cầu”. Có thể hình dung giai đoạn này chúng tôi gộp các “từ viết hoa thông thường” ở cạnh nhau lại và chúng sẽ được sử dụng để nhận dạng phần lớn các thực thể sau này. Vậy thế nào là từ viết hoa không thông thường? Chúng tôi quy định tất cả các từ, cụm từ sử dụng làm tiền tố nhận dạng Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 39 và một số từ đặc biệt (“Tôi”, “Bạn” v.v…) sẽ luôn luôn có đặc trưng “upper = false” cho dù chúng được viết hoa. Việc này giúp các từ, cụm từ làm tiền tố nhận dạng không bị nhập vào các NamePhrase, làm mất đi khả năng nhận dạng. 4.3.3.3 Nhận dạng thực thể chỉ công trình Sau khi hoàn tất các bước tiền xử lý, chúng tôi bắt đầu bước vào quá trình nhận dang. Đầu tiên, chúng tôi nhận dạng các thực thể chỉ công trình và xử lý sự nhập nhằng giữa những thực thể chỉ tổ chức với những thực thể chỉ các công trình ví dụ như: “Nhà Trắng”, “Lầu Năm Góc”, v.v… trong các trường hợp: “Lầu Năm Góc được xây dựng rất kiên cố.” “Lầu Năm Góc vừa ra lệnh trừng phạt Iraq.” Trong bước này chúng tôi xem xét sự chủ động của thực thể, các thực thể đứng trước các mang tính bị động như từ “được” trong ví dụ sẽ được nhận là thực thể chỉ các công trình . Còn lại được nhận là thực thể chỉ tổ chức . Tuy còn xử lý ở mức đơn giản nhưng nó cũng đã đem lại những hiệu quả nhất định. 4.3.3.4 Nhận dạng thực thể chỉ địa điểm và thực thể thuộc về quốc gia Ở giai đoạn thứ 4 của quá trình xử lý trong bộ luật, chúng tôi nhận dạng các thực thể chỉ địa điểm đơn giản. Ngoài việc áp dụng bộ từ điển chứa các thực thể chỉ địa điểm như: vùng miền, tên các thành phố v.v… chúng tôi sử dụng các tiền tố như: “ở, tại, đến, trong, ngoài v.v…” để nhận dạng các thực thể chỉ địa điểm đơn giản. Ví dụ luật nhận đứng sau “ở, tại v.v…” Rule: Location5 ( {Lookup.majorType == "vlocation"} ({NamePhrase}):namephrase):location ) Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 40 --> :location.Location = {kind = "Location", rule = "title + Location"} Sở dĩ nói các thực thể chỉ địa điểm đơn giản bởi còn một số trường hợp nhập nhằng giữa thực thể chỉ địa điểm , thực thể thuộc về quốc gia và thực thể chỉ người mà giai đoạn này chưa thể giải quyết được. Trong các tiền tố được sử dụng để nhận biết thực thể chỉ địa điểm có một trường hợp khiến chúng tôi phải cân nhắc rất nhiều đó là từ “về”. Lấy các câu sau làm ví dụ phân tích: “Tôi sẽ bay về Nga vào ngày mai.” “Đây là câu chuyện về Nga, cô sinh viên nghèo hiếu học xứ Nghệ.” Rõ ràng nếu để từ “về” như một tiền tố nhận dạng thực thể chỉ địa điểm, sẽ có khá nhiều trường hợp nhận sai xảy ra. Hiện tại, chúng tôi vẫn loại bỏ từ “về” ra khỏi từ điển chứa các tiền tố nhận dạng thực thể chỉ địa điểm . Cũng trong các luật về nhận dạng thực thể chỉ địa điểm chúng tôi chia ra xử lý hai loại thực thể chỉ địa điểm: Với những thực thể chỉ địa điểm mang tính tự nhiên như: đảo Phú Quốc, Biển Đông, núi Phú Sỹ v.v… chúng tôi nhận cả cụm tiền tố (đảo, biển, núi v.v…) cùng với nhãn (NamePhrase) thành thực thể chỉ địa điểm . Với những thực thể chỉ địa điểm không mang tính tự nhiên như: đường Phạm Văn Đồng, thành phố Hà Nội v.v… chúng tôi không nhận các tiền tố vào thực thể chỉ địa điểm. Tuy nhiên cũng có những trường hợp đặc biệt như: “quận 5”, “tiểu khu 8” v.v… chúng tôi xử lý riêng và nhận cả cụm trên là . Sau khi nhận dạng các thực thể chỉ địa điểm , những nhãn (annotation) Lookup chỉ tên quốc gia (ngoại trừ một số trường hợp đặc biệt như: Anh, Nga, Mỹ, Nhật v.v… sẽ được xử lý riêng) không nhận là thực thể chỉ địa điểm sẽ được nhận là thực thể thuộc quốc gia . Ngoài ra thực thể Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 41 thuộc về quốc gia còn được nhận dạng thông qua một số tiền tố như: “người”, “dân tộc”, “tiếng” v.v… 4.3.3.5 Nhận dạng thực thể chỉ tổ chức Sở dĩ đến thời điểm này chúng tôi mới nhận dạng là bởi có một số trường hợp cần những thông tin về thực thể chỉ địa điểm . Ví dụ như: “Chi nhánh Canon tỉnh Bình Dương tuyên bố phá sản.” Nếu chỉ dừng lại ở việc nhận dạng thực thể chỉ tố chức thông qua từ điển và tiền tố (“Chi nhánh”) thì ta chỉ nhận được cụm không đầy đủ “Chi nhánh Canon” là thực thể chỉ tổ chức . Chúng tôi sử dụng các thông tin về thực thể chỉ địa điểm để việc nhận dạng thực thể chỉ tổ chức được chính xác hơn. Có thể hình dung luật là: tổ chức + (tiền tố) + địa điểm -> tổ chức. 4.3.3.6 Nhận dạng thực thể chỉ các tổ chức tôn giáo Có thể nói, đây là giai đoạn đơn giản, mang ít tính nhập nhằng nhất của hệ thống. Bởi số lượng các từ, cụm từ chỉ các tổ chức tôn giáo không nhiều, và chúng cũng ít khi xuất hiện trong các văn bản, nên chúng tôi chọn giải pháp xử lý đơn giản là nhờ bộ từ điển. Ví dụ: Phase: Religion Input: Lookup Options: control = appelt Rule: religion ( {Lookup.majorType == "religion"} ):name --> Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 42 :name.Religion = {kind = "Religion", rule = "Religion trong Gazetter"} 4.3.3.7 Nhận dạng các thực thể chỉ người Các thực thể chỉ người chiếm một tỷ trọng lớn và mang độ nhập nhằng cao. Ví dụ: Nhóm các từ: Đức, Mỹ, Anh, Nga v.v… nhập nhằng giữa ba loại thực thể: , và . Nhóm các tên người lấy theo tên địa danh: Việt Nam, Hải Dương v.v… Có khá nhiều luật được chúng tôi áp dụng trong giai đoạn này như: sử dụng từ điển, sử dụng tiền tố, sử dụng hậu tố (các động từ “nói”, “cười”, “khóc” v.v…) và một số kỹ thuật khác. Trong giai đoạn này, chúng tôi mới chỉ xử lý nhận dạng thực thể chỉ người một cách đơn giản, và trong những trường hợp nhập nhằng giữa và hay thì vẫn ưu tiên cho và hơn. Tuy nhiên những thực thể được nhận trong các trường hợp nhập nhằng như vậy sẽ được đánh dấu lại, để chúng tôi nhận dạng lại bằng văn cảnh trong giai đoạn sau. 4.3.3.8 Sử dụng văn cảnh và quá trình nhận dạng thông minh Có thể nói kết thúc giai đoạn nhận dạng thực thể chỉ người ở mục 4.3.3.7, ta đã xây dựng xong một hệ thống nhận dạng thực thể trong văn bản tiếng Việt ở một mức nào đó. Tuy nhiên thực tế hiệu quả của hệ thống chưa được cao như chúng tôi mong muốn. Rất nhiều câu như: “Ba Te, người con cả trong gia đình, đi phu hồ quanh năm mà vẫn không kiếm được là bao.” “Niềm vui bất ngờ ập đến với A Lưới.” không thể được nhận dạng đúng bởi hệ thống. Hơn nữa trong các trường hợp nhập nhằng hơn như các từ: “Anh”, “Mỹ”, “Nhật” v.v… việc nhận dạng lại càng khó khăn. Đến giai đoạn này, chúng tôi quyết định tích hợp những thành phần “thông minh” hơn cho hệ thống. “Thông minh” bởi chúng có sử dụng thêm các yêu tố văn cảnh vào việc nhận dạng. Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 43 Trước tiên chúng tôi xử lý tập các từ có độ nhập nhằng cao “Mỹ, Nga, Nhật, Đức v.v…” dựa trên một số quy định: Nếu trong văn bản xuất hiện nhiều hơn 2 tên quốc gia thì sẽ nhận tất các tên như trên là ở dạng thực thể chỉ địa điểm hoặc thực thể thuộc về quốc gia . Nếu có nhiều hơn 2 tên trong số các từ nhập nhằng trên xuất hiện trong văn bản thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ địa điểm hoặc thực thể thuộc về quốc gia . Nếu có một tên trong số các tên trên chắc chắn chỉ người (đứng sau các tiền tố: ông, bà, anh, v.v…) thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ người . Hình 4.3 - Mô tả kết quả nhận dạng của một trường hợp nhập nhằng giữa Person và Nationality Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 44 Hình 4.3 mô tả kết quả nhận dạng của hệ thống cho câu: “Nga, Mỹ vừa ra lệnh trừng phạt Nhật”. Tuy cả ba từ: “Nga”, “Mỹ”, “Nhật” đều có thể là tên người, hoặc tên quốc gia, nhưng vì chúng ở cùng trong một câu, nên chúng tôi ưu tiên nhận dạng thực thể thuộc về quốc gia . Bước tiếp theo chúng tôi sử dụng văn cảnh và độ chắc chắn để nhận thêm các thực thể chỉ người , chỉ địa điểm , chỉ tổ chức , chỉ công trình . Những thực thể được xác định bởi những luật có độ chắc chắn cao sẽ được nhận là thực thể có độ chính xác cao. Một số luật có độ chắc chắn cao như: Tiền tố (ông, bà, anh, chị v.v…) + + hậu tố (nói, cười, khóc v.v…) Tiền tố (ở, đến, tại v.v…) + Tiền tố (công ty, tập đoàn v.v…) + Tiền tố (chợ, cầu, cảng v.v…) + Chúng tôi sử dụng đặc trưng “sure=90” cho những nhãn (annotation) này. Những từ, cụm từ giống với những thực thể có độ chính xác cao được nhận là thực thể cùng loại. Xem xét đoạn văn sau: “Bà Nùng vừa hút tẩu thuốc vừa kể: “Đời thằng A Lưới khổ lắm. Nhà chẳng còn ai, lao động quần quật cả năm mà vẫn không đủ ăn. Không biết đời nó bao giờ mới có vợ.” Ấy thế mà niềm vui bất ngờ đã đến với A Lưới, anh gặp Hoa, cô giáo miền xuôi mới lên bản.” Nhờ có cụm “thằng A Lưới” nên “A Lưới” được nhận là thực thể chỉ người với độ chắc chắn cao. Nhờ đó từ “A Lưới” ở câu dưới cũng được nhận là thực thể chỉ người. Hình 4.4 là kết quả chạy của hệ thống đối với đoạn văn trên. Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 45 Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh Tuy nhiên trong một số trường hợp luật này gây ra một vài mâu thuẫn. Lấy đoạn văn sau làm ví dụ: “Chợ Quảng Châu tại Quảng Châu là một nơi nổi tiếng nhất Trung Quốc về hàng nhái.” Cả Quảng Châu trong “Chợ Quảng Châu” và Quảng Châu trong “tại Quảng Châu” đều được nhận với độ chắc chắn cao sẽ dẫn đến việc gán nhãn sai. Vì lý do này chúng tôi chỉ cho phép những thực thể chưa được nhận, hoặc nhận ở độ chắc chắn không cao được phép gán nhãn lại trong giai đoạn này. Một mặt khác, trong quá trình phân tích lỗi chúng tôi đã gặp những trường hợp rất đáng tiếc như: “Các sinh viên Đạt, Đại, Đăng, Giang đang đánh bi a.” Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 46 Tất nhiên sau này khi chúng tôi đã cập nhật lại cho bộ từ điển tên người, thì hiển nhiên tất cả các tên này đều được nhận ra một cách đơn giản. Nhưng mới đầu trong từ điển tên người không có các từ “Đạt, Đại, Đăng, Giang” làm cho hệ thống chỉ nhận ra một mình “Đạt” là thực thể chỉ người (do đứng sau tiền tố “sinh viên”) và bỏ xót mất ba thực thể một cách đáng tiếc. Giải quyết việc này cũng thực đơn giản, chúng tôi xây dựng một bước kiểm tra các nhãn (annotation) NamePhrase ở cạnh nhau (cách nhau bởi dấu “,” hoặc từ “và”), nếu có một NamePhrase đã được nhận ra ở dạng thực thể nào đó, thì tất cả các NamePhrase liền kề nó sẽ được nhận dạng cùng loại. Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau Cuối cùng chúng tôi duyệt lại toàn bộ các thực thể đã được nhận dạng, xóa đi những thực thể vi phạm nguyên tắc nằm trong một thực thể khác và những nhãn (annotation) trung gian do bộ luật tự sinh ra. Như vậy chúng ta đã tìm hiểu qua những nét cơ bản của hệ thống nhận dạng thực thể trong văn bản tiếng Việt do chúng tôi xây dựng. Ở chương tiếp theo, chúng Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt 47 tôi sẽ đưa ra những đánh giá về hiệu quả của hệ thống, cũng như phân tích những lỗi mà hệ thống còn mắc phải. Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt 48 Chương 5 Kết quả thực nghiệm và phân tích lỗi Chúng tôi đánh giá hệ thống trên hai tập dữ liệu, tập dữ liệu được dùng trong quá trình viết luật (tập huấn luyện) gồm 18 văn bản (1013 câu), và tập dữ liệu mới (tập kiểm tra) gồm 17 văn bản (879 câu). Cả hai tập dữ liệu này được gán nhãn và kiểm tra bởi hai người theo quy trình ở mục 4.2. 5.1 Các bước tiến hành thực nghiệm Bước 1: Sử dụng hệ thống nhận dạng thực thể trong văn bản tiếng Việt do chúng tôi xây dựng để tự động nhận dạng và gán nhãn cho các thực thể. Bước 2: So sánh tập dữ liệu được gán nhãn tự động và tập dữ liệu chuẩn được gán nhãn bằng tay, qua đó đưa ra các thông số đánh giá chất lượng của hệ thống (Precision, Recall, F-measure). 5.2 Kết quả thực nghiệm Chúng tôi đánh giá kết quả thực nghiệm qua hai tiêu chí: Tiêu chí chặt (strict): một thực thể được nhận dạng đúng khi trùng khớp hoàn toàn (về vị trí), và cùng kiểu với thực thể trong tập dữ liệu chuẩn. Tiêu chí lỏng (lenient): một thực thể được nhận dạng đúng khi nó có phần chung và cùng kiểu với thực thể trong tập dữ liệu chuẩn. Với tiêu chí đánh giá chặt, ta thu được các kết quả sau: Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt 49 Kết quả nhận dạng trên tập huấn luyện (bảng 5.1) mới chỉ dừng lại ở F-measure đạt 89.90%, hứa hẹn chúng tôi sẽ còn cải tiến được nhiều trong tương lai. Bảng 5.1 – Kết quả nhận dạng trên tập huấn luyện Loại Số thực thể Số thực thể được nhận dạng Số thực thể được nhận đúng Precision Recall F-measure Person 548 470 457 97.23 % 83.39 % 89.78 % Organization 100 85 80 94.11 % 80.00 % 86.48 % Location 272 255 244 95.68 % 89.70 % 92.59 % Nationality 87 84 72 85.71 % 82.75 % 84.21 % Facility 78 76 69 90.78 % 88.46 % 89.61 % Religion 18 18 18 100.00 % 100.00 % 100.00 % All 1103 988 940 95.14 % 85.22 % 89.90 % Bảng 5.2 – Bảng kết quả nhận dạng trên tập kiểm tra Loại Số thực thể Số thực thể được nhận dạng Số thực thể được nhận đúng Precision Recall F-measure Person 370 285 263 92.28 % 71.08 % 80.30 % Organization 48 33 25 75.75 % 52.08 % 61.72 % Location 260 239 222 92.88 % 85.38 % 88.97 % Nationality 82 68 56 82.35 % 68.29 % 74.66 % Facility 40 33 29 87.87 % 72.50 % 79.45 % Religion 20 19 19 100.00 % 95.00 % 97.43 % All 820 677 614 90.69 % 74.87 % 82.03 % Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt 50 Trong khi đó, trên tập kiểm tra kết quả thu được cũng khá khả quan: F-measure đạt 82.03% (bảng 5.2). Tuy nhiên, bên cạnh những loại thực thể có kết quả nhận dạng rất tốt như: thực thể chỉ các tổ chức tôn giáo (F-measure: 97.43%), thực thể chỉ địa điểm (F-measure: 88.97%) v.v… thì loại thực thể chỉ tổ chức lại thu được kết quả khá khiêm tốn F-measure: 61.72%. Sở dĩ có điều này là vì tên các tổ chức của Việt Nam đôi khi khá dài, khó nhận diện, đặc biệt khi chúng không được viết hoa. Ví dụ câu sau: “Công ty Hợp tác lao động nước ngoài - LOD , thuộc Bộ GTVT.” Câu trên gồm 3 thực thể chỉ tổ chức: “Công ty Hợp tác lao động nước ngoài”, “LOD” và “Bộ GTVT”. Tuy nhiên hệ thống chỉ nhận được thực thể “Công ty Hợp tác” (nhận sai) và “Bộ GTVT” (nhận đúng). Tuy nhận sai nhưng việc nhận ra một phần của thực thể “Công ty Hợp tác lao động nước ngoài” cũng có ý nghĩa, bởi thật khó để nhận được thực thể này. Chúng tôi thử đánh giá lại chất lượng của hệ thống theo tiêu chí “lỏng” hơn (lenient evaluation). Kết quả thu được như sau: Bảng 5.3 – Kết quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient evaluation) Loại Số thực thể Số thực thể được nhận dạng Số thực thể được nhận đúng Precision Recall F-measure Person 370 285 266 93.33 % 71.89 % 81.22 % Organization 48 33 30 90.90 % 62.50 % 74.07 % Location 260 239 224 93.72 % 86.15 % 89.77 % Nationality 82 68 57 83.82 % 69.51 % 76.00 % Facility 40 33 31 93.93 % 77.50 % 84.93 % Religion 20 19 19 100.00 % 95.00 % 97.43 % All 820 677 627 92.61 % 76.46 % 83.76 % Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt 51 Rõ ràng trong khi hầu như các kết quả nhận dạng thực thể khác không tăng nhiều, thì kết quả nhận dạng các thực thể chỉ tổ chức đã tăng đáng kể (F-measure từ 61.72% lên 74.07%). Bảng 5.4 thể hiện kết quả của những hệ thống nhận dạng thực thể trong văn bản tiếng Việt hiện tại (Nguyễn 2005, Cao 2007). Tuy không cùng so sánh trên một tập kiểm tra, nhưng với những kết quả tương đương (F-measure: 82.03%), cùng rất nhiều hướng cải tiến: mở rộng bộ từ điển, cải tiến bộ luật để sử dụng tốt hơn những yếu tố văn cảnh v.v… chúng tôi tin rằng hệ thống của chúng tôi sẽ là nền tảng để phát triển thành những hệ thống nhận dạng thực thể trong văn bản tiếng Việt đạt hiệu quả cao. Bảng 5.4 – Kết quả thực nghiệm của một số hệ thống nhận dạng thực thể trong văn bản tiếng Việt Precision Recall F-measure Hệ thống nhận dạng thực thể sử dụng CRF (Nguyễn 2005) 81.85% 79.35% 80.53% Hệ thống VN-KIM IE (Cao 2007 81.37% 81.37% 81.37% 5.3 Phân tích lỗi Như chúng ta đã phân tích ở mục 5.2, việc nhận dạng các thực thể chỉ tổ chức trong văn bản tiếng Việt là khá khó. Một số thực thể chỉ tổ chức rất khó để nhận biết như: “Ngân hàng nông nghiệp và phát triển nông thôn” “Công ty Hợp tác lao động nước ngoài”. “Cục Phòng chống buôn người và bảo vệ trẻ vị thành niên vương quốc Campuchia”. v.v… Có thể chúng tôi sẽ phải sử dụng thêm những từ điển đặc biệt, cùng với vận dụng văn cảnh ở mức độ cao để nhận ra các thực thể này. Tuy đã có cả một phần nhận dạng thông minh nhằm giải quyết sự nhập nhằng của nhóm các từ: “Mỹ, Nga, Nhật v.v…” - nhập nhằng giữa , và , nhưng chúng tôi vẫn chưa thể giải quyết triệt để vấn đề này. Ngoài ra Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt 52 còn có những trường hợp nhập nhằng giữa và làm cho kết quả nhận dạng chưa được cao (F-measure: 74.07%). Lấy câu sau làm ví dụ phân tích: “Sau khi con tàu đã có một bản “ khai sinh ” khác thì bọn chúng tìm mối tiêu thụ và giao tàu tận nơi , Philippines là địa điểm mà chúng thường đến ... .” Với câu này, hệ thống nhận “Philippines” là thay vì (nhận sai), tuy nhiên thật khó để nhận đúng trong trường hợp này. Ta chỉ có thể nhận đúng “Philippines” là khi sử dụng được ngữ nghĩa của cụm từ đứng sau: “là địa điểm”. Ngoài thực thể thuộc về quốc gia và thực thể chỉ tổ chức , thực thể chỉ tên người cũng chưa thu được một kết quả nhận dạng như ý (F-measure: 81.22%), trong đó kết quả Recall khá thấp: 71.89%. Cá biệt khi xem xét những lỗi trong quá trình nhận dạng, chúng tôi phát hiện những đoạn văn gồm khá nhiều thực thể chỉ người bị bỏ sót. Ví dụ: “Người ta giới thiệu chúng tôi gặp S . , một thủy thủ già dặn đã có kinh nghiệm hàng chục năm trong nghề “ vệ sinh tàu bè ” . S . không đồng ý nêu tên thật của anh cho dù giờ đây S . đã là một ông chủ quán bình dị : “ Chúng tôi hay tụ tập tại quán cà phê “ tổng hành dinh ” , khi ấy tôi đang ngồi với hàng chục thủy thủ thất nghiệp khác thì “ ông chủ ” đến , chỉ cần mười phút ra giá là nhóm chúng tôi đi theo ông ta ngay .” Trong đoạn văn trên “S.” là thực thể chỉ người, tuy nhiên hệ thống lại bỏ qua bởi hiện tại chưa có hệ luật đủ mạnh để vận dụng hết những yếu tố văn cảnh trong quá trình nhận dạng. Cũng phải nói thêm vì xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt nên chúng tôi chưa xử lý triệt để các trường hợp tên viết tắt, hoặc tên viết theo kiểu nước ngoài như: “A. Morgan” v.v… Ở đây dấu “.” không được phép nhận là dấu tách câu (Split). Ngoài ra, còn một số trường hợp hệ thống nhận dạng lỗi do bộ tách từ hoạt động không chính xác. Ví dụ câu: “Linh cảm thấy buồn.” Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt 53 Câu được tách từ thành: “Linh_cảm thấy buồn.”, và không nhận ra được “Linh” là thực thể chỉ người. Trong khi nếu tách từ đúng “Linh cảm_thấy buồn” thì khả năng “Linh” sẽ được nhận ra là bởi đứng trước hành động “cảm thấy”, và có xuất hiện trong từ điển tên người. Chương 6. Tổng kết và hướng phát triển Nguyễn Bá Đạt 54 Chương 6 Tổng kết và hướng phát triển Có thể nói chúng tôi đã bước đầu xây dựng được một hệ thống mở trên nền GATE để cộng đồng có thể tiếp cận sử dụng và phát triển cho bài toán nhận dạng thực thể trong văn bản tiếng Việt. Tuy nhiên vẫn còn một số thực thể có kết quả nhận dạng khá thấp như: thực thể chỉ tổ chức , thực thể thuộc nước và thực thể chỉ người là do chúng tôi chưa vận dụng được hết những yếu tố văn cảnh vào quá trình nhận dạng. Bên cạnh hệ thống nhận dạng thực thể cho văn bản tiếng Việt, chúng tôi còn xây dựng được một tài liệu định nghĩa và phận loại các loại thực thể, cùng một tập dữ liệu đã được gán nhãn chuẩn. Khi tập dữ liệu được gán nhãn đủ lớn, chúng tôi có thể sử dụng thêm các thành phần nhận dạng thực thể bằng các phương pháp học máy, làm tăng sức mạnh của hệ thống. Một hướng phát triển khác đã bắt đầu được chúng tôi sử dụng ở mức độ thấp là kết hợp giữa hệ luật được xây dựng bởi chuyên gia, cùng lý thuyết xác suất mờ để thêm vào những yếu tố văn cảnh trong quá trình nhận dạng thực thể. Hiện tại, các hệ thống nhận dạng thực thể trong văn bản Tiếng Việt (Nguyễn 2005, Cao 2007) mới chỉ dừng lại ở độ chính xác khoảng 80% (F-measure), vì thế dù không cùng đánh giá trên một tập kiểm tra, nhưng với những kết quả đã đạt được (F- measure – 82.03%) và khả năng có thể cải tiển hệ thống ở nhiều mặt như: cải tiến bộ từ điển, thêm những thành phần xử lý sâu về ngữ cảnh, kết hợp với bộ nhận dạng sử dụng các phương pháp học máy v.v… sẽ hứa hẹn đem lại một hệ thống nhận dạng thực thể trong văn bản tiếng Việt đạt kết quả cao trong tương lai. Tài liệu tham khảo Nguyễn Bá Đạt 55 Tài liệu tham khảo [1] [Appelt 1995] D. Appelt, SRI International FASTUS system MUC-6 test results and analysis, Proceedings of the MUC-6, NIST, Morgan-Kaufmann Publisher, Columbia, 1995. [2] [Appelt 1999] D. Appelt, An Introduction to information extraction, Artificial Intelligence Communications, 12, 1999. [3] [Bechet 2000] F. Bechet, A. Nasr and F. Genet, Tagging Unknown Proper Names Using Decision Trees, In proceedings of the 38 th Annual Meeting of the Association for Computational Linguistics, 2000. [4] [Bikel 1998] D. Bikel, S. Miller, R. Schwartz, R. Weischedel, a High- Performance Learning Name-finder, fifth conference on applied natural language processing, PP 194-201, 1998. [5] [Borthwick 1998] A. Borthwick, J. Sterling, E, Agichtein, and R. Grishman, Exploiting diverse knowledge sources via maximum entropy in named entity recognition, Proceedings of the Sixth workshop on Very Large Corpora, Montreal, Canada, 1998. [6] [Budi 2003] I. Budi, S. Bressan, Association Rules Mining for Name Entity Recognition, Proceedings of the Fourth International Conference on Web Information Systems Engineering, 2003. [7] [Cao 2007] T. Cao, Automatic Extraction of Vietnamese Named-Entities on the Web, New Generation Computing, Ohmsha, Ltd. And Springer. [8] [Collins 1999] Collins, Michael and Y. Singer, Unsupervised models for named entity classification, In proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999. Tài liệu tham khảo Nguyễn Bá Đạt 56 [9] [Cowie 1996] Cowie and W.Lehnert, Information Extraction, In Communications of the ACM, 39, 1996. [10] [Cunningham 1999] H. Cunningham, Information extraction: a User Guide (revised version), Research Menorandum CS-99-07, Department of Computer Science, University of Sheffied, May, 1999. [11] [Cunningham 2002] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. GATE, A Framework and Graphical Development Environment for Robust NLP Tools and Applications, Proceedings of the 40 th Anniversary Meeting of the Association for Computational Linguistics (ACL'02). Philadelphia, July 2002. [12] [Grishman 1995] R. Grishman, The NYU System for MUC-6 or Where's the Syntax, In Proceedings of the Sixth Message Understanding Conference (MUC-6), 1995. [13] [Iwanska 1995] L. Iwanska, M. Croll, T. Yoon, and M. Adams, Wayne state university: Description of the UNO processing system as used for MUC-6, In Proc. of the MUC-6, NIST, Morgan- Kaufmann Publishers, Columbia, 1995. [14] [Kim 2002] J. Kim, I. Kang, k. Choi, Unsupervised Named Entity Classification Models and their Ensembles, Proceedings of the 19th international conference on Computational linguistics, 2002. [15] [Mansouri 2008] A. Mansouri, L. Affendey, A. Mamat, Named Entity Recognition Using a New Fuzzy Support Vector Machine. [16] [Maynard 2001] D. Maynard, V. Tablan, C. Ursu, H. Cunningham and Y. Wilks, Named Entity Recognition from deverse Test Types. [17] [Maynard 2003] Maynard, Diana and Bontcheva, Kalina and Cunningham, Hamish, Towards a semantic extraction of named entities. In Proceedings Recent Advances in Natural, Borovets, Bulgaria. [18] [Morgan 1995]R. Morgan, University of durham: Description of the LOLITA system as used for MUC-6, In Proc of the MUC-6, NIST, Morgan-Kaufmann Publishers, Columbia, 1995. Tài liệu tham khảo Nguyễn Bá Đạt 57 [19] [Nguyễn 2005] T. Nguyễn, T. Oanh, P. Hieu, H. Thuy, Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Ramdom Fields, The 8 th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Viet Nam 2005. [20] [Pastra 2002] K. Pastra, D. Maynard, O. Hamza, H. Cunningham, Y. Wilks, How feasible is the reuse of grammars for Named Entity Recognition? (2002). [21] [Phạm 2007] T. Pham, A. Kawazoe; D. Dinh; N. Collier, Construction of Vietnamese corpora for named entity recognition, In Conference RIAO2007, Pittsburgh PA, U.S.A. May 30-June 1, 2007 – Copyright C.I.D. Paris, France, 2007. [22] [Wu 2006] Y. Wu, T. Fan, Y. Lee, S. Yen, Extracting Named Entities Using Support Vector Machines, Spring-Verlag, Berlin Heidelberg, 2006. [23] [Phạm 2009] D. Phạm, Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn từ loại, Khóa luận tốt nghiệp, Coltech, VNU, 2009. Phụ lục Nguyễn Bá Đạt 58 Phụ lục A. Annotation Guideline. 1. Khái niệm thực thể và tên thực thể Thực thể (entity): là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự nhiên. Thực thể thể hiện trong các dạng : o Tên riêng (name entity). o Danh từ hoặc cụm danh từ chung (common noun, noun phrase). o Đại từ (pronoun). Trong bài toán nhận dạng thực thể, chúng tôi sử dụng từ “thực thể” để chỉ các thực thể có tên. 2. Các loại thực thể Person: Thực thể chỉ người Organization: Thực thể chỉ một tổ chức, một nhóm người được thành lập theo một cấu trúc phân cấp nào đó. Facility: Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v… Location: Thực thể chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông, suối v.v… Nationality: Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia. Religion: Thực thể chỉ các tổ chức tôn giáo. 3. Quy tắc khi nhận dạng thực thể Khi nhận dạng thực thể trong văn bản ta phải đảm bảo một số quy tắc như sau: không có các tên lồng nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ Phụ lục Nguyễn Bá Đạt 59 có hai tên có phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên dài nhất được nhận (longest matching – dài thì thắng). Ví dụ trong câu: “Phòng Giáo dục huyện Mỹ Đức.” ta chỉ nhận “Phòng Giáo dục huyện Mỹ Đức” là thực thể chỉ các tổ chức (Organization) và bỏ qua thực thể chỉ địa điểm “Mỹ Đức”. 4. Phân loại các loại thực thể 4.1 Thực thể chỉ người Là các từ chỉ tên riêng của con người, bao gồm cả tên đầy đủ (cả họ và tên) và tên viết tắt (tên). Ví dụ : Chủ tịch Hồ Chí Minh Ông Nguyễn Bá Đạt Cầu thủ Hồng Sơn Cựu tổng thống Saddam Hussein đã bị quân đội Mỹ bắt và giam giữ. Các trường hợp lưu ý (các trường hợp này không phải là tên người) Các từ(cụm từ) gián tiếp chỉ người. Ví dụ: o Tổng thống Hoa Kỳ. o Quả bóng vàng Việt Nam 2008. Các dấu hiệu nhận biết từ loại này : o Các tiền tố:  Các tiền tố chỉ cách xưng hô :  Ông “Nguyễn Minh Triết”.  Bà Lý Phụ lục Nguyễn Bá Đạt 60  Bác Sơn. Tuy nhiên trong một vài trường hợp đặc biệt ví dụ: Bà Trưng, Bà Triệu v.v… ta sẽ nhận cả cụm Bà Trưng, Bà Triệu là Person.  Các tiền tố chỉ cách gọi theo quan hệ họ hàng :  Dì Ninh  Chú Duy  Anh Giang.  Các tiền tố chỉ cách gọi theo quan hệ chính trị - địa vị xã hội:  Chủ tịch nước Lê Khả Phiêu.  Giám đốc Đăng. o Các hậu tố : các từ đi sau thực thể chỉ người thường là các động từ ở dạng chủ động như: chơi, cười, khóc v.v…  Đại cười duyên. 4.2 Thực thể chỉ tổ chức Thực thể chỉ một tổ chức, một nhóm người được thành lập theo một cấu trúc phân cấp nào đó (không bao gồm các tổ chức tôn giáo). Một số loại tổ chức: Tổ chức chính trị - nhà nước o Văn Phòng Chính Phủ o Công an Thành phố Hà Nội Tổ chức kinh tế o Công ty TNHH Tân Hoàng Phát o Tập đoàn FPT Tổ chức giáo dục o Trường Đại học Công Nghệ o Học viện Ngân Hàng Phụ lục Nguyễn Bá Đạt 61 Tổ chức y tế o Bệnh viện Y Tuệ Tĩnh Các tổ chức khác o Hội Chữ Thập Đỏ o G20 Dấu hiệu nhận biết: thực thể chỉ tổ chức thường đứng sau các tiền tố như: Công ty, tập đoàn, trường học, bệnh viện v.v… 4.3 Thực thể chỉ địa điểm Thực thể chỉ chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông, suối v.v… Với các tên thành phố, quận, huyện, đường v.v… (mang tính chất hành chính do con người đặt ra) o Thành Phố Hồ Chí Minh o Quận Tây Hồ Tuy nhiên với các trường hợp Quận 5, Tiểu khu 8 v.v… thì sẽ nhận cả cụm Quận 5, Tiểu khu 8 là Location. Với các tên đảo, đại dương, sông v.v… (mang tính tự nhiên) o Đảo Bạch Long Vỹ o Sông Hồng o Châu Á Dấu hiệu nhận biết: đứng sau các tiền tố chỉ nơi trốn: ở, trong, ngoài, tại v.v… Tôi sinh ra tại Hà Tây Chiến Tranh đã nổ ra ở Đại Tây Dương 4.4 Thực thể chỉ thực thể do con người tạo ra Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v… Phụ lục Nguyễn Bá Đạt 62 Ví dụ Tòa nhà HITC đang được xây mới. Cầu Trắng 4.5 Thực thể chỉ thực thể thuộc về quốc gia Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia. Ví dụ Cô hướng dẫn viên du lịch người Hoa Chính phủ Việt Nam Quần đảo Hoàng Sa của Việt Nam 4.6 Thực thể chỉ các tổ chức tôn giáo Thực thể chỉ các tổ chức tôn giáo như Phật Giáo, Thiên chúa giáo v.v… Ví dụ Tôi là người theo đạo Phật Hội Phật Giáo Việt Nam Phụ lục Nguyễn Bá Đạt 63 Phụ lục B. Bảng nhãn từ loại tiếng Việt Np danh từ riêng proper noun Nc danh từ đơn thể countable noun Ng danh từ tổng thể collective noun Nt danh từ loại thể classifier noun Nu danh từ chỉ đơn vị concrete noun Na danh từ trừu tượng abstract noun Nn danh từ số lượng numeral Nl danh từ vị trí locative noun Vt động từ ngoại động transitive verb Vit động từ nội động intransitive verb Vim động từ cảm nghĩ impression verb Vo động từ chỉ hướng orientation verb Vs động từ tồn tại state verb Vb động từ biến hoá transformation verb Vv động từ ý chí volotive verb Va động từ tiếp thụ acceptation verb Vc động từ so sánh comparative verb Vm động từ chuyển động move verb Vla động từ "là" “là” verb Vtim động từ ngoại động cảm nghĩ transitive-impression verb Phụ lục Nguyễn Bá Đạt 64 Vta động từ ngoại động tiếp thụ transitive-acceptation verb Vtc động từ ngoại động so sánh transitive-comparative verb Vtb động từ ngoại động biến hoá transitive-transformation verb Vto động từ ngoại động chỉ hướng transitive-orientation verb Vts động từ ngoại động tồn tại transitive-state verb Vtm động từ ngoại động chuyển động transitive-move verb Vtv động từ ngoại động ý chí transitive-volotive verb Vitim động từ nội động cảm nghĩ intransitive-impression verb Vitb động từ nội động biến hoá intransitive-transformation verb Vits động từ nội động tồn tại intransitive-state verb Vitc động từ nội động so sánh intransitive-comparative verb Vitm động từ nội động chuyển động intransitive-move verb Aa tính từ hàm chất quality adjective An tính từ hàm lượng quantity adjective Pp đại từ xưng hô personal pronoun Pd đại từ không gian, thời gian demonstrative pronoun Pn đại từ số lượng quantity pronoun Pa đại từ hoạt động, tính chất quality pronoun Pi đại từ nghi vấn interrogative pronoun Jt phụ từ chỉ thời gian time adjunct Jd phụ từ chỉ mức độ degree adjunct Jr phụ từ so sánh rapport adjunct Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation Ji phụ từ mệnh lệnh imperative adjunct Phụ lục Nguyễn Bá Đạt 65 Cm giới từ major/minor conjunction Cc liên từ combination conjunction E cảm từ emotion word I trợ từ introductory word X không xác định

Các file đính kèm theo tài liệu này:

  • pdfLUẬN VĂN- NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT.pdf