Ngoài thực thể thuộc về quốc gia và thực thể chỉ tổ chức
, thực thể chỉ tên người cũng chưa thu được một kết quả
nhận dạng như ý (F-measure: 81.22%), trong đó kết quả Recall khá thấp: 71.89%. Cá
biệt khi xem xét những lỗi trong quá trình nhận dạng, chúng tôi phát hiện những đoạn
văn gồm khá nhiều thực thể chỉ người bị bỏ sót.
73 trang |
Chia sẻ: lylyngoc | Lượt xem: 3140 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận văn Nhận dạng thực thể trong văn bản tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
pe) “Location”. Khi so sánh hai văn bản, những nhãn (annotation) giống nhau sẽ
được bỏ qua, những nhãn khác nhau sẽ được hiển thị lên giao diện đồ họa để người
dùng có thể dễ dàng quan sát được. Ngoài ra “Annotation Diff” cũng cung cấp ba
thông số đo độ chính xác cơ bản là “Recall, Precision và F-Measure”.
Tuy nhiên điểm hạn chế của “Annotation Diff” là chỉ so sánh được từng cặp
văn bản, và từng kiểu nhãn khác nhau.
3.7.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark
tool)
Đây là công cụ cho phép người sử dụng đánh giá độ tương đồng của các tập dữ
liệu khác nhau như: tập dữ liệu được gán nhãn (annotated corpus) bằng tay, tập dữ liệu
được xử lý bởi hệ thống hiện hành, hay tập dữ liệu được xử lý bởi một hệ thống được
lưu trữ. Corpus Benchmark tool hoạt động cũng hoạt động tương tự như Annotation
Diff, nhưng là trên một tập văn bản và tất cả các nhãn. Giao diện của Corpus
Benchmark tool như hình 3.5.
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
27
Hình 3.4 - Giao diện của Annotation Diff
Hình 3.5 - Giao diện của Corpus Benchmark tool
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
28
Chương 4
Nhận dạng thực thể trong văn bản tiếng Việt
Cùng với sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt, bài toán
nhận dạng thực thể trong văn bản tiếng Việt đã hình thành và bắt đầu thu được những
kết quả khả quan. Một số hệ thống tiêu biểu như: hệ thống nhận dạng thực thể trong
văn bản dựa trên mô hình Conditional Random Fields (CRF) (Nguyễn 2005), hệ thống
nhận dạng thực thể sử dụng phương pháp máy vector hỗ trợ (SVM) (Phạm 2007), hệ
thống VN-KIM NE, nhận biết và chú thích tự động cho các thực thể (Cao 2007).
Tuy nhiên cho đến thời điểm này vẫn chưa có những quy chuẩn cho bài toán
nhận dạng thực thể trong văn bản tiếng Việt, ví dụ như:
Chưa có tập các loại nhãn chuẩn cho thực thể: Nguyễn đưa ra 8 loại nhãn cho
thực thể (Nguyễn 2005), Phạm đưa ra 22 loại nhãn (Phạm 2007), trong khi Cao
nhận diện 7 loại thực thể (Cao 2007).
Chưa có một khung làm việc chuẩn. Các hệ thống nhận dạng thực thể hiện nay
ở Việt Nam xây dựng trên nền mã nguồn đóng, và rất khó để cộng đồng có thể
tiếp cận sử dụng và phát triển.
Bởi vậy, chúng tôi quyết định xây dựng một hệ thống nhận dạng thực thể trong văn
bản tiếng Việt bắt đầu từ việc định nghĩa các thực thể, các loại thực thể cho đến một
khung làm việc và tập dữ liệu được gán nhãn chuẩn. Hệ thống sẽ được xây dựng trên
khung làm việc GATE và được mở cho cộng đồng có thể sử dụng và phát triển.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
29
4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các
loại thực thể
Trước hết, chúng ta cần có những định nghĩa về thực thể, các loại thực thể được nhận
dạng và cách phân biệt các loại thực thể. Tham khảo các khái niệm này trong tiếng
Anh (Annotation Guideline for Named Entity Recognization) và các tài liệu tiếng Việt
(Mai 2008) liên quan, chúng tôi đưa ra các khái niệm cơ bản cho bài toán nhận dạng
thực thể trong văn bản tiếng Việt (tham khảo chi tiết tại phụ lục A).
4.1.1 Các khái niệm cơ bản
4.1.1.1 Định nghĩa thực thể và tên thực thể
Thực thể (entity): là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự
nhiên.
Thực thể thể hiện trong các dạng :
o Tên riêng (name entity).
o Danh từ hoặc cụm danh từ chung (common noun, noun phrase).
o Đại từ (pronoun).
Trong khuôn khổ của khóa luận, để thuận tiện chúng tôi sử dụng cụm “nhận dạng thực
thể” để chỉ việc nhận dạng các thực thể có tên (thể hiện dưới dạng tên riêng).
4.1.1.2 Các loại thực thể được nhận dạng
o Person: Thực thể chỉ người
o Organization: Thực thể chỉ một tổ chức, một nhóm người được thành lập theo
một cấu trúc phân cấp nào đó.
o Facility: Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể
xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
30
o Location: Thực thể chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông,
suối v.v…
o Nationality: Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia.
o Religion: Thực thể chỉ các tổ chức tôn giáo.
4.1.2 Quy tắc nhận dạng thực thể
Khi nhận dạng thực thể trong văn bản ta phải đảm bảo quy tắc: không có các tên lồng
nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ có hai tên có
phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên dài nhất
được nhận (longest matching – dài thì thắng).
Ví dụ trong câu:
“Phòng Giáo dục huyện Mỹ Đức đang họp giao ban.”
ta chỉ nhận “Phòng Giáo dục huyện Mỹ Đức” là thực thể chỉ các tổ chức
(Organization) và bỏ qua thực thể chỉ địa điểm “Mỹ Đức”.
4.2 Chuẩn bị tập dữ liệu
Tuy không cần thiết có một tập dữ liệu được gán nhãn lớn để dùng trong giai đoạn
huấn luyện như những hệ thống sử dụng các phương pháp học máy, nhưng với mục
đích xây dựng thêm một bộ dữ liệu chuẩn, cùng với những khó khăn trong vấn đề nhập
nhằng ngôn ngữ khi viết luật, chúng tôi quyết định xây dựng song song hệ thống nhận
dạng thực thể và tập dữ liệu được gán nhãn chuẩn, trong đó tập văn bản ban đầu được
lấy từ đề tài: “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và
văn bản tiếng Việt”, mã số KC01.01/06-10. Quá trình phát triển đồng thời hai thành
phần như vậy mang lại rất nhiều lợi ích như:
Tiết kiệm thời gian và công sức so với việc hoàn toàn gán nhãn bằng tay cho
tập dữ liệu.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
31
Quá trình chuẩn hóa lại tập thực thể được nhận sai của hệ thống đem lại cho
chúng tôi nhiều kinh nghiệm để hoàn thiện bộ luật cũng như bộ từ điển trong hệ
thống.
Mô hình của hệ thống được mô tả quá trình phát triển của hệ thống trong hình 4.1.
Hình 4.1 - Mô hình các bước phát triển của hệ thống
Đầu tiên chúng tôi xây dựng rất nhanh một hệ thống nhận dạng thực thể sử
dụng bộ luật Jape cho văn bản tiếng Việt có thể dùng được. Sau khi hệ thống đã hình
thành, chúng tôi sử dụng nó để gán nhãn tự động cho văn bản (một tập văn bản). Tập
văn bản được gán nhãn tự động này còn mang nhiều lỗi, được chúng tôi chuẩn hóa
thành những văn bản được gán nhãn chuẩn và thêm nó vào tập dữ liệu (corpus). Tuy
đã tiết kiệm được khá nhiều thời gian và công sức nhờ mô hình gán nhãn tự động
nhưng việc chuẩn hóa lại cũng gặp phải một số khó khăn như:
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
32
Mang tính chủ quan, dễ mắc sai sót.
Nhiều trường hợp nhập nhằng rất khó để phân loại.
Chính vì những lý do trên, chúng tôi chia ra làm hai đội, gán nhãn lại độc lập với nhau.
Sau đó sử dụng bộ công cụ Coltech.NE.tool do nhóm tự xây dựng dựa trên các bộ
công cụ quản lý chất lượng của GATE (Annotation Diff, Corpus Benchmark tool) để
so khớp và thống nhất. Quá trình chuẩn hóa và phân tích lỗi giúp chúng tôi tiếp tục
hoàn thiện hệ thống nhận dạng thực thể. Các bước cứ được tiến hành như vậy cho đến
khi hệ thống nhận dạng thực thể đạt hiệu quả như mong muốn.
4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng
Việt
Tính hiệu quả của khung làm việc GATE cho bài toán nhận dạng thực thể đã được
chứng minh qua nhiều nghiên cứu (Maynard 2001, Cao 2007), bởi vậy chúng tôi quyết
định xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt như một thành
phần tích hợp (Plugin) trên GATE nhằm tận dụng những ưu điểm mà GATE mang lại.
Tham khảo kiến trúc của bộ ANNIE (một thành phần tích hợp có sẵn trong GATE)
chúng tôi đưa ra kiến trúc hệ thống như hình 4.2.
Hình 4.2 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
33
Hệ thống bao gồm 4 phần chính:
Bộ tách từ
Bộ gán nhãn từ loại
Bộ từ điển
Bộ luật
Ta có thể hình dung một cách tổng quan các bước hoạt động của hệ thống như sau:
trước tiên, văn bản được tách từ và gán nhãn từ loại. Sau đó bộ từ điển hoạt động tìm
ra một lớp các thực thể bằng phép so khớp (matching). Cuối cùng bộ luật nhận dạng
lại các thực thể, gán nhãn cho từng thực thể trong văn bản, và trả ra kết quả.
Để hiểu chi tiết hơn về hệ thống nhận dạng thực thể trong văn bản tiếng Việt
trên nền GATE, ta sẽ đi sâu tìm hiểu từng bộ phận của hệ thống.
4.3.1 Bộ tách từ và bộ gán nhãn từ loại
Một nét đặc trưng rất khác biệt của tiếng Việt so với tiếng Anh đó là vấn đề tách từ
(word segmentation). Trong tiếng Anh các từ được phân biệt bởi dấu trống, tuy nhiên
từ trong tiếng Việt thì không như vậy. Một từ có thể bao gồm một, hai, ba hoặc nhiều
hơn các tiếng. Một tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo
thành từ. Ví dụ như câu:
“Học sinh học sinh học.”
Có thể tách câu trên như sau:
“Học_sinh học sinh_học.”
hay
“Học sinh_học sinh_học.”
Như vậy tiếng “sinh” có thể kết hợp với tiếng “Học” đứng trước nó để tạo thành từ
“Học sinh”, hay nó còn có thể kết hợp với tiếng “học” đứng sau nó để tạo thành từ
“sinh_học”.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
34
Quay trở lại bài toán nhận dạng thực thể trong văn bản tiếng Việt, đương nhiên
thực thể phải là từ, hoặc cụm từ mang ý nghĩa. Chúng ta không thể nhận một cụm các
tiếng không mang một ý nghĩa gì làm thực thể. Vậy yêu cầu đầu tiên của giai đoạn tiền
xử lý cho bài toán nhận dạng thực thể là bài toán tách từ trong tiếng Việt. Một hệ
thống nhận dạng thực thể chỉ có thể tốt khi có một bộ tách từ hoạt động tốt. Lấy câu
sau đây làm ví dụ:
“Anh Hùng lái xe trên đại lộ 5.”
Nếu bộ tách từ hoạt động chính xác, câu đó sẽ được tách thành:
“Anh Hùng lái_xe trên đại_lộ 5.”
Từ “Hùng” đứng sau tiền tố nhận dạng “Anh” sẽ được nhận là thực thể chỉ người
và chính xác. Tuy nhiên nếu bộ tách từ hoạt động không chính xác và câu
được tách thành:
“Anh_Hùng lái_xe trên đại_lộ 5.”
Khi đó trong tập các từ hoàn toàn không có từ “Hùng” và việc nhận ra “Hùng” là thực
thể tên người sẽ trở nên rất khó khăn.
Ngoài yêu cầu bắt buộc về một bộ tách từ, chúng tôi còn sử dụng thêm bộ gán
nhãn từ loại trong giai đoạn tiền xử lý của hệ thống, nhằm cung cấp được nhiều thống
tin cho các giai đoạn xử lý tiếp theo. Chúng tôi đóng gói bộ WS&PT.2IN1.4VN (Phạm
2009) thành plugin Coltech.NLP.tokenizer trong khung làm việc GATE. Nhờ đó bộ
tách từ và gán nhãn từ loại có thể dễ dàng thay đổi, cải tiến mà không làm ảnh hưởng
đến kiến trúc của hệ thống.
Các văn bản sau khi được xử lý bởi Coltech.NLP.tokenizer sẽ trở thành văn bản
ở định dạng của GATE tức là gồm: nội dung văn bản, tập các nhãn (annotation) và tập
các đặc trưng (tham khảo 3.2). Ở đây chúng tôi chỉ tạo ra các nhãn “Word” và “Split”
Mỗi nhãn (annotation) “Word” được tạo mới trên một từ gồm một vài đặc trưng
như:
o Từ loại (POS): là từ loại của từ. Ví dụ: Np, Nn v.v…(tham khảo tại phụ
lục B).
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
35
o Nội dung (string): là xâu thể hiện từ. Ví dụ: “học sinh”, “đại ca” v.v…
o Viết hoa (upper): nếu ký tự đầu tiên của từ viết hoa thì upper = “true”.
Ngược lại upper = “false”.
o Ngoài ra còn một số đặc trưng như: kind, nation v.v…để giúp ích cho
quá trình viết luật.
Mỗi nhãn “Split” được tạo mới trên một dấu tách câu như: “.”, “?”, “!”, cũng có
những đặc trưng tương tự như nhãn “Word”.
Sau khi Coltech.NLP.tokenizer hoàn thành, chúng tôi bước vào xây dựng thành phần
xử lý chính trong hệ thống: gồm hai nguồn xử lý (Processing Resource) VNEgazetteer
như một bộ từ điển, và VNEtransducer như một bộ luật. Hai nguồn xử lý này được xây
dựng và phát triển song song cùng với quá trình tạo tập dữ liệu được gán nhãn
(Annotated corpus).
4.3.2 Bộ từ điển
Bộ từ điển (VNEgazetteer) được tạo từ nhiều từ điển với các tiêu chí khác nhau, nhằm
nhận dạng được một lớp các thực thể nhờ quá trình so khớp, cũng như cung cấp những
thông tin cần thiết cho quá trình nhận dạng trong bộ luật. Mỗi từ điển gồm các từ mang
cùng một ý nghĩa nào đó, có thể là chứa các thực thể cùng loại như: tên người, tên tổ
chức v.v… hay chứa các từ, cụm từ đóng những vai trò giống nhau về mặt cú pháp,
ngữ nghĩa, hoặc chỉ đơn giản là để sử dụng cho một luật nào đó trong bộ luật. Bộ từ
điển được chúng tôi xây dựng nhờ những kinh nghiệm có được trong quá trình gán
nhãn bằng tay, và vẫn đang được tiếp tục phát triển.
Có thể chia bộ từ điển thành những nhóm sau:
Những từ điển chứa các tên các thực thể được nhận dạng
o Từ điển tên người:
Chứa các tên đầy đủ: Hồ Chí Minh, Nguyễn Tấn Dũng v.v…
Chứa các tên viết tắt: Sơn, Duy, Đại, Đạt v.v…
Chứa các tên đặc biệt: Bà Trưng, Bà Triệu v.v…
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
36
o Từ điển tên tổ chức: chứa tên các tổ chức như OPEC, G8, G7 v.v…
o Từ điển tên địa điểm: gồm 3 từ điển nhỏ
Từ điển tên nước: Việt Nam, Pháp, Canada v.v…
Từ điển tên các thành phố trên thế giới: NewYork, Paris v.v…
Từ điển tên các vùng miền: miền Bắc, miền Anh, châu Á v.v…
o Từ điển tên các công trình đặc biệt như: Kim tự tháp, BigBen v.v…
o Từ điển tên các tổ chức tôn giáo: Hội Phật Giáo, Thiên Chúa Giáo v.v…
Những từ điển dùng cho việc nhận dạng trong bộ luật:
o Từ điển các từ đứng trước tên người: anh, cô, chú, ông v.v…
o Từ điển các động từ thường đứng sau tên người: cười, khóc, nói v.v…
o Từ điển các từ đứng trước tên tổ chức: công ty, tập đoàn, bệnh viện
v.v…
o Từ điển các từ đứng trước tên địa điểm: đảo, biển, thành phố, quận,
huyện v.v…
o Từ điển các từ đứng trước thực thể chỉ quốc gia: người, chính phủ v.v…
o Từ điển các từ đứng trước các công trình: cầu, tòa nhà, cảng v.v…
Từ điển chứa các từ gây ra sự nhập nhằng:
o Từ điển các từ nhập nhằng giữa tổ chức và công trình như: Lầu Năm
Góc, Nhà Trắng v.v…
o Từ điển các từ nhập nhằng giữa tên người, tên địa điểm và quốc gia:
Anh, Mỹ, Nga, Nhật v.v…
VNEgazetteer hoạt động tạo ra một tập các nhãn (annotation) Lookup (loại
nhãn mặc định của GATE). Mỗi một nhãn Lookup được tạo mới tương ứng với một từ
hoặc cụm từ của văn bản xuất hiện trong bộ từ điển (gazetteer) và chứa các đặc trưng
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
37
của từ điển (bao gồm majorType và minorType). Như vậy sau hai quá trình xử lý là
Coltech.NLP.tokenizer và VNEgazetteer, văn bản đã được gán ba kiểu nhãn
(annotation) là: “Word”, “Split” và “Lookup”.
4.3.3 Bộ luật
Song song với quá trình xây dựng bộ từ điển (VNEgazetteer) chúng tôi tiến hành xây
dựng bộ luật (VNEtransducer) – thành phần quan trọng nhất trong hệ thống của chúng
tôi. Bộ luật sử dụng các thông tin do các thành phần khác trong hệ thống (bộ tách từ,
bộ gán nhãn từ loại, bộ từ điển) cung cấp để nhận dạng các thực thể (thực thể và loại
thực thể). Có thể mô tả các bước hoạt động của bộ luật do chúng tôi xây dựng như sau:
Tiền xử lý
o Loại bỏ các nhãn “Lookup” không cần thiết, hoặc có thể đưa những thông
tin sai cho quá trình nhận dạng.
o Tạo ra nhãn (annotation) NamePhrase dùng làm thành phần chính cho quá
trình nhận dạng thực thể.
Xử lý
o Nhận dạng các thực thể chỉ công trình và xử lý nhập nhằng giữa
hai loại thực thể và
o Nhận dạng các thực thể chỉ địa điểm và các thực thể thuộc về
quốc gia
o Nhận dạng các thực thể chỉ tổ chức
o Nhận dạng các thực thể chỉ các tổ chức tôn giáo
o Nhận dạng các thực thể chỉ người
o Sử dụng ngữ cảnh và quá trình nhận dạng thông minh.
Kiến trúc của bộ luật được chúng tôi đưa ra gồm nhiều bước, nhằm giải quyết từng
nhóm thực thể mang độ nhập nhằng cao: và ,
và v.v… Ngoài ra, các bước xử lý sau có thể sử dụng các thực thể được
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
38
nhận dạng ở bước xử lý trước làm thông tin cho việc nhận dạng của mình. Ví dụ: sử
dụng để nhận dạng (chi tiết tại mục 4.3.3.5).
Bộ luật được phát triển dựa trên những kinh nghiệm của quá trình phân tích lỗi, hay
nói cách khác nó ngày càng hoàn thiện hơn sau mỗi lần chúng tôi phát hiện lỗi và sửa
lỗi. Để đảm bảo việc phát triển các luật không làm ảnh hưởng đến những thành quả đã
có của hệ thộng, chúng tôi luôn sử dụng unit testing trong suốt quá trình viết luật.
4.3.3.1 Chuẩn hóa tập nhãn Lookup
Hoạt động đầu tiên của bộ luật là loại bỏ đi những nhãn Lookup chỉ là tiếng không
phải là từ, không mang đúng ngữ nghĩa trong văn cảnh. Ví dụ trong câu:
“Thị trường Việt Nam thật ảm đảm trong thời kỳ khủng hoảng”.
Vì trong từ điển các từ đứng trước các thực thể chỉ tổ chức do chúng tôi xây
dựng có chứa từ “trường”, nên hiển nhiên sẽ có một nhãn (annotation) Lookup được
tạo ra ở tiếng “trường”. Tuy nhiên nếu chúng ta thừa nhận nhãn (annotation) này tức là
chúng ta công nhận tiếng “trường” như một từ mang ý nghĩa “trường học” và hiển
nhiên là không đúng trong văn cảnh này bởi nó nằm trong từ “thị trường”. Những nhãn
(annotation) như vậy bị chúng tôi loại bỏ vì nó sẽ mang lại những sai lầm trong quá
trình nhận dạng. Nhờ có bước này mà từ “Việt Nam” trong câu ví dụ được nhận là
chứ không phải là .
4.3.3.2 Tạo nhãn “NamePhrase”
Sau quá trình chuẩn hóa tập nhãn “Lookup”, chúng tôi gộp những nhãn có kiểu
“Word” và có đặc trưng “upper = true” cạnh nhau lại thành một nhãn (annotation)
mới: nhãn “NamePhrase”. Ví dụ câu:
“Chủ nhật tới, công ty TNHH Tân Phát Hoàn Cầu sẽ khai trương.”
các nhãn Word: “TNHH”, “Tân Phát”, “Hoàn Cầu” sẽ được gộp lại với nhau thành
một nhãn mới NamePhrase “TNHH Tân Phát Hoàn Cầu”. Có thể hình dung giai đoạn
này chúng tôi gộp các “từ viết hoa thông thường” ở cạnh nhau lại và chúng sẽ được sử
dụng để nhận dạng phần lớn các thực thể sau này. Vậy thế nào là từ viết hoa không
thông thường? Chúng tôi quy định tất cả các từ, cụm từ sử dụng làm tiền tố nhận dạng
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
39
và một số từ đặc biệt (“Tôi”, “Bạn” v.v…) sẽ luôn luôn có đặc trưng “upper = false”
cho dù chúng được viết hoa. Việc này giúp các từ, cụm từ làm tiền tố nhận dạng không
bị nhập vào các NamePhrase, làm mất đi khả năng nhận dạng.
4.3.3.3 Nhận dạng thực thể chỉ công trình
Sau khi hoàn tất các bước tiền xử lý, chúng tôi bắt đầu bước vào quá trình nhận dang.
Đầu tiên, chúng tôi nhận dạng các thực thể chỉ công trình và xử lý sự nhập
nhằng giữa những thực thể chỉ tổ chức với những thực thể chỉ các
công trình ví dụ như: “Nhà Trắng”, “Lầu Năm Góc”, v.v… trong các
trường hợp:
“Lầu Năm Góc được xây dựng rất kiên cố.”
“Lầu Năm Góc vừa ra lệnh trừng phạt Iraq.”
Trong bước này chúng tôi xem xét sự chủ động của thực thể, các thực thể đứng trước
các mang tính bị động như từ “được” trong ví dụ sẽ được nhận là thực thể chỉ các công
trình . Còn lại được nhận là thực thể chỉ tổ chức . Tuy còn
xử lý ở mức đơn giản nhưng nó cũng đã đem lại những hiệu quả nhất định.
4.3.3.4 Nhận dạng thực thể chỉ địa điểm và thực thể thuộc về
quốc gia
Ở giai đoạn thứ 4 của quá trình xử lý trong bộ luật, chúng tôi nhận dạng các thực thể
chỉ địa điểm đơn giản. Ngoài việc áp dụng bộ từ điển chứa các thực thể
chỉ địa điểm như: vùng miền, tên các thành phố v.v… chúng tôi sử dụng các tiền tố
như: “ở, tại, đến, trong, ngoài v.v…” để nhận dạng các thực thể chỉ địa điểm đơn giản.
Ví dụ luật nhận đứng sau “ở, tại v.v…”
Rule: Location5
(
{Lookup.majorType == "vlocation"}
({NamePhrase}):namephrase):location
)
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
40
-->
:location.Location = {kind = "Location", rule = "title + Location"}
Sở dĩ nói các thực thể chỉ địa điểm đơn giản bởi còn một số trường hợp nhập nhằng
giữa thực thể chỉ địa điểm , thực thể thuộc về quốc gia và
thực thể chỉ người mà giai đoạn này chưa thể giải quyết được.
Trong các tiền tố được sử dụng để nhận biết thực thể chỉ địa điểm có một
trường hợp khiến chúng tôi phải cân nhắc rất nhiều đó là từ “về”. Lấy các câu sau làm
ví dụ phân tích:
“Tôi sẽ bay về Nga vào ngày mai.”
“Đây là câu chuyện về Nga, cô sinh viên nghèo hiếu học
xứ Nghệ.”
Rõ ràng nếu để từ “về” như một tiền tố nhận dạng thực thể chỉ địa điểm, sẽ có khá
nhiều trường hợp nhận sai xảy ra. Hiện tại, chúng tôi vẫn loại bỏ từ “về” ra khỏi từ
điển chứa các tiền tố nhận dạng thực thể chỉ địa điểm .
Cũng trong các luật về nhận dạng thực thể chỉ địa điểm chúng tôi chia ra xử lý
hai loại thực thể chỉ địa điểm:
Với những thực thể chỉ địa điểm mang tính tự nhiên như: đảo Phú Quốc, Biển
Đông, núi Phú Sỹ v.v… chúng tôi nhận cả cụm tiền tố (đảo, biển, núi v.v…)
cùng với nhãn (NamePhrase) thành thực thể chỉ địa điểm .
Với những thực thể chỉ địa điểm không mang tính tự nhiên như: đường Phạm
Văn Đồng, thành phố Hà Nội v.v… chúng tôi không nhận các tiền tố vào thực
thể chỉ địa điểm. Tuy nhiên cũng có những trường hợp đặc biệt như: “quận 5”,
“tiểu khu 8” v.v… chúng tôi xử lý riêng và nhận cả cụm trên là .
Sau khi nhận dạng các thực thể chỉ địa điểm , những nhãn
(annotation) Lookup chỉ tên quốc gia (ngoại trừ một số trường hợp đặc biệt như: Anh,
Nga, Mỹ, Nhật v.v… sẽ được xử lý riêng) không nhận là thực thể chỉ địa điểm
sẽ được nhận là thực thể thuộc quốc gia . Ngoài ra thực thể
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
41
thuộc về quốc gia còn được nhận dạng thông qua một số tiền tố như: “người”, “dân
tộc”, “tiếng” v.v…
4.3.3.5 Nhận dạng thực thể chỉ tổ chức
Sở dĩ đến thời điểm này chúng tôi mới nhận dạng là bởi có một số
trường hợp cần những thông tin về thực thể chỉ địa điểm . Ví dụ như:
“Chi nhánh Canon tỉnh Bình Dương tuyên bố
phá sản.”
Nếu chỉ dừng lại ở việc nhận dạng thực thể chỉ tố chức thông qua từ điển và tiền tố
(“Chi nhánh”) thì ta chỉ nhận được cụm không đầy đủ “Chi nhánh Canon” là thực thể
chỉ tổ chức . Chúng tôi sử dụng các thông tin về thực thể chỉ địa điểm
để việc nhận dạng thực thể chỉ tổ chức được chính xác hơn. Có thể hình
dung luật là:
tổ chức + (tiền tố) + địa điểm -> tổ chức.
4.3.3.6 Nhận dạng thực thể chỉ các tổ chức tôn giáo
Có thể nói, đây là giai đoạn đơn giản, mang ít tính nhập nhằng nhất của hệ thống. Bởi
số lượng các từ, cụm từ chỉ các tổ chức tôn giáo không nhiều, và chúng cũng ít khi
xuất hiện trong các văn bản, nên chúng tôi chọn giải pháp xử lý đơn giản là nhờ bộ từ
điển. Ví dụ:
Phase: Religion
Input: Lookup
Options: control = appelt
Rule: religion
(
{Lookup.majorType == "religion"}
):name
-->
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
42
:name.Religion = {kind = "Religion", rule = "Religion trong Gazetter"}
4.3.3.7 Nhận dạng các thực thể chỉ người
Các thực thể chỉ người chiếm một tỷ trọng lớn và mang độ nhập nhằng cao. Ví dụ:
Nhóm các từ: Đức, Mỹ, Anh, Nga v.v… nhập nhằng giữa ba loại thực thể:
, và .
Nhóm các tên người lấy theo tên địa danh: Việt Nam, Hải Dương v.v…
Có khá nhiều luật được chúng tôi áp dụng trong giai đoạn này như: sử dụng từ điển, sử
dụng tiền tố, sử dụng hậu tố (các động từ “nói”, “cười”, “khóc” v.v…) và một số kỹ
thuật khác. Trong giai đoạn này, chúng tôi mới chỉ xử lý nhận dạng thực thể chỉ người
một cách đơn giản, và trong những trường hợp nhập nhằng giữa và
hay thì vẫn ưu tiên cho và hơn.
Tuy nhiên những thực thể được nhận trong các trường hợp nhập nhằng như vậy sẽ
được đánh dấu lại, để chúng tôi nhận dạng lại bằng văn cảnh trong giai đoạn sau.
4.3.3.8 Sử dụng văn cảnh và quá trình nhận dạng thông minh
Có thể nói kết thúc giai đoạn nhận dạng thực thể chỉ người ở mục 4.3.3.7, ta đã xây
dựng xong một hệ thống nhận dạng thực thể trong văn bản tiếng Việt ở một mức nào
đó. Tuy nhiên thực tế hiệu quả của hệ thống chưa được cao như chúng tôi mong muốn.
Rất nhiều câu như:
“Ba Te, người con cả trong gia đình, đi phu hồ quanh năm mà vẫn không kiếm
được là bao.”
“Niềm vui bất ngờ ập đến với A Lưới.”
không thể được nhận dạng đúng bởi hệ thống. Hơn nữa trong các trường hợp nhập
nhằng hơn như các từ: “Anh”, “Mỹ”, “Nhật” v.v… việc nhận dạng lại càng khó khăn.
Đến giai đoạn này, chúng tôi quyết định tích hợp những thành phần “thông minh” hơn
cho hệ thống. “Thông minh” bởi chúng có sử dụng thêm các yêu tố văn cảnh vào việc
nhận dạng.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
43
Trước tiên chúng tôi xử lý tập các từ có độ nhập nhằng cao “Mỹ, Nga, Nhật, Đức
v.v…” dựa trên một số quy định:
Nếu trong văn bản xuất hiện nhiều hơn 2 tên quốc gia thì sẽ nhận tất các tên
như trên là ở dạng thực thể chỉ địa điểm hoặc thực thể thuộc về
quốc gia .
Nếu có nhiều hơn 2 tên trong số các từ nhập nhằng trên xuất hiện trong văn bản
thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ địa điểm
hoặc thực thể thuộc về quốc gia .
Nếu có một tên trong số các tên trên chắc chắn chỉ người (đứng sau các tiền tố:
ông, bà, anh, v.v…) thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ
người .
Hình 4.3 - Mô tả kết quả nhận dạng của một trường hợp nhập nhằng giữa Person và Nationality
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
44
Hình 4.3 mô tả kết quả nhận dạng của hệ thống cho câu:
“Nga, Mỹ vừa ra lệnh trừng phạt Nhật”.
Tuy cả ba từ: “Nga”, “Mỹ”, “Nhật” đều có thể là tên người, hoặc tên quốc gia, nhưng
vì chúng ở cùng trong một câu, nên chúng tôi ưu tiên nhận dạng thực thể thuộc về
quốc gia .
Bước tiếp theo chúng tôi sử dụng văn cảnh và độ chắc chắn để nhận thêm các
thực thể chỉ người , chỉ địa điểm , chỉ tổ chức ,
chỉ công trình . Những thực thể được xác định bởi những luật có độ chắc
chắn cao sẽ được nhận là thực thể có độ chính xác cao. Một số luật có độ chắc chắn
cao như:
Tiền tố (ông, bà, anh, chị v.v…) +
+ hậu tố (nói, cười, khóc v.v…)
Tiền tố (ở, đến, tại v.v…) +
Tiền tố (công ty, tập đoàn v.v…) +
Tiền tố (chợ, cầu, cảng v.v…) +
Chúng tôi sử dụng đặc trưng “sure=90” cho những nhãn (annotation) này. Những từ,
cụm từ giống với những thực thể có độ chính xác cao được nhận là thực thể cùng loại.
Xem xét đoạn văn sau:
“Bà Nùng vừa hút tẩu thuốc vừa kể: “Đời thằng A Lưới khổ lắm. Nhà chẳng
còn ai, lao động quần quật cả năm mà vẫn không đủ ăn. Không biết đời nó bao giờ
mới có vợ.” Ấy thế mà niềm vui bất ngờ đã đến với A Lưới, anh gặp Hoa, cô giáo miền
xuôi mới lên bản.”
Nhờ có cụm “thằng A Lưới” nên “A Lưới” được nhận là thực thể chỉ người với độ
chắc chắn cao. Nhờ đó từ “A Lưới” ở câu dưới cũng được nhận là thực thể chỉ người.
Hình 4.4 là kết quả chạy của hệ thống đối với đoạn văn trên.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
45
Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh
Tuy nhiên trong một số trường hợp luật này gây ra một vài mâu thuẫn. Lấy đoạn văn
sau làm ví dụ:
“Chợ Quảng Châu tại Quảng Châu là một nơi nổi tiếng nhất Trung Quốc về
hàng nhái.”
Cả Quảng Châu trong “Chợ Quảng Châu” và Quảng
Châu trong “tại Quảng Châu” đều được nhận với độ chắc chắn cao sẽ dẫn
đến việc gán nhãn sai. Vì lý do này chúng tôi chỉ cho phép những thực thể chưa được
nhận, hoặc nhận ở độ chắc chắn không cao được phép gán nhãn lại trong giai đoạn
này.
Một mặt khác, trong quá trình phân tích lỗi chúng tôi đã gặp những trường hợp
rất đáng tiếc như:
“Các sinh viên Đạt, Đại, Đăng, Giang đang đánh bi a.”
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
46
Tất nhiên sau này khi chúng tôi đã cập nhật lại cho bộ từ điển tên người, thì hiển nhiên
tất cả các tên này đều được nhận ra một cách đơn giản. Nhưng mới đầu trong từ điển
tên người không có các từ “Đạt, Đại, Đăng, Giang” làm cho hệ thống chỉ nhận ra một
mình “Đạt” là thực thể chỉ người (do đứng sau tiền tố “sinh viên”) và bỏ xót
mất ba thực thể một cách đáng tiếc. Giải quyết việc này cũng thực đơn giản, chúng tôi
xây dựng một bước kiểm tra các nhãn (annotation) NamePhrase ở cạnh nhau (cách
nhau bởi dấu “,” hoặc từ “và”), nếu có một NamePhrase đã được nhận ra ở dạng thực
thể nào đó, thì tất cả các NamePhrase liền kề nó sẽ được nhận dạng cùng loại.
Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau
Cuối cùng chúng tôi duyệt lại toàn bộ các thực thể đã được nhận dạng, xóa đi
những thực thể vi phạm nguyên tắc nằm trong một thực thể khác và những nhãn
(annotation) trung gian do bộ luật tự sinh ra.
Như vậy chúng ta đã tìm hiểu qua những nét cơ bản của hệ thống nhận dạng
thực thể trong văn bản tiếng Việt do chúng tôi xây dựng. Ở chương tiếp theo, chúng
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
47
tôi sẽ đưa ra những đánh giá về hiệu quả của hệ thống, cũng như phân tích những lỗi
mà hệ thống còn mắc phải.
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
48
Chương 5
Kết quả thực nghiệm và phân tích lỗi
Chúng tôi đánh giá hệ thống trên hai tập dữ liệu, tập dữ liệu được dùng trong quá trình
viết luật (tập huấn luyện) gồm 18 văn bản (1013 câu), và tập dữ liệu mới (tập kiểm tra)
gồm 17 văn bản (879 câu). Cả hai tập dữ liệu này được gán nhãn và kiểm tra bởi hai
người theo quy trình ở mục 4.2.
5.1 Các bước tiến hành thực nghiệm
Bước 1: Sử dụng hệ thống nhận dạng thực thể trong văn bản tiếng Việt do
chúng tôi xây dựng để tự động nhận dạng và gán nhãn cho các thực thể.
Bước 2: So sánh tập dữ liệu được gán nhãn tự động và tập dữ liệu chuẩn được
gán nhãn bằng tay, qua đó đưa ra các thông số đánh giá chất lượng của hệ thống
(Precision, Recall, F-measure).
5.2 Kết quả thực nghiệm
Chúng tôi đánh giá kết quả thực nghiệm qua hai tiêu chí:
Tiêu chí chặt (strict): một thực thể được nhận dạng đúng khi trùng khớp hoàn
toàn (về vị trí), và cùng kiểu với thực thể trong tập dữ liệu chuẩn.
Tiêu chí lỏng (lenient): một thực thể được nhận dạng đúng khi nó có phần
chung và cùng kiểu với thực thể trong tập dữ liệu chuẩn.
Với tiêu chí đánh giá chặt, ta thu được các kết quả sau:
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
49
Kết quả nhận dạng trên tập huấn luyện (bảng 5.1) mới chỉ dừng lại ở F-measure
đạt 89.90%, hứa hẹn chúng tôi sẽ còn cải tiến được nhiều trong tương lai.
Bảng 5.1 – Kết quả nhận dạng trên tập huấn luyện
Loại
Số
thực thể
Số thực
thể được
nhận
dạng
Số thực
thể được
nhận
đúng
Precision Recall F-measure
Person 548 470 457 97.23 % 83.39 % 89.78 %
Organization 100 85 80 94.11 % 80.00 % 86.48 %
Location 272 255 244 95.68 % 89.70 % 92.59 %
Nationality 87 84 72 85.71 % 82.75 % 84.21 %
Facility 78 76 69 90.78 % 88.46 % 89.61 %
Religion 18 18 18 100.00 % 100.00 % 100.00 %
All 1103 988 940 95.14 % 85.22 % 89.90 %
Bảng 5.2 – Bảng kết quả nhận dạng trên tập kiểm tra
Loại
Số
thực thể
Số thực
thể được
nhận
dạng
Số thực
thể được
nhận
đúng
Precision Recall F-measure
Person 370 285 263 92.28 % 71.08 % 80.30 %
Organization 48 33 25 75.75 % 52.08 % 61.72 %
Location 260 239 222 92.88 % 85.38 % 88.97 %
Nationality 82 68 56 82.35 % 68.29 % 74.66 %
Facility 40 33 29 87.87 % 72.50 % 79.45 %
Religion 20 19 19 100.00 % 95.00 % 97.43 %
All 820 677 614 90.69 % 74.87 % 82.03 %
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
50
Trong khi đó, trên tập kiểm tra kết quả thu được cũng khá khả quan: F-measure
đạt 82.03% (bảng 5.2). Tuy nhiên, bên cạnh những loại thực thể có kết quả nhận dạng
rất tốt như: thực thể chỉ các tổ chức tôn giáo (F-measure: 97.43%), thực
thể chỉ địa điểm (F-measure: 88.97%) v.v… thì loại thực thể chỉ tổ chức
lại thu được kết quả khá khiêm tốn F-measure: 61.72%. Sở dĩ có điều
này là vì tên các tổ chức của Việt Nam đôi khi khá dài, khó nhận diện, đặc biệt khi
chúng không được viết hoa. Ví dụ câu sau:
“Công ty Hợp tác lao động nước ngoài - LOD , thuộc Bộ GTVT.”
Câu trên gồm 3 thực thể chỉ tổ chức: “Công ty Hợp tác lao động nước ngoài”,
“LOD” và “Bộ GTVT”. Tuy nhiên hệ thống chỉ nhận được thực thể “Công ty Hợp tác”
(nhận sai) và “Bộ GTVT” (nhận đúng). Tuy nhận sai nhưng việc nhận ra một phần của
thực thể “Công ty Hợp tác lao động nước ngoài” cũng có ý nghĩa, bởi thật khó để nhận
được thực thể này. Chúng tôi thử đánh giá lại chất lượng của hệ thống theo tiêu chí
“lỏng” hơn (lenient evaluation). Kết quả thu được như sau:
Bảng 5.3 – Kết quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient evaluation)
Loại
Số thực
thể
Số thực
thể được
nhận
dạng
Số thực
thể được
nhận
đúng
Precision Recall F-measure
Person 370 285 266 93.33 % 71.89 % 81.22 %
Organization 48 33 30 90.90 % 62.50 % 74.07 %
Location 260 239 224 93.72 % 86.15 % 89.77 %
Nationality 82 68 57 83.82 % 69.51 % 76.00 %
Facility 40 33 31 93.93 % 77.50 % 84.93 %
Religion 20 19 19 100.00 % 95.00 % 97.43 %
All 820 677 627 92.61 % 76.46 % 83.76 %
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
51
Rõ ràng trong khi hầu như các kết quả nhận dạng thực thể khác không tăng nhiều, thì
kết quả nhận dạng các thực thể chỉ tổ chức đã tăng đáng kể (F-measure từ 61.72% lên
74.07%).
Bảng 5.4 thể hiện kết quả của những hệ thống nhận dạng thực thể trong văn bản
tiếng Việt hiện tại (Nguyễn 2005, Cao 2007). Tuy không cùng so sánh trên một tập
kiểm tra, nhưng với những kết quả tương đương (F-measure: 82.03%), cùng rất nhiều
hướng cải tiến: mở rộng bộ từ điển, cải tiến bộ luật để sử dụng tốt hơn những yếu tố
văn cảnh v.v… chúng tôi tin rằng hệ thống của chúng tôi sẽ là nền tảng để phát triển
thành những hệ thống nhận dạng thực thể trong văn bản tiếng Việt đạt hiệu quả cao.
Bảng 5.4 – Kết quả thực nghiệm của một số hệ thống nhận dạng thực thể trong văn bản tiếng Việt
Precision Recall F-measure
Hệ thống nhận dạng thực thể sử dụng
CRF (Nguyễn 2005)
81.85% 79.35% 80.53%
Hệ thống VN-KIM IE (Cao 2007 81.37% 81.37% 81.37%
5.3 Phân tích lỗi
Như chúng ta đã phân tích ở mục 5.2, việc nhận dạng các thực thể chỉ tổ chức trong
văn bản tiếng Việt là khá khó. Một số thực thể chỉ tổ chức rất khó để nhận biết như:
“Ngân hàng nông nghiệp và phát triển nông thôn”
“Công ty Hợp tác lao động nước ngoài”.
“Cục Phòng chống buôn người và bảo vệ trẻ vị thành niên vương quốc
Campuchia”. v.v…
Có thể chúng tôi sẽ phải sử dụng thêm những từ điển đặc biệt, cùng với vận dụng văn
cảnh ở mức độ cao để nhận ra các thực thể này.
Tuy đã có cả một phần nhận dạng thông minh nhằm giải quyết sự nhập nhằng
của nhóm các từ: “Mỹ, Nga, Nhật v.v…” - nhập nhằng giữa , và
, nhưng chúng tôi vẫn chưa thể giải quyết triệt để vấn đề này. Ngoài ra
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
52
còn có những trường hợp nhập nhằng giữa và làm cho kết
quả nhận dạng chưa được cao (F-measure: 74.07%). Lấy câu sau làm ví
dụ phân tích:
“Sau khi con tàu đã có một bản “ khai sinh ” khác thì bọn chúng tìm mối tiêu
thụ và giao tàu tận nơi , Philippines là địa điểm mà chúng thường đến ... .”
Với câu này, hệ thống nhận “Philippines” là thay vì (nhận
sai), tuy nhiên thật khó để nhận đúng trong trường hợp này. Ta chỉ có thể nhận đúng
“Philippines” là khi sử dụng được ngữ nghĩa của cụm từ đứng sau: “là địa
điểm”.
Ngoài thực thể thuộc về quốc gia và thực thể chỉ tổ chức
, thực thể chỉ tên người cũng chưa thu được một kết quả
nhận dạng như ý (F-measure: 81.22%), trong đó kết quả Recall khá thấp: 71.89%. Cá
biệt khi xem xét những lỗi trong quá trình nhận dạng, chúng tôi phát hiện những đoạn
văn gồm khá nhiều thực thể chỉ người bị bỏ sót. Ví dụ:
“Người ta giới thiệu chúng tôi gặp S . , một thủy thủ già dặn đã có kinh nghiệm
hàng chục năm trong nghề “ vệ sinh tàu bè ” . S . không đồng ý nêu tên thật của anh
cho dù giờ đây S . đã là một ông chủ quán bình dị : “ Chúng tôi hay tụ tập tại quán cà
phê “ tổng hành dinh ” , khi ấy tôi đang ngồi với hàng chục thủy thủ thất nghiệp khác
thì “ ông chủ ” đến , chỉ cần mười phút ra giá là nhóm chúng tôi đi theo ông ta ngay
.”
Trong đoạn văn trên “S.” là thực thể chỉ người, tuy nhiên hệ thống lại bỏ qua
bởi hiện tại chưa có hệ luật đủ mạnh để vận dụng hết những yếu tố văn cảnh trong quá
trình nhận dạng. Cũng phải nói thêm vì xây dựng hệ thống nhận dạng thực thể trong
văn bản tiếng Việt nên chúng tôi chưa xử lý triệt để các trường hợp tên viết tắt, hoặc
tên viết theo kiểu nước ngoài như: “A. Morgan” v.v… Ở đây dấu “.” không được phép
nhận là dấu tách câu (Split).
Ngoài ra, còn một số trường hợp hệ thống nhận dạng lỗi do bộ tách từ hoạt
động không chính xác. Ví dụ câu:
“Linh cảm thấy buồn.”
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
53
Câu được tách từ thành: “Linh_cảm thấy buồn.”, và không nhận ra được “Linh”
là thực thể chỉ người. Trong khi nếu tách từ đúng “Linh cảm_thấy buồn” thì khả năng
“Linh” sẽ được nhận ra là bởi đứng trước hành động “cảm thấy”, và có xuất
hiện trong từ điển tên người.
Chương 6. Tổng kết và hướng phát triển Nguyễn Bá Đạt
54
Chương 6
Tổng kết và hướng phát triển
Có thể nói chúng tôi đã bước đầu xây dựng được một hệ thống mở trên nền GATE để
cộng đồng có thể tiếp cận sử dụng và phát triển cho bài toán nhận dạng thực thể trong
văn bản tiếng Việt. Tuy nhiên vẫn còn một số thực thể có kết quả nhận dạng khá thấp
như: thực thể chỉ tổ chức , thực thể thuộc nước và thực
thể chỉ người là do chúng tôi chưa vận dụng được hết những yếu tố văn cảnh
vào quá trình nhận dạng.
Bên cạnh hệ thống nhận dạng thực thể cho văn bản tiếng Việt, chúng tôi còn
xây dựng được một tài liệu định nghĩa và phận loại các loại thực thể, cùng một tập dữ
liệu đã được gán nhãn chuẩn. Khi tập dữ liệu được gán nhãn đủ lớn, chúng tôi có thể
sử dụng thêm các thành phần nhận dạng thực thể bằng các phương pháp học máy, làm
tăng sức mạnh của hệ thống.
Một hướng phát triển khác đã bắt đầu được chúng tôi sử dụng ở mức độ thấp là
kết hợp giữa hệ luật được xây dựng bởi chuyên gia, cùng lý thuyết xác suất mờ để
thêm vào những yếu tố văn cảnh trong quá trình nhận dạng thực thể.
Hiện tại, các hệ thống nhận dạng thực thể trong văn bản Tiếng Việt (Nguyễn
2005, Cao 2007) mới chỉ dừng lại ở độ chính xác khoảng 80% (F-measure), vì thế dù
không cùng đánh giá trên một tập kiểm tra, nhưng với những kết quả đã đạt được (F-
measure – 82.03%) và khả năng có thể cải tiển hệ thống ở nhiều mặt như: cải tiến bộ
từ điển, thêm những thành phần xử lý sâu về ngữ cảnh, kết hợp với bộ nhận dạng sử
dụng các phương pháp học máy v.v… sẽ hứa hẹn đem lại một hệ thống nhận dạng
thực thể trong văn bản tiếng Việt đạt kết quả cao trong tương lai.
Tài liệu tham khảo Nguyễn Bá Đạt
55
Tài liệu tham khảo
[1] [Appelt 1995] D. Appelt, SRI International FASTUS system MUC-6 test results
and analysis, Proceedings of the MUC-6, NIST, Morgan-Kaufmann Publisher,
Columbia, 1995.
[2] [Appelt 1999] D. Appelt, An Introduction to information extraction, Artificial
Intelligence Communications, 12, 1999.
[3] [Bechet 2000] F. Bechet, A. Nasr and F. Genet, Tagging Unknown Proper
Names Using Decision Trees, In proceedings of the 38
th
Annual Meeting of the
Association for Computational Linguistics, 2000.
[4] [Bikel 1998] D. Bikel, S. Miller, R. Schwartz, R. Weischedel, a High-
Performance Learning Name-finder, fifth conference on applied natural
language processing, PP 194-201, 1998.
[5] [Borthwick 1998] A. Borthwick, J. Sterling, E, Agichtein, and R. Grishman,
Exploiting diverse knowledge sources via maximum entropy in named entity
recognition, Proceedings of the Sixth workshop on Very Large Corpora,
Montreal, Canada, 1998.
[6] [Budi 2003] I. Budi, S. Bressan, Association Rules Mining for Name Entity
Recognition, Proceedings of the Fourth International Conference on Web
Information Systems Engineering, 2003.
[7] [Cao 2007] T. Cao, Automatic Extraction of Vietnamese Named-Entities on the
Web, New Generation Computing, Ohmsha, Ltd. And Springer.
[8] [Collins 1999] Collins, Michael and Y. Singer, Unsupervised models for named
entity classification, In proceedings of the Joint SIGDAT Conference on
Empirical Methods in Natural Language Processing and Very Large Corpora,
1999.
Tài liệu tham khảo Nguyễn Bá Đạt
56
[9] [Cowie 1996] Cowie and W.Lehnert, Information Extraction, In
Communications of the ACM, 39, 1996.
[10] [Cunningham 1999] H. Cunningham, Information extraction: a User Guide
(revised version), Research Menorandum CS-99-07, Department of Computer
Science, University of Sheffied, May, 1999.
[11] [Cunningham 2002] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan.
GATE, A Framework and Graphical Development Environment for Robust
NLP Tools and Applications, Proceedings of the 40
th
Anniversary Meeting of
the Association for Computational Linguistics (ACL'02). Philadelphia, July
2002.
[12] [Grishman 1995] R. Grishman, The NYU System for MUC-6 or Where's the
Syntax, In Proceedings of the Sixth Message Understanding Conference
(MUC-6), 1995.
[13] [Iwanska 1995] L. Iwanska, M. Croll, T. Yoon, and M. Adams, Wayne state
university: Description of the UNO processing system as used for MUC-6, In
Proc. of the MUC-6, NIST, Morgan- Kaufmann Publishers, Columbia, 1995.
[14] [Kim 2002] J. Kim, I. Kang, k. Choi, Unsupervised Named Entity Classification
Models and their Ensembles, Proceedings of the 19th international conference
on Computational linguistics, 2002.
[15] [Mansouri 2008] A. Mansouri, L. Affendey, A. Mamat, Named Entity
Recognition Using a New Fuzzy Support Vector Machine.
[16] [Maynard 2001] D. Maynard, V. Tablan, C. Ursu, H. Cunningham and Y.
Wilks, Named Entity Recognition from deverse Test Types.
[17] [Maynard 2003] Maynard, Diana and Bontcheva, Kalina and Cunningham,
Hamish, Towards a semantic extraction of named entities. In Proceedings
Recent Advances in Natural, Borovets, Bulgaria.
[18] [Morgan 1995]R. Morgan, University of durham: Description of the LOLITA
system as used for MUC-6, In Proc of the MUC-6, NIST, Morgan-Kaufmann
Publishers, Columbia, 1995.
Tài liệu tham khảo Nguyễn Bá Đạt
57
[19] [Nguyễn 2005] T. Nguyễn, T. Oanh, P. Hieu, H. Thuy, Named Entity
Recognition in Vietnamese Free-Text and Web Documents Using Conditional
Ramdom Fields, The 8
th
Conference on Some selection problems of
Information Technology and Telecommunication, Hai Phong, Viet Nam 2005.
[20] [Pastra 2002] K. Pastra, D. Maynard, O. Hamza, H. Cunningham, Y. Wilks,
How feasible is the reuse of grammars for Named Entity Recognition? (2002).
[21] [Phạm 2007] T. Pham, A. Kawazoe; D. Dinh; N. Collier, Construction of
Vietnamese corpora for named entity recognition, In Conference RIAO2007,
Pittsburgh PA, U.S.A. May 30-June 1, 2007 – Copyright C.I.D. Paris, France,
2007.
[22] [Wu 2006] Y. Wu, T. Fan, Y. Lee, S. Yen, Extracting Named Entities Using
Support Vector Machines, Spring-Verlag, Berlin Heidelberg, 2006.
[23] [Phạm 2009] D. Phạm, Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn
từ loại, Khóa luận tốt nghiệp, Coltech, VNU, 2009.
Phụ lục Nguyễn Bá Đạt
58
Phụ lục A. Annotation Guideline.
1. Khái niệm thực thể và tên thực thể
Thực thể (entity): là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự
nhiên.
Thực thể thể hiện trong các dạng :
o Tên riêng (name entity).
o Danh từ hoặc cụm danh từ chung (common noun, noun phrase).
o Đại từ (pronoun).
Trong bài toán nhận dạng thực thể, chúng tôi sử dụng từ “thực thể” để chỉ các thực thể
có tên.
2. Các loại thực thể
Person: Thực thể chỉ người
Organization: Thực thể chỉ một tổ chức, một nhóm người được thành lập theo
một cấu trúc phân cấp nào đó.
Facility: Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể
xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Location: Thực thể chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông,
suối v.v…
Nationality: Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia.
Religion: Thực thể chỉ các tổ chức tôn giáo.
3. Quy tắc khi nhận dạng thực thể
Khi nhận dạng thực thể trong văn bản ta phải đảm bảo một số quy tắc như sau: không
có các tên lồng nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ
Phụ lục Nguyễn Bá Đạt
59
có hai tên có phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên
dài nhất được nhận (longest matching – dài thì thắng).
Ví dụ trong câu:
“Phòng Giáo dục huyện Mỹ Đức.”
ta chỉ nhận “Phòng Giáo dục huyện Mỹ Đức” là thực thể chỉ các tổ chức
(Organization) và bỏ qua thực thể chỉ địa điểm “Mỹ Đức”.
4. Phân loại các loại thực thể
4.1 Thực thể chỉ người
Là các từ chỉ tên riêng của con người, bao gồm cả tên đầy đủ (cả họ và tên) và tên viết
tắt (tên).
Ví dụ :
Chủ tịch Hồ Chí Minh
Ông Nguyễn Bá Đạt
Cầu thủ Hồng Sơn
Cựu tổng thống Saddam Hussein đã bị quân đội Mỹ
bắt và giam giữ.
Các trường hợp lưu ý (các trường hợp này không phải là tên người)
Các từ(cụm từ) gián tiếp chỉ người. Ví dụ:
o Tổng thống Hoa Kỳ.
o Quả bóng vàng Việt Nam 2008.
Các dấu hiệu nhận biết từ loại này :
o Các tiền tố:
Các tiền tố chỉ cách xưng hô :
Ông “Nguyễn Minh Triết”.
Bà Lý
Phụ lục Nguyễn Bá Đạt
60
Bác Sơn.
Tuy nhiên trong một vài trường hợp đặc biệt ví dụ: Bà Trưng, Bà Triệu v.v… ta
sẽ nhận cả cụm Bà Trưng, Bà Triệu là Person.
Các tiền tố chỉ cách gọi theo quan hệ họ hàng :
Dì Ninh
Chú Duy
Anh Giang.
Các tiền tố chỉ cách gọi theo quan hệ chính trị - địa vị xã hội:
Chủ tịch nước Lê Khả Phiêu.
Giám đốc Đăng.
o Các hậu tố : các từ đi sau thực thể chỉ người thường là các động từ ở
dạng chủ động như: chơi, cười, khóc v.v…
Đại cười duyên.
4.2 Thực thể chỉ tổ chức
Thực thể chỉ một tổ chức, một nhóm người được thành lập theo một cấu trúc phân cấp
nào đó (không bao gồm các tổ chức tôn giáo). Một số loại tổ chức:
Tổ chức chính trị - nhà nước
o Văn Phòng Chính Phủ
o Công an Thành phố Hà Nội
Tổ chức kinh tế
o Công ty TNHH Tân Hoàng Phát
o Tập đoàn FPT
Tổ chức giáo dục
o Trường Đại học Công Nghệ
o Học viện Ngân Hàng
Phụ lục Nguyễn Bá Đạt
61
Tổ chức y tế
o Bệnh viện Y Tuệ Tĩnh
Các tổ chức khác
o Hội Chữ Thập Đỏ
o G20
Dấu hiệu nhận biết: thực thể chỉ tổ chức thường đứng sau các tiền tố như: Công ty, tập
đoàn, trường học, bệnh viện v.v…
4.3 Thực thể chỉ địa điểm
Thực thể chỉ chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông, suối v.v…
Với các tên thành phố, quận, huyện, đường v.v… (mang tính chất hành chính
do con người đặt ra)
o Thành Phố Hồ Chí Minh
o Quận Tây Hồ
Tuy nhiên với các trường hợp Quận 5, Tiểu khu 8 v.v… thì sẽ nhận cả cụm
Quận 5, Tiểu khu 8 là Location.
Với các tên đảo, đại dương, sông v.v… (mang tính tự nhiên)
o Đảo Bạch Long Vỹ
o Sông Hồng
o Châu Á
Dấu hiệu nhận biết: đứng sau các tiền tố chỉ nơi trốn: ở, trong, ngoài, tại v.v…
Tôi sinh ra tại Hà Tây
Chiến Tranh đã nổ ra ở Đại Tây Dương
4.4 Thực thể chỉ thực thể do con người tạo ra
Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể xây dựng và
kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Phụ lục Nguyễn Bá Đạt
62
Ví dụ
Tòa nhà HITC đang được xây mới.
Cầu Trắng
4.5 Thực thể chỉ thực thể thuộc về quốc gia
Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia.
Ví dụ
Cô hướng dẫn viên du lịch người Hoa
Chính phủ Việt Nam
Quần đảo Hoàng Sa của Việt
Nam
4.6 Thực thể chỉ các tổ chức tôn giáo
Thực thể chỉ các tổ chức tôn giáo như Phật Giáo, Thiên chúa giáo v.v…
Ví dụ
Tôi là người theo đạo Phật
Hội Phật Giáo Việt Nam
Phụ lục Nguyễn Bá Đạt
63
Phụ lục B. Bảng nhãn từ loại tiếng Việt
Np danh từ riêng proper noun
Nc danh từ đơn thể countable noun
Ng danh từ tổng thể collective noun
Nt danh từ loại thể classifier noun
Nu danh từ chỉ đơn vị concrete noun
Na danh từ trừu tượng abstract noun
Nn danh từ số lượng numeral
Nl danh từ vị trí locative noun
Vt động từ ngoại động transitive verb
Vit động từ nội động intransitive verb
Vim động từ cảm nghĩ impression verb
Vo động từ chỉ hướng orientation verb
Vs động từ tồn tại state verb
Vb động từ biến hoá transformation verb
Vv động từ ý chí volotive verb
Va động từ tiếp thụ acceptation verb
Vc động từ so sánh comparative verb
Vm động từ chuyển động move verb
Vla động từ "là" “là” verb
Vtim động từ ngoại động cảm nghĩ transitive-impression verb
Phụ lục Nguyễn Bá Đạt
64
Vta động từ ngoại động tiếp thụ transitive-acceptation verb
Vtc động từ ngoại động so sánh transitive-comparative verb
Vtb động từ ngoại động biến hoá transitive-transformation verb
Vto động từ ngoại động chỉ hướng transitive-orientation verb
Vts động từ ngoại động tồn tại transitive-state verb
Vtm động từ ngoại động chuyển động transitive-move verb
Vtv động từ ngoại động ý chí transitive-volotive verb
Vitim động từ nội động cảm nghĩ intransitive-impression verb
Vitb động từ nội động biến hoá intransitive-transformation verb
Vits động từ nội động tồn tại intransitive-state verb
Vitc động từ nội động so sánh intransitive-comparative verb
Vitm động từ nội động chuyển động intransitive-move verb
Aa tính từ hàm chất quality adjective
An tính từ hàm lượng quantity adjective
Pp đại từ xưng hô personal pronoun
Pd đại từ không gian, thời gian demonstrative pronoun
Pn đại từ số lượng quantity pronoun
Pa đại từ hoạt động, tính chất quality pronoun
Pi đại từ nghi vấn interrogative pronoun
Jt phụ từ chỉ thời gian time adjunct
Jd phụ từ chỉ mức độ degree adjunct
Jr phụ từ so sánh rapport adjunct
Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation
Ji phụ từ mệnh lệnh imperative adjunct
Phụ lục Nguyễn Bá Đạt
65
Cm giới từ major/minor conjunction
Cc liên từ combination conjunction
E cảm từ emotion word
I trợ từ introductory word
X không xác định
Các file đính kèm theo tài liệu này:
- LUẬN VĂN- NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT.pdf