Đềxuất một mô hình cho bài toán trích chọn thông tin thực thểtrên tập văn
bản pháp luật dựa trên phương pháp học máy bán giám sát dựa trên mô
hình CRFs theo tiêu chuẩn kỳvọng tổng quát. Đồng thời sửdụng bộcông
cụMallet được viết bởi Andrew McCallum và đồng nghiệp cho tập dữliệu
tiếng Việt theo mô hình đề xuất ở trên trích lọc ra 4 loại thực thể: LOC,
PER, ORG VÀ MISC.
51 trang |
Chia sẻ: lylyngoc | Lượt xem: 2597 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận văn -Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
học. Sau này, nhiều nghiên cứu đã
cố gắng cải thiện đồ thị bằng việc thêm vào những đặc trưng miền tri
thức. X. Zhang và W. S. Lee, 2007 [ZL07b] chọn dải thông RBF tốt hơn
để cực tiểu hóa lỗi dự đoán trên dữ liệu gán nhãn sử dụng đánh giá chéo.
M. Hein và M. Maier, 2007 [HM07] cố gắng giảm dữ liệu nhiễu để đạt
được đồ thị tốt hơn... Mặc dù phương pháp học bán giám sát dựa trên đồ
thị được ứng dụng khá rộng rãi nhưng nó có nhược điểm lớn về quy mô.
- Phương pháp học bán giám sát dựa trên mâu thuẫn được đưa ra gần đây
bởi Z. H. Zhou, 2008 [Zho08] dựa trên những nghiên cứu của A. Blum và
T. Mitchell, 1998 [BM98]. Trong phương pháp này, nhiều máy học được
huấn luyện cho cùng tác vụ và mẫu thuẫn giữa các máy học sẽ nảy sinh
trong quá trình học. Ở đây, dữ liệu chưa gán nhãn được coi là “cơ sở” cho
việc trao đổi thông tin. Nếu một máy học nào chắc chắn hơn các máy học
khác về một mẫu chưa gán nhãn đang tranh luận thì máy học đó sẽ dạy
cho các máy học khác về mẫu này, sau đó mẫu này có thể được chọn để
truy vấn. Do đó, phương pháp này không có những nhược điểm như
những mô hình khác như vi phạm giả thiết mô hình, hàm thiệt hại không
lồi, hay nhược điểm về quy mô của thuật toán học. Thuật toán điển hình
của nhóm phương pháp này được Ziaojin Zhu đề cập trong [Zhu08] là
Thuật toán Co-training.
Mỗi phương pháp học bán giám sát đều có những ưu và nhược điểm riêng.
Do đó tùy thuộc vào ứng dụng và loại dữ liệu mà lựa chọn phương pháp học và
thuật toán cụ thể cho phù hợp.
1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs
Như phân tích ở 1.2.1, có nhiều phương pháp học bán giám sát và mỗi
phương pháp có những ưu và nhược điểm riêng. Luận văn của tác giả tập trung
- 22 -
22
nghiên cứu mô hình học bán giám sát CRFs, mô hình này thuộc nhóm phương
pháp sinh.
Mô hình học bán giám sát CRFs là mô hình kết hợp được cả dữ liệu chuỗi
đã gán nhãn và chưa gán nhãn; mô hình đã khắc phục được những yếu điểm của
các mô hình khác và được ứng dụng trong nhiều nghiên cứu về xử lý ngôn ngữ.
Feng Jiao và cộng sự, 2006 [JWL06] đã đề xuất thuật toán tận dụng dữ liệu chưa
gán nhãn qua chuẩn hóa entropy (entropy regularization) – thuật toán được mở
rộng từ tiếp cận được đề xuất trong [GB04] cho mô hình CRFs có cấu trúc. Một
tiếp cận khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory Druck và
cộng sự [DMC08] đề xuất phương pháp học bán giám sát CRFs sử dụng tiêu
chuẩn kỳ vọng tổng quát GE, phương pháp này sẽ giới thiệu trong mục 2.2.
Trong phương pháp này, thay vì sử dụng các mẫu gán nhãn máy học sẽ truy cập
các đặc trưng gán nhãn. Những đặc trưng này có thể được gán nhãn với chi phí
thấp hơn nhiều so với gán nhãn toàn bộ mẫu dữ liệu vì việc gán nhãn đặc trưng
có thể chỉ cần gán nhãn cho những phần nhỏ của cấu trúc chuỗi hoặc cây.
Bên cạnh đó, việc sử dụng tiêu chuẩn kỳ vọng tổng quát xác lập các tham
số trong huấn luyện hàm mục tiêu cho phép tạo được kỳ vọng mô hình gần với
phân phối mục tiêu. Luận văn sẽ tiến hành thực thi mô hình này trên tập dữ liệu
tiếng Việt và so sánh với một số phương pháp khác. Kết quả thực nghiệm sẽ thể
hiện ở Chương 4.
1.3. Kết luận chương 1
Chương này giới thiệu về mô hình trường ngẫu nhiên có điều kiện – một
mô hình khá phổ biến và hiệu quả trong các ứng dụng về xử lý ngôn ngữ tự
nhiên - và giới thiệu về các phương pháp học máy bán giám sát – một phương
pháp được coi là tận dụng được các ưu điểm của hai phương pháp học máy có
giám sát và học không có giám sát. Từ đó, sơ lược về một số mô hình học máy
bán giám sát áp dụng vào mô hình trường ngẫu nhiên có điều kiện, nổi bật là mô
hình học máy bán giám sát CRFs sử dụng tiêu chuẩn kỳ vọng tổng quát; mô
hình này sẽ được giới thiệu và phân tích trong chương tiếp theo của luận văn.
- 23 -
23
CHƯƠNG 2
HỌC MÁY BÁN GIÁM SÁT CRFs THEO
TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
2.1. Tiêu chuẩn kỳ vọng tổng quát
2.1.1. Giới thiệu sơ bộ
Những phương pháp học có giám sát đòi hỏi tập các trường hợp gán nhãn
lớn và nó hạn chế khả năng học ở những miền tri thức mới. Những phương pháp
học bán giám sát với mục tiêu tăng cường sử dụng tập các trường hợp chưa gán
nhãn là giải pháp lý tưởng nhằm giảm các nỗ lực gán nhãn dữ liệu. Tuy nhiên,
phương pháp này thường phức tạp về tính toán và phải tính đến độ tin cậy trong
các trường hợp siêu tham số nhạy cảm của những phương pháp học bán giám
sát. Trong khi đó, chúng ta cần một phương pháp đơn giản nhưng hiệu quả cho
phép thực hiện những mô hình huấn luyện trên những miền tri thức mới và đòi
hỏi tối thiểu việc gán nhãn. Một phương pháp bán giám sát mới kết hợp tri thức
tiền nhiệm giữa những đặc trưng và lớp vào việc huấn luyện sử dụng tiêu chuẩn
kỳ vọng tổng quát (GEC), được Andrew McCallum và cộng sự, 2007 [CMD07]
giới thiệu, đã và đang gây được nhiều chú ý và đưa vào nhiều ứng dụng.
Tiêu chuẩn kỳ vọng tổng quát (GEC) [CMD07] là những điều kiện (term)
trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình. GEC
có điểm giống với phương pháp mô-men, nhưng cho phép biểu diễn những tham
chiếu vô hướng tùy ý trên các kỳ vọng của những hàm tùy biến mà không yêu
cầu sự cân bằng mô-men mẫu và mô-men mô hình. Đồng thời, GEC cũng có 3
điểm khác căn bản với những hàm mục tiêu huấn luyện truyền thống; Đó là,
không cần ánh xạ một-một giữa những điều kiện GEC và những tham số mô
hình, những kỳ vọng mô hình cho những điều kiện GEC khác nhau có thể được
huấn luyện trên những tập dữ liệu khác nhau, kỳ vọng tham chiếu (hàm score)
có thể xác định từ nguồn khác như những tác vụ khác, những tri thức tiền
nghiệm.
Phương pháp được sử dụng trong luận văn này là sử dụng kết hợp những
đặc trưng và lớp biết trước. Kỳ vọng của mô hình được ước lượng từ những
phân phối lớp được huấn luyện từ những đặc trưng lựa chọn và hàm tỷ số là
phân kỳ KL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959,
[Kul59]) – là độ đo không đối xứng giữa 2 phân bố xác suất – phân phối xác
- 24 -
24
suất thực và phân phối xác suất mục tiêu - từ những phân phối tham chiếu được
ước lượng từ những nguồn đã có. Kết hợp những điều kiện GEC với tham số đã
biết cho phép sử dụng những mẫu đồng xuất hiện trong dữ liệu chưa gán nhãn
để học những tham số cho những đặc trưng mà chưa có trong thông tin tiền
nghiệm.
Phương pháp áp dụng trong luận văn để thực hiện tác vụ Nhận dạng tên
thực thể (NER) như tên người, tên địa điểm, tổ chức và những thực thể khác.
2.1.2. Tiêu chuẩn kỳ vọng tổng quát
Những mô hình học bán giám sát trước đây đã khắc phục một số hạn chế là
sử dụng dữ liệu được gán nhãn đầy đủ với dữ liệu không được gán nhãn hoặc
với các ràng buộc (ví dụ những đặc trưng được đánh dấu với nhãn chính của nó).
GEC có thể sử dụng nhiều thông tin hơn những mô hình trước nó. Trong GEC
có thể tận dụng thuận lợi của phân bố xác suất điều kiện của những nhãn cho
trước một đặc trưng (p(y|fk(x) = 1)). Thông tin này cung cấp ràng buộc phong
phú hơn cho mô hình trong khi vẫn giữ lại tính dễ dịch. Con người thường có
trực giác tốt về khả năng dự đoán quan hệ của những đặc trưng khác nhau. Ví
dụ, rõ ràng là xác suất của nhãn PERSON gán cho từ đặc trưng JOHN là cao, có
thể đến 0.95 trong khi cho từ BROWN thì tỉ lệ thấp hơn có thể là 0.4. Những
phân bố cần được ước lượng với độ chính xác cao và việc tự do biểu diễn mức
độ phân bố tốt hơn nhiều so với việc sử dụng tín hiệu giám sát nhị phân. Thuận
lợi khác của việc sử dụng những phân bố xác suất điều kiện - ràng buộc xác suất
là chúng có thể dễ dàng ước lượng từ dữ liệu. Đối với đặc trưng bắt đầu bằng
chữ hoa INITIAL-CAPITAL, tôi xác định tất cả thẻ với đặc trưng đó và đếm số
nhãn xuất hiện cùng.
GEC cố gắng khớp những phân bố xác suất điều kiện này bằng kỳ vọng mô
hình trên dữ liệu chưa gán nhãn, ví dụ khuyến khích mô hình dự đoán rằng tỉ lệ
nhãn PERSON gán cho từ John có thể là 0.95 trên tất cả điều kiện chưa gán
nhãn.
Cho X là tập các biến kí hiệu là x X. Cho θ là những tham số của một số
mô hình, cho phép xác định phân bố xác suất trên tập X, pθ(X). Kỳ vọng của các
hàm f(X) theo mô hình là
(2.1)
Trong đó, f(x) là một hàm bất kỳ của biến x cho giá trị vô hướng hoặc
vecto. Hàm này có thể chỉ phụ thuộc vào tập con của tập biến x.
- 25 -
25
Và những kỳ vọng cũng có thể được xác định trên những phép gán giá trị
biến, ví dụ, khi thực hiện huấn luyện xác suất điều kiện của một số mô hình.
Trong trường hợp này, những biến được chia thành biến đầu vào X và biến đầu
ra Y. Một tập các phép gán cho biến đầu vào (những trường hợp dữ liệu huấn
luyện) = {x1, x2,...} có thể cho trước và kỳ vọng điều kiện là
(2.2)
Một GEC được định nghĩa là một hàm G, sử dụng tham số là kỳ vọng của
mô hình f(X) và trả về một giá trị vô hướng, giá trị này được bổ sung vào như là
một điều kiện trong hàm mục tiêu ước lượng tham số:
(2.3)
Trong một số trường hợp, G có thể được định nghĩa dựa trên khoảng cách
đến giá trị đích cho Eθ[f(X)]. Cho là giá trị đích và cho ∆(·, ·) là hàm khoảng
cách. Trong trường hợp này, G có thể định nghĩa là:
(2.4)
Như đã mô tả ở trên, GEC là một dạng tổng quát, nó coi các phương pháp
ước lượng tham số truyền thống khác là trường hợp đặc biệt. Có thể phân chia
GEC theo mức độ linh hoạt như sau:
1. Một GEC được xác định một cách độc lập theo tham số hóa. Trong các
phương pháp ước lượng tham số truyền thống - phương pháp đồ thị, có
sự tương ứng một-một giữa các tập con của các biến sử dụng trong mỗi
phần tham số hóa của mô hình và tập con của các biến trong đó các kỳ
vọng được xac định cho hàm mục tiêu. Trong GEC, mỗi tập con này có
thể được lựa chọn độc lập.
2. Những GEC điều kiện khác nhau không cần tất cả các điều kiện cho
những trường hợp giống nhau, chúng có thể tác động đến những tập dữ
liệu khác nhau hoặc những sự kết hợp khác nhau của những tập dữ liệu.
3. “Dấu hiệu huấn luyện” có giám sát bất kể ở kỳ vọng đích hay tổng
quát, trạng thái của hàm tỷ số, G, có thể xác định từ dữ liệu huấn luyện
gán nhãn hoặc bất kỳ nguồn nào, bao gồm cả những tác vụ khác hoặc
tri thức tiền nghiệm.
Do đó, một GEC có thể được xác định một cách độc lập với tham số hóa và
độc lập với những lựa chọn của bất kỳ tập dữ liệu điều kiện nào. Và một GEC có
- 26 -
26
thể hoạt động trên một số tập con bất kỳ của các biến trong x. Thêm vào đó, hàm
f có thể được định nghĩa theo kỳ vọng sinh ra mô-men của phân bố pθ(X) hoặc
bất kỳ kỳ vọng nào khác. Hàm tỷ số G và hàm khoảng cách ∆ có thể dựa trên
nguyên lý thông tin hoặc những hàm bất kỳ.
Những giá trị GEC có thể được sử dụng như là những thành phần duy nhất
của hàm mục tiêu ước lượng tham số hoặc chúng có thể được sử dụng kết hợp
với những giá trị khác. Ví dụ, GEC có thể được áp dụng trong nhiều sơ đồ học
khác nhau trong đó sử dụng những hàm mục tiêu, bao gồm học kết hợp/sinh,
học không giám sát, học điều kiện/phân biệt, học có giám sát, học với những
biến ẩn, học có cấu trúc…
2.2. Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống
quát
Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mô
hình [CMD07]. Một kiểu tham chiếu có thể được biểu diễn bằng hàm khoảng
cách , kỳ vọng mục tiêu , dữ liệu D, hàm f và phân bố mô hình , hàm mục
tiêu GEC là . Trong [MC10], Gideon S. Mann và Andrew McCallum
đặt những hàm là phân bố xác suất điều kiện và đặt , phân kỳ
KL là độ đo không đối xứng giữa 2 phân bố xác suất p và q. Đối với huấn luyện
bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn
hóa.
(2.5)
Trong đó là phân bố mục tiêu và
(2.6)
Với tiềm năng không chính thức
(2.7)
Trong đó fm(x,j) là một đặc trưng phụ thuộc chỉ vào chuỗi quan sát x và j*
được định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) có mặt cho
một số j.
Tính toán Gradient (Độ chênh lệch)
- 27 -
27
Để tính độ chênh lệch của GEC, D( , đầu tiên giảm những điều
kiện ràng buộc có tính đến dẫn xuất thành phần và các tác giả thu được độ chênh
lệch như sau:
(2.8)
Trong đó y-j = . Bước cuối cùng như sau từ định nghĩa của
xác suất biên P(yi|x). Bây giờ, nhận được dạng quen thuộc lấy ra độ chênh lệch
của chuỗi nhãn cụ thể, tiếp tục:
(2.9)
Sau khi kết hợp các số hạng và sắp xếp lại, sẽ thu được dạng cuối cùng của
độ chênh lệch như sau:
(2.10)
Ở đây, số hạng thứ 2 dễ dàng được thu thập từ thuật toán tiến/lùi, nhưng đạt
được số hạng thứ nhất thì ít nhiều phức tạp hơn. Tính toán số hạng này một cách
chất phác sẽ đòi hỏi thực thi nhiều tiến/lùi bị ràng buộc. Ở đây, các tác giả trình
- 28 -
28
bày một phương pháp hiệu quả hơn và chỉ đòi hỏi một thực thi của tiến/lùi. Đầu
tiên, chia xác suất thành 2 phần:
. (2.11)
Vậy làm thế nào để tính những số hạng này một cách hiệu quả? Tương tự
như thuật toán tiến/lùi, xây dựng một giàn kết quả trung gian:
(2.12)
Để hiệu quả, được lưu ở mỗi giai
đoạn trong giàn. có thể được tính theo cách
tương tự. Để tính giàn cần thời gian O(ns2) và một giàn phải được tính cho mỗi
nhãn, do đó thời gian là O(ns3).
2.3. Kết luận chương 2
Chương 2 tập trung nghiên cứu định nghĩa tiêu chuẩn kỳ vọng tổng quát,
phân tích cách xây dựng công thức, cách phân chia tiêu chuẩn kỳ vọng tổng
quát. Từ đó áp dụng vào mô hình học máy bán giám sát CRFs, thiết lập các
thông số cho mô hình theo tiêu chuẩn kỳ vọng tổng quát như bổ sung hàm mục
tiêu với điều kiện chuẩn hóa, tính toán Gradient.
Chương tiếp theo, luận văn đề nghị một mô hình học máy bán giám sát
CRFs theo tiêu chuẩn kỳ vọng tổng quát áp dụng cho bài toán trích chọn thông
tin từ văn bản pháp luật tiếng Việt.
- 29 -
29
CHƯƠNG 3
MỘT MÔ HÌNH HỌC MÁY BÁN GIÁM SÁT
CRFs TRÍCH CHỌN THÔNG TIN PHÁP LUẬT
TIẾNG VIỆT
3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt
3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt
Trong công tác điều tra các vụ án và quản lý đối tượng, bên cạnh việc tiến
hành các biện pháp nghiệp vụ các điều tra viên đồng thời phải lập các loại biên
bản như biên bản lấy lời khai người bị hại, biên bản lấy lời khai người làm
chứng, biên bản khám nghiệm hiện trường, biên bản về việc thu thập chứng
cứ… tất cả được lưu vào hồ sơ. Như vậy, hồ sơ đối tượng, hồ sơ vụ án sẽ lưu
giữ tất cả những thông tin về đối tượng tham gia vụ án, về các tình tiết vụ án, mô
tả chi tiết phương thức, thủ đoạn, công cụ sử dụng, thời gian, địa điểm xảy ra vụ
án… Đây chính là những bằng chứng để xét xử vụ án, đồng thời việc lưu giữ
những thông tin này có ý nghĩa quan trọng trong việc thống kê, phân tích xu
hướng, dự báo tình hình, cũng như cung cấp thông tin cho những vụ án liên
quan về cùng đối tượng, cùng thời gian, địa điểm, cùng phương thức thủ đoạn…
giúp cho việc phá án được nhanh chóng hơn.
Luận văn tập trung nghiên cứu trên tập các hồ sơ điều tra vụ án với ngôn
ngữ tiếng Việt. Tiếng Việt cũng như bất kỳ một ngôn ngữ nào cũng có những
đặc trưng riêng và việc nghiên cứu những đặc trưng này là cơ sở cho việc phân
tích, lựa chọn và trích rút thông tin trên văn bản tiếng Việt. Tiếng Việt thuộc
ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và
được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt
ngữ âm, từ vựng và ngữ pháp.
Đặc điểm ngữ âm
o Trong tiếng Việt có một loại đơn vị đặc biệt gọi là tiếng. Về mặt
ngữ âm, mỗi tiếng là một âm tiết.
Đặc điểm từ vựng
o Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở
của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta
- 30 -
30
tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng,…
chủ yếu nhờ phương thức ghép và phương thức láy.
o Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi
phối của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà
lầu xe hơi, nhà tan cửa nát,… Hiện nay, đây là phương thức chủ
yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này, tiếng
Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn
từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị,
karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản
(version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu
nhiên, v.v…
o Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối
hợp ngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng
hạn: chôm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn, lúng lá
lúng liếng, v.v…
o Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một
âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ
ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát
triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt
động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc
trưng, có thể có nhiều từ ngữ khác nhau biểu thị. Tiềm năng của
vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách
chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ
thuật. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật,
đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy
mạnh mẽ hơn.
Đặc điểm ngữ pháp
o Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi
phối các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết
cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và
hư từ.
o Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để
biểu thị các quan hệ cú pháp. Trong tiếng Việt khi nói “Anh ta lại
đến” là khác với “Lại đến anh ta“. Khi các từ cùng loại kết hợp với
nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ
đứng sau giữ vai trò phụ. Nhờ trật tự kết hợp của từ mà “củ cải”
khác với “cải củ“, “tình cảm” khác với “cảm tình“. Trật tự chủ ngữ
- 31 -
31
đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu
tiếng Việt.
o Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng
Việt. Nhờ hư từ mà tổ hợp “anh của em” khác với tổ hợp “anh và
em“, “anh vì em“. Hư từ cùng với trật tự từ cho phép tiếng Việt tạo
ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng
khác nhau về sắc thái biểu cảm.
o Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ
điệu. Ngữ điệu giữ vai trò trong việc biểu hiện quan hệ cú pháp của
các yếu tố trong câu, nhờ đó nhằm đưa ra nội dung muốn thông
báo. Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu.
Chúng ta thử so sánh 2 câu sau để thấy sự khác nhau trong nội dung
thông báo:
- Đêm hôm qua, cầu gãy.
- Đêm hôm, qua cầu gãy.
Các đặc điểm tiếng Việt sẽ được tiếp tục đề cập ở các phân tích trong mô
hình các phần tiếp theo.
3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt
Như phân tích ở trên, trong hồ sơ vụ án sẽ chứa rất nhiều thông tin hữu ích.
Trong khuôn khổ luận văn này, tác giả tập trung vào việc xác định những thực
thể quan tâm có trong hồ sơ. Việc xác định các thực thể này là tạo cơ sở cho các
bài toán hay yêu cầu cao hơn như hệ thống trả lời tự động, thống kê, dự báo…
Bài toán mà luận văn sẽ giải quyết được phát biểu đơn giản như sau:
Đầu vào: Các hồ sơ vụ án.
Yêu cầu: Xác định các thực thể có trong hồ sơ.
Tuy nhiên, do yêu cầu chính trị và yêu cầu nghiệp vụ, các hồ sơ vụ án là
các tài liệu mật, không được sử dụng rộng rãi. Vì lý do đó, nên trong khuôn khổ
luận văn này tôi không sử dụng hồ sơ vụ án làm dữ liệu, thay vào đó tôi sử dụng
các bài báo là các phóng sự điều tra, ghi chép về các vụ án được đăng tải công
khai trên website chính thức của Bộ Công an là
3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp
luật tiếng Việt
3.2.1. Một số phân tích
Bài toán gán nhãn tên thực thể này bản chất là gán nhãn tên thực thể cho
mỗi từ sau khi được phân tách. Các loại thực thể được xác định trong luận văn
dựa theo các thực thể trong tác vụ CoNLL2003 bao gồm: LOC (Location), PER
- 32 -
32
(Person), ORG (Organization) và MISC (Miscellaneous). Do đó, các nhãn thực
thể được sử dụng ở đây là:
- B-TYPE: nhãn đánh dấu từ bắt đầu của nhãn NER
- I-TYPE: nhãn đánh dấu cho từ tiếp theo trong nhãn NER
- O: nhãn đánh dấu cho từ không thuộc nhóm thực thể nào.
(nhãn TYPE sẽ thuộc vào một trong bốn loại thực thể trên)
Ví dụ:
Thủy_thủ O
Nguyễn_Ngọc_Hới B-PER
xã B-LOC
Quảng_Phúc I-LOC
, O
Quảng_Trạch B-LOC
từng O
là O
bộ_đội O
đi O
chiến_trường O
B B-MISC
năm O
1968 O
. O
Để nâng cao kết quả, người ta đưa thêm đặc trưng từ loại nên với mỗi từ
được gán thêm nhãn từ loại POS (Part of Speech). Do đó tập dữ liệu huấn luyện
- training và dữ liệu kiểm tra – testing phải được xây dựng theo cùng định dạng:
Mỗi từ nằm trên một dòng; Một dòng trống được thêm vào sau mỗi dấu kết thúc
câu; Mỗi dòng (token) bao gồm các thành phần:
.
3.2.2. Mô hình đề nghị
Từ những phân tích trên đây, tác giả đề xuất xây dựng mô hình các bước
trong quá trình nhận dạng thực thể như sau:
Quá trình nhận dạng được chia làm hai giai đoạn như sau:
- 33 -
33
Giai
đoạn
1.
Các
bước
tiền
xử lý
dữ
liệu
Mô hình CRFs Dữ liệu kiểm tra
Kết quả đánh giá
mô hình
Mô hình CRFs với GEC
(được hiệu chỉnh sau mỗi bước)
Dữ liệu có nhãn
và dữ liệu không có nhãn
(cập nhật sau mỗi bước học)
Kết thúc học ?
Giai
đoạn
2.
Hoc
bán
giám
sát
CRFs
voi
GEC
Tập các văn bản đầu vào
chứa các đoạn văn
Tập dữ liệu ra với định dạng
Module tách từ Tiếng Việt
Gán nhãn POS
Gán nhãn NER
- 34 -
34
Hình 3/4. Mô hình đề xuất giải quyết bài toán
Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bước tiền xử lý tự bán
tự động đó là tách từ, gán nhãn từ loại POS (Part Of Speech), gán nhãn thực thể
NER (Named Entities Recognition).
Bước 1: Sử dụng phần mềm tách từ tự động JvnSegmenter của NCS
Nguyễn Cẩm Tú tại trang web . Đây là phần
mềm tách từ tự động dựa trên phương pháp trường điều kiện ngẫu nhiên CRFs
[1], phương pháp này chứng tỏ hiệu lực tốt trong nhiều bài toán xử lý văn bản,
đặc biệt là các bài toán trích chọn thông tin trên Web. Sau bước này ta thu được
tập dữ liệu gồm mỗi từ nằm trên một dòng. Và giữa mỗi câu có một dòng trống.
Bước 2: Tiến hành gán nhãn POS cho mỗi từ. Việc gán nhãn POS tôi có sử
dụng tool vnTagger của tác giả Lê Hồng Phương tại trang web
. Đây là phần mềm gán nhãn từ
loại POS cho tiếng Việt có độ chính xác cao (khoảng 95%), phần mềm được viết
dựa trên phương pháp maximum entropy. Sau đó tiến hành kiểm tra nhãn POS
lại một cách thủ công.
Bước 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ công. Sau bước
này sẽ thu được tập dữ liệu với định dạng mong muốn.
Giai đoạn 2: Tiến hành nhận dạng tên thực thể bằng Mallet Tool.
Mallet là bộ công cụ được xây dựng bởi Andrew McCallum và đồng
nghiệp năm 2002 và ngày càng được cải tiến và nâng cấp phiên bản. Đây là một
bộ công cụ với nhiều chức năng xử lý ngôn ngữ tự nhiên như: Phân lớp, phân
cụm, triết lọc thông tin và những ứng dụng học máy khác. Bộ công cụ này được
công bố rộng rãi tại website Trong đó, Andrew
McCallum và đồng nghiệp xây dựng rất nhiều công cụ gán nhãn dữ liệu cho
những ứng dụng như trích chọn tên thực thể. Những thuật toán gán nhãn bao
gồm: mô hình Markov ẩn, mô hình Markov entropy cực đại và mô hình trường
điều kiện ngẫu nhiên CRFs. Nhóm phát triển Mallet xây dựng nhiều phương
pháp học máy như học bán giám sát và học có giám sát. Trên cơ sở đó, tác giả
đã phát triển thành công cụ gán nhãn cho tiếng Việt dựa trên phương pháp học
bán giám sát CRFs theo tiêu chuẩn kỳ vọng tổng quát.
Như phân tích ở 2.2, mô hình học bán giám sát CRFs này sử dụng tiêu
chuẩn kỳ vọng tổng quát, tác giả tiến hành xây dựng ràng buộc (Constraint) thể
hiện mối quan hệ giữa từ và nhãn. Định dạng tổng quát của tập ràng buộc
Constraint được xác định như sau:
Feature_name label_name = probability label_name = probability …
- 35 -
35
Số xác suất (probability) phải bằng với số nhãn. Các đặc trưng và tên nhãn
phải khớp chính xác với các đặc trưng và tên nhãn trong dữ liệu và bảng mẫu tự
đích (target alphabets).
Do đó để xây dựng tập Constraint, có thể làm theo hai cách:
Cách 1: xây dựng thủ công, lựa chọn những đặc trưng và xác định xác suất
có thể cho mỗi đặc trưng theo từng nhãn. Việc ước lượng những xác suất này
dựa trên kinh nghiệm chủ quan của người thực hiện.
Cách 2: xây dựng tập Constraint dựa theo phương pháp LDA (Latent
Dirichlet allocation). LDA [BNJ03] là mô hình xác suất sinh cho những tập dữ
liệu rời rạc, cho phép xác định tập dữ liệu quan sát dựa trên tập dữ liệu không
quan sát dựa trên tính tương đồng. Từ đó, cho phép xác định xác suất một từ,
một đặc trưng có mặt trong các chủ đề là các nhóm thực thể cho trước.
Trong khuôn khổ luận văn, tác giả tiến hành xây dựng tập ràng buộc
Constraint theo cả 2 phương pháp. Tiến hành xây dựng một tập các đặc trưng là
các từ thường xuất hiện trong các tài liệu điều tra chia theo các nhóm thực thể.
Sử dụng phương pháp LDA để xác định ràng buộc về xác suất thuộc về các
nhóm thực thể khác nhau. Sau đó tác giả tiến hành kiểm tra, chỉnh sửa các ràng
buộc một cách thủ công nhằm xây dựng được một tập ràng buộc Constraint tốt
nhất.
Do thời gian và kinh nghiệm có hạn, nên tập ràng buộc được xây dựng theo
chủ quan và kiến thức nghiên cứu được của tác giả có thể chưa hoàn thiện và sẽ
ảnh hưởng phần nào đến kết quả mô hình.
Hình 5. Tập các ràng buộc (Constraint file)
- 36 -
36
3.2.3. Lựa chọn thuộc tính
Các thuộc tính được chọn theo mẫu ngữ cảnh từ vựng (kích thước cửa sổ
trượt bằng 5):
Mẫu ngữ cảnh Ý nghĩa
S-2 Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại
S-1 Âm tiết quan sát tại vị trí liền trước so với vị trí hiện tại
S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại
S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại
S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau
S-1S0 Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại
S-2S-1 Âm tiết quan sát tại vị trí -2 và vị trí liền trước
S1S2 Âm tiết quan sát tại vị trí 2 và vị trí liền sau
S-1S0S1 Âm tiết quan sát tại vị trí liền trước, hiện tại và liền sau
S-2S-1S0 Âm tiết quan sát tại vị trí -2, vị trí liền trước và hiện tại
S0S1S2 Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại
Bảng 1. Mẫu ngữ cảnh từ vựng
Các tên thực thể thường được viết hoa ký tự đầu tiên, vì thế ta có thể thêm
thuộc tính viết hoa vào mô hình. Nếu tất cả các ký tự đều viết hoa thì khả năng
đó là tên viết tắt của tổ chức. Đôi khi tên thực thể có thể đi cùng với các ký tự
số. Việc lựa chọn thuộc tính còn được dựa trên ngữ cảnh phát hiện tên thực thể:
Mẫu ngữ cảnh Ý nghĩa
InitialCap Viết hoa chữ cái đầu
AllCaps Viết hoa tất cả các chữ cái
CapsMix Chữ cái thường và hoa lẫn lộn
SingleDigit Số 1 chữ số
HasDigit Có chứa số
DoubleDigits Số 2 chữ số
Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể
3.2.4. Cách đánh giá
Có nhiều cách đánh giá độ chính xác của mô hình, nhưng cách phổ biến
nhất hiện nay là sử dụng các độ đo như độ chính xác (precision), độ hồi tưởng
(recall) và độ đo F1. Độ đo F1 là một chỉ số cân bằng giữa độ chính xác và độ
- 37 -
37
hồi tưởng. Nếu độ chính xác và độ hồi tưởng cao và cân bằng thì độ đo F1 lớn,
còn độ chính xác và hồi tưởng nhỏ và không cân bằng thì độ đo F1 nhỏ. Mục
tiêu của ta là xây dựng mô hình phân đoạn từ có chỉ số F1 cao.
Độ đo dựa theo từ được tính theo các công thức sau:
(3.1)
(3.2)
(3.3)
Trong đó: a là số thực thể gán đúng
b là số thực thể mô hình gán
c là số thực thể do người gán
3.3. Kết luận chương 3
Chương 3 tập trung phân tích bài toán trích chọn thông tin trên tập văn bản
pháp luật trên cơ sở phân tích các đặc trưng miền dữ liệu. Từ đó đề xuất mô hình
giải quyết bài toán bao gồm 2 giai đoạn: Giai đoạn 1 là tiền xử lý dữ liệu và Giai
đoạn 2 là đưa tập dữ liệu và các ràng buộc tự thiết lập vào huấn luyện mô hình
theo tiêu chuẩn kỳ vọng tổng quát.
b
aecision Pr
c
acall Re
callecision
callecisionmeasureF
Re(Pr
Re*Pr*2
- 38 -
38
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Mô hình thực nghiệm
4.1.1. Dữ liệu thực nghiệm
Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên dữ liệu thực nghiệm được thu thập
từ trang web Trang web này chứa nhiều thông tin pháp
luật về những vụ án, những tình tiết sự việc vi phạm pháp luật được công khai, khá
gần với tài liệu hồ sơ vụ án cần khai thác. Tiến hành thu thập hơn 400 bài viết điều
tra, ghi chép các vụ án về an ninh trật tự, an ninh kinh tế…
Sau khi tiến hành bước tiền xử lý thu được tập dữ liệu huấn luyện training với
hơn 50.000 dòng và tập dữ liệu kiểm tra testing với hơn 30000 dòng.
Tác giả đã xây dựng một tập constraint với hơn 800 ràng buộc về xác suất có
thể có của
4.1.2. Bộ công cụ Mallet
Tác giả sử dụng bộ công cụ Mallet 2.0.6 phiên bản mới nhất.
Dữ liệu đầu vào cho công cụ bao gồm:
- File huấn luyện (training).
- File constraint
- File kiểm tra (testing)
4.2. Thực nghiệm và đánh giá
4.2.1. Môi trường thực nghiệm
Phần cứng: Máy tính IBM T61, Core 2 Duo, 4.00 GHz, RAM 2GB
Phần mềm: Sử dụng tool Mallet được viết bởi Andrew McCallum và đồng
nghiệp. Ngoài ra còn sử dụng các công cụ JvnSegmenter để tách từ; vnTagger để
gán nhãn POS cho từ.
4.2.2. Mô tả quy trình thực nghiệm
Tác giả tiến hành 4 thực nghiệm. Để đánh giá mức độ ảnh hưởng của tập dữ
liệu huấn luyện đến kết quả gán nhãn, tác giả tiến hành chia tập dữ liệu huấn luyện
lớn (hơn 50.000 dòng) thành các tập huấn luyện như sau:
- Tập dữ liệu huấn luyện 10%: Lấy 10% dữ liệu của tập dữ liệu huấn
luyện gốc.
- Tập dữ liệu huấn luyện 20%: Lấy 20% dữ liệu của tập dữ liệu huấn
luyện gốc.
- 39 -
39
- Tập dữ liệu huấn luyện 40%: Lấy 40% dữ liệu của tập dữ liệu huấn
luyện gốc.
- Tập dữ liệu huấn luyện 80%: Lấy 80% dữ liệu của tập dữ liệu huấn
luyện gốc.
- Tập dữ liệu huấn luyện 100%: Lấy toàn bộ tập dữ liệu huấn luyện gốc.
Như vậy, tác giả sẽ tiến hành 5 nhóm thực nghiệm, mỗi nhóm thực nghiệm sử
dụng một tập dữ liệu huấn luyện phân chia như trên và tiến hành gán nhãn dữ liệu
theo 3 mô hình: Mô hình CRFs đơn thuần; Mô hình bán giám sát CRFs sử dụng
Entropy Regularization và Mô hình học bán giám sát CRFs theo phương pháp tiêu
chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.
4.2.3. Kết quả thực nghiệm
Nhóm thực nghiệm 1: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ
liệu huấn luyện 10% và tập dữ liệu kiểm tra.
Bảng 3. Kết quả nhóm thực nghiệm 1
CRF CRF.ER CRF.GE
Precision Recall F-measure Precision Recall
F-
measure Precision Recall
F-
measure
ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596
PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376
LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521
MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000
OVERALL 0.7489 0.9859 0.7863 0.9290 0.8825 0.9051 0.9044 0.9756 0.9386
- 40 -
40
Hình 6. Kết quả nhóm thực nghiệm 1
Nhóm thực nghiệm 2: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ
liệu huấn luyện 20% và tập dữ liệu kiểm tra.
CRFs CRFs.ER CRFs.GE
Precision Recall F-measure Precision Recall
F-
measure Precision Recall
F-
measure
ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502
PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985
LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502
MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667
OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536
Bảng 4. Kết quả nhóm thực nghiệm 2
Hình 7. Kết quả nhóm thực nghiệm 2
Nhóm thực nghiệm 3: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ
liệu huấn luyện 40% và tập dữ liệu kiểm tra.
Trong nhóm thực nghiệm này, tác giả mới chỉ đưa ra được kết quả của việc
gán nhãn theo mô hình CRFs đơn thuần và mô hình bán giám sát CRFs sử dụng
Entropy Regularization. Việc gán nhãn theo mô hình học bán giám sát CRFs theo
- 41 -
41
phương pháp tiêu chuẩn kỳ vọng tổng quát tác giả chưa thực hiện được do việc sử
dụng mô hình này cần bộ nhớ rất lớn, vượt quá khả năng đáp ứng của máy tính
32bit của tác giả. Nên trong nhóm thực nghiệm này và 2 nhóm thực nghiệm sau tác
giả chỉ báo cáo kết quả của 2 mô hình CRFs đơn thuần và CRFs sử dụng Entropy
Regularization.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577
PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272
LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959
MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760
OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500
Bảng 5. Kết quả nhóm thực nghiệm 3
Hình 8. Kết quả nhóm thực nghiệm 3
Nhóm thực nghiệm 4: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ
liệu huấn luyện 80% và tập dữ liệu kiểm tra.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873
PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912
LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993
MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120
OVERALL 0.9350 0.9773 0.9545 0.9927 0.9895 0.9911
- 42 -
42
Bảng 6. Kết quả nhóm thực nghiệm 4
Hình 9. Kết quả nhóm thực nghiệm 4
Nhóm thực nghiệm 5: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ
liệu huấn luyện 100% và tập dữ liệu kiểm tra.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777
PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941
LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986
MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612
OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925
Bảng 7. Kết quả nhóm thực nghiệm 5
- 43 -
43
Hình 10. Kết quả nhóm thực nghiệm 5
4.2.4. Đánh giá
Qua 5 nhóm thực nghiệm trên ta thấy có một số nhận xét như sau:
- Đối với mô hình CRFs đơn thuần, khi càng tăng kích thước tập dữ liệu huấn
luyện thì độ chính xác càng cao hay hàm F-measure càng cao. Điều này phù hợp
với mô hình học máy có giám sát. Thậm chí ở nhóm thực nghiệm thứ 3 kết quả của
mô hình CRFs đơn thuần còn nhỉnh hơn so với kết quả của mô hình CRFs sử dụng
Entropy Regularization.
- Kết quả của 2 mô hình học máy bán giám sát (Mô hình CRFs sử dụng
Entropy Regularization và Mô hình CRFs theo phương pháp tiêu chuẩn kỳ vọng
tổng quát) tốt hơn so với kết quả của mô hình học máy có giám sát (Mô hình CRFs
đơn thuần), đặc biệt là với tập dữ liệu huẫn luyện nhỏ.
- Mặc dù Mô hình học máy bán giám sát CRFs theo phương pháp tiêu chuẩn
kỳ vọng tổng quát mới chỉ thực hiện được ở 2 tập dữ liệu huấn luyện nhỏ (tập dữ
liệu huấn luyện 10% và 20%), nhưng cũng cho thấy mô hình này cho kết quả tốt
hơn mô hình học máy bán giám sát CRFs sử dụng Entropy Regularization.
Các kết quả thực nghiệm trên có thể chưa hoàn thiện, kết quả có thể bị ảnh
hưởng bởi bản thân dữ liệu thu thập và một số trường hợp nhập nhằng trong tiếng
Việt, nhưng nó cũng góp phần phản ánh ưu điểm của phương pháp học máy bán
giám sát so với phương pháp học máy có giám sát nói chung, đồng thời cũng cho
thấy hiệu quả của mô hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát.
4.3. Kết luận chương 4
Tiến hành các thực nghiệm để phân tích đánh giá kết quả đạt được. Ở đây, tác
giả tiến hành năm nhóm thực nghiệm, mỗi nhóm thực nghiệm sử dụng một tập dữ
- 44 -
44
liệu huấn luyện được phân chia khác nhau và tiến hành gán nhãn dữ liệu theo 3 mô
hình: Mô hình CRFs đơn thuần; Mô hình bán giám sát CRFs sử dụng Entropy
Regularization và Mô hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ
vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Qua đó
đánh giá hiệu quả của các mô hình nói riêng và hiệu quả của các phương pháp học
máy có giám sát và bán giám sát nói chung.
- 45 -
45
KẾT LUẬN
Sau một thời gian tìm hiểu và nghiên cứu về bài toán trích lọc thông tin và
phương pháp học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ
vọng tổng quát, luận văn đã đạt được một số kết quả sau.
- Giới thiệu về mô hình trường điều kiện ngẫu nhiên CRFs và phương pháp
học máy bán giám sát. CRFs là mô hình dựa trên xác suất điều kiện, nó có
thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm
hỗ trợ cho quá trình phân lớp. CRFs có nhiều ưu điểm của các mô hình xác
suất khác đồng thời khắc phục được nhược điểm mà các mô hình xác suất
khác gặp phải tiêu biểu là vấn đề “label bias”. Phương pháp học máy bán
giám sát là sự kết hợp của 2 phương pháp truyền thống – học máy có giám
sát và học máy không có giám sát, là cách học sử dụng thông tin chứa trong
cả dữ liệu chưa gán nhãn và tập dữ liệ gán nhãn nhằm mở rộng tập các dữ
liệu gán nhãn ban đầu. Trong quá trình học như thế phương pháp sẽ tận
dụng được những thông tin phong phú của dữ liệu chưa gán nhãn, mà chỉ
yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn.
- Giới thiệu về tiêu chuẩn kỳ vọng tổng quát và áp dụng vào mô hình CRFs.
Tiêu chuẩn kỳ vọng tổng quát là những điều kiện trong hàm mục tiêu huấn
luyện cho phép gán giá trị cho kỳ vọng mô hình. Luận văn cùng đề cập đến
cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng
quát, từ đó áp dụng vào mô hình CRFs thiết lập các thông số cho mô hình
theo tiêu chuẩn kỳ vọng tổng quát.
- Đề xuất một mô hình cho bài toán trích chọn thông tin thực thể trên tập văn
bản pháp luật dựa trên phương pháp học máy bán giám sát dựa trên mô
hình CRFs theo tiêu chuẩn kỳ vọng tổng quát. Đồng thời sử dụng bộ công
cụ Mallet được viết bởi Andrew McCallum và đồng nghiệp cho tập dữ liệu
tiếng Việt theo mô hình đề xuất ở trên trích lọc ra 4 loại thực thể: LOC,
PER, ORG VÀ MISC.
Tuy nhiên, để có được một tập huấn luyện tốt đòi hỏi nhiều thời gian và công
sức. Trong thời gian có hạn, tác giả mới chỉ xây dựng được tập dữ liệu huấn luyện
và tập ràng buộc dữ liệu vừa phải. Với tập dữ liệu này, khi đưa vào tập dữ liệu kiểm
tra bất kỳ kết quả thu được còn hạn chế.
Mặc dù, mô hình này thu được kết quả khả quan ở tập ngôn ngữ tiếng Anh,
nhưng đây là lần đầu tiên mô hình này được áp dụng cho ngôn ngữ tiếng Việt và do
- 46 -
46
những đặc điểm riêng biệt của tiếng Việt nên luận văn không thể tránh khỏi những
thiếu sót và hạn chế nhất định. Tôi rất mong nhận được những ý kiến và nhận xét
góp ý để luận văn được hoàn thiện hơn.
Xử lý ngôn ngữ tự nhiên là một vấn đề phức tạp. Hiện này đã có nhiều công cụ
xử lý ngôn ngữ tự nhiên, tuy nhiên hầu hết chúng được áp dụng cho tiếng Anh và
tiếng Pháp. Các đặc thù của các ngôn ngữ là khác nhau nên việc chuyển đổi giữa
các ngôn ngữ cũng gặp rất nhiều khó khăn đặc biệt là đối với một ngôn ngữ phong
phú và đa dạng như tiếng Việt. Trong thời gian tới, tác giả sẽ tập trung xây dựng và
hoàn thiện bộ dữ liệu huấn luyện và tập các ràng buộc đặc trưng của dữ liệu nhằm
cải thiện độ chính xác của mô hình.
- 47 -
47
TÀI LIỆU THAM KHẢO
[AG05] M. R. Amini and P. Gallinari. Semi-supervised learning with an imperfect
supervisor. Knowledge and Information Systems, 8(4):385–413, 2005.
[BC01] A. Blum and S. Chawla. Learning from labeled and unlabeled data using
graph mincuts. In Proceedings of the 18th International Conference on
Machine Learning, pages 19–26, Williamston, MA, 2001.
[BC09] Kedar Bellare, Andrew McCallum (2009). Generalized Expectation Criteria
for Bootstrapping Extractors using Record-Text Alignment, The 2009
Conference on Empirical Methods in Natural Language Processing: 131–
140, 2009.
[BLR04] A. Blum, J. Lafferty, M. Rwebangira, and R. Reddy. Semi-supervised
learning using ran-domized mincuts. In Proceedings of the 21st International
Conference on Machine Learning, pages 13–20, Ban, Canada, 2004.
[BM98] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-
training. In Proceedings of the 11th Annual Conference on Computational
Learning Theory, pages 92–100, Madison, WI, 1998.
[BN04] M. Belkin and P. Niyogi. Semi-supervised learning on Riemannian
manifolds. Machine Learning, 56(1-3):209–239, 2004.
[BNJ03] David M. Blei, Andrew Y.Ng và Michael I.Jordan. Latent Dirichlet
Allocation. University of California, Berkeley, Berkeley, CA 94720. 2003
[BNS05] M. Belkin, P. Niyogi, and V. Sindhwani. On manifold regularization. In
Proceedings of the 10th International Workshop on Artificial Intelligence
and Statistics, pages 17–24, Savannah, Barbados, 2005.
[BNS06] M. Belkin, P. Niyogi, and V. Sindhwani. Manifold regularization: A
geometric framework for learning from labeled and unlabeled examples.
Journal of Machine Learning Research, 7:2399–2434, 2006.
[BS06] U. Brefeld and T. Scheffer. Semi-supervised learning for structured output
variables. In Proceedings of the 23rd International Conference on Machine
Learning, pages 145–152, Pittsburgh, PA, 2006.
[Car10] Andrew Carlson (2010). Coupled Semi-Supervised Learning, PhD Thesis
(CMU-ML-10-104), Carnegie Mellon University, 2010.
- 48 -
48
[CMD07] Andrew McCallum, Gideon Mann, Gregory Druck (2007). Generalized
Expectation Criteria, Technical Report UM-CS-2007-60, University of
Massachusetts Amherst, August, 2007
[CZ05] O. Chapelle and A. Zien. Semi-supervised learning by low density
separation. In proceedings of the 10th International Workshop on Artificial
Intelligence and Statistics, pages 57–64. Savannah Hotel, Barbados, 2005.
[DLR77] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from
incomplete data via the EM algorithm. Journal of the Royal Statistical
Society, Series B, 39(1):1–38, 1977.
[DMC07] Gregory Druck, Gideon Mann, Andrew McCallum (2007). Leveraging
Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007.
[DMC08] Gregory Druck, Gideon Mann and Andrew McCallum (2008). Learning
from Labeled Features using Generalized Expectation Criteria, SIGIR 08,
2008.
[DMC09] Gregory Druck, Gideon Mann, Andrew McCallum (2009). Semi-supervised
Learning of Dependency Parsers using Generalized Expectation Criteria,
The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP:
360–368.
[Erk10] Ayse Naz Erkan (2010). Semi-supervised Learning via Generalized
Maximum Entropy, PhD Thesis, New York University, 2010.
[FUS05] A. Fujino, N. Ueda, and K. Saito. A hybrid generative/discriminative
approach to semi-supervised classifier design. In Proceedings of the 20th
National Conference on Artificial Intelligence, pages 764–769, Pittsburgh,
PA, 2005.
[GB04] Y.Grandvaletand, Y.Bengio. Semi-supervised learning by entropy
minimization. In Advances in Neural Information Processing Systems, 2004.
[GY05] Y. Grandvalet and Y. Bengio. Semi-supervised learning by entropy
minimization. In L. K. Saul, Y.Weiss, and L. Bottou, editors, Advances in
Neural Information Processing Systems 17, pages 529–536. MIT Press,
Cambridge, MA, 2005.
[GZ00] S. Goldman and Y. Zhou. Enhancing supervised learning with unlabeled
data. In Proceedings of the 17th International Conference on Machine
Learning, pages 327–334, San Francisco, CA, 2000.
[HC71] J.Hammersley and P. Clifford (1971). Markov fields on finite graphs and
lattices. Unpublished manuscript.
[HM07] M. Hein and M. Maier. Manifold denoising. In B. Sch¨olkopf, J. C. Platt,
and T. Ho man, editors, Advances in Neural Information Processing
Systems 19, pages 561–568. MIT Press, Cambridge, MA, 2007.
- 49 -
49
[Joa99] T. Joachims. Transductive inference for text classification using support
vector machines. In Proceedings of the 16th International Conference on
Machine Learning, pages 200–209, Bled, Slovenia, 1999
[JWL06] Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale
Schuurmans (2006). Semi-supervised conditional random fields for
improved sequence segmentation and labeling, The 21st International
Conference on Computational Linguistics and the 44th annual meeting of
the Association for Computational Linguistics: 209-216, 2006.
[KL51] S. Kullback and R. A. Leibler. On Information and Sufficiency. Annuals of
Mathematical Statistics 22 (1): pages 79–86, 1951.
[KQ10] Pavel P. Kuksa, Yanjun Qi (2010). Semi-Supervised Bio-Named Entity
Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010.
[Kul59] S. Kullback. Information theory and statistics. John Wiley and Sons, NY,
1959.
[LCP01] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random
Fields: Probabilistic Models for segmenting and labeling Sequence Data. In
Proc. of the Eighteenth International Conference on Machine Learning
(ICML-2001), 2001.
[LJ05] N. D. Lawrence and M. I. Jordan. Semi-supervised learning via Gaussian
processes. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in
Neural Information Processing Systems 17, pages 753–760. MIT Press,
Cambridge, MA, 2005.
[Mal02] Robert Malouf. “A comparison of algorithms for maximum entropy
parameter estimation.” In Proceedings of the Sixth Conference on Natural
Language Learning (CoNLL-2002). Pages 49–55.
[MC08] Gideon S. Mann, Andrew McCallum (2008). Generalized Expectation
Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL-
08 (HLT): 870–878, 2008.
[MC10] Gideon S. Mann, Andrew McCallum (2010). Generalized Expectation
Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal
of Machine Learning Research, 11 (2010): 955-984
[MGZ04] Scott Miller, Jethran Guinness, Alex Zamanian (2004). Name Tagging with
Word Clusters and Discriminative Training, ACL 04, 2004.
[MMI02] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine-
Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM
Transactions on Asian Language Information Processing, Vol. 1, No. 2, June
2002, Pages 145-158.
[MU97] D. J. Miller and H. S. Uyar. A mixture of experts classifier with learning
based on both labelled and unlabelled data. In M. Mozer, M. I. Jordan, and
- 50 -
50
T. Petsche, editors, Advances in Neural Information Processing Systems 9,
pages 571–577. MIT Press, Cambridge, MA, 1997.
[NCT00] K.Nigam, A. K. McCallum, S. Thrun, and T. Mitchell. Text classification
from labeled and unlabeled documents using EM. Machine Learning, 39(2-
3):103–134, 2000.
[NG00] K. Nigam and R. Ghani. Analyzing the effectiveness and applicability of co-
training. In Proceedings of the 9th ACM International Conference on
Information and Knowledge Management, pages 86–93, Washington, DC,
2000.
[QKC09] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray
Kavukcuoglu, and Jason Weston (2009). Semi-Supervised Sequence
Labeling with Self-Learned Features, The 2009 Ninth IEEE International
Conference on Data Mining: 428-437, 2009.
[SL94] B. Shahshahani and D. Landgrebe. The effect of unlabeled samples in
reducing the small sample size problem and mitigating the hughes
phenomenon. IEEE Transactions on Geo-science and Remote Sensing,
32(5):1087–1095, 1994.
[Spr07] Richard Sproat. Introduction to Speech Technology (Language Models,
HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of
Electrical and Computer Engineering, University of Illinois at Urbana-
Champaign. ECE 398RS Courses, Fall 2007.
[Wal02] Hanna M. Wallach. Efficient Training of Conditional Random Fields.
Technical Report, University of Edinburgh, 2002
[Wal04] Hanna M.Wallach. Conditional Random Fields: An introduction. Technical
Report MS-CIS-04-21, Department of Computer and Information Science,
University of Pennsylvania. February 24, 2004.
[WHW09] Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009). A Rate
Distortion Approach for Semi-Supervised Conditional Random Fields,
NIPS2009, 2009.
[ZBL04] D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Sch¨olkopf. Learning
with local and global consistency. In S. Thrun, L. Saul, and B. Sch¨olkopf,
- 51 -
51
editors, Advances in Neural Information Processing Systems 16. MIT Press,
Cambridge, MA, 2004.
[ZC06] Z.-H. Zhou, K.-J. Chen, and H.-B. Dai. Enhancing relevance feedback in
image retrieval using unlabeled data. ACM Transactions on Information
Systems, 24(2):219–244, 2006.
[ZGL03] X. Zhu, Z. Ghahramani, and J. Lafferty. Semi-supervised learning using
Gaussian fields and harmonic functions. In Proceedings of the 20th
International Conference on Machine Learning, pages 912–919,
Washington, DC, 2003.
[Zho08] Z. H. Zhou. Semi-supervised learning by disagreement. In Proceedings of
the 4th IEEE International Conference on Granular Computing, Hangzhou,
China, 2008.
[ZL05] Z. H. Zhou and M. Li. Tri-training: Exploiting unlabeled data using three
classifiers. IEEE Transactions on Knowledge and Data Engineering,
17(11):1529–1541, 2005.
[ZL07] Z. H. Zhou and M. Li. Semi-supervised regression with co-training style
algorithms. IEEE Transactions on Knowledge and Data Engineering,
19(11):1479–1493, 2007.
[ZL07b] X. Zhang and W. S. Lee. Hyperparameter learning for graph based semi-
supervised learning algorithms. In B. Sch¨olkopf, J. Platt, and T. Hofmann,
editors, Advances in Neural Information Processing Systems 19, pages
1585–1592. MIT Press, Cambridge, MA, 2007.
[ZL10] Zhi-Hua Zhou and Ming Li. Semi-supervised Learning by Disagreement.
National Key Laboratory for Novel Software Technology Nanjing
University, Nanjing 210093, China. 2010.
[ZZY07] Z.-H. Zhou, D.-C. Zhan, and Q. Yang. Semi-supervised learning with very
few labeled training examples. In Proceedings of the 22nd AAAI
Conference on Artificial Intelligence, pages 675–680, Vancouver, Canada,
2007.
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT.pdf