Luận văn -Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

Đềxuất một mô hình cho bài toán trích chọn thông tin thực thểtrên tập văn bản pháp luật dựa trên phương pháp học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳvọng tổng quát. Đồng thời sửdụng bộcông cụMallet được viết bởi Andrew McCallum và đồng nghiệp cho tập dữliệu tiếng Việt theo mô hình đề xuất ở trên trích lọc ra 4 loại thực thể: LOC, PER, ORG VÀ MISC.

51 trang | Chia sẻ: lylyngoc | Lượt xem: 3076 | Lượt tải: 3Free

Bạn đang xem trước 20 trang tài liệu Luận văn -Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

học. Sau này, nhiều nghiên cứu đã cố gắng cải thiện đồ thị bằng việc thêm vào những đặc trưng miền tri thức. X. Zhang và W. S. Lee, 2007 [ZL07b] chọn dải thông RBF tốt hơn để cực tiểu hóa lỗi dự đoán trên dữ liệu gán nhãn sử dụng đánh giá chéo. M. Hein và M. Maier, 2007 [HM07] cố gắng giảm dữ liệu nhiễu để đạt được đồ thị tốt hơn... Mặc dù phương pháp học bán giám sát dựa trên đồ thị được ứng dụng khá rộng rãi nhưng nó có nhược điểm lớn về quy mô. - Phương pháp học bán giám sát dựa trên mâu thuẫn được đưa ra gần đây bởi Z. H. Zhou, 2008 [Zho08] dựa trên những nghiên cứu của A. Blum và T. Mitchell, 1998 [BM98]. Trong phương pháp này, nhiều máy học được huấn luyện cho cùng tác vụ và mẫu thuẫn giữa các máy học sẽ nảy sinh trong quá trình học. Ở đây, dữ liệu chưa gán nhãn được coi là “cơ sở” cho việc trao đổi thông tin. Nếu một máy học nào chắc chắn hơn các máy học khác về một mẫu chưa gán nhãn đang tranh luận thì máy học đó sẽ dạy cho các máy học khác về mẫu này, sau đó mẫu này có thể được chọn để truy vấn. Do đó, phương pháp này không có những nhược điểm như những mô hình khác như vi phạm giả thiết mô hình, hàm thiệt hại không lồi, hay nhược điểm về quy mô của thuật toán học. Thuật toán điển hình của nhóm phương pháp này được Ziaojin Zhu đề cập trong [Zhu08] là Thuật toán Co-training. Mỗi phương pháp học bán giám sát đều có những ưu và nhược điểm riêng. Do đó tùy thuộc vào ứng dụng và loại dữ liệu mà lựa chọn phương pháp học và thuật toán cụ thể cho phù hợp. 1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs Như phân tích ở 1.2.1, có nhiều phương pháp học bán giám sát và mỗi phương pháp có những ưu và nhược điểm riêng. Luận văn của tác giả tập trung - 22 - 22 nghiên cứu mô hình học bán giám sát CRFs, mô hình này thuộc nhóm phương pháp sinh. Mô hình học bán giám sát CRFs là mô hình kết hợp được cả dữ liệu chuỗi đã gán nhãn và chưa gán nhãn; mô hình đã khắc phục được những yếu điểm của các mô hình khác và được ứng dụng trong nhiều nghiên cứu về xử lý ngôn ngữ. Feng Jiao và cộng sự, 2006 [JWL06] đã đề xuất thuật toán tận dụng dữ liệu chưa gán nhãn qua chuẩn hóa entropy (entropy regularization) – thuật toán được mở rộng từ tiếp cận được đề xuất trong [GB04] cho mô hình CRFs có cấu trúc. Một tiếp cận khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory Druck và cộng sự [DMC08] đề xuất phương pháp học bán giám sát CRFs sử dụng tiêu chuẩn kỳ vọng tổng quát GE, phương pháp này sẽ giới thiệu trong mục 2.2. Trong phương pháp này, thay vì sử dụng các mẫu gán nhãn máy học sẽ truy cập các đặc trưng gán nhãn. Những đặc trưng này có thể được gán nhãn với chi phí thấp hơn nhiều so với gán nhãn toàn bộ mẫu dữ liệu vì việc gán nhãn đặc trưng có thể chỉ cần gán nhãn cho những phần nhỏ của cấu trúc chuỗi hoặc cây. Bên cạnh đó, việc sử dụng tiêu chuẩn kỳ vọng tổng quát xác lập các tham số trong huấn luyện hàm mục tiêu cho phép tạo được kỳ vọng mô hình gần với phân phối mục tiêu. Luận văn sẽ tiến hành thực thi mô hình này trên tập dữ liệu tiếng Việt và so sánh với một số phương pháp khác. Kết quả thực nghiệm sẽ thể hiện ở Chương 4. 1.3. Kết luận chương 1 Chương này giới thiệu về mô hình trường ngẫu nhiên có điều kiện – một mô hình khá phổ biến và hiệu quả trong các ứng dụng về xử lý ngôn ngữ tự nhiên - và giới thiệu về các phương pháp học máy bán giám sát – một phương pháp được coi là tận dụng được các ưu điểm của hai phương pháp học máy có giám sát và học không có giám sát. Từ đó, sơ lược về một số mô hình học máy bán giám sát áp dụng vào mô hình trường ngẫu nhiên có điều kiện, nổi bật là mô hình học máy bán giám sát CRFs sử dụng tiêu chuẩn kỳ vọng tổng quát; mô hình này sẽ được giới thiệu và phân tích trong chương tiếp theo của luận văn. - 23 - 23 CHƯƠNG 2 HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT 2.1. Tiêu chuẩn kỳ vọng tổng quát 2.1.1. Giới thiệu sơ bộ Những phương pháp học có giám sát đòi hỏi tập các trường hợp gán nhãn lớn và nó hạn chế khả năng học ở những miền tri thức mới. Những phương pháp học bán giám sát với mục tiêu tăng cường sử dụng tập các trường hợp chưa gán nhãn là giải pháp lý tưởng nhằm giảm các nỗ lực gán nhãn dữ liệu. Tuy nhiên, phương pháp này thường phức tạp về tính toán và phải tính đến độ tin cậy trong các trường hợp siêu tham số nhạy cảm của những phương pháp học bán giám sát. Trong khi đó, chúng ta cần một phương pháp đơn giản nhưng hiệu quả cho phép thực hiện những mô hình huấn luyện trên những miền tri thức mới và đòi hỏi tối thiểu việc gán nhãn. Một phương pháp bán giám sát mới kết hợp tri thức tiền nhiệm giữa những đặc trưng và lớp vào việc huấn luyện sử dụng tiêu chuẩn kỳ vọng tổng quát (GEC), được Andrew McCallum và cộng sự, 2007 [CMD07] giới thiệu, đã và đang gây được nhiều chú ý và đưa vào nhiều ứng dụng. Tiêu chuẩn kỳ vọng tổng quát (GEC) [CMD07] là những điều kiện (term) trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình. GEC có điểm giống với phương pháp mô-men, nhưng cho phép biểu diễn những tham chiếu vô hướng tùy ý trên các kỳ vọng của những hàm tùy biến mà không yêu cầu sự cân bằng mô-men mẫu và mô-men mô hình. Đồng thời, GEC cũng có 3 điểm khác căn bản với những hàm mục tiêu huấn luyện truyền thống; Đó là, không cần ánh xạ một-một giữa những điều kiện GEC và những tham số mô hình, những kỳ vọng mô hình cho những điều kiện GEC khác nhau có thể được huấn luyện trên những tập dữ liệu khác nhau, kỳ vọng tham chiếu (hàm score) có thể xác định từ nguồn khác như những tác vụ khác, những tri thức tiền nghiệm. Phương pháp được sử dụng trong luận văn này là sử dụng kết hợp những đặc trưng và lớp biết trước. Kỳ vọng của mô hình được ước lượng từ những phân phối lớp được huấn luyện từ những đặc trưng lựa chọn và hàm tỷ số là phân kỳ KL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959, [Kul59]) – là độ đo không đối xứng giữa 2 phân bố xác suất – phân phối xác - 24 - 24 suất thực và phân phối xác suất mục tiêu - từ những phân phối tham chiếu được ước lượng từ những nguồn đã có. Kết hợp những điều kiện GEC với tham số đã biết cho phép sử dụng những mẫu đồng xuất hiện trong dữ liệu chưa gán nhãn để học những tham số cho những đặc trưng mà chưa có trong thông tin tiền nghiệm. Phương pháp áp dụng trong luận văn để thực hiện tác vụ Nhận dạng tên thực thể (NER) như tên người, tên địa điểm, tổ chức và những thực thể khác. 2.1.2. Tiêu chuẩn kỳ vọng tổng quát Những mô hình học bán giám sát trước đây đã khắc phục một số hạn chế là sử dụng dữ liệu được gán nhãn đầy đủ với dữ liệu không được gán nhãn hoặc với các ràng buộc (ví dụ những đặc trưng được đánh dấu với nhãn chính của nó). GEC có thể sử dụng nhiều thông tin hơn những mô hình trước nó. Trong GEC có thể tận dụng thuận lợi của phân bố xác suất điều kiện của những nhãn cho trước một đặc trưng (p(y|fk(x) = 1)). Thông tin này cung cấp ràng buộc phong phú hơn cho mô hình trong khi vẫn giữ lại tính dễ dịch. Con người thường có trực giác tốt về khả năng dự đoán quan hệ của những đặc trưng khác nhau. Ví dụ, rõ ràng là xác suất của nhãn PERSON gán cho từ đặc trưng JOHN là cao, có thể đến 0.95 trong khi cho từ BROWN thì tỉ lệ thấp hơn có thể là 0.4. Những phân bố cần được ước lượng với độ chính xác cao và việc tự do biểu diễn mức độ phân bố tốt hơn nhiều so với việc sử dụng tín hiệu giám sát nhị phân. Thuận lợi khác của việc sử dụng những phân bố xác suất điều kiện - ràng buộc xác suất là chúng có thể dễ dàng ước lượng từ dữ liệu. Đối với đặc trưng bắt đầu bằng chữ hoa INITIAL-CAPITAL, tôi xác định tất cả thẻ với đặc trưng đó và đếm số nhãn xuất hiện cùng. GEC cố gắng khớp những phân bố xác suất điều kiện này bằng kỳ vọng mô hình trên dữ liệu chưa gán nhãn, ví dụ khuyến khích mô hình dự đoán rằng tỉ lệ nhãn PERSON gán cho từ John có thể là 0.95 trên tất cả điều kiện chưa gán nhãn. Cho X là tập các biến kí hiệu là x X. Cho θ là những tham số của một số mô hình, cho phép xác định phân bố xác suất trên tập X, pθ(X). Kỳ vọng của các hàm f(X) theo mô hình là (2.1) Trong đó, f(x) là một hàm bất kỳ của biến x cho giá trị vô hướng hoặc vecto. Hàm này có thể chỉ phụ thuộc vào tập con của tập biến x. - 25 - 25 Và những kỳ vọng cũng có thể được xác định trên những phép gán giá trị biến, ví dụ, khi thực hiện huấn luyện xác suất điều kiện của một số mô hình. Trong trường hợp này, những biến được chia thành biến đầu vào X và biến đầu ra Y. Một tập các phép gán cho biến đầu vào (những trường hợp dữ liệu huấn luyện) = {x1, x2,...} có thể cho trước và kỳ vọng điều kiện là (2.2) Một GEC được định nghĩa là một hàm G, sử dụng tham số là kỳ vọng của mô hình f(X) và trả về một giá trị vô hướng, giá trị này được bổ sung vào như là một điều kiện trong hàm mục tiêu ước lượng tham số: (2.3) Trong một số trường hợp, G có thể được định nghĩa dựa trên khoảng cách đến giá trị đích cho Eθ[f(X)]. Cho là giá trị đích và cho ∆(·, ·) là hàm khoảng cách. Trong trường hợp này, G có thể định nghĩa là: (2.4) Như đã mô tả ở trên, GEC là một dạng tổng quát, nó coi các phương pháp ước lượng tham số truyền thống khác là trường hợp đặc biệt. Có thể phân chia GEC theo mức độ linh hoạt như sau: 1. Một GEC được xác định một cách độc lập theo tham số hóa. Trong các phương pháp ước lượng tham số truyền thống - phương pháp đồ thị, có sự tương ứng một-một giữa các tập con của các biến sử dụng trong mỗi phần tham số hóa của mô hình và tập con của các biến trong đó các kỳ vọng được xac định cho hàm mục tiêu. Trong GEC, mỗi tập con này có thể được lựa chọn độc lập. 2. Những GEC điều kiện khác nhau không cần tất cả các điều kiện cho những trường hợp giống nhau, chúng có thể tác động đến những tập dữ liệu khác nhau hoặc những sự kết hợp khác nhau của những tập dữ liệu. 3. “Dấu hiệu huấn luyện” có giám sát bất kể ở kỳ vọng đích hay tổng quát, trạng thái của hàm tỷ số, G, có thể xác định từ dữ liệu huấn luyện gán nhãn hoặc bất kỳ nguồn nào, bao gồm cả những tác vụ khác hoặc tri thức tiền nghiệm. Do đó, một GEC có thể được xác định một cách độc lập với tham số hóa và độc lập với những lựa chọn của bất kỳ tập dữ liệu điều kiện nào. Và một GEC có - 26 - 26 thể hoạt động trên một số tập con bất kỳ của các biến trong x. Thêm vào đó, hàm f có thể được định nghĩa theo kỳ vọng sinh ra mô-men của phân bố pθ(X) hoặc bất kỳ kỳ vọng nào khác. Hàm tỷ số G và hàm khoảng cách ∆ có thể dựa trên nguyên lý thông tin hoặc những hàm bất kỳ. Những giá trị GEC có thể được sử dụng như là những thành phần duy nhất của hàm mục tiêu ước lượng tham số hoặc chúng có thể được sử dụng kết hợp với những giá trị khác. Ví dụ, GEC có thể được áp dụng trong nhiều sơ đồ học khác nhau trong đó sử dụng những hàm mục tiêu, bao gồm học kết hợp/sinh, học không giám sát, học điều kiện/phân biệt, học có giám sát, học với những biến ẩn, học có cấu trúc… 2.2. Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mô hình [CMD07]. Một kiểu tham chiếu có thể được biểu diễn bằng hàm khoảng cách , kỳ vọng mục tiêu , dữ liệu D, hàm f và phân bố mô hình , hàm mục tiêu GEC là . Trong [MC10], Gideon S. Mann và Andrew McCallum đặt những hàm là phân bố xác suất điều kiện và đặt , phân kỳ KL là độ đo không đối xứng giữa 2 phân bố xác suất p và q. Đối với huấn luyện bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn hóa. (2.5) Trong đó là phân bố mục tiêu và (2.6) Với tiềm năng không chính thức (2.7) Trong đó fm(x,j) là một đặc trưng phụ thuộc chỉ vào chuỗi quan sát x và j* được định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) có mặt cho một số j. Tính toán Gradient (Độ chênh lệch) - 27 - 27 Để tính độ chênh lệch của GEC, D( , đầu tiên giảm những điều kiện ràng buộc có tính đến dẫn xuất thành phần và các tác giả thu được độ chênh lệch như sau: (2.8) Trong đó y-j = . Bước cuối cùng như sau từ định nghĩa của xác suất biên P(yi|x). Bây giờ, nhận được dạng quen thuộc lấy ra độ chênh lệch của chuỗi nhãn cụ thể, tiếp tục: (2.9) Sau khi kết hợp các số hạng và sắp xếp lại, sẽ thu được dạng cuối cùng của độ chênh lệch như sau: (2.10) Ở đây, số hạng thứ 2 dễ dàng được thu thập từ thuật toán tiến/lùi, nhưng đạt được số hạng thứ nhất thì ít nhiều phức tạp hơn. Tính toán số hạng này một cách chất phác sẽ đòi hỏi thực thi nhiều tiến/lùi bị ràng buộc. Ở đây, các tác giả trình - 28 - 28 bày một phương pháp hiệu quả hơn và chỉ đòi hỏi một thực thi của tiến/lùi. Đầu tiên, chia xác suất thành 2 phần: . (2.11) Vậy làm thế nào để tính những số hạng này một cách hiệu quả? Tương tự như thuật toán tiến/lùi, xây dựng một giàn kết quả trung gian: (2.12) Để hiệu quả, được lưu ở mỗi giai đoạn trong giàn. có thể được tính theo cách tương tự. Để tính giàn cần thời gian O(ns2) và một giàn phải được tính cho mỗi nhãn, do đó thời gian là O(ns3). 2.3. Kết luận chương 2 Chương 2 tập trung nghiên cứu định nghĩa tiêu chuẩn kỳ vọng tổng quát, phân tích cách xây dựng công thức, cách phân chia tiêu chuẩn kỳ vọng tổng quát. Từ đó áp dụng vào mô hình học máy bán giám sát CRFs, thiết lập các thông số cho mô hình theo tiêu chuẩn kỳ vọng tổng quát như bổ sung hàm mục tiêu với điều kiện chuẩn hóa, tính toán Gradient. Chương tiếp theo, luận văn đề nghị một mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tổng quát áp dụng cho bài toán trích chọn thông tin từ văn bản pháp luật tiếng Việt. - 29 - 29 CHƯƠNG 3 MỘT MÔ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH CHỌN THÔNG TIN PHÁP LUẬT TIẾNG VIỆT 3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt 3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt Trong công tác điều tra các vụ án và quản lý đối tượng, bên cạnh việc tiến hành các biện pháp nghiệp vụ các điều tra viên đồng thời phải lập các loại biên bản như biên bản lấy lời khai người bị hại, biên bản lấy lời khai người làm chứng, biên bản khám nghiệm hiện trường, biên bản về việc thu thập chứng cứ… tất cả được lưu vào hồ sơ. Như vậy, hồ sơ đối tượng, hồ sơ vụ án sẽ lưu giữ tất cả những thông tin về đối tượng tham gia vụ án, về các tình tiết vụ án, mô tả chi tiết phương thức, thủ đoạn, công cụ sử dụng, thời gian, địa điểm xảy ra vụ án… Đây chính là những bằng chứng để xét xử vụ án, đồng thời việc lưu giữ những thông tin này có ý nghĩa quan trọng trong việc thống kê, phân tích xu hướng, dự báo tình hình, cũng như cung cấp thông tin cho những vụ án liên quan về cùng đối tượng, cùng thời gian, địa điểm, cùng phương thức thủ đoạn… giúp cho việc phá án được nhanh chóng hơn. Luận văn tập trung nghiên cứu trên tập các hồ sơ điều tra vụ án với ngôn ngữ tiếng Việt. Tiếng Việt cũng như bất kỳ một ngôn ngữ nào cũng có những đặc trưng riêng và việc nghiên cứu những đặc trưng này là cơ sở cho việc phân tích, lựa chọn và trích rút thông tin trên văn bản tiếng Việt. Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng và ngữ pháp.  Đặc điểm ngữ âm o Trong tiếng Việt có một loại đơn vị đặc biệt gọi là tiếng. Về mặt ngữ âm, mỗi tiếng là một âm tiết.  Đặc điểm từ vựng o Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta - 30 - 30 tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng,… chủ yếu nhờ phương thức ghép và phương thức láy. o Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát,… Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, v.v… o Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v… o Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị. Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn.  Đặc điểm ngữ pháp o Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ. o Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp. Trong tiếng Việt khi nói “Anh ta lại đến” là khác với “Lại đến anh ta“. Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ. Nhờ trật tự kết hợp của từ mà “củ cải” khác với “cải củ“, “tình cảm” khác với “cảm tình“. Trật tự chủ ngữ - 31 - 31 đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt. o Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt. Nhờ hư từ mà tổ hợp “anh của em” khác với tổ hợp “anh và em“, “anh vì em“. Hư từ cùng với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu cảm. o Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu. Ngữ điệu giữ vai trò trong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằm đưa ra nội dung muốn thông báo. Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu. Chúng ta thử so sánh 2 câu sau để thấy sự khác nhau trong nội dung thông báo: - Đêm hôm qua, cầu gãy. - Đêm hôm, qua cầu gãy. Các đặc điểm tiếng Việt sẽ được tiếp tục đề cập ở các phân tích trong mô hình các phần tiếp theo. 3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt Như phân tích ở trên, trong hồ sơ vụ án sẽ chứa rất nhiều thông tin hữu ích. Trong khuôn khổ luận văn này, tác giả tập trung vào việc xác định những thực thể quan tâm có trong hồ sơ. Việc xác định các thực thể này là tạo cơ sở cho các bài toán hay yêu cầu cao hơn như hệ thống trả lời tự động, thống kê, dự báo… Bài toán mà luận văn sẽ giải quyết được phát biểu đơn giản như sau: Đầu vào: Các hồ sơ vụ án. Yêu cầu: Xác định các thực thể có trong hồ sơ. Tuy nhiên, do yêu cầu chính trị và yêu cầu nghiệp vụ, các hồ sơ vụ án là các tài liệu mật, không được sử dụng rộng rãi. Vì lý do đó, nên trong khuôn khổ luận văn này tôi không sử dụng hồ sơ vụ án làm dữ liệu, thay vào đó tôi sử dụng các bài báo là các phóng sự điều tra, ghi chép về các vụ án được đăng tải công khai trên website chính thức của Bộ Công an là 3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp luật tiếng Việt 3.2.1. Một số phân tích Bài toán gán nhãn tên thực thể này bản chất là gán nhãn tên thực thể cho mỗi từ sau khi được phân tách. Các loại thực thể được xác định trong luận văn dựa theo các thực thể trong tác vụ CoNLL2003 bao gồm: LOC (Location), PER - 32 - 32 (Person), ORG (Organization) và MISC (Miscellaneous). Do đó, các nhãn thực thể được sử dụng ở đây là: - B-TYPE: nhãn đánh dấu từ bắt đầu của nhãn NER - I-TYPE: nhãn đánh dấu cho từ tiếp theo trong nhãn NER - O: nhãn đánh dấu cho từ không thuộc nhóm thực thể nào. (nhãn TYPE sẽ thuộc vào một trong bốn loại thực thể trên) Ví dụ: Thủy_thủ O Nguyễn_Ngọc_Hới B-PER xã B-LOC Quảng_Phúc I-LOC , O Quảng_Trạch B-LOC từng O là O bộ_đội O đi O chiến_trường O B B-MISC năm O 1968 O . O Để nâng cao kết quả, người ta đưa thêm đặc trưng từ loại nên với mỗi từ được gán thêm nhãn từ loại POS (Part of Speech). Do đó tập dữ liệu huấn luyện - training và dữ liệu kiểm tra – testing phải được xây dựng theo cùng định dạng: Mỗi từ nằm trên một dòng; Một dòng trống được thêm vào sau mỗi dấu kết thúc câu; Mỗi dòng (token) bao gồm các thành phần: . 3.2.2. Mô hình đề nghị Từ những phân tích trên đây, tác giả đề xuất xây dựng mô hình các bước trong quá trình nhận dạng thực thể như sau: Quá trình nhận dạng được chia làm hai giai đoạn như sau: - 33 - 33 Giai đoạn 1. Các bước tiền xử lý dữ liệu Mô hình CRFs Dữ liệu kiểm tra Kết quả đánh giá mô hình Mô hình CRFs với GEC (được hiệu chỉnh sau mỗi bước) Dữ liệu có nhãn và dữ liệu không có nhãn (cập nhật sau mỗi bước học) Kết thúc học ? Giai đoạn 2. Hoc bán giám sát CRFs voi GEC Tập các văn bản đầu vào chứa các đoạn văn Tập dữ liệu ra với định dạng Module tách từ Tiếng Việt Gán nhãn POS Gán nhãn NER - 34 - 34 Hình 3/4. Mô hình đề xuất giải quyết bài toán Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bước tiền xử lý tự bán tự động đó là tách từ, gán nhãn từ loại POS (Part Of Speech), gán nhãn thực thể NER (Named Entities Recognition). Bước 1: Sử dụng phần mềm tách từ tự động JvnSegmenter của NCS Nguyễn Cẩm Tú tại trang web . Đây là phần mềm tách từ tự động dựa trên phương pháp trường điều kiện ngẫu nhiên CRFs [1], phương pháp này chứng tỏ hiệu lực tốt trong nhiều bài toán xử lý văn bản, đặc biệt là các bài toán trích chọn thông tin trên Web. Sau bước này ta thu được tập dữ liệu gồm mỗi từ nằm trên một dòng. Và giữa mỗi câu có một dòng trống. Bước 2: Tiến hành gán nhãn POS cho mỗi từ. Việc gán nhãn POS tôi có sử dụng tool vnTagger của tác giả Lê Hồng Phương tại trang web . Đây là phần mềm gán nhãn từ loại POS cho tiếng Việt có độ chính xác cao (khoảng 95%), phần mềm được viết dựa trên phương pháp maximum entropy. Sau đó tiến hành kiểm tra nhãn POS lại một cách thủ công. Bước 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ công. Sau bước này sẽ thu được tập dữ liệu với định dạng mong muốn. Giai đoạn 2: Tiến hành nhận dạng tên thực thể bằng Mallet Tool. Mallet là bộ công cụ được xây dựng bởi Andrew McCallum và đồng nghiệp năm 2002 và ngày càng được cải tiến và nâng cấp phiên bản. Đây là một bộ công cụ với nhiều chức năng xử lý ngôn ngữ tự nhiên như: Phân lớp, phân cụm, triết lọc thông tin và những ứng dụng học máy khác. Bộ công cụ này được công bố rộng rãi tại website Trong đó, Andrew McCallum và đồng nghiệp xây dựng rất nhiều công cụ gán nhãn dữ liệu cho những ứng dụng như trích chọn tên thực thể. Những thuật toán gán nhãn bao gồm: mô hình Markov ẩn, mô hình Markov entropy cực đại và mô hình trường điều kiện ngẫu nhiên CRFs. Nhóm phát triển Mallet xây dựng nhiều phương pháp học máy như học bán giám sát và học có giám sát. Trên cơ sở đó, tác giả đã phát triển thành công cụ gán nhãn cho tiếng Việt dựa trên phương pháp học bán giám sát CRFs theo tiêu chuẩn kỳ vọng tổng quát. Như phân tích ở 2.2, mô hình học bán giám sát CRFs này sử dụng tiêu chuẩn kỳ vọng tổng quát, tác giả tiến hành xây dựng ràng buộc (Constraint) thể hiện mối quan hệ giữa từ và nhãn. Định dạng tổng quát của tập ràng buộc Constraint được xác định như sau: Feature_name label_name = probability label_name = probability … - 35 - 35 Số xác suất (probability) phải bằng với số nhãn. Các đặc trưng và tên nhãn phải khớp chính xác với các đặc trưng và tên nhãn trong dữ liệu và bảng mẫu tự đích (target alphabets). Do đó để xây dựng tập Constraint, có thể làm theo hai cách: Cách 1: xây dựng thủ công, lựa chọn những đặc trưng và xác định xác suất có thể cho mỗi đặc trưng theo từng nhãn. Việc ước lượng những xác suất này dựa trên kinh nghiệm chủ quan của người thực hiện. Cách 2: xây dựng tập Constraint dựa theo phương pháp LDA (Latent Dirichlet allocation). LDA [BNJ03] là mô hình xác suất sinh cho những tập dữ liệu rời rạc, cho phép xác định tập dữ liệu quan sát dựa trên tập dữ liệu không quan sát dựa trên tính tương đồng. Từ đó, cho phép xác định xác suất một từ, một đặc trưng có mặt trong các chủ đề là các nhóm thực thể cho trước. Trong khuôn khổ luận văn, tác giả tiến hành xây dựng tập ràng buộc Constraint theo cả 2 phương pháp. Tiến hành xây dựng một tập các đặc trưng là các từ thường xuất hiện trong các tài liệu điều tra chia theo các nhóm thực thể. Sử dụng phương pháp LDA để xác định ràng buộc về xác suất thuộc về các nhóm thực thể khác nhau. Sau đó tác giả tiến hành kiểm tra, chỉnh sửa các ràng buộc một cách thủ công nhằm xây dựng được một tập ràng buộc Constraint tốt nhất. Do thời gian và kinh nghiệm có hạn, nên tập ràng buộc được xây dựng theo chủ quan và kiến thức nghiên cứu được của tác giả có thể chưa hoàn thiện và sẽ ảnh hưởng phần nào đến kết quả mô hình. Hình 5. Tập các ràng buộc (Constraint file) - 36 - 36 3.2.3. Lựa chọn thuộc tính Các thuộc tính được chọn theo mẫu ngữ cảnh từ vựng (kích thước cửa sổ trượt bằng 5): Mẫu ngữ cảnh Ý nghĩa S-2 Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại S-1 Âm tiết quan sát tại vị trí liền trước so với vị trí hiện tại S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau S-1S0 Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại S-2S-1 Âm tiết quan sát tại vị trí -2 và vị trí liền trước S1S2 Âm tiết quan sát tại vị trí 2 và vị trí liền sau S-1S0S1 Âm tiết quan sát tại vị trí liền trước, hiện tại và liền sau S-2S-1S0 Âm tiết quan sát tại vị trí -2, vị trí liền trước và hiện tại S0S1S2 Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại Bảng 1. Mẫu ngữ cảnh từ vựng Các tên thực thể thường được viết hoa ký tự đầu tiên, vì thế ta có thể thêm thuộc tính viết hoa vào mô hình. Nếu tất cả các ký tự đều viết hoa thì khả năng đó là tên viết tắt của tổ chức. Đôi khi tên thực thể có thể đi cùng với các ký tự số. Việc lựa chọn thuộc tính còn được dựa trên ngữ cảnh phát hiện tên thực thể: Mẫu ngữ cảnh Ý nghĩa InitialCap Viết hoa chữ cái đầu AllCaps Viết hoa tất cả các chữ cái CapsMix Chữ cái thường và hoa lẫn lộn SingleDigit Số 1 chữ số HasDigit Có chứa số DoubleDigits Số 2 chữ số Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể 3.2.4. Cách đánh giá Có nhiều cách đánh giá độ chính xác của mô hình, nhưng cách phổ biến nhất hiện nay là sử dụng các độ đo như độ chính xác (precision), độ hồi tưởng (recall) và độ đo F1. Độ đo F1 là một chỉ số cân bằng giữa độ chính xác và độ - 37 - 37 hồi tưởng. Nếu độ chính xác và độ hồi tưởng cao và cân bằng thì độ đo F1 lớn, còn độ chính xác và hồi tưởng nhỏ và không cân bằng thì độ đo F1 nhỏ. Mục tiêu của ta là xây dựng mô hình phân đoạn từ có chỉ số F1 cao. Độ đo dựa theo từ được tính theo các công thức sau: (3.1) (3.2) (3.3) Trong đó: a là số thực thể gán đúng b là số thực thể mô hình gán c là số thực thể do người gán 3.3. Kết luận chương 3 Chương 3 tập trung phân tích bài toán trích chọn thông tin trên tập văn bản pháp luật trên cơ sở phân tích các đặc trưng miền dữ liệu. Từ đó đề xuất mô hình giải quyết bài toán bao gồm 2 giai đoạn: Giai đoạn 1 là tiền xử lý dữ liệu và Giai đoạn 2 là đưa tập dữ liệu và các ràng buộc tự thiết lập vào huấn luyện mô hình theo tiêu chuẩn kỳ vọng tổng quát. b aecision Pr c acall Re callecision callecisionmeasureF Re(Pr Re*Pr*2   - 38 - 38 CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Mô hình thực nghiệm 4.1.1. Dữ liệu thực nghiệm Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên dữ liệu thực nghiệm được thu thập từ trang web Trang web này chứa nhiều thông tin pháp luật về những vụ án, những tình tiết sự việc vi phạm pháp luật được công khai, khá gần với tài liệu hồ sơ vụ án cần khai thác. Tiến hành thu thập hơn 400 bài viết điều tra, ghi chép các vụ án về an ninh trật tự, an ninh kinh tế… Sau khi tiến hành bước tiền xử lý thu được tập dữ liệu huấn luyện training với hơn 50.000 dòng và tập dữ liệu kiểm tra testing với hơn 30000 dòng. Tác giả đã xây dựng một tập constraint với hơn 800 ràng buộc về xác suất có thể có của 4.1.2. Bộ công cụ Mallet Tác giả sử dụng bộ công cụ Mallet 2.0.6 phiên bản mới nhất. Dữ liệu đầu vào cho công cụ bao gồm: - File huấn luyện (training). - File constraint - File kiểm tra (testing) 4.2. Thực nghiệm và đánh giá 4.2.1. Môi trường thực nghiệm Phần cứng: Máy tính IBM T61, Core 2 Duo, 4.00 GHz, RAM 2GB Phần mềm: Sử dụng tool Mallet được viết bởi Andrew McCallum và đồng nghiệp. Ngoài ra còn sử dụng các công cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ. 4.2.2. Mô tả quy trình thực nghiệm Tác giả tiến hành 4 thực nghiệm. Để đánh giá mức độ ảnh hưởng của tập dữ liệu huấn luyện đến kết quả gán nhãn, tác giả tiến hành chia tập dữ liệu huấn luyện lớn (hơn 50.000 dòng) thành các tập huấn luyện như sau: - Tập dữ liệu huấn luyện 10%: Lấy 10% dữ liệu của tập dữ liệu huấn luyện gốc. - Tập dữ liệu huấn luyện 20%: Lấy 20% dữ liệu của tập dữ liệu huấn luyện gốc. - 39 - 39 - Tập dữ liệu huấn luyện 40%: Lấy 40% dữ liệu của tập dữ liệu huấn luyện gốc. - Tập dữ liệu huấn luyện 80%: Lấy 80% dữ liệu của tập dữ liệu huấn luyện gốc. - Tập dữ liệu huấn luyện 100%: Lấy toàn bộ tập dữ liệu huấn luyện gốc. Như vậy, tác giả sẽ tiến hành 5 nhóm thực nghiệm, mỗi nhóm thực nghiệm sử dụng một tập dữ liệu huấn luyện phân chia như trên và tiến hành gán nhãn dữ liệu theo 3 mô hình: Mô hình CRFs đơn thuần; Mô hình bán giám sát CRFs sử dụng Entropy Regularization và Mô hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. 4.2.3. Kết quả thực nghiệm Nhóm thực nghiệm 1: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 10% và tập dữ liệu kiểm tra. Bảng 3. Kết quả nhóm thực nghiệm 1 CRF CRF.ER CRF.GE Precision Recall F-measure Precision Recall F- measure Precision Recall F- measure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596 PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376 LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521 MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000 OVERALL 0.7489 0.9859 0.7863 0.9290 0.8825 0.9051 0.9044 0.9756 0.9386 - 40 - 40 Hình 6. Kết quả nhóm thực nghiệm 1 Nhóm thực nghiệm 2: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 20% và tập dữ liệu kiểm tra. CRFs CRFs.ER CRFs.GE Precision Recall F-measure Precision Recall F- measure Precision Recall F- measure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536 Bảng 4. Kết quả nhóm thực nghiệm 2 Hình 7. Kết quả nhóm thực nghiệm 2 Nhóm thực nghiệm 3: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 40% và tập dữ liệu kiểm tra. Trong nhóm thực nghiệm này, tác giả mới chỉ đưa ra được kết quả của việc gán nhãn theo mô hình CRFs đơn thuần và mô hình bán giám sát CRFs sử dụng Entropy Regularization. Việc gán nhãn theo mô hình học bán giám sát CRFs theo - 41 - 41 phương pháp tiêu chuẩn kỳ vọng tổng quát tác giả chưa thực hiện được do việc sử dụng mô hình này cần bộ nhớ rất lớn, vượt quá khả năng đáp ứng của máy tính 32bit của tác giả. Nên trong nhóm thực nghiệm này và 2 nhóm thực nghiệm sau tác giả chỉ báo cáo kết quả của 2 mô hình CRFs đơn thuần và CRFs sử dụng Entropy Regularization. CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577 PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272 LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959 MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760 OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500 Bảng 5. Kết quả nhóm thực nghiệm 3 Hình 8. Kết quả nhóm thực nghiệm 3 Nhóm thực nghiệm 4: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 80% và tập dữ liệu kiểm tra. CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873 PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912 LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993 MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120 OVERALL 0.9350 0.9773 0.9545 0.9927 0.9895 0.9911 - 42 - 42 Bảng 6. Kết quả nhóm thực nghiệm 4 Hình 9. Kết quả nhóm thực nghiệm 4 Nhóm thực nghiệm 5: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 100% và tập dữ liệu kiểm tra. CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777 PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941 LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986 MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612 OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925 Bảng 7. Kết quả nhóm thực nghiệm 5 - 43 - 43 Hình 10. Kết quả nhóm thực nghiệm 5 4.2.4. Đánh giá Qua 5 nhóm thực nghiệm trên ta thấy có một số nhận xét như sau: - Đối với mô hình CRFs đơn thuần, khi càng tăng kích thước tập dữ liệu huấn luyện thì độ chính xác càng cao hay hàm F-measure càng cao. Điều này phù hợp với mô hình học máy có giám sát. Thậm chí ở nhóm thực nghiệm thứ 3 kết quả của mô hình CRFs đơn thuần còn nhỉnh hơn so với kết quả của mô hình CRFs sử dụng Entropy Regularization. - Kết quả của 2 mô hình học máy bán giám sát (Mô hình CRFs sử dụng Entropy Regularization và Mô hình CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát) tốt hơn so với kết quả của mô hình học máy có giám sát (Mô hình CRFs đơn thuần), đặc biệt là với tập dữ liệu huẫn luyện nhỏ. - Mặc dù Mô hình học máy bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát mới chỉ thực hiện được ở 2 tập dữ liệu huấn luyện nhỏ (tập dữ liệu huấn luyện 10% và 20%), nhưng cũng cho thấy mô hình này cho kết quả tốt hơn mô hình học máy bán giám sát CRFs sử dụng Entropy Regularization. Các kết quả thực nghiệm trên có thể chưa hoàn thiện, kết quả có thể bị ảnh hưởng bởi bản thân dữ liệu thu thập và một số trường hợp nhập nhằng trong tiếng Việt, nhưng nó cũng góp phần phản ánh ưu điểm của phương pháp học máy bán giám sát so với phương pháp học máy có giám sát nói chung, đồng thời cũng cho thấy hiệu quả của mô hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát. 4.3. Kết luận chương 4 Tiến hành các thực nghiệm để phân tích đánh giá kết quả đạt được. Ở đây, tác giả tiến hành năm nhóm thực nghiệm, mỗi nhóm thực nghiệm sử dụng một tập dữ - 44 - 44 liệu huấn luyện được phân chia khác nhau và tiến hành gán nhãn dữ liệu theo 3 mô hình: Mô hình CRFs đơn thuần; Mô hình bán giám sát CRFs sử dụng Entropy Regularization và Mô hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Qua đó đánh giá hiệu quả của các mô hình nói riêng và hiệu quả của các phương pháp học máy có giám sát và bán giám sát nói chung. - 45 - 45 KẾT LUẬN Sau một thời gian tìm hiểu và nghiên cứu về bài toán trích lọc thông tin và phương pháp học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát, luận văn đã đạt được một số kết quả sau. - Giới thiệu về mô hình trường điều kiện ngẫu nhiên CRFs và phương pháp học máy bán giám sát. CRFs là mô hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. CRFs có nhiều ưu điểm của các mô hình xác suất khác đồng thời khắc phục được nhược điểm mà các mô hình xác suất khác gặp phải tiêu biểu là vấn đề “label bias”. Phương pháp học máy bán giám sát là sự kết hợp của 2 phương pháp truyền thống – học máy có giám sát và học máy không có giám sát, là cách học sử dụng thông tin chứa trong cả dữ liệu chưa gán nhãn và tập dữ liệ gán nhãn nhằm mở rộng tập các dữ liệu gán nhãn ban đầu. Trong quá trình học như thế phương pháp sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gán nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn. - Giới thiệu về tiêu chuẩn kỳ vọng tổng quát và áp dụng vào mô hình CRFs. Tiêu chuẩn kỳ vọng tổng quát là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình. Luận văn cùng đề cập đến cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng quát, từ đó áp dụng vào mô hình CRFs thiết lập các thông số cho mô hình theo tiêu chuẩn kỳ vọng tổng quát. - Đề xuất một mô hình cho bài toán trích chọn thông tin thực thể trên tập văn bản pháp luật dựa trên phương pháp học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát. Đồng thời sử dụng bộ công cụ Mallet được viết bởi Andrew McCallum và đồng nghiệp cho tập dữ liệu tiếng Việt theo mô hình đề xuất ở trên trích lọc ra 4 loại thực thể: LOC, PER, ORG VÀ MISC. Tuy nhiên, để có được một tập huấn luyện tốt đòi hỏi nhiều thời gian và công sức. Trong thời gian có hạn, tác giả mới chỉ xây dựng được tập dữ liệu huấn luyện và tập ràng buộc dữ liệu vừa phải. Với tập dữ liệu này, khi đưa vào tập dữ liệu kiểm tra bất kỳ kết quả thu được còn hạn chế. Mặc dù, mô hình này thu được kết quả khả quan ở tập ngôn ngữ tiếng Anh, nhưng đây là lần đầu tiên mô hình này được áp dụng cho ngôn ngữ tiếng Việt và do - 46 - 46 những đặc điểm riêng biệt của tiếng Việt nên luận văn không thể tránh khỏi những thiếu sót và hạn chế nhất định. Tôi rất mong nhận được những ý kiến và nhận xét góp ý để luận văn được hoàn thiện hơn. Xử lý ngôn ngữ tự nhiên là một vấn đề phức tạp. Hiện này đã có nhiều công cụ xử lý ngôn ngữ tự nhiên, tuy nhiên hầu hết chúng được áp dụng cho tiếng Anh và tiếng Pháp. Các đặc thù của các ngôn ngữ là khác nhau nên việc chuyển đổi giữa các ngôn ngữ cũng gặp rất nhiều khó khăn đặc biệt là đối với một ngôn ngữ phong phú và đa dạng như tiếng Việt. Trong thời gian tới, tác giả sẽ tập trung xây dựng và hoàn thiện bộ dữ liệu huấn luyện và tập các ràng buộc đặc trưng của dữ liệu nhằm cải thiện độ chính xác của mô hình. - 47 - 47 TÀI LIỆU THAM KHẢO [AG05] M. R. Amini and P. Gallinari. Semi-supervised learning with an imperfect supervisor. Knowledge and Information Systems, 8(4):385–413, 2005. [BC01] A. Blum and S. Chawla. Learning from labeled and unlabeled data using graph mincuts. In Proceedings of the 18th International Conference on Machine Learning, pages 19–26, Williamston, MA, 2001. [BC09] Kedar Bellare, Andrew McCallum (2009). Generalized Expectation Criteria for Bootstrapping Extractors using Record-Text Alignment, The 2009 Conference on Empirical Methods in Natural Language Processing: 131– 140, 2009. [BLR04] A. Blum, J. Lafferty, M. Rwebangira, and R. Reddy. Semi-supervised learning using ran-domized mincuts. In Proceedings of the 21st International Conference on Machine Learning, pages 13–20, Ban, Canada, 2004. [BM98] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co- training. In Proceedings of the 11th Annual Conference on Computational Learning Theory, pages 92–100, Madison, WI, 1998. [BN04] M. Belkin and P. Niyogi. Semi-supervised learning on Riemannian manifolds. Machine Learning, 56(1-3):209–239, 2004. [BNJ03] David M. Blei, Andrew Y.Ng và Michael I.Jordan. Latent Dirichlet Allocation. University of California, Berkeley, Berkeley, CA 94720. 2003 [BNS05] M. Belkin, P. Niyogi, and V. Sindhwani. On manifold regularization. In Proceedings of the 10th International Workshop on Artiﬁcial Intelligence and Statistics, pages 17–24, Savannah, Barbados, 2005. [BNS06] M. Belkin, P. Niyogi, and V. Sindhwani. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples. Journal of Machine Learning Research, 7:2399–2434, 2006. [BS06] U. Brefeld and T. Scheﬀer. Semi-supervised learning for structured output variables. In Proceedings of the 23rd International Conference on Machine Learning, pages 145–152, Pittsburgh, PA, 2006. [Car10] Andrew Carlson (2010). Coupled Semi-Supervised Learning, PhD Thesis (CMU-ML-10-104), Carnegie Mellon University, 2010. - 48 - 48 [CMD07] Andrew McCallum, Gideon Mann, Gregory Druck (2007). Generalized Expectation Criteria, Technical Report UM-CS-2007-60, University of Massachusetts Amherst, August, 2007 [CZ05] O. Chapelle and A. Zien. Semi-supervised learning by low density separation. In proceedings of the 10th International Workshop on Artiﬁcial Intelligence and Statistics, pages 57–64. Savannah Hotel, Barbados, 2005. [DLR77] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977. [DMC07] Gregory Druck, Gideon Mann, Andrew McCallum (2007). Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007. [DMC08] Gregory Druck, Gideon Mann and Andrew McCallum (2008). Learning from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008. [DMC09] Gregory Druck, Gideon Mann, Andrew McCallum (2009). Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria, The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368. [Erk10] Ayse Naz Erkan (2010). Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010. [FUS05] A. Fujino, N. Ueda, and K. Saito. A hybrid generative/discriminative approach to semi-supervised classiﬁer design. In Proceedings of the 20th National Conference on Artiﬁcial Intelligence, pages 764–769, Pittsburgh, PA, 2005. [GB04] Y.Grandvaletand, Y.Bengio. Semi-supervised learning by entropy minimization. In Advances in Neural Information Processing Systems, 2004. [GY05] Y. Grandvalet and Y. Bengio. Semi-supervised learning by entropy minimization. In L. K. Saul, Y.Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536. MIT Press, Cambridge, MA, 2005. [GZ00] S. Goldman and Y. Zhou. Enhancing supervised learning with unlabeled data. In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000. [HC71] J.Hammersley and P. Clifford (1971). Markov fields on finite graphs and lattices. Unpublished manuscript. [HM07] M. Hein and M. Maier. Manifold denoising. In B. Sch¨olkopf, J. C. Platt, and T. Homan, editors, Advances in Neural Information Processing Systems 19, pages 561–568. MIT Press, Cambridge, MA, 2007. - 49 - 49 [Joa99] T. Joachims. Transductive inference for text classiﬁcation using support vector machines. In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999 [JWL06] Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006). Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics: 209-216, 2006. [KL51] S. Kullback and R. A. Leibler. On Information and Sufficiency. Annuals of Mathematical Statistics 22 (1): pages 79–86, 1951. [KQ10] Pavel P. Kuksa, Yanjun Qi (2010). Semi-Supervised Bio-Named Entity Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010. [Kul59] S. Kullback. Information theory and statistics. John Wiley and Sons, NY, 1959. [LCP01] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data. In Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001. [LJ05] N. D. Lawrence and M. I. Jordan. Semi-supervised learning via Gaussian processes. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 753–760. MIT Press, Cambridge, MA, 2005. [Mal02] Robert Malouf. “A comparison of algorithms for maximum entropy parameter estimation.” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002). Pages 49–55. [MC08] Gideon S. Mann, Andrew McCallum (2008). Generalized Expectation Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL- 08 (HLT): 870–878, 2008. [MC10] Gideon S. Mann, Andrew McCallum (2010). Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal of Machine Learning Research, 11 (2010): 955-984 [MGZ04] Scott Miller, Jethran Guinness, Alex Zamanian (2004). Name Tagging with Word Clusters and Discriminative Training, ACL 04, 2004. [MMI02] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine- Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002, Pages 145-158. [MU97] D. J. Miller and H. S. Uyar. A mixture of experts classiﬁer with learning based on both labelled and unlabelled data. In M. Mozer, M. I. Jordan, and - 50 - 50 T. Petsche, editors, Advances in Neural Information Processing Systems 9, pages 571–577. MIT Press, Cambridge, MA, 1997. [NCT00] K.Nigam, A. K. McCallum, S. Thrun, and T. Mitchell. Text classiﬁcation from labeled and unlabeled documents using EM. Machine Learning, 39(2- 3):103–134, 2000. [NG00] K. Nigam and R. Ghani. Analyzing the eﬀectiveness and applicability of co- training. In Proceedings of the 9th ACM International Conference on Information and Knowledge Management, pages 86–93, Washington, DC, 2000. [QKC09] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray Kavukcuoglu, and Jason Weston (2009). Semi-Supervised Sequence Labeling with Self-Learned Features, The 2009 Ninth IEEE International Conference on Data Mining: 428-437, 2009. [SL94] B. Shahshahani and D. Landgrebe. The eﬀect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon. IEEE Transactions on Geo-science and Remote Sensing, 32(5):1087–1095, 1994. [Spr07] Richard Sproat. Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of Electrical and Computer Engineering, University of Illinois at Urbana- Champaign. ECE 398RS Courses, Fall 2007. [Wal02] Hanna M. Wallach. Efficient Training of Conditional Random Fields. Technical Report, University of Edinburgh, 2002 [Wal04] Hanna M.Wallach. Conditional Random Fields: An introduction. Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania. February 24, 2004. [WHW09] Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009). A Rate Distortion Approach for Semi-Supervised Conditional Random Fields, NIPS2009, 2009. [ZBL04] D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Sch¨olkopf. Learning with local and global consistency. In S. Thrun, L. Saul, and B. Sch¨olkopf, - 51 - 51 editors, Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA, 2004. [ZC06] Z.-H. Zhou, K.-J. Chen, and H.-B. Dai. Enhancing relevance feedback in image retrieval using unlabeled data. ACM Transactions on Information Systems, 24(2):219–244, 2006. [ZGL03] X. Zhu, Z. Ghahramani, and J. Laﬀerty. Semi-supervised learning using Gaussian ﬁelds and harmonic functions. In Proceedings of the 20th International Conference on Machine Learning, pages 912–919, Washington, DC, 2003. [Zho08] Z. H. Zhou. Semi-supervised learning by disagreement. In Proceedings of the 4th IEEE International Conference on Granular Computing, Hangzhou, China, 2008. [ZL05] Z. H. Zhou and M. Li. Tri-training: Exploiting unlabeled data using three classiﬁers. IEEE Transactions on Knowledge and Data Engineering, 17(11):1529–1541, 2005. [ZL07] Z. H. Zhou and M. Li. Semi-supervised regression with co-training style algorithms. IEEE Transactions on Knowledge and Data Engineering, 19(11):1479–1493, 2007. [ZL07b] X. Zhang and W. S. Lee. Hyperparameter learning for graph based semi- supervised learning algorithms. In B. Sch¨olkopf, J. Platt, and T. Hofmann, editors, Advances in Neural Information Processing Systems 19, pages 1585–1592. MIT Press, Cambridge, MA, 2007. [ZL10] Zhi-Hua Zhou and Ming Li. Semi-supervised Learning by Disagreement. National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China. 2010. [ZZY07] Z.-H. Zhou, D.-C. Zhan, and Q. Yang. Semi-supervised learning with very few labeled training examples. In Proceedings of the 22nd AAAI Conference on Artiﬁcial Intelligence, pages 675–680, Vancouver, Canada, 2007.

Các file đính kèm theo tài liệu này:

LUẬN VĂN-TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT.pdf