Luận văn Mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ

Với vai trò của một bộ công cụ dành cho những nghiên cứu, khảo sát về phương pháp mở rộng bộ dữ liệu. Bộ công cụ đã làm khá tốt nhiệm vụ của nó trong việc minh họa và chứng minh các kết quả bước đầu của phương pháp. Bộ công cụ cũng đã giúp phát hiện ra tiềm năng ứng dụng quá trình chuyển đổi về dạng từ nguyên thể vào bài toán mở rộng bộ dữ liệu cũng như trong các bài toán xử lý nhập nhằng nghĩa của từ.

51 trang | Chia sẻ: lylyngoc | Lượt xem: 2701 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Nĩ chỉ tốt hơn ở chỗ thay vì dùng hằng số cố định, nĩ sử dụng một số cĩ thể thay đổi đƣợc. Tuy vậy, chỗ yếu của nĩ đĩ là làm sao để tính đƣợc số ∝ đĩ. 3.1.2.4. Ước lượng Good Turing Ý tƣởng của ƣớc lƣợng Good Turing là ƣớc lƣợng các xác suất của những nghĩa chƣa xuất hiện bằng các nghĩa đã xuất hiện một lần. Với Nc số các nghĩa đã xuất hiện c lần, ta coi nhƣ nĩ đã xuất hiện c* lần 𝑐∗ = (𝑐 + 1) 𝑁𝑐 + 1 𝑁𝑐 Từ đĩ ta cĩ p(c) 𝑝 𝑐 = 𝑐 ∗ 𝑁 3.2. Thuật tốn mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ 3.2.1. Giới thiệu Thuật tốn Nạve Bayes là thuật tốn học khá hiệu quả. Tuy vậy, là một thuật tốn học cĩ giám sát nên nhƣợc điểm lớn nhất của nĩ là nĩ yêu cầu bộ dữ liệu huấn luyện lớn để cĩ thể đạt đƣợc độ chính xác cao trong quá trình phân lớp. Trong khi đĩ, mục tiêu của khĩa luận này là tìm cách để giảm thiểu cơng sức của con ngƣời trong quá trình gán nghĩa bằng tay cho từ. Ta chỉ muốn sử dụng một bộ dữ liệu gán nghĩa ban đầu nhỏ, mà nếu nhƣ thế và cố dùng Nạve Bayes để gán nghĩa thì ta lại khơng đảm bảo đƣợc tính chính xác của bộ dữ liệu đầu ra. Do vậy, ta cần phải cĩ một thuật tốn phối hợp với Nạve Bayes để đảm bảo dùng bộ dữ liệu huấn luyện khơng lớn nhƣng độ chính xác vẫn ở mức yêu cầu. Sau đây tơi sẽ trình bày một thuật tốn cho phép mở rộng bộ dữ liệu đầu vào nhỏ ban đầu để cho kết quả đầu ra là một bộ dữ liệu lớn hơn, cho phép xử lý nhập nhằng nghĩa của từ chính xác hơn. Phƣơng pháp này đã từng đƣợc Yakowsky mơ tả nhƣng ơng sử dụng nĩ kèm với thuật tốn học máy danh sách quyết định[7]. Theo đĩ, ơng sử dụng một danh sách các câu chứa từ đang cần gán nghĩa và những câu cĩ xác suất cao nhất sẽ đƣợc xếp trên cùng, tiếp đĩ là các câu cĩ xác suất nhỏ hơn. Tuy vậy, thuật tốn danh sách quyết Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 14 định thực sự sẽ gặp vấn đề về tìm kiếm và sắp xếp khi danh sách quyết định trở nên lớn hơn, mà điều này là điều ta đang mong muốn do mục đích là mở rộng đƣợc bộ dữ liệu. Một điểm hạn chế khác nữa là danh sách quyết định chỉ dựa vào trƣờng hợp xuất hiện của từ cĩ xác suất cao nhất, phù hợp với trƣờng hợp đang cần gán nghĩa (phù hợp ở đây là cĩ những từ đồng xuất hiện giống với trƣờng hợp xuất hiện của từ đang cần gán nghĩa), do vậy, khả năng phân lớp nghĩa của danh sách quyết định cũng bị hạn chế. Với những hạn chế nĩi trên của thuật tốn danh sách quyết định, tơi muốn đƣa ra một cách sử dụng một hàm phân lớp Nạve Bayes làm nhiệm vụ phân lớp nghĩa dựa vào các nhĩm từ đồng xuất hiện của từ đang cần gán nghĩa, đĩng vai trị làm nhân cho thuật tốn mở rộng bộ dữ liệu xử lý nhập nhằng để phần nào cải tiện đƣợc hiệu suất chung của tồn bộ hệ thống, đồng thời tăng thêm độ chính xác cho bộ dữ liệu huấn luyện đƣợc mở rộng ở đầu ra. 3.2.2. Các bƣớc của thuật tốn Dữ liệu đầu vào của thuật tốn là một bộ dữ liệu huấn luyện nhỏ cĩ các câu chứa từ đang cần gán nghĩa và nghĩa của từ đĩ đã đƣợc gán trƣớc. Thứ hai, ta cần cĩ một bộ dữ liệu chƣa đƣợc gán nghĩa của từ. Bộ dữ liệu này càng lớn thì khả năng mở rộng bộ dữ liệu huấn luyện ban đầu càng cao. Dữ liệu đầu ra của thuật tốn là một bộ dữ liệu lớn, mở rộng từ bộ dữ liệu nhỏ ban đầu. Đi vào chi tiết, thuật tốn cĩ các bƣớc nhƣ sau. Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 15 Hình 2: Sơ đồ các bước của phương pháp mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ Dữ liệu chƣa gán nghĩa của từ đang xét Huấn luyện bộ phân lớp Naive Bayes (3.2.2.2) Bộ dữ liệu văn bản Chuẩn bị dữ liệu (liệt kê, định dạng) (3.2.2.1) Phân lớp nghĩa cho từ đang xét dựa vào nhĩm từ đồng xuất hiện (3.2.2.3) Dữ liệu chuẩn chƣa định dạng Gán lại nghĩa dựa vào đặc tình một nghĩa trong một văn bản (3.2.2.4 Bƣớc 1) Dữ liệu gán nghĩa của từ đang xét (mở rộng sau vịng lặp đầu tiên) Chuẩn bị dữ liệu (định dạng) (3.2.2.1) Điều kiện dừng (3.2.2.5) Chƣa thỏa mãn điều kiện dừng, tiếp tục huấn luyện Dữ liệu gán nghĩa mở rộng của từ đang xét Loại bỏ những trƣờng hợp cĩ xác suất quá thấp (3.2.2.4 Bƣớc 2) Dữ liệu gán nghĩa mở rộng Dữ liệu gán nghĩa ban đầu của từ đang xét Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 16 3.2.2.1. Chuẩn bị dữ liệu. Tại bƣớc này ta cần liệt kê và định dạng theo chuẩn nhất định tất cả các câu cĩ chứa từ cần gán nghĩa cĩ trong bộ dữ liệu chƣa gán nghĩa và bộ dữ liệu đã gán nghĩa của từ. Tuy liệt kê nhƣng ta vẫn phải cĩ phƣơng thức để bảo tồn quan hệ khơng thuộc hoặc cùng thuộc một văn bản của các câu. Đồng thời, chọn luơn những từ cĩ thể cĩ khả năng đĩng vai trị là những từ thuộc nhĩm từ đồng xuất hiện, hay là những từ đĩng vai trị làm văn cảnh cho phép ta căn cứ vào để gán nghĩa cho từ đang cần gán nghĩa. Các phƣơng pháp chọn từ thuộc nhĩm từ đồng xuất hiện tơi sẽ trình bày cụ thể ở phần sau của chƣơng này. Tuy nhiên, cĩ một điểm cần lƣu ý là nếu ta chọn phƣơng pháp nào để lấy từ thuộc nhĩm từ đồng xuất hiện thì ta phải thống nhất phƣơng pháp đĩ cho cả bộ dữ liệu đã gán nghĩa và chƣa gán nghĩa để đạt đƣợc hiệu quả cao nhất. 3.2.2.2. Huấn luyện bộ phân lớp Nạve Bayes. Từ dữ liệu đã đƣợc liệt kê, định dạng và chọn từ cĩ khả năng làm làm văn cảnh cho từ cần gán nghĩa của bộ dữ liệu huấn luyện ban đầu đã cĩ từ bƣớc 3.2.2.1, ta tiến hành tạo các bộ thuộc tính để huấn luyện cho bộ phân lớp Nạve Bayes. Theo đĩ mỗi từ trong nhĩm từ đồng xuất hiện của từ đang cần gán nghĩa sẽ đi kèm một giá trị nào đĩ (giá trị này tùy theo cách chuyển đổi các từ từ nhĩm các từ đồng xuất hiện sang tập các thuộc tính) và mỗi cặp (từ, giá trị) đĩ trở thành một thuộc tính. Cách thức chuyển đổi thành thuộc tính nhƣ thế nào cịn tùy thuộc vào loại thơng tin nào của từ trong nhĩm từ đồng xuất hiện với từ đang cần gán nghĩa mà ta muốn giữ lại. Phƣơng thức chuyển đổi thành các thuộc tính là một yếu tố cĩ ảnh hƣởng trực tiếp đến độ chính xác của quá trình phân lớp nghĩa của từ nên cần xem xét một cách cẩn thận. Chi tiết cụ thể về các phƣơng thức này sẽ đƣợc trình bày ở phần sau của chƣơng này. Khi đã cĩ đƣợc tập các thuộc tính, thì từ các cơng thức đã nêu ở trên và các thuộc tính (từ, giá trị) cĩ mặt trong mỗi trƣờng hợp xuất hiện của từ, ta ƣớc lƣợng đƣợc các xác suất hay các mẫu (model) cần thiết cho quá trình phân lớp sau này (nhƣ đã trình bày ở phần 3.1). 3.2.2.3. Phân lớp nghĩa của từ. Ta sử dụng bộ phân lớp Nạve Bayes đã đƣợc huấn luyện ở trên để tiến hành gán nghĩa lại cho tồn bộ dữ liệu bao gồm cả dữ liệu đã gán nghĩa và chƣa gán nghĩa. Bộ phân lớp sẽ tính xác suất của mỗi nghĩa trên mỗi trƣờng hợp xuất hiện của từ và chọn nghĩa cĩ xác suất cao nhất. Việc gán nghĩa lại cả phần dữ liệu huấn luyện là nhằm để gán lại nghĩa Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 17 cho những từ đã cĩ thể bị gán nghĩa sai ban đầu hoặc trong quá trình lặp sau này (Bƣớc 3.2.2.4). Việc phân lớp nghĩa cho các trƣờng hợp xuất hiện của từ đang cần gán nghĩa trong bƣớc này hồn tồn dựa vào các thuộc tính địa phƣơng hay các cặp (từ, giá trị) cĩ đƣợc khi mã hĩa nhĩm từ đồng xuất hiện thành các thuộc tính. Đây chính là bƣớc thể hiện rõ nhất ứng dụng của đặc tính một nghĩa trong một nhĩm từ đồng xuất hiện của từ trong ngơn ngữ tự nhiên. 3.2.2.4. Gán lại nghĩa hoặc loại bỏ những trường hợp sai nhờ vào các thuộc tính tồn cục. Bƣớc này gồm cĩ hai bƣớc nhỏ sau:  Gán lại nghĩa dựa vào đặc tính một nghĩa trong một văn bản: Bƣớc này dựa vào trƣờng hợp xuất hiện của từ đã đƣợc gán nghĩa cĩ xác suất cao nhất trong một văn bản. Nhƣ đã trình bày ở trên, đặc tính một nghĩa trong một văn bản của từ là một đặc tính quan trọng. Vì một từ thƣờng mang một nghĩa trong một văn bản nên ta cĩ thể dựa vào đĩ để mở rộng bộ dữ liệu hoặc sửa lỗi gán nghĩa cĩ trong dữ liệu. Những trƣờng hợp xuất hiện của từ đƣợc gán nghĩa cĩ xác suất quá thấp thƣờng là khơng chính xác. Và khi đĩ khả năng nĩ mang nghĩa của trƣờng hợp đƣợc gán nghĩa cĩ xác suất cao nhất của văn bản là cao hơn. Nhƣ vậy ta thấy rằng, dựa vào đặc tính một nghĩa trong một văn bản của từ, ta vẫn cĩ thể gán nghĩa đƣợc cho các trƣờng hợp xuất hiện của từ mà ta cịn chƣa cĩ thơng tin của chúng để gán nghĩa hoặc là các thơng tin quá ít đến nỗi khơng thể gán nghĩa chính xác.  Loại bỏ các trƣờng hợp cĩ xác suất quá thấp: Dựa vào trƣờng hợp xuất hiện của từ đƣợc gán nghĩa cĩ xác suất cao nhất trong tồn bộ bộ dữ liệu để loại bỏ những trƣờng hợp từ đƣợc gán nghĩa cĩ xác suất nằm dƣới một ngƣỡng nào đĩ (so với xác suất cao nhất kia). Chú ý rằng bộ dữ liệu ở đây là bộ dữ liệu bao gồm cả dữ liệu gán nghĩa ban đầu và dữ liệu gán nghĩa mở rộng từ bộ dữ liệu văn bản chƣa gán nghĩa ở đầu vào. 3.2.2.5. Bước lặp và điều kiện kết thúc Các dữ liệu đƣợc gán nghĩa trong bƣớc 3.2.2.3 và đủ tiêu chuẩn để vƣợt qua bƣớc 3.2.2.4 sẽ trở thành dữ liệu huấn luyện cho bộ phân lớp và quá trình đƣợc lặp lại từ bƣớc 3.2.2.2. Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 18 Vịng lặp kết thúc khi sự thay đổi nhỏ hơn một số cho trƣớc nào đĩ. Chính xác nhất thì ta sẽ phải quan sát sự thay đổi các tham số của hàm phân lớp nhƣ các xác suất về nghĩa của từ, các xác suất của các thuộc tính, các xác suất điều kiện của thuộc tính và từng nhãn lớp (nghĩa của từ đang cần gán nghĩa). Tuy vậy, với số thuộc tính lớn khoảng vài trăm đến vài nghìn thì quan sát đƣợc sự thay đổi của chúng khơng phải việc đơn giản. Một cách dễ hơn để xác định điều kiện kết thúc vịng lặp là quan sát sự thay đổi về số lƣợng của tập dữ liệu mở rộng ở đầu ra. Vì khi bộ phân lớp đã ổn định, các tham số khơng cịn thay đổi (hoặc thay đổi rất ít trong giới hạn nào đĩ) thì xác suất gán nghĩa cho các trƣờng hợp xuất hiện trong tồn bộ dữ liệu sẽ khơng thay đổi. Khi đĩ, tập các trƣờng hợp đƣợc gán nghĩa lại của từ vƣợt qua ngƣỡng cho phép sẽ khơng cịn thay đổi và kết quả là số lƣợng các trƣờng hợp xuất hiện của từ trong bộ dữ liệu mở rộng ở đầu ra sẽ khơng thay đổi nữa. Cách này tuy dễ hơn và nhanh hơn nhiều nhƣng lại thiếu chính xác hơn so với cách trƣớc. Ngồi cách thức xác định điều kiện dừng vịng lặp thì một điểm khác cần lƣu ý ở đây là khơng nhất thiết tất cả các trƣờng hợp xuất hiện của từ trong bộ dữ liệu đã gán nghĩa ban đầu đều sẽ xuất hiện trong tập dữ liệu đầu ra hoặc chúng cũng cĩ thể xuất hiện nhƣng với nghĩa khác nghĩa đã đƣợc gán ban đầu. Điều này là do trong quá trình lặp cĩ thể trƣờng hợp đã gán nghĩa đĩ khơng cịn đủ độ tin cậy (xác suất nhỏ hơn nghƣỡng cho phép) nên đã bị loại ra khỏi tập dữ liệu cuối cùng hoặc đã bị gán nghĩa lại. Nhƣ vậy ta thấy rằng với một bộ dữ liệu chƣa gán nghĩa lớn, đầy đủ các nghĩa của từ thì nếu trong tập dữ liệu huấn luyện ban đầu cĩ một lƣợng nhỏ dữ liệu bị gán nghĩa sai thì trong quá trình mở rộng dữ liệu, nĩ cĩ thể sẽ bị loại ra khỏi tập dữ liệu cuối cùng. Cuối cùng, sau quá trình lặp lại nhiều lần việc gán nghĩa cho bộ dữ liệu hỗn hợp các trƣờng hợp xuất hiện đƣợc gán nghĩa và chƣa đƣợc gán nghĩa của từ cần xét, ta đã thu đƣợc một bộ dữ liệu lớn hơn đƣợc gán nghĩa đầy đủ của từ. Nhƣ vậy, ta đã giảm đƣợc rõ rệt khối lƣợng cơng việc gán nghĩa thủ cơng trƣớc đây. Từ đĩ cho phép chúng ta cĩ đƣợc các bộ dữ liệu lớn hơn trƣớc đây nhiều lần trong một thời gian ngắn hơn nhiều. 3.3. Lựa chọn từ cho nhĩm từ đồng xuất hiện trên quan điểm lý thuyết Từ đặc tính của từ và của thuật tốn học bán giám sát lấy Nạve Bayes làm nhân, đĩng vai trị phân lớp nghĩa của từ theo đặc tính một nghĩa trong một nhĩm từ đồng xuất hiện trong mỗi vịng lặp, ta quay lại xem xét một cách lý thuyết các lựa chọn về cách chọn Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 19 những từ cho nhĩm từ đồng xuất hiện của từ đang cần gán nghĩa nhƣ thế nào. Ở đây cĩ một số vấn đề nhƣ sau: thứ nhất là chọn từ ở khoảng cách nào; thứ hai là những từ đƣợc chọn cĩ cần xử lý trƣớc khi đƣa vào xử lý nhập nhằng nghĩa hay khơng; thứ ba là lựa chọn những thơng tin nào của chúng để chuyển hĩa thành thuộc tính, và thể hiện những thơng tin đĩ nhƣ thế nào. 3.3.1. Khoảng cách lân cận của từ đang cần xử lý nhập nhằng nghĩa Đầu tiên là vấn đề chọn đƣợc những từ nằm trong khoảng cách thích hợp với từ đang cần gán nghĩa. Vì theo đặc tính một nghĩa trong một nhĩm từ đồng xuất hiện của từ, các từ ở khoảng cách càng xa thì càng ít giá trị trong việc khẳng định nghĩa của từ. Vì thế tơi chỉ lấy trong khoảng cách 5 từ so với vị trí của từ đang xét, tức là một nhĩm 10 từ gồm 5 từ trƣớc, 5 từ sau từ đang cần gán nghĩa sẽ đƣợc chọn vào nhĩm từ đồng xuất hiện của nĩ. 3.3.2. Xử lý từ trong nhĩm từ đồng xuất hiện Ngoại trừ các mạo từ, giới từ hay một số nhĩm từ chức năng khác, một từ thƣờng cĩ nhiều thể hiện về mặt hình thái nhƣ số ít, số nhiều của danh từ, hay các động từ cĩ các dạng khác nhau khi cĩ chủ ngữ là số ít hoặc ở các thời khác nhau … Vì vậy, một câu hỏi cần đặt ra là cĩ tiến hành chuyển đổi về gốc nguyên thể của từ hay khơng. Cần xác định rõ là chuyển đổi về từ nguyên thể ở đây là quá trình loại bỏ các hậu tố sao cho từ đƣợc cho trở về dạng nguyên thể. Ví dụ nhƣ: Generations => generation Letters => letter Adding => add Easier => easy … Việc này cho phép ta tránh xử lý những trƣờng hợp từ bị thay đổi do các yêu cầu về ngữ pháp của ngơn ngữ nhƣng thực chất nĩ chỉ là một từ. Tức là nghĩa của nĩ về cơ bản khơng đổi. Mà thực chất nghĩa cơ bản của từ mới là yếu tố giúp xác định văn cảnh của câu. Việc này cĩ hai lợi ích nhƣ sau. Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 20 Lợi ích thứ nhất của việc này đĩ là ta giảm đƣợc số lƣợng các từ thuộc nhĩm từ đồng xuất hiện (hay đúng hơn là giảm hiện tƣợng lặp từ) tức là giảm đƣợc số lƣợng các thuộc tính (các cặp (từ số ít, giá trị), (từ số nhiều, giá trị), ... sẽ chỉ cịn là 1 thuộc tính (từ nguyên thể, giá trị)). Điều này cho phép tăng tốc độ của quá trình huấn luyện và gán nghĩa của Nạve Bayes và tăng tốc độ hội tụ của thuật tốn xử lý nhập nhằng nghĩa của từ bán giám sát. Lợi ích thứ hai là cũng theo giả định về tính độc lập của Nạve Bayes, sử dụng quá nhiều biến thể của từ (coi là từ chứa nội dung) trong nhĩm từ đồng xuất hiện cĩ thể làm giảm hiệu quả phân lớp về mặt lý thuyết. Cụ thể là, giả sử nhƣ ta cĩ các biến thể khác nhau w, w‟, w‟‟ của từ W và chúng đều đƣợc chọn để đƣa vào nhĩm từ đồng xuất hiện phân lớp cho một từ A cĩ nghĩa c ở các trƣờng hợp xuất hiện khác nhau của A nhƣng khi chuyển hĩa thành thuộc tính chúng đều cĩ giá trị x thuộc X (tức là thành các cặp (w, x), (w‟,x), (w‟‟,x) (Tập giá trị X của x đƣợc xác định tùy thuộc vào cách thức chuyển đổi thành thuộc tính). Vì chỉ là những biến thể của W nên chúng đều cĩ nghĩa cW nào đĩ. Giả sử nhƣ tính chung tất cả các biến thể thì W cĩ tới 20% là thuộc nhĩm từ đồng xuất hiện của A cùng đi kèm với giá trị x, tuy nhiên tính riêng từng biến thể thì w cĩ 10%, w‟ cĩ 6% và w‟‟ cĩ 4%. Nhƣ vậy, khi phân lớp, thay vì xác suất ƣớc lƣợng của A cĩ nghĩa c sẽ nhân với 0.2 (là xác suất 𝑝(𝑊𝑥 |𝑐)) (Wx là chỉ thuộc tính với cặp (W,x)) thì do W bị chia thành các biến thể và do giả định độc lập của Nạve Bayes mà khi này con số sẽ là 0.1 (𝑝 𝑤𝑥 𝑐 ), hoặc 0.06 (𝑝 𝑤′𝑥 𝑐 ), hoặc 0.04 (𝑝 𝑤′′𝑥 𝑐 ) lần lƣợt cho các trƣờng hợp từ A xuất hiện với (w, x), (w‟, x), (w‟‟, x). Nhƣ vậy, xác suất phân lớp sẽ giảm đáng kể trong trƣờng hợp để nguyên những biến thể hình thái của các từ trong nhĩm từ đồng xuất hiện so với trƣờng hợp chúng ta chuyển những từ này về dạng nguyên thể. Tĩm lại, về mặt lý thuyết, chuyển từ về dạng nguyên thể cịn cĩ thể giúp tăng thêm độ chính xác cho quá trình phân lớp. 3.3.3. Chuyển đổi từ trong nhĩm từ đồng xuất hiện thành thuộc tính của bộ phân lớp Một cách chuyển đổi đơn giản nhất cho một thuộc tính từ một từ thuộc nhĩm từ đồng xuất hiện đĩ là theo dạng nhị phân. Theo cách này, nếu từ wi xuất hiện trong nhĩm từ đồng xuất hiện của một trƣờng hợp xuất hiện của từ c đang cần gán nghĩa thì ta cĩ thuộc tính (wi, 1), và ngƣợc lại (wi, 0). Nhƣ vậy, cách chuyển đổi này cho phép thể hiện đƣợc thơng tin từ wi cĩ xuất hiện trong nhĩm từ đồng xuất hiện hay khơng. Tuy vậy, nếu Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng 21 sử dụng cách này thì sẽ xảy ra rất nhiều trƣờng hợp nhập nhằng do cĩ thể cĩ nhiều nhĩm từ đồng xuất hiện của từ đƣợc gán nghĩa khác nhau nhƣng cùng cĩ các từ giống nhau và chỉ khác về vị trí của các từ trong nhĩm. Khi đĩ theo cách chuyển đổi này, tất cả các nhĩm này đều cĩ cùng một bộ thuộc tính. Điều này sẽ hạn chế khả năng phân lớp chính xác của Nạve Bayes. Cách chuyển đổi thứ hai khắc phục nhƣợc điểm của cách chuyển đổi theo dạng nhị phân, đĩ là, ta sẽ căn cứ theo khơng chỉ sự xuất hiện của từ mà cịn theo cả vị trí của từ để xác định các thuộc tính. Cụ thể là nếu các từ xuất hiện trong nhĩm từ đồng xuất hiện của từ c đang cần gán nghĩa theo thứ tự: w1 w2 w3 w4 w5 c w6 w7 w8 w9 w10 Thì ta sẽ cĩ bộ thuộc tính: (w1, -5), (w2, -4), …, (w10, 5) Cĩ thể thấy rằng với cách chuyển đổi thành thuộc tính nhƣ vậy, ta đã bảo tồn đƣợc thơng tin về vị trí của các từ trong nhĩm từ đồng xuất hiện và khơng cịn sự nhập nhằng giữa các nhĩm từ đồng xuất hiện cĩ cùng các từ giống nhau nhƣng khác về vị trí các từ. Ngồi hai cách chuyển đổi từ trong nhĩm từ đồng xuất hiện thành thuộc tính nhƣ ở trên thì ta cịn rất nhiều cách mã hĩa thuộc tính khác nữa cho phép giữ đƣợc nhiều thơng tin hơn nữa của các từ đồng xuất hiện với từ cần gán nghĩa ví dụ nhƣ các thơng tin về từ loại chẳng hạn. Sử dụng đƣợc thêm thơng tin của từ loại sẽ giúp tăng thêm rất nhiều độ chính xác cho bộ phân lớp Naive Bayes. Tuy vậy, đề tài khĩa luận này khơng tập trung vào Naive Bayes và cách thức để hàm phân lớp này đạt đƣợc độ chính xác cao nhất mà chủ yếu đặt trọng tâm vào nghiên cứu, khảo sát phƣơng pháp mở rộng bộ dữ liệu. Chính vì vậy tơi muốn giữ việc chọn thuộc tính ở mức đơn giản cho phép. Chƣơng 4: Cấu trúc và định dạng của dữ liệu 22 Chƣơng 4: Cấu trúc và định dạng của dữ liệu 4.1. Dữ liệu đầu vào Nhƣ đã trình bày ở phần thuật tốn, phƣơng pháp mở rộng dữ liệu đƣợc trình bày trong khĩa luận này là một phƣơng pháp học máy bán giám sát. Phần nhân của phƣơng pháp này là một thuật tốn học cĩ giám sát Nạve Bayes. Vì vậy, ta cần thiết phải cĩ một lƣợng dữ liệu chuẩn (tức là đã gán nghĩa cho mỗi trƣờng hợp xuất hiện của từ đang cần gán nghĩa) dùng để huấn luyện cho Nạve Bayes trong giai đoạn đầu. Ngồi ra ta cịn cần một bộ dữ liệu văn bản lớn khác chƣa đƣợc gán nghĩa dùng trong quá trình mở rộng bộ dữ liệu ban đầu thành bộ dữ liệu đầu ra. Sau đây tơi sẽ trình bày cụ thể về định dạng của hai bộ dữ liệu đã gán nghĩa và chƣa gán nghĩa cho các trƣờng hợp xuất hiện của từ đang cần gán nghĩa đƣợc sử dụng trong thí nghiệm. 4.1.1. Dữ liệu chuẩn đã gán nghĩa Dữ liệu chuẩn sử dụng trong khĩa luận này là bộ dữ liệu cho các từ chứa nội dung hay các từ mang nghĩa của câu và văn bản. Trong đĩ các trƣờng hợp xuất hiện của mỗi từ đƣợc gộp vào cùng một file với tên là từ đang cần gán nghĩa cộng với phần đuơi “.pos”. Từ file đĩ, ta cĩ thể lấy đƣợc các thơng tin về nghĩa của từ, các tên của văn bản nguồn chứa trƣờng hợp từ mang nghĩa đĩ và các câu chứa từ đĩ đã đƣợc phân loại từ loại theo chuẩn Penn Treebank . Cụ thể một đoạn văn bản chứa 1 trƣờng hợp từ “line” cĩ nghĩa “cord” đƣợc định dạng nhƣ sau: the/DT company/NN argued/VBD that/IN its/PRP$ foreman/NN needn/NN 't/NN have/VBP told/VBN the/DT worker/NN not/RB to/TO move/VB the/DT plank/NN to/TO which/WDT his/PRP$ lifeline/NN was/VBD tied/VBN because/IN ''/'' that/WDT comes/VBZ with/IN common/JJ sense/NN ./. ''/'' Chƣơng 4: Cấu trúc và định dạng của dữ liệu 23 the/DT commission/NN noted/VBD ,/, however/RB ,/, that/IN dellovade/NNP hadn/NN 't/NN instructed/VBD its/PRP$ employees/NNS on/IN how/WRB to/TO secure/VB their/PRP$ lifelines/NNS and/CC didn/VBD 't/NN heed/NN a/DT federal/JJ inspector/NN 's/POS earlier/JJR suggestion/NN that/IN the/DT company/NN install/VB special/JJ safety/NN lines/NNS inside/IN the/DT a-frame/NNP structure/NN it/PRP was/VBD building/VBG ./. Trong đĩ id là thơng tin nhận dạng của từ, senseid chứa nghĩa của từ, và nằm giữa hai tag và là các câu chứa từ đang cần gán nghĩa. Từ đang cần gán nghĩa đứng sau tag khi đứng cùng trong câu. Giữa các từ ngăn cách với nhau bởi 1 ký tự trống và trong một từ, phần từ và phần thơng tin từ loại ngăn cách với nhau bởi ký tự “/” 4.1.2. Dữ liệu chƣa gán nghĩa – BNC BNC là viết tắt của British National Corpus. Đây là một bộ văn bản lớn gồm cĩ trên 100 triệu từ thuộc cả ngơn ngữ nĩi và viết, đƣợc tập hợp từ nhiều nguồn. Phiên bản dùng trong khĩa luận là phiên bản mới nhất BNC XML, xuất bản năm 2007 [8]. Khoảng 90% bộ văn bản là những văn bản viết, bao gồm các tờ báo của các vùng và quốc gia, các tạp chí chuyên nghành và tạp chí cho các lứa tuổi với các sở thích khác nhau, các sách học thuật và các tiểu thuyết nổi tiếng, các bức thƣ, các bài luận của các trƣờng học và nhiều thể loại khác[8]. Ngơn ngữ nĩi chiếm khoảng 10% cịn lại trong bộ văn bản BNC. Nĩ gồm những bản ghi lại các cuộc nĩi chuyện của những ngƣời tình nguyện thuộc nhiều lứa tuổi, ngành nghề, tơn giáo, tầng lớp xã hội khác nhau[8]. Bộ BNC XML đƣợc định dạng theo chuẩn XML 1.0, cung cấp nhiều thơng tin về thể loại của văn bản, các ngắt câu, ngắt từ, các thơng tin về từ loại, về dạng nguyên thể của từ. Sau đây là một đoạn trong một file xml của BNC: Chƣơng 4: Cấu trúc và định dạng của dữ liệu 24 CHAPTER 1 „ But , ‟ said Owen , ... Trong đĩ tag biểu thị đây là một đoạn văn bản viết thuộc loại tiểu thuyết. là biểu thị của trang 5. cho biết đây là một Chƣơng 4: Cấu trúc và định dạng của dữ liệu 25 chƣơng mới. cho biết đây là tên chƣơng. cĩ ý nghĩa là một đoạn văn. Các tag và là các từ và các dấu. 4.2. Dữ liệu sử dụng trong quá trình chạy chƣơng trình Khi chạy bộ xử lý nhập nhằng nghĩa của từ, ta cần chuẩn hĩa bộ dữ liệu đã gán nghĩa và chƣa gán nghĩa. Ở mức đơn giản nhất ta cũng cần loại bỏ các dấu câu và từ đang cần gán nghĩa để lấy ra những từ thuộc nhĩm từ đồng xuất hiện. Ở mức cao hơn, để kiểm chứng lý thuyết về việc chuyển từ thuộc nhĩm từ đồng xuất hiện với từ đang cần gán nghĩa về dạng từ nguyên thể, ta cịn cần tiến hành biến đổi dữ liệu ban đầu nhiều hơn nữa. Một số trƣờng hợp cá biệt, nếu vì lý do nào đĩ mà dữ liệu ban đầu chƣa đƣợc gán nhãn từ loại thì ta cịn phải chạy thêm các thuật tốn phân lớp thơng tin từ loại. Do vậy, dữ liệu đầu vào tỏ ra kém hiệu quả nếu ta sử dụng trực tiếp nĩ trong quá trình chạy và kiểm thử bộ xử lý nhập nhằng nghĩa của từ. Vì thế ta cần phải chuyển nĩ về dạng thích hợp hơn, tránh phải chuẩn hĩa đi chuẩn hĩa lại dữ liệu trong quá trình mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ đang cần gán nghĩa. Định dạng của dữ liệu sử dụng giống hồn tồn với dữ liệu chuẩn và chỉ thêm ngay sau tag một tag chứa câu đã đƣợc chuẩn hĩa. Với các văn bản thuộc bộ dữ liệu chƣa gán nghĩa thì phần senseid trong mỗi trƣờng hợp từ sẽ cĩ giá trị là “Unknown” Dữ liệu sau khi chuẩn hĩa đƣợc lƣu lại vào một thƣ mục gồm file chứa dữ liệu huấn luyện (và các file kiểm tra nếu cĩ) cùng với một thƣ mục “Data” chứa tồn bộ file chứa các trƣờng hợp của từ thuộc bộ dữ liệu chƣa đƣợc gán nghĩa. Các trƣờng hợp thuộc cùng một văn bản sẽ đƣợc chứa vào cùng một file. 4.3. Định dạng file kết quả thực nghiệm File chứa kết quả thực nghiệm đƣợc sinh ra trong quá trình chạy bộ cơng cụ khảo sát phƣơng pháp mở rộng dữ liệu. Từ file này ta sẽ đánh giá đƣợc lý thuyết đƣa ra cĩ phù hợp với kết quả thực tế hay khơng. Ví dụ một file thử nghiệm với từ “serve” cĩ dạng nhƣ sau: Chƣơng 4: Cấu trúc và định dạng của dữ liệu 26 Result file InterestTest3/interest_2.result Change of output instance: 31 Number of Loop: 13 Output File: D:\KhoaLuan\Code\InterestTest3\interest.out with 34366 instances Test 1: Correct per Total: 173/235 Test 2: Correct per Total: 1049/1418 Theo đĩ, dịng đầu tiên là dịng chỉ tên của file test. Dịng thứ hai là mức độ thay đổi cuối cùng về số lƣợng các trƣờng hợp đƣợc đƣa ra, số này cĩ thể là dƣơng hay âm tùy thuộc vào số lƣợng tăng hay giảm. Dịng thứ ba chỉ số vịng lặp đã lặp đến khi hàm mở rộng dữ liệu huấn luyện hội tụ. Dịng thứ tƣ là đƣờng dẫn đến file dữ liệu đầu ra và số lƣợng các trƣờng hợp xuất hiện của từ cĩ trong đĩ. Hai dịng cuối cùng là độ chính xác của quá trình thực nghiệm, đo bằng số trƣờng hợp phân lớp đúng với nghĩa đƣợc gán ban đầu của file dữ liệu chuẩn trên tổng số trƣờng hợp trong hai file kiểm tra. Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa 27 Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa. 5.1. Bộ cơng cụ NLTK NLTK (Natural Language Toolkit) là một bộ các thƣ viện và chƣơng trình phong phú viết bằng ngơn ngữ Python. Nĩ bao gồm rất nhiều mơ đun, cho phép thực hiện rất nhiều cơng việc thƣờng gặp trong xử lý ngơn ngữ tự nhiên nhƣ đọc một bộ văn bản, xử lý chuỗi ký tự, phát hiện những nhĩm từ đồng xuất hiện đi cùng nhau, việc gán nhãn từ loại, phân lớp, v.v. [2][10] Để phục vụ cho việc nghiên cứu, khảo sát, chứng minh các lý thuyết trong đề tài khĩa luận, tơi đã dùng một số mơ đun của NLTK nhƣ:  Nltk.corpus.reader.bnc: cho phép đọc bộ dữ liệu BNC.  Nltk.classify.naivebayes: cung cấp bộ phân lớp Nạve Bayes làm phần nhân cho thuật tốn mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ.  Nltk.tag: cung cấp bộ gán nhãn từ loại cho những văn bản thiếu thơng tin từ loại.  Nltk.stem.wordnet: cung cấp bộ chuyển đổi từ về dạng từ nguyên thể. 5.2. Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ. Đây là một cơng cụ do tơi lập trình bằng ngơn ngữ Python với mục đích kiểm tra trong thực tế phƣơng pháp mở rộng bộ dữ liệu cĩ cho lại hiệu quả tốt khơng. Vì đƣợc làm ra nhằm mục đích nghiên cứu nên bộ cơng cụ này cĩ những đặc tính sau đây:  Tính tùy biến cao: Vì để nghiên cứu đƣợc thì việc tùy biến đƣợc các thơng số nhƣ mức độ hội tụ của hàm mở rộng dữ liệu, hay nhƣ cĩ tùy chọn cĩ chuyển các từ trong nhĩm từ đồng xuất hiện về dạng nguyên thể hay khơng, là một điều bắt buộc phải cĩ để cĩ thể khảo sát đƣợc kỹ càng các lý thuyết đã nêu ở trên và so sánh các kết quả giữa chúng. Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa 28  Tính linh hoạt trong sử dụng: Bộ cơng cụ này cĩ tính linh hoạt cao trong việc sử dụng tức là nĩ cho phép dùng kết hợp các mơ đun theo một cách tự do nhất. Điều này cho phép thiết kế nhiều thử nghiệm khác nhau. Sau đây là những phần chính của bộ cơng cụ cĩ liên quan tới việc bố trí thử nghiệm và kiểm tra kết quả độ chính xác, các phần khác khơng liên quan trực tiếp sẽ chỉ đƣợc trình bày sơ lƣợc: 5.2.1. Các cơng cụ chuẩn bị dữ liệu  Hàm splitTrainTestSet(labeledDataFile, trainPerTotalRate, testPerTotalRate): hàm này nhằm chia file dữ liệu chuẩn ban đầu thành hai file dữ liệu huấn luyện và kiểm tra. Sau khi chia các file huấn luyện và kiểm tra sẽ nằm cùng thƣ mục với file dữ liệu chuẩn, trong đĩ, file huấn luyện và file kiểm tra cĩ tên là tên của file dữ liệu chuẩn và phần mở rộng lần lƣợt là “.train” và “.test”. Các tham số của hàm này là: o labeledDataFile là đƣờng dẫn tới file dữ liệu chuẩn. o trainPerTotalRate và testPerTotalRate là tỉ lệ của các trƣờng hợp đƣợc đƣa vào file huấn luyện và kiểm tra so với tổng số các trƣờng hợp cĩ trong file dữ liệu chuẩn.  Hàm createFormatedData(trainDataPath, testDataPath, test2DataPath, corporaPath, newDataPath, nameOfCorpora, labeledWord, needLemmatizing): hàm này nhằm tạo dữ liệu cho các thử nghiệm. Trong đĩ, các dữ liệu huấn luyện ban đầu, dữ liệu kiểm tra và dữ liệu từ bộ văn bản đều đƣợc chuyển đổi sang dạng định dạng quy định ở phần 4.2. Theo đĩ, việc chuyển đổi các từ thuộc nhĩm từ đồng xuất hiện sang dạng nguyên thể hay khơng sẽ đƣợc thống nhất giữa các dữ liệu ban đầu và bộ dữ liệu. Các tham số của hàm cĩ ý nghĩa nhƣ sau: o trainDataPath: đƣờng dẫn đến file huấn luyện (kết quả từ hàm splitTrainTestSet) o testDataPath, test2DataPath: đƣờng dẫn đến các file kiểm tra (kết quả từ hàm splitTrainTestSet và genRandomTestFile) o corporaPath: đƣờng dẫn đến bộ dữ liệu văn bản chƣa gán nghĩa của từ (ở đây là BNC) Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa 29 o newDataPath: đƣờng dẫn cho một thƣ mục mới (chƣa tạo) chứa tồn bộ các dữ liệu đƣợc chuyển đổi. o nameOfCorpora: tên của tập dữ liệu văn bản chƣa gán nghĩa. o labeledWord: từ đang cần đƣợc gán nghĩa để mở rộng bộ xử lý nhập nhằng. o needLemmatizing: nhận giá trị True hoặc False. Nếu là True thì các từ thuộc nhĩm từ đồng xuất hiện từ sẽ đƣợc chuyển đổi về dạng nguyên thể, và ngƣợc lại với False thì các từ đĩ sẽ đƣợc giữ nguyên.  Hàm genRandomTestFile(standardLabeledFile, outputFilePath, trainFile, testPerTotalRate): hàm này cho phép sinh lại file test. Trong đĩ: o standardLabeledFile là đƣờng dẫn đến file dữ liệu chuẩn. o outputFilePath là đƣờng dẫn đến file mới sẽ đƣợc tạo (thƣờng là vào thẳng thƣ mục chứa dữ liệu kiểm tra) o trainFile là đƣờng dẫn đến file huấn luyện đã đƣợc tạo. o testPerTotalRate là tỉ lệ giữa số lƣợng các trƣờng hợp trong tập kiểm tra và tồn bộ tập dữ liệu chuẩn. 5.2.2. Hàm cơng cụ test Hàm testWithFormatedData(formatedDataPath, labeledWord, approxUnchangeFeature, rateWithMaxInFile, rateWithMaxInCorpora) Hàm này đĩng vai trị rất quan trọng khi khảo sát, kiểm tra, đánh giá. Nĩ cho phép ta tùy chỉnh mức giới hạn thay đổi về số lƣợng các trƣờng hợp từ ở file đầu ra. Tức là tùy chỉnh độ hội tụ của hàm mở rộng bộ dữ liệu huấn luyện bằng tham số approx Unchange - -Feature. Với tham số rateWithMaxInFile, hàm này cho phép ta chỉnh ngƣỡng mà nếu thấp hơn ngƣỡng đĩ thì trƣờng hợp trong file sẽ bị gán nghĩa bằng nghĩa của trƣờng hợp cùng trong file cĩ xác suất lớn nhất. Đây là một tỉ lệ, nghĩa là nếu xác suất lớn nhất là maxFileProb thì ngƣỡng sẽ bằng (maxFileProb * rateWithMaxInFile). Tham số rateWithMaxInCorpora lại cho ta chỉnh ngƣỡng theo xác suất lớn nhất của tồn bộ bộ dữ liệu. Những trƣờng hợp nào cĩ xác suất nhỏ hơn ngƣỡng (maxCorporaProb * rateWithMaxInCorpora) sẽ khơng đƣợc đƣa vào tập dữ liệu để huấn luyện tiếp nếu đĩ là khi đang trong vịng lặp. Nếu vịng lặp đã kết thúc trƣờng hợp nào cĩ xác suất nhỏ hơn ngƣỡng thì sẽ khơng cĩ mặt ở file dữ liệu đầu ra. Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa 30 formatedDataPath là đƣờng dẫn đến thƣ mục cĩ chứa dữ liệu đã đƣợc định dạng theo định dạng đƣợc định nghĩa ở mục 4.2. Thƣ mục này chính là thƣ mục newDataPath, đƣợc tạo từ hàm createFormatedData đã trình bày ở mục 5.2.1 labeledWord là từ đang đƣợc gán nghĩa, hay là từ đang đƣợc xử lý nhập nhằng Sau khi hàm này chạy xong thì nĩ sẽ ghi kết quả của cuộc thử nghiệm ra các file word_1_1.result, word_1_2.result, word_2.result vào thƣ mục formatedDataPath, trong đĩ word là từ đang đƣợc xử lý nhập nhằng (labeledWord). o Word_1_1.result chứa kết quả thực nghiệm khi chỉ huấn luyện hàm phân lớp bằng bộ huấn luyện đƣợc trích từ bộ dữ liệu chuẩn ban đầu và kiểm thử bằng file kiểm tra thứ nhất. o Word_1_2.result chứa kết quả thực nghiệm khi chỉ huấn luyện hàm phân lớp bằng bộ huấn luyện đƣợc trích từ bộ dữ liệu chuẩn ban đầu và kiểm thử bằng file kiểm tra thứ hai. o Word_2.result chứa kết quả thực nghiệm khi huấn luyện hàm phân lớp bằng bộ dữ liệu đã đƣợc mở rộng bằng thuật tốn đã nêu ở trên và kiểm thử bằng cả hai file kiểm tra. Chi tiết về định dạng của các file kết quả đƣợc định nghĩa ở phần 4.3, cách thực hiện thí nghiệm cụ thể đƣợc trình bày trong chƣơng 6. 5.2.3. Các hàm phân lớp và mở rộng bộ dữ liệu Các hàm phân lớp và mở rộng bộ dữ liệu đĩng vai trị trung tâm trong tồn bộ bộ cơng cụ. Chúng quyết định đến độ chính xác của bộ dữ liệu đầu ra cĩ nghĩa là quyết định tới sự thành cơng hay thất bại của phƣơng pháp mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ. Trong đĩ, hàm classifyFormatedCorporaWithNaiveBayes là hàm phân lớp NaiveBayes. Nĩ chịu trách nhiệm chính trong việc gán đƣợc nghĩa chính xác trong mỗi vịng lặp của thuật tốn bằng giả thiết một nghĩa trong một nhĩm từ. Hàm extendOneLabeledDataSetWithFormatedCorpora là hàm minh họa cho tồn bộ thuật tốn của phƣơng pháp mở rộng bộ dữ liệu huấn luyện đã đề xuất, áp dụng đặc tính một nghĩa trong một văn bản để mở rộng và chính xác hĩa bộ dữ liệu đầu ra. Nĩ đĩng vai trị chính yếu trong việc tạo đƣợc một bộ dữ liệu đầu ra chính xác nhất. Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa 31 Thuật tốn của hai hàm trên đã đƣợc nêu chi tiết trong chƣơng 3. 5.2.4. Các hàm cơng cụ khác Cĩ rất nhiều các hàm cơng cụ khác trong bộ cơng cụ tơi đã xây dựng nhƣ các hàm đọc dữ liệu đã định dạng và chƣa định dạng, các hàm chịu trách nhiệm ghi ra file những trƣờng hợp xuất hiện của từ, các hàm chuyển đổi giữa các file định dạng và khơng định dạng ... Tuy vậy vai trị của chúng chỉ là phụ trợ và khơng liên quan nhiều đến các thực nghiệm của ta. Chƣơng 6: Kết quả thực nghiệm 32 Chƣơng 6: Kết quả thực nghiệm Trong các chƣơng trƣớc tơi đã trình bày cụ thể về phƣơng pháp mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng cũng nhƣ các cách chọn lựa và chuyển đổi những từ cùng xuất hiện với từ đang cần gán nghĩa thành những thuộc tính để phân lớp nghĩa cho các trƣờng hợp xuất hiện của từ này. Tuy vậy, đĩ mới chỉ là lý thuyết, ta cần chứng minh lý thuyết này bằng các thực nghiệm cụ thể. 6.1. Dữ liệu thực nghiệm Tơi tiến hành thực nghiệm trên 4 file dữ liệu chuẩn của 4 từ: “line”, “hard”, “interest”, và “serve”. Trong 4 file dữ liệu này, từng trƣờng hợp xuất hiện của từ đã đƣợc xác định nghĩa cụ thể. Định dạng của 4 file này đƣợc định nghĩa trong phần 4.1.1. Thống kê cụ thể về số lƣợng các trƣờng hợp từ xuất hiện trong file, các nghĩa và số lƣợng các trƣờng hợp trong từng nghĩa, ta cĩ các bảng số liệu sau đây. Nghĩa Số lƣợng Cord 373 Division 374 Product 2217 Text 404 Phone 429 Formation 349 Tổng: 4146 Bảng 1: Các nghĩa và số lƣợng từ tƣơng ứng của từ “line” trong dữ liệu chuẩn Chƣơng 6: Kết quả thực nghiệm 33 Nghĩa Số lƣợng HARD1 3455 HARD2 502 HARD3 376 Tổng: 4333 Bảng 2: Các nghĩa và số lƣợng từ tƣơng ứng của từ “hard” trong dữ liệu chuẩn Nghĩa Số lƣợng Interest_1 361 Interest_2 11 Interest_3 66 Interest_4 178 Interest_5 500 Interest_6 1252 Tổng: 2368 Bảng 3: Các nghĩa và số lƣợng từ tƣơng ứng của từ “interest” trong dữ liệu chuẩn Nghĩa Số lƣợng SERVE2 853 SERVE6 439 SERVE10 1814 SERVE12 1272 Tổng: 4378 Bảng 4: Các nghĩa và số lƣợng từ tƣơng ứng của từ “serve” trong dữ liệu chuẩn Về bộ dữ liệu văn bản dùng trong quá trình mở rộng bộ dữ liệu huấn luyện, tơi sử dụng bộ dữ liệu văn bản BNC nhƣ đã giới thiệu trong phần 4.1.2. Số lƣợng những trƣờng hợp các từ “line”, “hard”, “serve”, “interest” xuất hiện trong BNC đƣợc thống kê trong bảng số liệu sau. Chƣơng 6: Kết quả thực nghiệm 34 Từ Số lƣợng Line 33392 Hard 23571 Serve 15313 Interest 35863 Bảng 5: Số lƣợng các từ “line”, “hard”, “serve”, “interest” trong BNC 6.2. Thí nghiệm 1 Mục đích thực hiện thí nghiệm là để trả lời hai câu hỏi:  Liệu dữ liệu đƣợc mở rộng bằng phƣơng pháp đã nêu cĩ đủ độ tin cậy để cĩ thể dùng để huấn luyện làm tăng độ chính xác cho các hàm phân lớp xử lý nhập nhằng nghĩa của từ hay khơng.  Liệu việc chuyển đổi về từ nguyên thể cĩ làm tăng độ chính xác cho quá trình xử lý nhập nhằng ngữ nghĩa, từ đĩ làm tăng độ chính xác của bộ dữ liệu đầu ra hay khơng. 6.2.1. Bố trí thí nghiệm  Với mỗi từ ta chia tỉ lệ số lƣợng các trƣờng hợp xuất hiện của từ trong file dữ liệu chuẩn thành tập huấn luyện và các tập kiểm tra theo các tỉ lệ khác nhau. Cụ thể tập huấn luyện cĩ tỉ lệ 0.3, tập kiểm tra thứ nhất cĩ tỉ lệ 0.1 và tập kiểm tra thứ hai cĩ tỉ lệ 0.6 so với tồn bộ tập dữ liệu chuẩn. Trong đĩ: o Tập huấn luyện đƣợc chọn ngẫu nhiên trong tập dữ liệu chuẩn nhƣng vẫn đảm bảo tỉ lệ giữa số lƣợng các trƣờng hợp mang các nghĩa khác nhau của từ nhƣ trong tập dữ liệu chuẩn và đảm bảo khơng cĩ trƣờng hợp xuất hiện của từ nào đƣợc chọn 2 lần. o Tập kiểm tra đƣợc chọn nhƣ với tập huấn luyện. Tuy nhiên, những trƣờng hợp của tập kiểm tra và tập huấn luyện đƣợc đảm bảo khơng trùng nhau.  Mỗi lƣợt thực nghiệm bao gồm 2 giai đoạn: o Giai đoạn 1: khơng chuyển các từ thuộc nhĩm từ đồng xuất hiện về từ nguyên thể o Giai đoạn 2: chuyển các từ thuộc nhĩm từ đồng xuất hiện về từ nguyên thể Chƣơng 6: Kết quả thực nghiệm 35  Mỗi giai đoạn lại bao gồm hai lần phân lớp nghĩa cho các trƣờng hợp trong tập kiểm tra và so sánh với nghĩa đã đƣợc xác định từ trƣớc của mỗi trƣờng hợp từ. Từ đĩ đƣa ra tỉ lệ phần trăm phân lớp nghĩa đúng. o Lần 1: Chỉ sử dụng tập huấn luyện đã đƣợc chọn từ tập dữ liệu chuẩn để phân lớp nghĩa cho các trƣờng hợp trong các tập kiểm tra. o Lần 2: Sử dụng phƣơng pháp đã nêu để mở rộng tập huấn luyện đã chọn và tiến hành huấn luyện trên tập mở rộng mới đĩ. Sau đĩ lại kiểm tra tỉ lệ phần trăm chính xác bằng các tập kiểm tra. 6.2.2. Kết quả thực nghiệm Với từng từ, ta cĩ các kết quả thực nghiệm nhƣ sau: Giai đoạn Lần Từ nguyên thể Huấn luyện mở rộng Số lần lặp Số trƣờng hợp đầu ra Train:test 0.3:0.1 Train:test 0.3:0.6 1 1 1 # 46.7% 46.5% 2 x 12 29108 68.6% 64.3% 2 1 x 1 # 46.2% 46.3% 2 x x 11 29335 63.7% 63.1% Bảng 6: Kết quả thí nghiệm 1 của từ “line” Giai đoạn Lần Từ nguyên thể Huấn luyện mở rộng Số lần lặp Số trƣờng hợp đầu ra Train:test 0.3:0.1 Train:test 0.3:0.6 1 1 1 # 76.6% 75.6% 2 x 8 23830 75.7% 73.7% 2 1 x 1 # 77.5% 78.2% 2 x x 8 23709 78.5% 76.5% Bảng 7: Kết quả thí nghiệm 1 của từ “hard” Chƣơng 6: Kết quả thực nghiệm 36 Giai đoạn Lần Từ nguyên thể Huấn luyện mở rộng Số lần lặp Số trƣờng hợp đầu ra Train:test 0.3:0.1 Train:test 0.3:0.6 1 1 1 # 70.9% 69.3% 2 x 7 15532 76.4% 76.5% 2 1 x 1 # 72.9% 70.2% 2 x x 7 15674 78.2% 76.8% Bảng 8: Kết quả thí nghiệm 1 của từ “serve” Giai đoạn Lần Từ nguyên thể Huấn luyện mở rộng Số lần lặp Số trƣờng hợp đầu ra Train:test 0.3:0.1 Train:test 0.3:0.6 1 1 1 # 3.83% 5.78% 2 x 11 33953 70.2% 71.4% 2 1 x 1 # 4.26% 5.15% 2 x x 13 34366 73.6% 74% Bảng 9: Kết quả thí nghiệm 1 của từ “interest” 6.2.3. Nhận xét 6.2.3.1. Hiệu quả của việc mở rộng bộ dữ liệu Từ kết quả thí nghiệm trên, ta thấy hầu hết các trƣờng hợp đều cho thấy mức độ chính xác trong xử lý nhập nhằng nghĩa của các từ đang cần gán nghĩa tăng lên rõ rệt. Đặc biệt đáng ngạc nhiên trong trƣờng hợp thí nghiệm với từ “interest”. Mức tăng từ 65.62% đến 69.34% thật sự đáng ấn tƣợng. Mức tăng rõ ràng trong hầu hết các thí nghiệm là một kết quả đáng mừng, tuy vậy, riêng với trƣờng hợp từ “hard” ta lại ghi nhận đƣợc sự sụt giảm độ chính xác phân lớp nghĩa của từ khi sử dụng bộ dữ liệu mở rộng so với khi chỉ dùng lƣợng nhỏ dữ liệu huấn luyện ban đầu để huấn luyện cho bộ phân lớp. Điều này đặt ra một giả thiết đĩ là nếu dữ liệu huấn luyện ban đầu cung cấp càng nhiều thơng tin cho phép phân lớp chính xác thì đồng thời vai trị của dữ liệu mở rộng từ bộ dữ liệu văn bản chƣa gán nghĩa của từ cĩ thể cũng càng sụt giảm. Đến một mức nào đĩ, việc sử dụng dữ liệu huấn luyện mở rộng sẽ Chƣơng 6: Kết quả thực nghiệm 37 khơng cịn cĩ ý nghĩa, thậm chí cịn làm giảm độ chính xác của kết quả phân lớp nghĩa (nhƣ trƣờng hợp của từ “hard”). Tuy vậy, để cĩ thể khẳng định đƣợc nhận định này, ta cần tiến hành thêm thí nghiệm để kiểm chứng. 6.2.3.2. Hiệu quả của việc chuyển từ trong nhĩm từ đồng xuất hiện về dạng nguyên thể Các thí nghiệm trên cho thấy một mức tăng về độ chính xác tuy khơng nhiều lắm khi ta áp dụng kỹ thuật chuyển từ trong nhĩm từ đồng xuất hiện về dạng nguyên thể. Mức tăng chỉ vào khoảng 2 đến 3 % và trong một số trƣờng hợp cịn ghi nhận mức giảm nhẹ độ chính xác phân lớp nghĩa (từ line bảng 6). Đây là một kết quả thấp hơn mong đợi về mặt lý thuyết (nhƣ đã trình bày ở phần 3.3.2). Tuy vậy, dù chỉ tăng nhẹ nhƣng cũng chứng tỏ đƣợc rằng chuyển từ về dạng nguyên thể cũng đã phần nào giảm bớt đƣợc nhiễu và cải thiện đƣợc độ chính xác của quá trình phân lớp. Điều này khơng phải khơng cĩ ý nghĩa gì mà thực tế khi ta phải phân lớp nghĩa cho một số lƣợng lớn các trƣờng hợp xuất hiện của từ (ít nhất là trên 15000 trƣờng hợp nhƣ trong thí nghiệm này) thì mức tăng độ chính xác thêm 2 đến 3 % theo tơi cũng rất giá trị. 6.3. Thí nghiệm 2 Từ hiện tƣợng sụt giảm độ chính xác phân lớp khi sử dụng dữ liệu huấn luyện mở rộng so với khi sử dụng một lƣợng dữ liệu huấn luyện ban đầu của từ “hard” trong thí nghiệm 1, tơi tiến hành thí nghiệm 2 nhằm trả lời câu hỏi liệu khi vai trị của dữ liệu gán nhãn ban đầu tăng lên thì vai trị của dữ liệu mở rộng thu đƣợc từ phƣơng pháp mở rộng bộ dữ liệu cĩ bị giảm đi hay khơng. 6.3.1. Bố trí thí nghiệm Tơi loại trừ hai từ “hard” và “interest” là hai từ cĩ kết quả quá đặc biệt ở thí nghiệm 1 (từ “hard” ngay từ khi sử dụng dữ liệu huấn luyện ban đầu đã cĩ xác suất phân lớp nghĩa cao, cịn từ “interest” ngƣợc lại lại cĩ kết quả phân lớp nghĩa ban đầu quá thấp so với khi dùng dữ liệu mở rộng). Nhƣ vậy, chỉ cĩ hai từ “line” và “serve” đƣợc thử nghiệm trong thí nghiệm này. Để tăng dần vai trị của dữ liệu huấn luyện ban đầu, tơi tiến hành thí nghiệm tăng dần mức tỉ lệ số trƣờng hợp xuất hiện của từ trong tập huấn luyện so với tổng số các trƣờng hợp xuất hiện của từ trong bộ dữ liệu chuẩn đã gán nghĩa. Cụ thể các mức tăng là 0.1, 0.3, 0.5, 0.7 và 0.9. Đồng thời tơi giữ tỉ lệ số lƣợng các trƣờng hợp trong tập kiểm tra so với tổng số lƣợng các trƣờng hợp trong dữ liệu chuẩn cố định ở mức 0.1. Chƣơng 6: Kết quả thực nghiệm 38 Các tập huấn luyện và kiểm tra vẫn đƣợc chọn theo các tiêu chuẩn của thí nghiệm 1 tức là ngẫu nhiên, khơng cĩ trƣờng hợp cùng xuất hiện trong tập huấn luyện và tập kiểm tra và giữ đúng tỉ lệ giữa số lƣợng các trƣờng hợp mang các nghĩa của từ trong các tập huấn luyện và kiểm tra nhƣ trong tập dữ liệu chuẩn. 6.3.2. Kết quả thực nghiệm Kết quả thực nghiệm trong thí nghiệm 2 với hai từ “line” và “serve” đƣợc thể hiện trong 2 bảng sau: Tỉ lệ train:test Dữ liệu huấn luyện ban đầu Dữ liệu huấn luyện mở rộng Mức độ cải thiện độ chính xác 0.1:0.1 35.5% 49.4% 13.9% 0.3:0.1 47.4% 60.3% 12.9% 0.5:0.1 54.3% 68.4% 14.1% 0.7:0.1 57.4% 68.6% 11.2% 0.9:0.1 61.8% 69.8% 8% Bảng 10: Kết quả thí nghiệm 2 của từ “line” Tỉ lệ train:test Dữ liệu huấn luyện ban đầu Dữ liệu huấn luyện mở rộng Mức độ cải thiện độ chính xác 0.1:0.1 56.2% 69.5% 13.3% 0.3:0.1 66.7% 79.6% 12.9% 0.5:0.1 73.2% 79.1% 5.9% 0.7:0.1 74.3% 81.2% 6.9% 0.9:0.1 77.3% 82.3% 5% Bảng 11: Kết quả thí nghiệm 2 của từ “serve” 6.3.3. Nhận xét Từ các kết quả thí nghiệm trên, ta thấy rằng mức độ cải thiện độ chính xác phân lớp nghĩa của từ nhờ vào bộ dữ liệu mở rộng luơn cao nhất khi tập huấn luyện ban đầu cĩ số lƣợng trƣờng hợp xuất hiện của từ ít (tỉ lệ so với tồn bộ tập dữ liệu chuẩn là 0.1, 0.3, 0.5) Chƣơng 6: Kết quả thực nghiệm 39 và luơn thấp nhất khi tập huấn luyện ban đầu cĩ số lƣợng trƣờng hợp xuất hiện của từ là cao nhất (tỉ lệ 0.9). Nhƣ vậy ta cĩ thể kết luận rằng vai trị của bộ dữ liệu mở rộng dựa vào bộ dữ liệu văn bản chƣa gán nghĩa sẽ giảm đi khi lƣợng thơng tin cần thiết cho phân lớp nghĩa của từ trong dữ liệu huấn luyện ban đầu tăng lên. Chƣơng 7: Kết luận 40 Chƣơng 7: Kết luận 7.1. Các kết quả đạt đƣợc và hạn chế Qua quá trình nghiên cứu về phƣơng pháp mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ, nhận thấy đƣợc tầm quan trọng của việc xây dựng một cơng cụ hỗ trợ con ngƣời trong quá trình tạo nên các bộ dữ liệu lớn với cơng sức và thời gian bỏ ra là nhỏ nhất mà vẫn đạt đƣợc kết quả là một bộ dữ liệu tƣơng đối chính xác, việc nghiên cứu và xây dựng một bộ cơng cụ mở rộng bộ dữ liệu nghĩa của từ đã đƣợc tiến hành. Bộ cơng cụ tuy mới ở dạng sơ khai nhƣng đã chứng minh đƣợc rằng phƣơng pháp mở rộng tự động một bộ dữ liệu là cĩ cơ sở lý luận và thực tiễn. Từ đĩ gĩp phần thúc đẩy việc xây dựng một bộ cơng cụ hồn chỉnh trong tƣơng lai. Với vai trị của một bộ cơng cụ dành cho những nghiên cứu, khảo sát về phƣơng pháp mở rộng bộ dữ liệu. Bộ cơng cụ đã làm khá tốt nhiệm vụ của nĩ trong việc minh họa và chứng minh các kết quả bƣớc đầu của phƣơng pháp. Bộ cơng cụ cũng đã giúp phát hiện ra tiềm năng ứng dụng quá trình chuyển đổi về dạng từ nguyên thể vào bài tốn mở rộng bộ dữ liệu cũng nhƣ trong các bài tốn xử lý nhập nhằng nghĩa của từ. Tuy vậy, khơng thể phủ định rằng nghiên cứu về đề tài mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ vẫn cĩ những hạn chế. Hạn chế đầu tiên là về việc mới chỉ ứng dụng đƣợc bộ phân lớp Nạve Bayes vào trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng. Nạve Bayes là một bộ phân lớp tốt nhƣng nĩ cĩ thể khơng mạnh bằng một số bộ phân lớp khác ví dụ nhƣ Maximum Entropy, bằng chứng là trong nghiên cứu một số trƣờng hợp tỉ lệ phân lớp chính xác của nĩ là khơng cao dù đã đƣợc hỗ trợ bởi phƣơng pháp mở rộng bộ dữ liệu. Một yếu tố khác ảnh hƣởng tới độ chính xác của Naive Bayes (và do đo của cả hệ thống mở rộng dữ liệu huấn luyện) đĩ là việc chọn lựa các thuộc tính cịn ở mức đơn giản. Điều này dù là do khơng muốn tập trung quá vào vấn đề chọn lựa thuộc tính, vốn khơng phải vấn đề trọng tâm của đề tài nhƣng đây cũng thực sự là một hạn chế khơng thể bỏ qua. Chính những yếu tố này đã ảnh hƣởng tới độ chính xác của bộ dữ liệu đầu ra. Chƣơng 7: Kết luận 41 Một hạn chế nữa của khĩa luận này là chƣa nghiên cứu đƣợc phƣơng pháp cho phép tự động chọn ngƣỡng xác suất của một văn bản cũng nhƣ của cả bộ dữ liệu văn bản. Một quan sát thƣờng thấy trong thời gian đề tài khĩa luận này đƣợc nghiên cứu đĩ là tùy vào từng từ khác nhau, nếu chọn ngƣỡng thích hợp thì xác suất phân lớp nghĩa lên rất cao và ngƣợc lại. Tuy nhiên nếu chỉ thay đổi bằng cách nhập vào cố định từ đầu thì miền và số lần khảo sát đƣợc khơng cao. Do đĩ trong thí nghiệm tơi chỉ cố định các ngƣỡng tại các giá trị cho kết quả tƣơng đối cao với tất cả các từ thí nghiệm, cụ thể là: dừng vịng lặp khi mức thay đổi về số lƣợng các trƣờng hợp trong bộ dữ liệu đầu ra nhỏ hơn 50; các xác suất nhỏ hơn 0.7 lần xác suất lớn nhất của văn bản maxProbFile sẽ bị gán nghĩa bằng nghĩa của trƣờng hợp cĩ xác suất lớn nhất; và ngƣỡng loại bỏ các trƣờng hợp là nhỏ hơn 0.7 lần xác suất lớn nhất của tồn bộ bộ dữ liệu. Kết quả của đề tài khĩa luận tuy cịn những hạn chế nhất định nhƣ đã trình bày ở trên nhƣng nĩ cũng cĩ ý nghĩa nhƣ một bƣớc kiểm chứng đầu tiên trên con đƣờng xây dựng một cơng cụ mở rộng dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ hồn chỉnh. Hơn thế nữa, qua quá trình nghiên cứu đề tài khĩa luận này, tơi đã đƣợc va chạm, nghiên cứu một vấn đề cụ thể trong thực tế và đã đúc rút đƣợc nhiều kinh nghiệm quý báu, làm nền tảng cho tơi trong cơng tác và nghiên cứu sau này. 7.2. Các cơng việc trong tƣơng lai Tơi dự định tiếp tục nghiên cứu sâu hơn và hồn thiện thêm đề tài khĩa luận này, đặc biệt là trong việc khắc phục những hạn chế nhƣ đã nêu ở phần trên. Cụ thể tơi sẽ tiếp tục nghiên cứu cách thức áp dụng các bộ phân lớp khác vào phƣơng pháp mở rộng bộ dữ liệu cho xử lý nhập nhằng nghĩa của từ, và nghiên cứu sâu hơn về cách thức lựa chọn thuộc tính cho các bài tốn xử lý nhập nhằng nghĩa của từ nĩi chung và của phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa nĩi riêng. Ngồi ra, tơi cũng muốn nghiên cứu cụ thể về cách thức chọn ngƣỡng tự động một cách hiệu quả cho bài tốn này. Tơi hy vọng trong một tƣơng lai khơng xa nữa tơi cĩ thể hồn thiện và đƣa vào sử dụng thực tế một bộ cơng cụ mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ, gĩp phần nhỏ thúc đẩy thêm sự phát triển của các vấn đề khác trong xử lý ngơn ngữ tự nhiên mà đặc biệt là bài tốn dịch máy tự động và từ đĩ, đƣợc đĩng gĩp cơng sức nhỏ bé của mình để xĩa bỏ một phần nào rào cản ngơn ngữ giữa ngƣời dân các nƣớc trên thế giới nĩi chung và giữa ngƣời dân Việt Nam với thế giới nĩi riêng. Chƣơng 7: Kết luận 42 Tài liệu tham khảo [1] Agirre, Eneko; Edmonds, Philip; Word Sense Disambiguation: Algorithms and Applications; Springer, 2006. [2] Bird, Steven; Klein, Ewan; Loper, Edward; Natural Language Processing with Python; O‟Reilly Media, 2009. [3] Duda, Richar O; Hart, Peter E; Stork, David G; Pattern Classifiation Second Edition; Wiley. [4] Gale, William A; Church, Kenneth W; Yakowsky, David; One Sense Per Discourse; AT&T Bell Laboratories, 1992. [5] Jurafsy, Daniel; Martin, James H; Speech and Language Processing; Draft of June 25, 2007. [6] Yakowsky, David; One Sense Per Collocation; Department of Computer and Information Science, University of Pennsylvania, 1993. [7] Yakowsky, David; Unsupervised Word Sense Disambiguation Rivaling Supervised Methods; Department of Computer and Information Science, University of Pennsylvania. [8] http:// [9] _and_knowledge-based_methods [10]

Các file đính kèm theo tài liệu này:

LUẬN VĂN-MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ.pdf