Luận văn Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt

TÓM TẮT Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ. Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Việc áp dụng vào canh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểm của ngôn ngữ tiếng Việt. Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuật canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật Longest Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm các cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản. Ngoài ra, chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn. Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cách hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt. MỤC LỤC Phần 1 1 Giới thiệu 1 1.1 Bối cảnh thực hiện luận văn 1 1.2 Thực trạng – Vấn đề 1 1.3 Hướng giải quyết vấn đề 2 1.4 Mục tiêu của luận văn 2 1.5 Đóng góp của luận văn 2 1.6 Hướng phát triển 5 1.7 Cấu trúc của luận văn 5 Phần 2 7 Các công trình nghiên cứu liên quan 7 2.1 Phương pháp canh lề văn bản dựa vào chiều dài câu 7 2.1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]: 8 2.1.2 Phương pháp của Peter F.Brown [17]: 9 2.2 Phương pháp canh lề dựa vào từ vựng 10 2.2.1 Phương pháp của Michel Simard, George F. Foster, P. Isabelle [15]: 10 2.2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]: 11 2.2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]: 12 2.2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13 2.2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes, Joao Mexia:[8] 14 2.2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 16 2.3 Kết hợp các phương pháp 16 2.3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16 2.3.2 Phương pháp của Stanley F.Chen:[14] 17 2.3.3 Phương pháp SIMR và GSA, tác giả I. Dan Melamed: [10] 18 2.4 Nghiên cứu của các tác giả trong nước 20 2.4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004): 20 2.4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: 21 Phần 3 22 Cơ sở lý thuyết 22 3.1 Các định nghĩa 22 3.1.1 Phép canh lề: 22 3.1.2 Phép canh lề chéo. 23 3.2 Đánh giá mức độ chính xác của phép canh lề. 24 3.3 Hệ số Dice (D) 24 3.4 Xác suất có điều kiện: 24 3.5 Phân tích hồi qui tuyến tính: 25 Phần 4 28 Phân tích giải thuật 28 4.1 Giải thuật Stemming: 28 4.2 Giải thuật phân đoạn câu: 32 4.3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34 4.3.1 Khung lập trình động (A Dynamic Programming Framework): 34 4.3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37 4.4 Phương pháp canh lề sử CBA [8]: 37 4.5 Phương pháp canh lề sử dụng LSSA [1]: 40 4.6 So sánh phương pháp LSSA với CBA: 41 4.7 Những khó khăn gặp phải khi áp dụng SIRM và GSA [10] 46 4.8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50 Phần 5 52 Hiện thực 52 5.1 Stemming: Dùng giải thuật Porter. 54 5.2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: 55 5.3 Phân đoạn câu: 57 5.4 Canh lề câu theo chiều dài câu: 58 5.5 Kiểm tra tính hợp lệ của phép canh lề 62 5.6 Canh lề chéo: 65 5.7 Canh lề từ: 66 5.8 Phân loại văn bản: 68 Phần 6 69 Kết quả thực nghiệm 69 6.1 Giới thiệu chương trình: 69 6.2 Kết quả sau bước canh lề câu (Bước 1): 70 6.3 Kết quả sau bước canh lề chéo (Bước 2): 75 6.4 Kết quả canh lề từ: 76 6.5 Các chức năng khác: 80 6.5.1 Lưu kết quả canh lề: 80 6.5.2 Mở lại một qui trình canh lề: 80 6.5.3 Chạy từng bước giải thuật: 80 Phần 7 81 Kết luận 81 7.1 Tổng kết: 81 7.2 Hướng mở rộng và phát triển đề tài: 83 7.2.1 Hoàn chỉnh luận văn: 83 7.2.2 Phát triển theo hướng nghiên cứu: 83 7.2.3 Phát triển theo hướng ứng dụng: 83 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT 85 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87 TÀI LIỆU THAM KHẢO 89 PHỤ LỤC

doc101 trang | Chia sẻ: lvcdongnoi | Lượt xem: 3542 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ng của đoạn j tương ứng với khoảng trống theo trục đứng trong bản đồ ánh xạ. Đề xuất hướng giải quyết của tác giả ở đây là tìm kiếm lại một lần nữa ở những đoạn lớn mà nó không tìm thấy điểm tương ứng. Sau khi nhận dạng ra được chuỗi những điểm mới, chúng ta phải tiến hành cập nhật bảng đồ ánh xạ và thực hiện một số thao tác khác. Vấn đề 2: Sự biến đổi độ nghiêng cục bộ Khái niệm góc lệch lớn nhất (maximum angle deviation threshold) xuất hiện nhằm loại bỏ những chuỗi không thật. Giá trị này phải nhỏ. Tuy nhiên, như các quyết định cảm tính (heuristic) khác, nó có thể từ chối một số các điểm canh lề tốt. Hình 414. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM. Chuỗi X là một chuỗi hợp lệ, mặc dù góc nghiêng của nó lớn hơn góc nghiêng cực đại cho phép. Những chuỗi có giá trị mà bị từ chối vì giá trị thông số này đôi khi lại được chấp nhận thành hai chuỗi tách rời. Nếu chuỗi C, và D được chấp nhận một cách hợp lệ thì góc nghiêng của bản đồ ánh xạ giữa điểm cuối của chuỗi C và điểm đầu của chuỗi D, thì gần hơn là góc nghiêng của đường chéo chính. Chuỗi X nên được chấp nhận. Nó cũng sẽ được phát hiện trong quá trình tìm kiếm lần thứ 2. Một trường hợp khác xảy ra biến đổi độ nghiêng cục bộ là đoạn văn bản “non-linguistic” như khoảng trắng hay bảng số liệu. Thông thường, những đoạn văn bản như vậy có nội dung hoàn toàn giống nhau trong dịch thuật, nên trong không gian văn bản, độ dốc bằng 1. Nếu như đoạn văn bản loại này đủ lớn nó sẽ kéo lệch độ nghiêng của đường chéo chính. Điều này sẽ đánh lừa SIRM trong quá trình tìm kiếm trên toàn bộ văn bản để tìm ra chuỗi các điểm tương ứng, chuỗi này sẽ có độ nghiêng gần với 1 hơn, trong khi những đoạn văn bản bình thường khác lân cận với nó có độ nghiêng hoàn toàn khác. Vấn đề 3: Sự mất phương hướng của giải thuật tham lam (greedy algorithm) Vấn đề xảy ra khi giải thuật tham lam đi lệch hướng. Nó sẽ không thể quay trở lại đúng hướng. Không có gì chắc chắn SIRM sẽ không mắc phải, khi nó gặp những trường hợp khó quyết định (ví dụ: quyết định chọn ra một trong các chuỗi tìm thấy). Sử dụng một số quyết định cảm tính (heuristics) như: độ lệch cực đại cho phép, chiều dài tối đa của chuỗi (từ 6-7 điểm tương ứng), SIRM hi vọng sẽ tránh được những hạn chế này. Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): Trên cơ sở nghiên cứu và vận dụng các nghiên cứu trước đây, phần này trình bày tóm tắt qui trình canh lề mới, kế thừa và cải tiến những công trình đã hiện thực. Quá trình canh lề bao gồm các giai đoạn: Tách từ (token). Phân đoạn từ: xác định từ ghép tiếng Việt và cụm từ tiếng Anh (dùng từ điển). Cắt lấy gốc từ tiếng Anh (stemming dùng giải thuật Porter). Phân đoạn câu (dùng mô hình trực tiếp). Canh lề theo chiều dài câu (dùng lập trình động). Phát hiện canh lề chéo. Tạo điểm tương ứng (dùng từ điển). Canh lề từ (dùng LSSA). Để phát hiện phép canh lề chéo, chương trình tính toán độ tương tự của các cặp câu đã được canh lề. Độ tương tự được tính dựa trên số lượng các cặp từ giống nhau xuất hiện trong câu. Nếu kết quả chưa tốt, một tổ hợp canh lề mới đươc tạo ra từ các cặp câu có độ tương tự thấp, và các câu này được canh lề lại. Giới hạn của luận văn là phát hiện canh lề chéo giữa các câu trong cùng một đoạn. Việc mở rộng canh lề chéo cho toàn văn bản có thể thực hiện được nhưng độ phức tạp của giải thuật rất cao. Các cặp từ giống nhau được xác định dùng vị từ so trùng. Hai từ giống nhau có thể là do có cùng nguồn gốc, là từ viết tắt, danh từ riêng,… hoặc có nghĩa giống nhau trong từ điển. Mức độ giống nhau của hai từ là cơ sở để giải quyết một số nhằng khi tạo điểm tương ứng, cũng là cơ sở để tính độ tương tự giữa hai câu. Giải thuật LSSA sinh ra một tập hợp các điểm canh lề, phép canh lề này mịn hơn phép canh lề câu, gọi là canh lề từ. Ngoài ra, chương trình cũng phát hiện các cụm từ canh lề chéo trong câu. Để phát huy điểm mạnh của các giải thuật có dựa vào xác suất thống kê, chương trình phân loại văn bản song ngữ theo lĩnh vực bằng tay. Sau kết quả canh lề, chương trình lưu lại tất cả các dữ liệu theo từng lĩnh vực (văn bản song ngữ, đoạn, câu, từ) để phục vụ cho thống kê sau này. Ngoài ra, cũng nên xây dựng từ điển chuyên ngành (theo lĩnh vực), từ điển các từ cần loại bỏ (những từ thường hay xuất hiện trong văn bản và không có giá trị canh lề - stopwords theo từng lĩnh vực (phần này chưa thực hiện). Trong các giải thuật trên một số giải thuật sử dụng các thông số chọn lựa dựa vào phương pháp thống kê xác suất. Ví dụ như: thống kê để xác định tỉ lệ chiều dài trung bình của tiếng Anh và tiếng Việt; xác suất canh lề của các phép canh lề 1-0, 1-1, 2-1, 2-2,…; thống kê số điểm trung bình được canh lề trong câu theo chiều dài,… Để thực hiện điều này, quá trình “trainning” diễn ra. Chương trình sử dụng số liệu thống kê mà các nghiên cứu trước đó đưa ra, để tính toán các thông số hệ thống và chạy giải thuật. Các thông số này có thể chưa phù hợp với canh lề Anh-Việt, tuy nhiên kết quả cũng chấp nhận được. Từ kết quả đầu ra của chương trình, áp dụng vào các công thức tính toán, chúng ta sẽ có được những thông số phù hợp. Các cách tính toán sẽ được giới thiệu trong phần tiếp theo (phần hiện thực). Hiện thực Phần trước đã trình bày chi tiết các giải thật sẽ sử dụng trong luận văn, cũng như một vài so sánh với các giải thuật khác để đưa đến quyết định chọn lựa phương pháp. Phần này trình bày chi tiết cách hiện thực các giải thuật trong chương trình. Chương trình được xây dựng trên: Ngôn ngữ lập trình: Microsoft Visual C#. Cơ sở dữ liệu: Microsoft SQL Server 2000 Văn bản tiếng Việt (VB TV) Văn bản tiếng Anh (VB TA) Phân tích từ Cắt lấy gốc-Porter Xác định cụm từ Phân tích từ Xác định từ ghép tiếng Việt Phân đoạn câu văn bản TA Phân đoạn câu Văn bản TV Canh lề theo chiều dài câu Kiểm tra độ tương tự các cặp câu đã canh lề Canh lề chéo. Canh lề từ dùng LSS Kho dữ liệu chứa các cặp câu canh lề Từ điển song ngữ Từ điển từ ghép TV Từ điển cụm từ TA Danh sách stopword Danh sách từ viết tắt Văn bản song ngữ  Văn bản đã canh lề  Bước 1 Bước 2 Hình 51 Sơ đồ khối cho quá trình canh lề. Stemming: Dùng giải thuật Porter. Một nội dung có thể được thể hiện dưới nhiều hình thức khác nhau. Ví dụ thay vì dùng danh từ, chúng ta có thể dùng động từ để thay thế. Để quá trình canh lề từ hoạt động tốt hơn, việc lấy gốc một từ tiếng Anh là một giải pháp tốt. Hiện thực stemming: Đầu vào: Một từ tiếng Anh. Đầu ra: Một gốc từ tiếng Anh Phương pháp: Chạy 5 giai đoạn trong giải thuật Porter (trình bày trong mục 4.1, phần phân tích giải thuật). Lớp hiện thực: Stemming Ví dụ: stemming(“Alignments”) à Align Để giai đoạn tạo điểm tương ứng thực thi nhanh hơn, từ điển song ngữ Anh Việt cũng được bổ sung thêm gốc của từ tiếng Anh. Từ điển song ngữ Anh-Việt khoảng 5500 từ có cấu trúc như sau (bảng tblEVDictionary): Hình 52. Cấu trúc CSDL từ điển song ngữ Anh-Việt [Elglish]: từ tiếng Anh [Vietnamese]: nghĩa tiếng Việt. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;) [Stemming]: gốc từ tiếng Anh, có được sau khi chạy giải thuật Stemming [Reference]: liên kết nghĩa với từ tiếng Anh khác (thường là gốc của từ đó). [StemmingReference]: gốc của từ được liên kết nghĩa. Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: Để có thể xác định được từ ghép tiếng Việt, chương trình sử dụng một từ điển từ ghép tiếng Việt. Từ điển này được lọc ra một cách tự động trong từ điển song ngữ Anh Việt. Cấu trúc từ điển từ ghép tiếng Việt như sau: Hình 53. Từ điển từ ghép tiếng Việt [Vietnamese]: từ ghép tiếng Việt. [English]: nghĩa tiếng Anh. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;). [Count]: chiều dài từ ghép. Tương tự như vậy, nhưng danh sách các cụm từ tiếng Anh được lọc ra từ Lạc Việt từ điển và nhập vào cơ sở dữ liệu của hệ thống. Hình 54. Từ điển cụm từ tiếng Anh [English]: cụm từ tiếng Anh. [Vietnamese]: nghĩa tiếng Việt. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;). [Count]: chiều dài cụm từ. Xác định từ ghép tiếng Việt và cụm từ tiếng Anh được thực hiện bằng phương pháp đơn giản là xác định từ ghép dài nhất có thể có trong văn bản, xét từ đầu đến cuối văn bản. Hiện thực phân đoạn từ: Đầu vào: (1)Danh sách từ đã được tách từ văn bản, (2)từ điển từ ghép tiếng Việt và (3)cụm từ tiếng Anh. Đầu ra: Danh sách các từ ghép tiếng Việt và cụm từ tiếng Anh xuất hiện trong văn bản. Phương pháp: Đọc một từ trong văn bản. Dựa vào từ điển, tìm từ ghép dài nhất bắt đầu bằng từ này, giả sử có chiều dài l. Nếu không có, nó là từ đơn. Nếu có, đọc tiếp l-1 từ tiếp theo. Nếu không so trùng đúng với từ ghép dài nhất, giảm dần chiều dài của chuỗi văn bản để xác định từ ghép có tồn tại trong từ điển. Phân đoạn câu: Như đã trình bày trong mục 4.2, để xác định chính xác các ký hiệu kết thúc câu, giải thuật xét những qui tắc sau: Kết thúc bằng dấu “enter” xuống dòng. Kết thúc bằng dấu chấm thang (!), dấu chấm hỏi (?). Kết thúc bằng dấu chấm (.), trừ những trường hợp ngoại lệ: Dấu chấm trong từ viết tắt (lưu trong từ điển). Dấu chấm xuất hiện trong một chuỗi liên tục có chứa nhiều hơn một dấu chấm. Ví dụ: “Abc.Cdef”. (cả 2 dấu chấm này đều không phải là ký hiệu kết thúc câu). Dấu chấm xuất hiện ngay sau từ chỉ có một chữ cái. Ví dụ: P. Laran Dấu chấm trong dấu ba chấm (…) mà sau nó không phải là một từ viết hoa. Dấu chấm trong địa chỉ email, địa chỉ website. Dấu chấm trong các con số. Để hiện thực phân đoạn câu hiệu quả, chương trình có thu thập danh sách các từ viết tắt trong tiếng Anh. Mục đích là loại trừ những nhập nhằng khi xác định dấu hiệu kết thúc câu. Danh sách này được lưu trong CSDL, bảng tblAbbreviation. Hình 55. Danh sách từ viết tắt trong tiếng Anh Tuy nhiên vẫn không thể giải quyết hết những trường hợp ngoại lệ như đã giới thiệu trong phần trước. Thật may mắn là kết quả canh lề không bị ảnh hưởng nhiều bởi một vài trường hợp phân đoạn câu sai. Bởi vì giải thuật canh lề có thể sẽ ghép 2 câu bị phân cách sai thành một block trong canh lề 2-1 (hoặc 1-2). Hiện thực giải thuật phân đoạn câu: Đầu vào: Văn bản đã được tách từ và nhận dạng từ ghép, cụm từ; danh sách các từ viết tắt. Đầu ra: Danh sách các câu, chiều dài mỗi câu tính theo từ. Phương pháp: (1)Kiểm tra tất cả các dấu hiệu kết thúc câu và xác định vị trí ngắt câu. (2)Tính chiều dài câu theo số lượng từ. Lớp hiện thực: Sentence Canh lề câu theo chiều dài câu: Để hiện thực giải thuật này, trước tiên, cần tính toán các giá trị trung bình c và độ lệch s. Công thức tính giá trị này cần một số thống kê trên các văn bản song ngữ Anh-Việt. Luận văn này có sử dụng lại một số kết quả thống kê của tác giả Trần Giang Sơn [4], trong đó một số giá trị thống kê đã được kiểm tra đối chiếu lại sau khi chạy chương trình và được điều chỉnh lại cho phù hợp hơn ở những lần chạy sau. Hiện thực giải thuật canh lề theo chiều dài câu: Đầu vào: Danh sách các câu đã được phân đoạn và tính chiều dài câu. Đầu ra: Danh sách các khối (block) được canh lề. Lớp hiện thực: SentenceAlignment Phương pháp: Dùng phương pháp lập trình động để tính khoảng cách (chi phí) nhỏ nhất cho phép canh lề tốt nhất. Phương pháp lập trình động đã được trình bày trong mục 4.3. Giá trị trung bình c, độ lệch chuẩn và xác suất của các phép canh lề được tính như sau: Tính giá trị trung bình c: Giá trị trung bình c là tỷ lệ trung bình một từ tiếng Anh được dịch thành c từ tiếng Việt. Kết quả thống kê của tác giả Trần Giang Sơn qua việc tiến hành thống kê đối với từ điển Việt-Anh loại nhỏ với 14650 từ đã được tỷ lệ phần trăm của các từ tiếng Anh được dịch ra một, hai, ba, bốn từ tiếng Việt (một từ tiếng Anh được dịch thành 2 từ tiếng Việt chiếm tỷ lệ cao nhất): Loại từ Số lượng Phần trăm 1 từ (từ đơn) 1558 10.6 % 2 từ (từ ghép đôi) 8208 56.0 % 3 từ (từ ghép ba) 3154 21.5 % 4 từ (từ ghép bốn) 1256 7.0 % Bảng 51. Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn. Để có được giá trị trung bình c, tức là tỷ lệ số lượng từ trong tiếng Việt so với tiếng Anh, tác giả này đã tiến hành thống kê các văn bản song ngữ: Số lượng từ trong văn bản tiếng Việt Số lượng từ trong văn bản tiếng Anh Tỷ lệ 1313 905 1.4508 3739 2415 1.5482 6964 4174 1.6684 2480 1704 1.4554 3364 2026 1.6604 10113 6291 1.6075 8920 5586 1.5968 3897 2723 1.4311 10538 6427 1.6396 3131 2081 1.5045 2295 1500 1.5300 Bảng 52. Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh Kết quả là giá trị trung bình c=1.55. Điều này có nghĩa là một từ tiếng Anh trung bình được dịch thành 1.55 từ tiếng Việt. Tính độ lệch chuẩn: i : thứ tự các cặp câu n: tổng số cặp câu le : chiều dài của câu tiếng Anh lv : chiều dài của câu tiếng Việt si = lei * c – lvi (trong đó c=1.55 là giá trị trung bình được tính ở trên) : bình phương độ lệch Để có được các cặp câu Anh-Việt, tác giả này dùng phương pháp canh lề thủ công để canh lề một số văn bản song ngữ với tổng cộng 2000 cặp câu. Sau khi tính toán, s2 = 35.62. Hình 56. Tương quan chiều dài câu Anh-Việt Tính xác suất của các phép canh lề: Để tính được xác suất của các phép canh lề, tác giả này lại sử dụng kết quả thống kê của tác giả Gale [16] như sau: Phép canh lề Tần suất Xác suất 1-1 1167 0.89 1-0 hoặc 0-1 13 0.0099 2-1 hoặc 1-2 117 0.089 2-2 15 0.011 Tổng cộng 1312 1.00 Bảng 53. Xác suất của các phép canh lề theo [16] Trong luận văn, số liệu trên được sử dụng để chạy chương trình canh lề lần đầu, sau đó, tiến hành kiểm tra và thống kê lại các số liệu trên cho phù hợp với canh lề song ngữ Anh-Viêt, kết quả như sau: Phép canh lề Tần suất Xác suất 1-1 3910 0.979949875 1-0 hoặc 0-1 7 0.001754386 2-1 hoặc 1-2 68 0.017042607 2-2 5 0.001253133 Tổng cộng 3990 1.00 Bảng 54. Xác suất của các phép canh lề Anh-Việt Vì các phép canh lề (3-1) và (1-3) rất hiếm khi gặp, cho nên giải thuật bỏ qua hai phép canh lề trên. Kết quả phép canh lề câu được lưu trữ trên CSDL như sau (bảng tblSentenceAlignment): Hình 57. Kết quả canh lề câu theo chiều dài câu [x1]: thứ tự câu tiếng Anh [x2]: thứ tự câu tiếng Anh 2 (nếu block gồm 2 câu tiếng Anh) [x1]: thứ tự câu tiếng Việt [x1]: thứ tự câu tiếng Việt 2 (nếu block canh lề gồm 2 câu tiếng Việt) Nếu không có câu tương ứng, giá trị là –1. [xlen]: chiều dài 1 câu tiếng Anh (2 câu nếu block canh lề 2 câu) [xlen]: chiều dài 1 câu tiếng Việt (2 câu nếu block canh lề 2 câu) [EN]: nội dung câu tiếng Anh [VN]: nội duung câu tiếng Việt [xNo]: số lượng câu tiếng Anh trong block canh lề [yNo]: số lượng câu tiếng Việt trong block canh lề [d]: khoảng cách của phép canh lề trong giải thuật lập trình động [xparagraph]: thứ tự đoạn mà câu tiếng Anh thuộc về [yparagraph]: thứ tự đoạn mà câu tiếng Việt thuộc về Kiểm tra tính hợp lệ của phép canh lề Mỗi khối văn bản có được từ phép canh lề theo chiều dài câu sẽ được kiểm tra tính hợp lệ. Để thực hiện điều này, quá trình này phải tạo ra được tập hợp tất cả các cặp từ tương ứng trong khối (block). Mỗi cặp từ tương ứng sẽ được biểu diễn bằng một điểm trong không gian của văn bản song ngữ. Do đó, quá trình này được gọi là quá trình tạo điểm. Ä Hiện thực giai đoạn tạo điểm: Đầu vào: Danh sách các từ, từ điển song ngữ Anh Việt, danh sách stopwords Đầu ra: Tập hợp các điểm tương ứng thật sự (true correspondence point), kèm theo trọng số của nó Lớp hiện thực: PointsRecognize Phương pháp: (1)loại bỏ stopwords, (2)với mỗi cặp từ bất kỳ tính mức độ giống nhau và đánh trọng số cho nó. Ngoài ra, nếu nó không phải là điểm tương ứng, cần ghi chú lại: (i)không xuất hiện trong từ điển, (ii)có trong từ điển nhưng không phải là từ dịch của nhau. Một điểm tương ứng được nhận dạng bằng các đặc điểm sau: Loại điểm Trọng số Hai từ có cách viết giống nhau (cognate), bao gồm: từ vay mượn, danh từ riêng, từ viết tắt, địa chỉ email, website, con số, ký hiệu đặc biệt, … 1.5 Hai từ dịch của nhau (từ tiếng Anh được xét nguyên từ)/Hai cụm từ 1.2 Hai từ dịch của nhau (từ tiếng Anh đã được stemming) 1 Hai từ dịch của nhau nhưng không giống hoàn toàn theo từ điển % giống theo chiều dài Bảng 55. Đánh giá trọng số các điểm tương ứng Các trọng số này có thể điều chỉnh cho phù hợp và nâng cao hiệu quả của chương trình. Nó được lưu trữ trên CSDL, bảng tblWeight Như vậy, mỗi điểm được gán trọng số tùy thuộc vào mức độ tin cậy của nó. Độ chính xác của giai đoạn này phụ thuộc rất lớn vào số lượng và chất lượng của từ điển. Kho dữ liệu ban đầu gồm từ điển Anh Việt (5.500 từ), từ điển từ ghép tiếng Việt (13.100 từ), từ điển cụm từ tiếng Anh (10.400 từ). Ngoài ra, phần này có thu thập một từ điển Anh-Việt 100.000 từ. Tuy nhiên, khi sử dụng từ điển này để canh lề, tốc độ giải thuật chậm hơn rất nhiều, nhưng không tăng hiệu quả canh lề. Để những điểm tìm thấy không phải là sự tương ứng ngẫu nhiên, giải thuật sẽ loại bỏ stopwords, những từ mà tần suất xuất hiện cao trong văn bản, nhưng không mang nghĩa trong câu, hay nói cách khác, nó không có giá trị canh lề. Những từ này nếu không được loại đi sẽ gây khó khăn trong quá trình nhận dạng chuỗi (tạo nên những điểm nhiễu, những điểm canh lề giả). Stopwords được nhận dạng bằng danh sách stopwords lưu trong cơ sở dữ liệu (bảng tblStopwords). Hình 58. Danh sách Stopwords ÄTính độ tương tự: Cho hai đoạn văn bản thuộc 2 ngôn ngữ khác nhau, chúng ta tính được độ tương tự giữa chúng sử dụng công thức: g = 2c/(n+m) với m,n: số từ trong mỗi đoạn, c: tổng số điểm tương ứng. Trong luận văn, để chất lượng từ điển Anh – Việt ảnh hưởng ít nhất đến kết quả phép canh lề, công thức được áp dụng như sau: c: số lượng các từ trong 2 văn bản trở thành điểm tương ứng thực sự. m: số lượng các từ trong văn bản tiếng Anh mà có xuất hiện có trong từ điển. n: số lượng các từ trong văn bản tiếng Việt mà có xuất hiện có trong từ điển. Tập hợp các điểm tương ứng sẽ có chứa những điểm xung đột nhau. Những điểm xung đột nhau là do vi phạm ràng buộc tương ứng 1-1, là những điểm mà nó có cùng tọa độ x, hoặc tọa độ y. Khi đó, chương trình sẽ loại bỏ những điểm xung đột bằng cách giữ lại điểm có trọng số lớn hơn. Nếu gặp khó khăn trong giai đoạn này (khi trọng số bằng nhau), giải thuật sẽ tạo ra tập hợp các phép canh lề có thể có, và chọn ra phép canh lề từ mà g lớn nhất. Chúng ta có một số thống kê như sau (trên 1000 cặp câu đã canh lề): Chiều dài câu (theo từ) g trung bình g nhỏ nhất g trung bình (đối với 2 câu bất kỳ) (đối với 2 câu canh lề đúng) <=10 0.754256 0.2 0.218889 <10-20 0.699376 0.272727 0.185671 <20-30 0.652777 0.294118 0.227717 >30 0.612416 0.3 0.220252 Bảng 56. Thống kê g trung bình theo chiều dài block Theo thống kê, tuy g có giá trị trung bình khoảng 0.6~0.7, nhưng nếu chọn g ở giá trị này thì chúng ta sẽ bỏ qua rất nhiều phép canh lề tốt. Những phép canh lề có độ tương tự từ 0.2~0.4 chiếm tỉ lệ rất thấp. Do đó, chương trình chấp nhận phép canh lề có g >= 0.4 là phép canh lề hợp lệ. Canh lề chéo: Đối với những phép canh lề theo chiều dài câu mà không hợp lệ, chương trình xem như là có canh lề chéo. Bởi vì phép canh lề theo chiều dài câu bỏ qua trường hợp canh lề chéo. Khi đó, chương trình sẽ tìm một phép canh lề tốt nhất từ những block không hợp lệ. Thông thường, phép canh lề chéo không nhiều, do đó, chương trình sẽ tạo nên một tổ hợp canh lề, và sử dụng phương pháp vét cạn, dùng chỉ số độ tương tự g (tính như ở giai đoạn trước) để chọn ra phép canh lề tốt nhất. Giới hạn của luận văn là chỉ kiểm tra canh lề chéo của các block trong cùng một đoạn (paragraph). Việc mở rộng canh lề chéo trong toàn văn bản có thể thực hiện được nhưng độ phức tạp cao. Hiện thực canh lề chéo: Đầu vào: Danh sách các block không hợp lệ Đầu ra: Các block được canh lề chéo Phương pháp: (1)tạo tổ hợp các phép canh lề, (2)tính độ tương tự của mỗi phép canh lề, (3)chọn phép canh lề tốt nhất. Lớp hiện thực: CrossAlignment Canh lề từ: Trong bước này, giải thuật LSSA được sử dụng để tạo được phép canh lề mịn hơn phép canh lề câu. Kết quả chúng ta sẽ được các điểm canh lề (các điểm mốc) sao cho số điểm được canh lề là nhiều nhất. Giải thuật cũng phát hiện một số các cụm từ canh lề chéo trong câu Hiện thực giải thuật canh lề từ: Đầu vào: Danh sách các điểm tương ứng trong block có được sau bước tạo điểm dùng vị từ so trùng. Đầu ra: Các điểm canh lề trong block Phương pháp: (1)sử dụng LSSA để chọn điểm tương ứng thực sự, (2)duyệt lại lần 2 để tìm tra những cụm từ canh lề chéo, (3)lưu kết quả vào Cơ sở dữ liệu. Lớp hiện thực: LSSA. LSSA đã được giới thiệu trong mục 4.5, 4.6 phần phân tích giải thuật. Mã giả của giải thuật như sau: //Khai báo ArrayList pos_l1; //mảng chứa vị trí các từ trong ngôn ngữ l1 ArrayList pos_l2; //mảng chứa vị trí các từ trong ngôn ngữ l2 ArrayList weight_l2; //mảng chứa trọng số của các cặp từ trong ngôn ngữ l2 ArrayList result_l2; //mảng kết quả: vị trí các từ trong ngôn ngữ l2 Int max=0; //vị trí có trọng số lớn nhất //LSSA Sắp xếp pos_l1 theo thứ tự tăng dần; Sắp xếp pos_l2 theo vi trí tương ứng trong pos_l1; For all w[i] in weight_l2 w[i]=1; End For For all p[i] in pos_l2 For j=i-1,j>=0,j++ If p[i]>p[j] and w[i]<=w[j] Then w[i]=w[j]+1; If w[max]<w[i] Then max=i; End If End For End For Int w_cur=w[max] //Chọn điểm For i=max-1;i>=0;i++ If w[i]=w[i-1] Then Insert(result_l2,p[i]); w_cur=w[i]; End If End For Return result_l2; Kết quả của giải thuật là quyết định chọn những điểm canh lề dự tuyển nào sẽ trở thành những điểm canh lề thực sự trong câu. Để phát hiện những cụm từ canh lề chéo trong câu, giải thuật phải duyệt lại một lần nữa những điểm bị từ chối trong lần duyệt đầu. Phân loại văn bản: Tất cả các phép canh lề đều được lưu lại theo lĩnh vực của văn bản nguồn, kèm theo các thông số đánh giá chất lượng canh lề. Danh sách các lĩnh vực được lưu trong CSDL, bảng tblField. Phần phân loại lĩnh vực hiện tại được chọn bằng tay. Tuy nhiên, chương trình sẽ được cải tiến để có thể thực hiện phân loại văn bản tự động. Kết quả thực nghiệm Dữ liệu đầu vào để kiểm tra chương trình là 60 văn bản Anh-Việt (khoảng 10.000 cặp câu) thuộc hai lĩnh vực: Kinh tế và Tin học. Kho dữ liệu ban đầu gồm từ điển Anh Việt (5.500 từ), từ điển từ ghép tiếng Việt (13.100 từ), từ điển cụm từ tiếng Anh (10.400 từ). Ngoài ra, phần này có thu thập một từ điển Anh-Việt 100.000 từ. Tuy nhiên, khi sử dụng từ điển này để canh lề, tốc độ giải thuật chậm hơn rất nhiều, nhưng không tăng hiệu quả canh lề. Giới thiệu chương trình: Hệ thống Menu Tiêu đề văn bản Lĩnh vực của văn bản Văn bản tiếng Anh Văn bản tiếng Việt Danh sách từ tiếng Anh Danh sách từ tiếng Việt Hình 61. Giao diện chính của chương trình Kết quả canh lề của chương trình có thể chia ra làm ba giai đoạn: Kết quả sau bước canh lề câu (Bước 1): Sau bước canh lề theo chiều dài câu, chương trình đã có thể cho ra danh sách các khối (block) canh lề. Kết quả tương đối thuyết phục đối với những văn bản dịch chuẩn như các văn bản của đại sứ quán Hoa Kỳ, kết quả canh lề đạt chính xác đến 98%. Kết quả thống kê trên 30 văn bản như sau: STT Tên văn bản song ngữ Số cặp câu Kết quả 1 Toàn cầu hoá và đạt đươc sự phát triển lâu dài 43 100% 2 Diễn văn của ngài Đại sứ Michael W. Marine tại Hà Nội 100 100% 3 NATO vẫn là liên minh chủ chốt của chúng ta 72 100% 4 Tiếp cận với toà án: công lý và bình đẳng cho mọi người 95 100% 5 Tóm tắt lịch sử nền kinh tế Mỹ 310 99% 6 Các chính sách thương mại và kinh tế toàn cầu 225 99% 7 Một nước gồm nhiều sắc tộc 137 99% 8 Nước Mỹ thời lập quốc 327 98% 9 Các định hướng về vận tải hàng không thế kỷ 21 109 93% 10 Bài phát biểu của phụ trách thương mại Hoa Kỳ 47 96% 11 Bài phát biểu của đại sứ Hoa Kỳ 62 97% 12 Thông điệp Liên bang của tổng thống Bush 225 98% 13 Bảo vệ thế hệ trẻ trước đại dịch 80 98% 14 Phát biểu của Thứ trưởng Ngoại giao Robert Zoellick tại họp báo ở Thành phố Hồ Chí Minh 96 96% 15 Phát biểu của Thứ trưởng Ngoại giao Robert Zoellick tại họp báo ở Hà Nội 165 97% 16 Trung Quốc và Tương lai Quan hệ Trung-Mỹ 251 97% 17 Diễn văn của ngài đại sứ Michael W. Marine 152 99% 18 Kinh tế thị trường là gì 243 100% 19 Những cuộc chiến vĩ đại của thế kỷ 20 190 99% 20 Giao thông vận tải: chìa khoá của toàn cầu hoá 136 99% 21 Các thành phần của một hệ thống máy tính 56 96% 22 Thực thi phương thức với thread-pool 30 100% 23 Phát triển ứng dụng C# 48 96% 24 Thao tác dữ liệu 40 93% 25 Kết nối cơ sở dữ liệu 34 97% 26 Máy tính là gì? 23 96% 27 Các chủ đề và khu vực 118 96% 28 Môi trường tự nhiên 247 100% 29 Những nền tảng hoạt động của con người 147 98% 30 Siêu đô thị 182 100% Tổng cộng (tỉ lệ sai: 78 / 3990) 3990 98% Bảng 61. Kết quả canh lề câu trong luận văn Những phép canh lề 2-1, 1-2 phát hiện tương đối chính xác. Ví dụ trong văn bản: “Toàn cầu hoá và đạt đươc sự phát triển lâu dài”. Khối Câu tiếng Anh Câu tiếng Việt Loại 5 As that gathering discusses globalization and development, I hope it will be with a clear recognition that it is private enterprise that is the basic engine to both Hội nghị bàn về vấn đề toàn cầu hóa và phát triển. Tôi hy vọng rằng đó sẽ là hội nghị với sự nhận thức rõ ràng rằng doanh nghiệp tư nhân là động lực cơ bản của toàn cầu hóa và phát triển 1-2 12 Another example is foreign direct investment, a flow that the Institute of International Finance forecast at $225 billion this year Một ví dụ khác nữa đó là nguồn đầu tư trực tiếp nước ngoài. Viện Tài chính Quốc tế ước tính luồng đầu tư này năm nay đạt 225 tỷ đô-la 1-2 Bảng 62. Phát hiện các phép canh lề 1-2 Hay trong văng bản: “Diễn văn của ngài Đại sứ Michael W. Marine trước phòng thương mại Hoa Kỳ tại Hà Nội” Khối Câu tiếng Anh Câu tiếng Việt Loại 27 The BTA has had a significant impact on our bilateral trade over the past two years, but that fast growth is slowing now Hiệp định Thương mại Song phương có tác động đáng kể đến tăng trưởng thương mại song phương giữa hai nước trong hai năm vừa qua. Tuy nhiên, sự tăng trưởng đó hiện đang chậm lại 1-2 29 Total trade for the first seven months of this year is about equal to total trade during the same period in 2003, so this could also be a good year, although not necessarily a record-breaking onethis year Tổng giá trị thương mại trong bảy tháng đầu năm 2004 gần tương đương với tổng giá trị thương mại cùng kỳ năm 2003. Vì vậy, năm 2004 vẫn có thể được coi là một năm tốt đẹp, mặc dù chưa hẳn đã là một năm chứng kiến bước đột phá 1-2 36 The survey shows $2.6 billion in realized U.S.-related investment through the end of 2003. It also shows that investment by U.S. firms grew significantly last year Theo khảo sát này, các khoản đầu tư liên quan đến Mỹ đã được thực hiện tại Việt Nam cho đến cuối năm 2003 đạt 2,6 tỷ đô-la, và đầu tư của các công ty Mỹ đã tăng đáng kể vào năm ngoái 2-1 74 The U.S. Government team met with AmCham members last week to discuss this, and I strongly encourage AmCham and its members to do your part to fight the spread of HIV/AIDS in Vietnam Nhóm công tác của Chính phủ Mỹ đã gặp gỡ các thành viên của Phòng Thương mại Hoa Kỳ vào tuần trước để bàn thảo về vấn đề này. Và tôi đặc biệt mong muốn Phòng Thương mại Hoa Kỳ và các thành viên hãy góp phần vào cuộc chiến chống lại sự lan tràn của HIV/AIDS tại Việt Nam 1-2 Bảng 63. Phát hiện các phép canh lề 1-2, 2-1 Một số trường hợp phân đoạn câu sai do văn bản song ngữ có cách trình bày không đúng. Ví dụ: trong văn bản “TÓM LƯỢC LỊCH SỬ NỀN KINH TẾ MỸ” Block Văn bản tiếng Anh Văn bản tiếng Việt Canh lề 6 (They were mistakenly called "Indians" by European explorers, who thought they had reached India when first landing in the Americas.) These native peoples were organized in tribes and, in some cases, confederations of tribes (Họ bị những nhà thám hiểm châu Âu gọi nhầm là “người ấn Độ” (Indians) vì nghĩ rằng đã đến được ấn Độ khi lần đầu tiên đặt chân lên châu Mỹ). Những người bản địa này được tổ chức theo các bộ tộc, và trong một số trường hợp theo liên minh các bộ tộc 1-2 12 In 1492, Christopher Columbus, an Italian sailing under the Spanish flag, set out to find a southwest passage to Asia and discovered a "New World." For the next 100 years, English, Spanish, Portuguese, Dutch, and French explorers sailed from Europe for the New World, looking for gold, riches, honor, and glory Vào năm 1492, Christopher Columbus, một người Italia dẫn đầu đoàn thuyền của Tây Ban Nha đã lên đường để tìm một tuyến đường phía tây nam sang châu Á và đã khám phá ra một “Tân thế giới”. Trong 100 năm tiếp theo, các nhà thám hiểm người Anh, Tây Ban Nha, Bồ Đào Nha, Hà Lan và Pháp từ châu Âu đến Tân thế giới để tìm kiếm vàng, sự giàu có, danh vọng và vinh quang 1-2 Bảng 64. Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng Tại những vị trí in đậm, cách trình bày của người viết làm cho chương trình nhận dạng sai dấu chấm câu. Tuy nhiên, kết quả chương trình vẫn xác định đúng khối canh lề 2-1. Canh lề 1-0 trong văng bản “CÁC CHÍNH SÁCH NGOẠI THƯƠNG VÀ KINH TẾ TOÀN CẦU” được xác định trong phép canh lề 2-1. Block Văn bản tiếng Anh Văn bản tiếng Việt Canh lề 37 American Trade Principles and Practice. The United States believes in a system of open trade subject to the rule of law Hoa Kỳ luôn tin vào một hệ thống thương mại rộng mở dựa trên quy định của luật pháp 2-1 Bảng 65. Canh lề 1-0 được xác định trong canh lề 2-1 Lý do xảy ra tình trạng nhận dạng không chính xác là do số liệu thống kê tần suất xuất hiện của các loại phép canh lề, phép canh lề 1-0 chiếm rất thấp so với 1-1 và 2-1. Trong trường hợp này, chiều dài câu bị dịch thiếu (in đậm ở trên) lại không đủ lớn để giải thuật lập trình động (phân đoạn câu) xác định được đây là canh lề 1-0. Tuy nhiên, kết quả của chương trình như vậy là không có gì sai, có thể chấp nhận được. Ngoài ra, một số lỗi khác khi xác định dấu chấm câu sai đã được phát hiện khi chạy chương trình và có điều chỉnh lại cho phù hợp. Ví dụ trong việc xác định chữ viết tắt, khi nhận dạng chữ gồm 2 chữ cái tận cùng bằng dấu chấm, chữ cái đầu in hoa (ví dụ: Mr. Son) thì coi đây là chữ viết tắt. Tuy nhiên, trong các câu có quá nhiều câu tận cùng là “Mỹ._”. Vì thế, chương trình phải điều chỉnh lại, bỏ luật áp dụng như trên và phải nhận diện những từ viết tắt như “Mr._” dựa vào danh sách từ viết tắt lưu sẵn. Một trường hợp khác tương tự là chữ “P._” trong “P. Laran” được xem là từ viết tắt vì nó là một chữ cái viết hoa kết thúc bằng dấu chấm, và chữ đi liền sau có chữ cái đầu viết hoa. Nhưng trong trường hợp “… các nền kinh tế châu Á. Các dòng vốn …” thì dấu chấm này là dấu chấm kết thúc câu. Trường hợp này chương trình không điều chỉnh vì sự xuất hiện của các chữ viết tắt trong họ tên xuất hiện nhiều hơn so với ở vị trí kết thúc câu. (Đang tìm hướng khắc phục những trường hợp phân đoạn câu còn chưa chính xác). Kết quả sau bước canh lề chéo (Bước 2): Ngoài tác dụng canh lề chéo, bước này còn có nhiệm vụ kiểm tra kết quả canh lề ở bước 1. Nếu mức độ tương tự giữa hai khối (block) tính được quá thấp, chương trình phải thực hiện quá trình canh lề lại đối với những block này. Những văn bản đưa vào chạy kiểm tra như đã giới thiệu ở trên chỉ xuất hiện 3 văn bản có canh lề chéo. Đó là trường hợp chéo 2 câu liên tục nhau. Thay vì ở bước 1, chương trình phải xác định là phép canh lề 2-2 thì chương trình lại xác định là 2 phép canh lề 1-1. Ví dụ: Trong văn bản “Cải thiện hiệu quả”, đoạn thứ 2 có các cặp câu: TT Tiếng Anh Tiếng Việt Sim 6 Offers brief descriptions of some improvement techniques to show where the ideas for the suggested improvement method are taken from, i.e. a part of the analysis and synthesis process Hầu hết các kỹ thuật được mô tả là các công cụ phân tích vì tập trung vào đây là đang xác định lĩnh vực cần cải thiện- một khi nó tiến đến việc cải thiện thật sự, giải pháp thực tế cũng sẽ dễ dàng hơn 0.214 7 Most of the techniques described are analysis tools, as the focus here is on identifying areas to improve when it comes to the actual improvement, the actual solution is often quite easy Vài lời giới thiệu mô tả ngắn gọn về một số kỹ thuật cải tiến để minh họa nguồn gốc các ý tưởng của các kỹ thuật cải tiến đã gợi ý, nghĩa là một phần của quy trình phân tích và tổng hợp 0.352 Bảng 66. Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu Hai cặp câu thứ 6 và 7 có độ tương tự lần lượt là 0.214 và 0.352 vì nó cũng phát hiện ra một số cặp từ giống nhau trong hai câu: TT câu TT từ xID Từ TA yID Từ TV 6 1 110 many 235 nhiều 6 2 111 methods 236 phương pháp 6 3 113 improving 238 cải thiện 6 4 130 and 242 với 7 1 136 methods 251 phương pháp 7 2 141 improving 263 cải thiện Với độ tương tự nhỏ như vậy, chương trình phải tiến hành canh lề chéo cho hai khối này. Sau bước canh lề chéo, độ tương tự tăng rõ rệt. Kết quả là: TT Tiếng Anh Tiếng Việt Sim 6 Offers brief descriptions of some improvement techniques to show where the ideas for the suggested improvement method are taken from, i.e. a part of the analysis and synthesis process Vài lời giới thiệu mô tả ngắn gọn về một số kỹ thuật cải tiến để minh họa nguồn gốc các ý tưởng của các kỹ thuật cải tiến đã gợi ý, nghĩa là một phần của quy trình phân tích và tổng hợp 0.642 7 Most of the techniques described are analysis tools, as the focus here is on identifying areas to improve when it comes to the actual improvement, the actual solution is often quite easy Hầu hết các kỹ thuật được mô tả là các công cụ phân tích vì tập trung vào đây là đang xác định lĩnh vực cần cải thiện- một khi nó tiến đến việc cải thiện thật sự, giải pháp thực tế cũng sẽ dễ dàng hơn 0.722 Bảng 67. Ví dụ minh họa - Kết quả canh lề chéo Để kiểm tra thêm giải thuật canh lề chéo, nội dung văn bản được sửa đổi theo chủ ý (hoán đổi vị trí của một số câu tiếng Việt). Kết quả là chương trình nhận biết được phép canh lề chéo và canh lề lại chính xác đến 70% những tình huống đưa ra. Kết quả canh lề từ: Áp dụng giải thuật LSSA vào phép canh lề từ cho các khối song ngữ Anh – Việt, kết quả không tốt lắm. Vì LSSA cho ra chuỗi các từ canh lề dài nhất theo thứ tự sắp xếp, nhưng tiếng Việt và tiếng Anh có điểm khác biệt rất lớn. Ví dụ như tính từ tiếng Anh đứng trước danh từ. Trong khi đó, tính từ tiếng Việt thì đứng sau danh từ. Chương trình đã bỏ đi một số điểm canh lề tốt. Tuy nhiên, kết quả cũng chấp nhận được. Chương trình tạo được khoảng 4 điểm tương ứng chính xác cho một block có chiều dài trung bình là 10 từ. Ngoài ra chương trình cũng canh lề chéo cho những cụm từ có chiều dài trên 3 từ. Ví dụ dưới đây minh họa điều này. Trong văn bản “Diễn văn của ngài Đại sứ Michael W. Marine tại Hà Nội”, kết quả canh lề từ của một số cặp câu như sau: Cặp câu thứ 14: TT Tiếng Anh Tiếng Việt 14 From the very limited relationship in the 1980s to normalization of relations in 1995, we moved on to negotiate a Bilateral Trade Agreement (or BTA) in 2001 followed by agreements involving counter-narcotics and civil aviation in the past year Từ mối quan hệ rất hạn chế trong thập niên 80 đến sự kiện bình thường hóa quan hệ ngoại giao vào năm 1995, chúng ta đã tiến tới đàm phán Hiệp định Thương mại Song phương (gọi tắt là BTA) vào năm 2001, tiếp theo là những hiệp định về chống ma túy và hàng không dân dụng trong năm vừa qua Có kết quả canh lề từ là: TT xID Từ TA yID Từ TV 1 294 limited 410 hạn chế 2 295 relationship 406 mối quan hệ 3 300 normalization 419 bình thường hóa 4 302 relations 422 quan hệ 5 304 1995 428 1995 6 305 we 429 chúng ta 7 309 negotiate 434 đàm phán 8 311 bilateral trade 441 phương 9 313 agreement 436 hiệp định 10 314 ( 442 ( 11 316 bta 446 bta 12 317 ) 447 ) 13 319 2001 450 2001 14 320 followed 451 tiếp theo 15 321 by 416 đến 16 322 agreements 455 hiệp định 17 325 and 461 và 18 327 aviation 462 hàng không 19 331 year 427 năm Bảng 68. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA Trong đó, cặp từ thứ 8 là (bilateral trade, phương) và cặp từ thứ 15 (by, đến) bị loại ra khỏi danh sách điểm tương ứng sau giải thuật LSSA. Trong cặp câu thứ 17, LSSA phát hiện được phép canh lề cụm từ chéo: TT Tiếng Anh Tiếng Việt 17 My own Vietnam experience dates back to the years 1988 to 1990 when I was Deputy Director of the State Department's Office of Vietnam, Laos and Cambodia Affairs Bản thân tôi cũng có nhiều kinh nghiệm về Việt Nam với tư cách là Phó Giám đốc Văn phòng Bộ Ngoại giao Mỹ phụ trách các vấn đề về Việt Nam, Lào và Campuchia từ năm 1988 đến năm 1990 Có kết quả canh lề từ như sau: TT xID Từ TA yID Từ TV 1 402 my 594 tôi 2 403 own 592 bản thân 3 404 vietnam 601 việt nam 4 405 experience 598 kinh nghiệm 5 410 years 628 năm 6 411 1988 629 1988 7 413 1990 632 1990 8 417 deputy 607 phó 9 418 director 608 giám đốc 10 423 office 610 văn phòng 11 425 vietnam 622 việt nam 12 426 laos 624 lào 13 427 and 625 và Bảng 69. Ví dụ kết quả canh lề chéo cụm từ Trong đó các cặp từ thứ 5,6,7 là những cặp từ canh lề chéo (in đậm ở trên). Kết quả hiển thị trong chương trình rất rõ ràng, cho phép kiểm tra phép canh lề câu và canh lề từ, kèm theo những kết quả tính toán. Khi chọn vào một khối canh lề ở trên, bên dưới sẽ hiển thị nội dung 2 văn bản của khối này. Đồng thời, hiển thị danh sách các từ được canh lề với nhau sau giải thuật canh lề từ. Danh sách blocks tiếng Việt Danh sách blocks tiếng Anh Nội dung block tiếng Anh đang chọn Nội dung block tiếng Việt đang chọn Các điểm tương ứng thực sự của block đang chọn sau phép canh lề từ Hình 62. Giao diện hiển thị kết quả. Các chức năng khác: Lưu kết quả canh lề: Toàn bộ kết quả canh lề được lưu trữ vào cơ sở dữ liệu. Mỗi văn bản được phân loại theo lĩnh vực. Các cặp câu canh lề, các cặp từ tương ứng được lưu trữ, tạo thành kho ngữ liệu để phục vụ cho các ứng dụng khác. Mở lại một qui trình canh lề: Toàn bộ qui trình và kết quả canh lề được lưu lại và có thể phục hồi. Chạy từng bước giải thuật: Để phục vụ cho việc tìm hiểu giải thuật, chương trình có chức năng chạy từng bước và xem kết quả từng giai đoạn. Kết luận Đây là phần cuối của luận văn. Trong phần này, toàn bộ quá trình nghiên cứu về lý thuyết và hiện thực sẽ được tổng kết lại. Từ đó sẽ đề xuất một số hướng mở rộng và phát triển đề tài. Tổng kết: Theo thời gian, các giải thuật canh lề văn bản song ngữ ngày càng nhiều và kết quả đạt được ngày càng tốt hơn. Có thể chia các giải thuật ra làm hai xu hướng chính là canh lề dựa vào chiều dài câu và canh lề dựa vào từ vựng. Mỗi phương pháp có những ưu điểm và nhược điểm riêng. Một số nhà nghiên cứu kết hợp các phương pháp với nhau để tăng độ chính xác cho phép canh lề. Một số phương pháp canh lề độc lập ngôn ngữ. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Một số phương pháp khác đòi hỏi thực hiện các thống kê và chuẩn bị kho dữ liệu ban đầu. Do đó, khi áp dụng một phương pháp canh lề vào một cặp ngôn ngữ cụ thể, chúng ta cần phải điều chỉnh lại cho phù hợp. Ngoài ra, chúng ta còn phải tập trung xử lý một số biệt lệ trong ngôn ngữ học và trong dịch thuật. Nội dung của luận văn là canh lề văn bản Anh – Việt. Trong tiếng Việt, điểm khác biệt rõ nhất là phải xác định từ ghép tiếng Việt. Để làm việc này, thông thường chúng ta sử dụng từ điển từ ghép tiếng Việt. Ngoài ra, một điểm cần lưu ý trong dịch thuật là dịch tách câu (canh lề 1-2), gom câu (2-1), và dịch chéo. Đóng góp của luận văn là tìm hiểu các giải thuật đã được nghiên cứu, phân tích những điểm chưa phù hợp khi áp dụng vào canh lề văn bản Anh – Việt và đưa ra giải pháp khắc phục. Điểm mới trong luận văn là áp dụng giải thuật Porter để cắt lấy gốc từ tiếng Anh, phát hiện trường hợp dịch chéo. Khi đó, chương trình phải xử lý canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Bên cạnh đó, chương trình cũng áp dụng giải thuật LSSA, lần đầu áp dụng vào canh lề cho văn bản Anh – Việt. Mặc dù giải thuật này chưa thật sự phù hợp, nhưng cũng giúp chúng ta rút ra được một kinh nghiệm khi nghiên cứu về canh lề. Phần hiện thực xây dựng một chương trình phần mềm máy tính với giao diện thân thiện, dễ sử dụng, trình bày kết quả rõ ràng. Kết quả thực nghiệm cho kết quả tương đối chính xác. Ngoài ra, chương trình tập hợp một kho ngữ liệu quan trọng, bao gồm các cặp câu song ngữ đã được canh lề, phân theo từng lĩnh vực. Kho dữ liệu này được lưu trữ với hệ quản trị cơ sở dữ liệu SQL Server, dễ dàng chia sẽ trong môi trường mạng máy tính toàn cầu. Đây là nguồn dữ liệu hữu ích để phát triển các ứng dụng, ví dụ như xây dựng một từ điển chuyên ngành, hỗ trợ dịch máy,… Trong luận văn này, tôi đã thực hiện những công việc sau: Tìm hiểu các công trình nghiên cứu trước đó thông qua các bài báo cáo khoa học tìm kiếm trên mạng Internet, và một số luận văn trong nước. Xây dựng kho dữ liệu ban đầu bao gồm bộ từ điển Anh Việt, Việt Anh, từ ghép tiếng Việt, cụm từ tiếng Anh, từ viết tắt trong tiếng Anh. Sử dụng từ điển từ ghép tiếng Việt và cụm từ tiếng Anh để phân đoạn từ, giúp chương trình không chia nhỏ những cụm từ, những thành ngữ mà khi tách ra từng từ nó hoàn toàn không có ý nghĩa. Tập hợp những trường hợp kết thúc câu đặc biệt, sử dụng danh sách các từ viết tắt, những trường hợp dấu chấm không phải là dấu kết thúc câu để phân đoạn câu một cách hợp lý. Tìm hiểu và hiện thực giải thuật stemming Porter. Áp dụng giải thuật này để cắt lấy gốc từ tiếng Anh, giúp cho giai đoạn nhận dạng các điểm tương ứng chính xác hơn Lập trình động để canh lề câu theo chiều dài câu. Nhận dạng chính xác các phép canh lề 2-1, 1-2. Phát hiện chính xác 80% các phép canh lề câu chéo. Áp dụng giải thuật LSSA vào canh lề từ cho văn bản song ngữ Anh Việt. Xác định một số canh lề chéo các cụm từ trong câu. Xây dựng kho ngữ liệu thu thập được từ kết quả canh lề: bao gồm khoảng 10000 cặp câu Anh Việt, phân loại theo lĩnh vực. Vì thời gian có hạn nên kết quả nghiên cứu còn nhiều thiết sót, không thể trình bày chi tiết tất cả các giải thuật có liên quan, cũng như chưa thể hiện thực hoàn chỉnh tất cả các chức năng của chương trình canh lề. Hướng mở rộng và phát triển đề tài: Hoàn chỉnh luận văn: Các thông số của chương trình cần chạy thử nghiệm nhiều lần và đánh giá xem với bộ thông số như thế nào thì chương trình chạy hiệu quả nhất. Giai đoạn này chưa có nhiều thời gian để thực hiện. Cần tìm kiếm những tài liệu mà chất lượng dịch thuật kém hơn hoặc có nhiều chỗ dịch chéo để đánh giá kết quả canh lề của phương pháp. Trong luận văn có nói đến việc phân loại tự động các văn bản đưa vào canh lề. Việc này hoàn toàn có thể thực hiện được. Trong tương lai có thể thực hiện thêm chức năng này. Phát triển theo hướng nghiên cứu: Thông thường, chúng ta canh lề theo chiều: một từ được dịch thành nhiều hơn một từ. Ví dụ: một từ tiếng Anh được dịch thành 1.55 từ tiếng Việt à chiều canh lề: Anh - Việt. Nếu chúng ta canh lề theo chiều ngược lại thì như thế nào? Một số phương pháp sẽ gặp ngay sự cố. Tuy nhiên, do phương pháp này có xác định từ ghép tiếng Việt và cụm từ tiếng Anh nên có thể thực hiện theo chiều ngược lại: Viêt – Anh. Điều này có ý nghĩa khi chúng ta canh lề văn bản song ngữ mà hai ngôn ngữ đều có từ ghép. Phát triển theo hướng ứng dụng: Thu thập thêm các văn bản song ngữ và canh lề để bổ sung vào kho ngữ liệu. Xây dựng từ điển chuyên ngành: Khi kho ngữ liệu đủ lớn, có thể xây dựng nên một từ điển Anh Việt, cũng như xây dựng danh sách cụm từ (collocation) trong một lĩnh vực chuyên môn (domain) nào đó. Khi đó, chúng ta có thể cập nhật tự động danh sách từ ghép và cụm từ tiếng Anh. Việc này hoàn toàn có thể thực hiện nhưng đòi hỏi phải có kho ngữ liệu (corpus) đủ lớn và mang tính đại diện. Hiện nay, trung tâm BR&T đang xây dựng một kho tri thức (Casebase) các tình huống kinh doanh và giải pháp của nó. Một số tình huống được lưu trữ bằng tiếng Việt, một số bằng tiếng Anh, một số song ngữ. Khi có một tình huống mới bằng tiếng Việt, làm sao có thể sử dụng lại các tình huống trước đây. Đây cũng có thể là một ứng dụng có liên quan. Từ kho ngữ liệu mà luận văn này có thể thu thập được trong lĩnh vực kinh doanh, kết hợp với kho tri thức (Casebase – kho này có song ngữ), có thể tạo được bộ từ khóa cho lĩnh vực này và thực hiện việc tái sử dụng tri thức. BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Align Canh lề, đối sánh Aligned block Khối được canh lề Alignment Canh lề Bitext Văn bản song ngữ Bitext map Bản đồ ánh xạ Bitext slope Góc nghiêng của văn bản song ngữ Candidate point Điểm dự tuyển Chain Chuỗi Cognate Từ có cùng nguồn gốc Conditionally independent Độc lập có điều kiện Confidence bands Dãy giới hạn Corpus Kho ngữ liệu Cross alignment Phép canh lề chéo Dice’s coefficient Hệ số Dice Dynamic programming Lập trình động Dynamic programming Framework Khung lập trình động Generate point Tạo điểm Heuristics Quyết định cảm tính Histogram of Distances Biểu đồ khoảng cách Language independence Độc lập ngôn ngữ Language model Mô hình ngôn ngữ Length-based Alignment Canh lề theo chiều dài câu Linear Regression Line Đường thẳng hồi qui tuyến tính Main diagonal Đường chéo chính Map Point Điểm tương ứng Matching predicate Vị từ so trùng Mean Trung bình Parallel text Văn bản song ngữ Precision Độ chính xác Recall Mức độ hoàn toàn Reliable point Điểm tin cậy Segment Đoạn Sentence Alignment Canh lề câu Standard deviation Độ lệch chuẩn Stopword Từ không có ý nghĩa Text Alignment Canh lề văn bản Tokenize Tách từ Translation lexicon Từ vựng dịch Translation lexicon dictionary Từ điển từ vựng Translation model Mô hình dịch True bitext map – TBM Bản đồ ánh xạ thực True map point Điểm tương ứng thực sự True point of correspondence – TCP Điểm tương ứng thực sự Variance Độ lệch Word Alignment Canh lề từ BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Canh lề, đối sánh Align Khối được canh lề Aligned block Canh lề Alignment Văn bản song ngữ Bitext Bản đồ ánh xạ Bitext map Góc nghiêng của văn bản song ngữ Bitext slope Điểm dự tuyển Candidate point Chuỗi Chain Từ có cùng nguồn gốc Cognate Độc lập có điều kiện Conditionally independent Dãy giới hạn Confidence bands Kho ngữ liệu Corpus Phép canh lề chéo Cross alignment Hệ số Dice Dice’s coefficient Lập trình động Dynamic programming Khung lập trình động Dynamic programming Framework Tạo điểm Generate point Quyết định cảm tính Heuristics Biểu đồ khoảng cách Histogram of Distances Độc lập ngôn ngữ Language independence Mô hình ngôn ngữ Language model Canh lề theo chiều dài câu Length-based Alignment Đường thẳng hồi qui tuyến tính Linear Regression Line Đường chéo chính Main diagonal Điểm tương ứng Map Point Vị từ so trùng Matching predicate Trung bình Mean Văn bản song ngữ Parallel text Độ chính xác Precision Mức độ hoàn toàn Recall Điểm tin cậy Reliable point Đoạn Segment Canh lề câu Sentence Alignment Độ lệch chuẩn Standard deviation Từ không có ý nghĩa Stopword Canh lề văn bản Text Alignment Tách từ Tokenize Từ vựng dịch Translation lexicon Từ điển từ vựng Translation lexicon dictionary Mô hình dịch Translation model Bản đồ ánh xạ thực True bitext map – TBM Điểm tương ứng thực sự True map point Điểm tương ứng thực sự True point of correspondence – TCP Độ lệch Variance Canh lề từ Word Alignment TÀI LIỆU THAM KHẢO Tiago Ildefonso and Gabriel Pereira Lopes, Longest Sorted Sequence Algorithm for Parallel Text Alignment, CITI, 2005. Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang, Bilingual Sentence Alignment Based on Punctual Statistical and Lexicon, 224-232, 2005. Ismael Garcia Varea, Daniel Ortiz, Francisco Nevado, Pedro A.Gomez, and Francisco Casacuberta, Automatic Segmentation of Bilingual Corpora: A Comparison of Different Techniques, pp. 614-621, 2005. Trần Giang Sơn, Canh lề văn bản song ngữ Anh Việt và ứng dụng, trường Đại học Bách Khoa Tp. Hố Chí Minh, 06/2005. Đặng Huấn, Xác suất thống kê, Nhà xuất bản thống kê, 2004. Seonho Kim, Juntae Yoon, Dong-Yul Ra, Two-Level Alignment by Words and Phrases Based on Syntactic Information, Springer-Verlag Berlin Heidelberge 2004, 2004. Chirstopher D.Manning, Hinrich Schutze, Foundations of Statistical Natural Language Processing, The MIT Pres, Cambridge, Massachusetts, London, England, 2000. Antonio Ribeiro, Gabriel Lopes, and Joao Mexia, A Self_Learning Method of Parallel Texts Alignment, Quinta da Torre, Portual, 2000. Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre, An Algorithm for Aligning Sentences in Bilingual Corpora Using Lexical Information, International Institue of Information Technology, Hyderabad. I. Dan Melamed, Bitext maps and Alignment via Pattern Recognition, Association for Computational Linguistics, 1999. Martin Kay, Martin Roscheisen, Text-Translation Alignment, Computational Linguistics Volume 19, 1996. James Allen, Natural Language Understanding, The Benjamin/Cummings Publishing Company, Inc, 1995. Mark W.Davis, Ted E.Dunningand Willim C.Ogden, Text Alignment in the Real Work: Improving Alignments of Noisy Translations Using Common Lexical Feature, String Matching Strategies and N-Gram Comparisons, New Mexico State University, 1994. Stanley F.Chen, Alignment Sentences in Bilingual Corporal Using Lexical Information, Proceeding of the 31st Annual Meeting of the Association for Computation Linguistics, 1993. Michel Simard, George F. Foster, Pierre Isabelle, Using cognates to align sentences in bilingual corpora, 1993. William A.Gale, Kenneth W.Church, A Program for aligning sentences in biligual corpora, 1991. Peter F.Brown, Jennifer C.Lai, Robert L.Mercer, Aligning sentences in parallel corpora, 1991. Nguyễn Thị Thu Hương, Lê Ngọc Minh Trị, Phát triển động cơ thu thập tự động các bài báo khoa học trên www, Luận văn tốt nghiệp đại học, ĐH Bách Khoa Tp. HCM, 2004.

Các file đính kèm theo tài liệu này:

  • doc260_luan_van_tot_nghiep_1787.doc