TÓM TẮT
Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ.
Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Việc áp dụng vào canh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểm của ngôn ngữ tiếng Việt.
Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuật canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật Longest Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này.
Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm các cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản. Ngoài ra, chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn.
Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cách hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt.
MỤC LỤC
Phần 1 1
Giới thiệu 1
1.1 Bối cảnh thực hiện luận văn 1
1.2 Thực trạng – Vấn đề 1
1.3 Hướng giải quyết vấn đề 2
1.4 Mục tiêu của luận văn 2
1.5 Đóng góp của luận văn 2
1.6 Hướng phát triển 5
1.7 Cấu trúc của luận văn 5
Phần 2 7
Các công trình nghiên cứu liên quan 7
2.1 Phương pháp canh lề văn bản dựa vào chiều dài câu 7
2.1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]: 8
2.1.2 Phương pháp của Peter F.Brown [17]: 9
2.2 Phương pháp canh lề dựa vào từ vựng 10
2.2.1 Phương pháp của Michel Simard, George F. Foster, P. Isabelle [15]: 10
2.2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]: 11
2.2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]: 12
2.2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13
2.2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes, Joao Mexia:[8] 14
2.2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 16
2.3 Kết hợp các phương pháp 16
2.3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16
2.3.2 Phương pháp của Stanley F.Chen:[14] 17
2.3.3 Phương pháp SIMR và GSA, tác giả I. Dan Melamed: [10] 18
2.4 Nghiên cứu của các tác giả trong nước 20
2.4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004): 20
2.4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: 21
Phần 3 22
Cơ sở lý thuyết 22
3.1 Các định nghĩa 22
3.1.1 Phép canh lề: 22
3.1.2 Phép canh lề chéo. 23
3.2 Đánh giá mức độ chính xác của phép canh lề. 24
3.3 Hệ số Dice (D) 24
3.4 Xác suất có điều kiện: 24
3.5 Phân tích hồi qui tuyến tính: 25
Phần 4 28
Phân tích giải thuật 28
4.1 Giải thuật Stemming: 28
4.2 Giải thuật phân đoạn câu: 32
4.3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34
4.3.1 Khung lập trình động (A Dynamic Programming Framework): 34
4.3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37
4.4 Phương pháp canh lề sử CBA [8]: 37
4.5 Phương pháp canh lề sử dụng LSSA [1]: 40
4.6 So sánh phương pháp LSSA với CBA: 41
4.7 Những khó khăn gặp phải khi áp dụng SIRM và GSA [10] 46
4.8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50
Phần 5 52
Hiện thực 52
5.1 Stemming: Dùng giải thuật Porter. 54
5.2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: 55
5.3 Phân đoạn câu: 57
5.4 Canh lề câu theo chiều dài câu: 58
5.5 Kiểm tra tính hợp lệ của phép canh lề 62
5.6 Canh lề chéo: 65
5.7 Canh lề từ: 66
5.8 Phân loại văn bản: 68
Phần 6 69
Kết quả thực nghiệm 69
6.1 Giới thiệu chương trình: 69
6.2 Kết quả sau bước canh lề câu (Bước 1): 70
6.3 Kết quả sau bước canh lề chéo (Bước 2): 75
6.4 Kết quả canh lề từ: 76
6.5 Các chức năng khác: 80
6.5.1 Lưu kết quả canh lề: 80
6.5.2 Mở lại một qui trình canh lề: 80
6.5.3 Chạy từng bước giải thuật: 80
Phần 7 81
Kết luận 81
7.1 Tổng kết: 81
7.2 Hướng mở rộng và phát triển đề tài: 83
7.2.1 Hoàn chỉnh luận văn: 83
7.2.2 Phát triển theo hướng nghiên cứu: 83
7.2.3 Phát triển theo hướng ứng dụng: 83
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT 85
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87
TÀI LIỆU THAM KHẢO 89
PHỤ LỤC
101 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 3588 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ng của đoạn j tương ứng với khoảng trống theo trục đứng trong bản đồ ánh xạ.
Đề xuất hướng giải quyết của tác giả ở đây là tìm kiếm lại một lần nữa ở những đoạn lớn mà nó không tìm thấy điểm tương ứng. Sau khi nhận dạng ra được chuỗi những điểm mới, chúng ta phải tiến hành cập nhật bảng đồ ánh xạ và thực hiện một số thao tác khác.
Vấn đề 2: Sự biến đổi độ nghiêng cục bộ
Khái niệm góc lệch lớn nhất (maximum angle deviation threshold) xuất hiện nhằm loại bỏ những chuỗi không thật. Giá trị này phải nhỏ. Tuy nhiên, như các quyết định cảm tính (heuristic) khác, nó có thể từ chối một số các điểm canh lề tốt.
Hình 414. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM.
Chuỗi X là một chuỗi hợp lệ, mặc dù góc nghiêng của nó lớn hơn góc nghiêng cực đại cho phép. Những chuỗi có giá trị mà bị từ chối vì giá trị thông số này đôi khi lại được chấp nhận thành hai chuỗi tách rời. Nếu chuỗi C, và D được chấp nhận một cách hợp lệ thì góc nghiêng của bản đồ ánh xạ giữa điểm cuối của chuỗi C và điểm đầu của chuỗi D, thì gần hơn là góc nghiêng của đường chéo chính. Chuỗi X nên được chấp nhận. Nó cũng sẽ được phát hiện trong quá trình tìm kiếm lần thứ 2.
Một trường hợp khác xảy ra biến đổi độ nghiêng cục bộ là đoạn văn bản “non-linguistic” như khoảng trắng hay bảng số liệu. Thông thường, những đoạn văn bản như vậy có nội dung hoàn toàn giống nhau trong dịch thuật, nên trong không gian văn bản, độ dốc bằng 1. Nếu như đoạn văn bản loại này đủ lớn nó sẽ kéo lệch độ nghiêng của đường chéo chính. Điều này sẽ đánh lừa SIRM trong quá trình tìm kiếm trên toàn bộ văn bản để tìm ra chuỗi các điểm tương ứng, chuỗi này sẽ có độ nghiêng gần với 1 hơn, trong khi những đoạn văn bản bình thường khác lân cận với nó có độ nghiêng hoàn toàn khác.
Vấn đề 3: Sự mất phương hướng của giải thuật tham lam (greedy algorithm)
Vấn đề xảy ra khi giải thuật tham lam đi lệch hướng. Nó sẽ không thể quay trở lại đúng hướng. Không có gì chắc chắn SIRM sẽ không mắc phải, khi nó gặp những trường hợp khó quyết định (ví dụ: quyết định chọn ra một trong các chuỗi tìm thấy). Sử dụng một số quyết định cảm tính (heuristics) như: độ lệch cực đại cho phép, chiều dài tối đa của chuỗi (từ 6-7 điểm tương ứng), SIRM hi vọng sẽ tránh được những hạn chế này.
Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn):
Trên cơ sở nghiên cứu và vận dụng các nghiên cứu trước đây, phần này trình bày tóm tắt qui trình canh lề mới, kế thừa và cải tiến những công trình đã hiện thực. Quá trình canh lề bao gồm các giai đoạn:
Tách từ (token).
Phân đoạn từ: xác định từ ghép tiếng Việt và cụm từ tiếng Anh (dùng từ điển).
Cắt lấy gốc từ tiếng Anh (stemming dùng giải thuật Porter).
Phân đoạn câu (dùng mô hình trực tiếp).
Canh lề theo chiều dài câu (dùng lập trình động).
Phát hiện canh lề chéo.
Tạo điểm tương ứng (dùng từ điển).
Canh lề từ (dùng LSSA).
Để phát hiện phép canh lề chéo, chương trình tính toán độ tương tự của các cặp câu đã được canh lề. Độ tương tự được tính dựa trên số lượng các cặp từ giống nhau xuất hiện trong câu. Nếu kết quả chưa tốt, một tổ hợp canh lề mới đươc tạo ra từ các cặp câu có độ tương tự thấp, và các câu này được canh lề lại. Giới hạn của luận văn là phát hiện canh lề chéo giữa các câu trong cùng một đoạn. Việc mở rộng canh lề chéo cho toàn văn bản có thể thực hiện được nhưng độ phức tạp của giải thuật rất cao.
Các cặp từ giống nhau được xác định dùng vị từ so trùng. Hai từ giống nhau có thể là do có cùng nguồn gốc, là từ viết tắt, danh từ riêng,… hoặc có nghĩa giống nhau trong từ điển. Mức độ giống nhau của hai từ là cơ sở để giải quyết một số nhằng khi tạo điểm tương ứng, cũng là cơ sở để tính độ tương tự giữa hai câu. Giải thuật LSSA sinh ra một tập hợp các điểm canh lề, phép canh lề này mịn hơn phép canh lề câu, gọi là canh lề từ. Ngoài ra, chương trình cũng phát hiện các cụm từ canh lề chéo trong câu.
Để phát huy điểm mạnh của các giải thuật có dựa vào xác suất thống kê, chương trình phân loại văn bản song ngữ theo lĩnh vực bằng tay. Sau kết quả canh lề, chương trình lưu lại tất cả các dữ liệu theo từng lĩnh vực (văn bản song ngữ, đoạn, câu, từ) để phục vụ cho thống kê sau này.
Ngoài ra, cũng nên xây dựng từ điển chuyên ngành (theo lĩnh vực), từ điển các từ cần loại bỏ (những từ thường hay xuất hiện trong văn bản và không có giá trị canh lề - stopwords theo từng lĩnh vực (phần này chưa thực hiện).
Trong các giải thuật trên một số giải thuật sử dụng các thông số chọn lựa dựa vào phương pháp thống kê xác suất. Ví dụ như: thống kê để xác định tỉ lệ chiều dài trung bình của tiếng Anh và tiếng Việt; xác suất canh lề của các phép canh lề 1-0, 1-1, 2-1, 2-2,…; thống kê số điểm trung bình được canh lề trong câu theo chiều dài,… Để thực hiện điều này, quá trình “trainning” diễn ra. Chương trình sử dụng số liệu thống kê mà các nghiên cứu trước đó đưa ra, để tính toán các thông số hệ thống và chạy giải thuật. Các thông số này có thể chưa phù hợp với canh lề Anh-Việt, tuy nhiên kết quả cũng chấp nhận được. Từ kết quả đầu ra của chương trình, áp dụng vào các công thức tính toán, chúng ta sẽ có được những thông số phù hợp. Các cách tính toán sẽ được giới thiệu trong phần tiếp theo (phần hiện thực).
Hiện thực
Phần trước đã trình bày chi tiết các giải thật sẽ sử dụng trong luận văn, cũng như một vài so sánh với các giải thuật khác để đưa đến quyết định chọn lựa phương pháp. Phần này trình bày chi tiết cách hiện thực các giải thuật trong chương trình.
Chương trình được xây dựng trên:
Ngôn ngữ lập trình: Microsoft Visual C#.
Cơ sở dữ liệu: Microsoft SQL Server 2000
Văn bản
tiếng Việt
(VB TV)
Văn bản
tiếng Anh
(VB TA)
Phân tích từ
Cắt lấy gốc-Porter
Xác định cụm từ
Phân tích từ
Xác định từ ghép tiếng Việt
Phân đoạn câu
văn bản TA
Phân đoạn câu
Văn bản TV
Canh lề
theo chiều dài câu
Kiểm tra độ tương tự
các cặp câu đã canh lề
Canh lề chéo.
Canh lề từ
dùng LSS
Kho dữ liệu chứa các cặp câu canh lề
Từ điển song ngữ
Từ điển từ ghép TV
Từ điển cụm từ TA
Danh sách stopword
Danh sách từ viết tắt
Văn bản song ngữ
Văn bản đã canh lề
Bước 1
Bước 2
Hình 51 Sơ đồ khối cho quá trình canh lề.
Stemming: Dùng giải thuật Porter.
Một nội dung có thể được thể hiện dưới nhiều hình thức khác nhau. Ví dụ thay vì dùng danh từ, chúng ta có thể dùng động từ để thay thế. Để quá trình canh lề từ hoạt động tốt hơn, việc lấy gốc một từ tiếng Anh là một giải pháp tốt.
Hiện thực stemming:
Đầu vào: Một từ tiếng Anh.
Đầu ra: Một gốc từ tiếng Anh
Phương pháp: Chạy 5 giai đoạn trong giải thuật Porter (trình bày trong mục 4.1, phần phân tích giải thuật).
Lớp hiện thực: Stemming
Ví dụ: stemming(“Alignments”) à Align
Để giai đoạn tạo điểm tương ứng thực thi nhanh hơn, từ điển song ngữ Anh Việt cũng được bổ sung thêm gốc của từ tiếng Anh. Từ điển song ngữ Anh-Việt khoảng 5500 từ có cấu trúc như sau (bảng tblEVDictionary):
Hình 52. Cấu trúc CSDL từ điển song ngữ Anh-Việt
[Elglish]: từ tiếng Anh
[Vietnamese]: nghĩa tiếng Việt. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;)
[Stemming]: gốc từ tiếng Anh, có được sau khi chạy giải thuật Stemming
[Reference]: liên kết nghĩa với từ tiếng Anh khác (thường là gốc của từ đó).
[StemmingReference]: gốc của từ được liên kết nghĩa.
Xác định từ ghép tiếng Việt và cụm từ tiếng Anh:
Để có thể xác định được từ ghép tiếng Việt, chương trình sử dụng một từ điển từ ghép tiếng Việt. Từ điển này được lọc ra một cách tự động trong từ điển song ngữ Anh Việt.
Cấu trúc từ điển từ ghép tiếng Việt như sau:
Hình 53. Từ điển từ ghép tiếng Việt
[Vietnamese]: từ ghép tiếng Việt.
[English]: nghĩa tiếng Anh. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;).
[Count]: chiều dài từ ghép.
Tương tự như vậy, nhưng danh sách các cụm từ tiếng Anh được lọc ra từ Lạc Việt từ điển và nhập vào cơ sở dữ liệu của hệ thống.
Hình 54. Từ điển cụm từ tiếng Anh
[English]: cụm từ tiếng Anh.
[Vietnamese]: nghĩa tiếng Việt. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;).
[Count]: chiều dài cụm từ.
Xác định từ ghép tiếng Việt và cụm từ tiếng Anh được thực hiện bằng phương pháp đơn giản là xác định từ ghép dài nhất có thể có trong văn bản, xét từ đầu đến cuối văn bản.
Hiện thực phân đoạn từ:
Đầu vào: (1)Danh sách từ đã được tách từ văn bản, (2)từ điển từ ghép tiếng Việt và (3)cụm từ tiếng Anh.
Đầu ra: Danh sách các từ ghép tiếng Việt và cụm từ tiếng Anh xuất hiện trong văn bản.
Phương pháp: Đọc một từ trong văn bản. Dựa vào từ điển, tìm từ ghép dài nhất bắt đầu bằng từ này, giả sử có chiều dài l. Nếu không có, nó là từ đơn. Nếu có, đọc tiếp l-1 từ tiếp theo. Nếu không so trùng đúng với từ ghép dài nhất, giảm dần chiều dài của chuỗi văn bản để xác định từ ghép có tồn tại trong từ điển.
Phân đoạn câu:
Như đã trình bày trong mục 4.2, để xác định chính xác các ký hiệu kết thúc câu, giải thuật xét những qui tắc sau:
Kết thúc bằng dấu “enter” xuống dòng.
Kết thúc bằng dấu chấm thang (!), dấu chấm hỏi (?).
Kết thúc bằng dấu chấm (.), trừ những trường hợp ngoại lệ:
Dấu chấm trong từ viết tắt (lưu trong từ điển).
Dấu chấm xuất hiện trong một chuỗi liên tục có chứa nhiều hơn một dấu chấm. Ví dụ: “Abc.Cdef”. (cả 2 dấu chấm này đều không phải là ký hiệu kết thúc câu).
Dấu chấm xuất hiện ngay sau từ chỉ có một chữ cái. Ví dụ: P. Laran
Dấu chấm trong dấu ba chấm (…) mà sau nó không phải là một từ viết hoa.
Dấu chấm trong địa chỉ email, địa chỉ website.
Dấu chấm trong các con số.
Để hiện thực phân đoạn câu hiệu quả, chương trình có thu thập danh sách các từ viết tắt trong tiếng Anh. Mục đích là loại trừ những nhập nhằng khi xác định dấu hiệu kết thúc câu. Danh sách này được lưu trong CSDL, bảng tblAbbreviation.
Hình 55. Danh sách từ viết tắt trong tiếng Anh
Tuy nhiên vẫn không thể giải quyết hết những trường hợp ngoại lệ như đã giới thiệu trong phần trước. Thật may mắn là kết quả canh lề không bị ảnh hưởng nhiều bởi một vài trường hợp phân đoạn câu sai. Bởi vì giải thuật canh lề có thể sẽ ghép 2 câu bị phân cách sai thành một block trong canh lề 2-1 (hoặc 1-2).
Hiện thực giải thuật phân đoạn câu:
Đầu vào: Văn bản đã được tách từ và nhận dạng từ ghép, cụm từ; danh sách các từ viết tắt.
Đầu ra: Danh sách các câu, chiều dài mỗi câu tính theo từ.
Phương pháp: (1)Kiểm tra tất cả các dấu hiệu kết thúc câu và xác định vị trí ngắt câu. (2)Tính chiều dài câu theo số lượng từ.
Lớp hiện thực: Sentence
Canh lề câu theo chiều dài câu:
Để hiện thực giải thuật này, trước tiên, cần tính toán các giá trị trung bình c và độ lệch s. Công thức tính giá trị này cần một số thống kê trên các văn bản song ngữ Anh-Việt. Luận văn này có sử dụng lại một số kết quả thống kê của tác giả Trần Giang Sơn [4], trong đó một số giá trị thống kê đã được kiểm tra đối chiếu lại sau khi chạy chương trình và được điều chỉnh lại cho phù hợp hơn ở những lần chạy sau.
Hiện thực giải thuật canh lề theo chiều dài câu:
Đầu vào: Danh sách các câu đã được phân đoạn và tính chiều dài câu.
Đầu ra: Danh sách các khối (block) được canh lề.
Lớp hiện thực: SentenceAlignment
Phương pháp: Dùng phương pháp lập trình động để tính khoảng cách (chi phí) nhỏ nhất cho phép canh lề tốt nhất. Phương pháp lập trình động đã được trình bày trong mục 4.3. Giá trị trung bình c, độ lệch chuẩn và xác suất của các phép canh lề được tính như sau:
Tính giá trị trung bình c:
Giá trị trung bình c là tỷ lệ trung bình một từ tiếng Anh được dịch thành c từ tiếng Việt. Kết quả thống kê của tác giả Trần Giang Sơn qua việc tiến hành thống kê đối với từ điển Việt-Anh loại nhỏ với 14650 từ đã được tỷ lệ phần trăm của các từ tiếng Anh được dịch ra một, hai, ba, bốn từ tiếng Việt (một từ tiếng Anh được dịch thành 2 từ tiếng Việt chiếm tỷ lệ cao nhất):
Loại từ
Số lượng
Phần trăm
1 từ (từ đơn)
1558
10.6 %
2 từ (từ ghép đôi)
8208
56.0 %
3 từ (từ ghép ba)
3154
21.5 %
4 từ (từ ghép bốn)
1256
7.0 %
Bảng 51. Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn.
Để có được giá trị trung bình c, tức là tỷ lệ số lượng từ trong tiếng Việt so với tiếng Anh, tác giả này đã tiến hành thống kê các văn bản song ngữ:
Số lượng từ trong
văn bản tiếng Việt
Số lượng từ trong
văn bản tiếng Anh
Tỷ lệ
1313
905
1.4508
3739
2415
1.5482
6964
4174
1.6684
2480
1704
1.4554
3364
2026
1.6604
10113
6291
1.6075
8920
5586
1.5968
3897
2723
1.4311
10538
6427
1.6396
3131
2081
1.5045
2295
1500
1.5300
Bảng 52. Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh
Kết quả là giá trị trung bình c=1.55. Điều này có nghĩa là một từ tiếng Anh trung bình được dịch thành 1.55 từ tiếng Việt.
Tính độ lệch chuẩn:
i : thứ tự các cặp câu
n: tổng số cặp câu
le : chiều dài của câu tiếng Anh
lv : chiều dài của câu tiếng Việt
si = lei * c – lvi (trong đó c=1.55 là giá trị trung bình được tính ở trên)
: bình phương độ lệch
Để có được các cặp câu Anh-Việt, tác giả này dùng phương pháp canh lề thủ công để canh lề một số văn bản song ngữ với tổng cộng 2000 cặp câu. Sau khi tính toán, s2 = 35.62.
Hình 56. Tương quan chiều dài câu Anh-Việt
Tính xác suất của các phép canh lề:
Để tính được xác suất của các phép canh lề, tác giả này lại sử dụng kết quả thống kê của tác giả Gale [16] như sau:
Phép canh lề
Tần suất
Xác suất
1-1
1167
0.89
1-0 hoặc 0-1
13
0.0099
2-1 hoặc 1-2
117
0.089
2-2
15
0.011
Tổng cộng
1312
1.00
Bảng 53. Xác suất của các phép canh lề theo [16]
Trong luận văn, số liệu trên được sử dụng để chạy chương trình canh lề lần đầu, sau đó, tiến hành kiểm tra và thống kê lại các số liệu trên cho phù hợp với canh lề song ngữ Anh-Viêt, kết quả như sau:
Phép canh lề
Tần suất
Xác suất
1-1
3910
0.979949875
1-0 hoặc 0-1
7
0.001754386
2-1 hoặc 1-2
68
0.017042607
2-2
5
0.001253133
Tổng cộng
3990
1.00
Bảng 54. Xác suất của các phép canh lề Anh-Việt
Vì các phép canh lề (3-1) và (1-3) rất hiếm khi gặp, cho nên giải thuật bỏ qua hai phép canh lề trên.
Kết quả phép canh lề câu được lưu trữ trên CSDL như sau (bảng tblSentenceAlignment):
Hình 57. Kết quả canh lề câu theo chiều dài câu
[x1]: thứ tự câu tiếng Anh
[x2]: thứ tự câu tiếng Anh 2 (nếu block gồm 2 câu tiếng Anh)
[x1]: thứ tự câu tiếng Việt
[x1]: thứ tự câu tiếng Việt 2 (nếu block canh lề gồm 2 câu tiếng Việt)
Nếu không có câu tương ứng, giá trị là –1.
[xlen]: chiều dài 1 câu tiếng Anh (2 câu nếu block canh lề 2 câu)
[xlen]: chiều dài 1 câu tiếng Việt (2 câu nếu block canh lề 2 câu)
[EN]: nội dung câu tiếng Anh
[VN]: nội duung câu tiếng Việt
[xNo]: số lượng câu tiếng Anh trong block canh lề
[yNo]: số lượng câu tiếng Việt trong block canh lề
[d]: khoảng cách của phép canh lề trong giải thuật lập trình động
[xparagraph]: thứ tự đoạn mà câu tiếng Anh thuộc về
[yparagraph]: thứ tự đoạn mà câu tiếng Việt thuộc về
Kiểm tra tính hợp lệ của phép canh lề
Mỗi khối văn bản có được từ phép canh lề theo chiều dài câu sẽ được kiểm tra tính hợp lệ. Để thực hiện điều này, quá trình này phải tạo ra được tập hợp tất cả các cặp từ tương ứng trong khối (block). Mỗi cặp từ tương ứng sẽ được biểu diễn bằng một điểm trong không gian của văn bản song ngữ. Do đó, quá trình này được gọi là quá trình tạo điểm.
Ä Hiện thực giai đoạn tạo điểm:
Đầu vào: Danh sách các từ, từ điển song ngữ Anh Việt, danh sách stopwords
Đầu ra: Tập hợp các điểm tương ứng thật sự (true correspondence point), kèm theo trọng số của nó
Lớp hiện thực: PointsRecognize
Phương pháp: (1)loại bỏ stopwords, (2)với mỗi cặp từ bất kỳ tính mức độ giống nhau và đánh trọng số cho nó. Ngoài ra, nếu nó không phải là điểm tương ứng, cần ghi chú lại: (i)không xuất hiện trong từ điển, (ii)có trong từ điển nhưng không phải là từ dịch của nhau.
Một điểm tương ứng được nhận dạng bằng các đặc điểm sau:
Loại điểm
Trọng số
Hai từ có cách viết giống nhau (cognate), bao gồm:
từ vay mượn,
danh từ riêng,
từ viết tắt,
địa chỉ email, website,
con số,
ký hiệu đặc biệt, …
1.5
Hai từ dịch của nhau (từ tiếng Anh được xét nguyên từ)/Hai cụm từ
1.2
Hai từ dịch của nhau (từ tiếng Anh đã được stemming)
1
Hai từ dịch của nhau nhưng không giống hoàn toàn theo từ điển
% giống theo chiều dài
Bảng 55. Đánh giá trọng số các điểm tương ứng
Các trọng số này có thể điều chỉnh cho phù hợp và nâng cao hiệu quả của chương trình. Nó được lưu trữ trên CSDL, bảng tblWeight
Như vậy, mỗi điểm được gán trọng số tùy thuộc vào mức độ tin cậy của nó. Độ chính xác của giai đoạn này phụ thuộc rất lớn vào số lượng và chất lượng của từ điển. Kho dữ liệu ban đầu gồm từ điển Anh Việt (5.500 từ), từ điển từ ghép tiếng Việt (13.100 từ), từ điển cụm từ tiếng Anh (10.400 từ). Ngoài ra, phần này có thu thập một từ điển Anh-Việt 100.000 từ. Tuy nhiên, khi sử dụng từ điển này để canh lề, tốc độ giải thuật chậm hơn rất nhiều, nhưng không tăng hiệu quả canh lề.
Để những điểm tìm thấy không phải là sự tương ứng ngẫu nhiên, giải thuật sẽ loại bỏ stopwords, những từ mà tần suất xuất hiện cao trong văn bản, nhưng không mang nghĩa trong câu, hay nói cách khác, nó không có giá trị canh lề. Những từ này nếu không được loại đi sẽ gây khó khăn trong quá trình nhận dạng chuỗi (tạo nên những điểm nhiễu, những điểm canh lề giả). Stopwords được nhận dạng bằng danh sách stopwords lưu trong cơ sở dữ liệu (bảng tblStopwords).
Hình 58. Danh sách Stopwords
ÄTính độ tương tự:
Cho hai đoạn văn bản thuộc 2 ngôn ngữ khác nhau, chúng ta tính được độ tương tự giữa chúng sử dụng công thức:
g = 2c/(n+m)
với m,n: số từ trong mỗi đoạn, c: tổng số điểm tương ứng.
Trong luận văn, để chất lượng từ điển Anh – Việt ảnh hưởng ít nhất đến kết quả phép canh lề, công thức được áp dụng như sau:
c: số lượng các từ trong 2 văn bản trở thành điểm tương ứng thực sự.
m: số lượng các từ trong văn bản tiếng Anh mà có xuất hiện có trong từ điển.
n: số lượng các từ trong văn bản tiếng Việt mà có xuất hiện có trong từ điển.
Tập hợp các điểm tương ứng sẽ có chứa những điểm xung đột nhau. Những điểm xung đột nhau là do vi phạm ràng buộc tương ứng 1-1, là những điểm mà nó có cùng tọa độ x, hoặc tọa độ y. Khi đó, chương trình sẽ loại bỏ những điểm xung đột bằng cách giữ lại điểm có trọng số lớn hơn. Nếu gặp khó khăn trong giai đoạn này (khi trọng số bằng nhau), giải thuật sẽ tạo ra tập hợp các phép canh lề có thể có, và chọn ra phép canh lề từ mà g lớn nhất.
Chúng ta có một số thống kê như sau (trên 1000 cặp câu đã canh lề):
Chiều dài câu
(theo từ)
g trung bình
g nhỏ nhất
g trung bình
(đối với 2 câu bất kỳ)
(đối với 2 câu canh lề đúng)
<=10
0.754256
0.2
0.218889
<10-20
0.699376
0.272727
0.185671
<20-30
0.652777
0.294118
0.227717
>30
0.612416
0.3
0.220252
Bảng 56. Thống kê g trung bình theo chiều dài block
Theo thống kê, tuy g có giá trị trung bình khoảng 0.6~0.7, nhưng nếu chọn g ở giá trị này thì chúng ta sẽ bỏ qua rất nhiều phép canh lề tốt. Những phép canh lề có độ tương tự từ 0.2~0.4 chiếm tỉ lệ rất thấp. Do đó, chương trình chấp nhận phép canh lề có g >= 0.4 là phép canh lề hợp lệ.
Canh lề chéo:
Đối với những phép canh lề theo chiều dài câu mà không hợp lệ, chương trình xem như là có canh lề chéo. Bởi vì phép canh lề theo chiều dài câu bỏ qua trường hợp canh lề chéo. Khi đó, chương trình sẽ tìm một phép canh lề tốt nhất từ những block không hợp lệ. Thông thường, phép canh lề chéo không nhiều, do đó, chương trình sẽ tạo nên một tổ hợp canh lề, và sử dụng phương pháp vét cạn, dùng chỉ số độ tương tự g (tính như ở giai đoạn trước) để chọn ra phép canh lề tốt nhất.
Giới hạn của luận văn là chỉ kiểm tra canh lề chéo của các block trong cùng một đoạn (paragraph). Việc mở rộng canh lề chéo trong toàn văn bản có thể thực hiện được nhưng độ phức tạp cao.
Hiện thực canh lề chéo:
Đầu vào: Danh sách các block không hợp lệ
Đầu ra: Các block được canh lề chéo
Phương pháp:
(1)tạo tổ hợp các phép canh lề,
(2)tính độ tương tự của mỗi phép canh lề,
(3)chọn phép canh lề tốt nhất.
Lớp hiện thực: CrossAlignment
Canh lề từ:
Trong bước này, giải thuật LSSA được sử dụng để tạo được phép canh lề mịn hơn phép canh lề câu. Kết quả chúng ta sẽ được các điểm canh lề (các điểm mốc) sao cho số điểm được canh lề là nhiều nhất. Giải thuật cũng phát hiện một số các cụm từ canh lề chéo trong câu
Hiện thực giải thuật canh lề từ:
Đầu vào: Danh sách các điểm tương ứng trong block có được sau bước tạo điểm dùng vị từ so trùng.
Đầu ra: Các điểm canh lề trong block
Phương pháp:
(1)sử dụng LSSA để chọn điểm tương ứng thực sự,
(2)duyệt lại lần 2 để tìm tra những cụm từ canh lề chéo,
(3)lưu kết quả vào Cơ sở dữ liệu.
Lớp hiện thực: LSSA.
LSSA đã được giới thiệu trong mục 4.5, 4.6 phần phân tích giải thuật.
Mã giả của giải thuật như sau:
//Khai báo
ArrayList pos_l1; //mảng chứa vị trí các từ trong ngôn ngữ l1
ArrayList pos_l2; //mảng chứa vị trí các từ trong ngôn ngữ l2
ArrayList weight_l2; //mảng chứa trọng số của các cặp từ trong ngôn ngữ l2
ArrayList result_l2; //mảng kết quả: vị trí các từ trong ngôn ngữ l2
Int max=0; //vị trí có trọng số lớn nhất
//LSSA
Sắp xếp pos_l1 theo thứ tự tăng dần;
Sắp xếp pos_l2 theo vi trí tương ứng trong pos_l1;
For all w[i] in weight_l2
w[i]=1;
End For
For all p[i] in pos_l2
For j=i-1,j>=0,j++
If p[i]>p[j] and w[i]<=w[j] Then
w[i]=w[j]+1;
If w[max]<w[i] Then max=i;
End If
End For
End For
Int w_cur=w[max]
//Chọn điểm
For i=max-1;i>=0;i++
If w[i]=w[i-1] Then
Insert(result_l2,p[i]);
w_cur=w[i];
End If
End For
Return result_l2;
Kết quả của giải thuật là quyết định chọn những điểm canh lề dự tuyển nào sẽ trở thành những điểm canh lề thực sự trong câu. Để phát hiện những cụm từ canh lề chéo trong câu, giải thuật phải duyệt lại một lần nữa những điểm bị từ chối trong lần duyệt đầu.
Phân loại văn bản:
Tất cả các phép canh lề đều được lưu lại theo lĩnh vực của văn bản nguồn, kèm theo các thông số đánh giá chất lượng canh lề. Danh sách các lĩnh vực được lưu trong CSDL, bảng tblField. Phần phân loại lĩnh vực hiện tại được chọn bằng tay. Tuy nhiên, chương trình sẽ được cải tiến để có thể thực hiện phân loại văn bản tự động.
Kết quả thực nghiệm
Dữ liệu đầu vào để kiểm tra chương trình là 60 văn bản Anh-Việt (khoảng 10.000 cặp câu) thuộc hai lĩnh vực: Kinh tế và Tin học. Kho dữ liệu ban đầu gồm từ điển Anh Việt (5.500 từ), từ điển từ ghép tiếng Việt (13.100 từ), từ điển cụm từ tiếng Anh (10.400 từ). Ngoài ra, phần này có thu thập một từ điển Anh-Việt 100.000 từ. Tuy nhiên, khi sử dụng từ điển này để canh lề, tốc độ giải thuật chậm hơn rất nhiều, nhưng không tăng hiệu quả canh lề.
Giới thiệu chương trình:
Hệ thống Menu
Tiêu đề văn bản
Lĩnh vực của văn bản
Văn bản tiếng Anh
Văn bản tiếng Việt
Danh sách từ tiếng Anh
Danh sách từ tiếng Việt
Hình 61. Giao diện chính của chương trình
Kết quả canh lề của chương trình có thể chia ra làm ba giai đoạn:
Kết quả sau bước canh lề câu (Bước 1):
Sau bước canh lề theo chiều dài câu, chương trình đã có thể cho ra danh sách các khối (block) canh lề. Kết quả tương đối thuyết phục đối với những văn bản dịch chuẩn như các văn bản của đại sứ quán Hoa Kỳ, kết quả canh lề đạt chính xác đến 98%. Kết quả thống kê trên 30 văn bản như sau:
STT
Tên văn bản song ngữ
Số cặp câu
Kết quả
1
Toàn cầu hoá và đạt đươc sự phát triển lâu dài
43
100%
2
Diễn văn của ngài Đại sứ Michael W. Marine tại Hà Nội
100
100%
3
NATO vẫn là liên minh chủ chốt của chúng ta
72
100%
4
Tiếp cận với toà án: công lý và bình đẳng cho mọi người
95
100%
5
Tóm tắt lịch sử nền kinh tế Mỹ
310
99%
6
Các chính sách thương mại và kinh tế toàn cầu
225
99%
7
Một nước gồm nhiều sắc tộc
137
99%
8
Nước Mỹ thời lập quốc
327
98%
9
Các định hướng về vận tải hàng không thế kỷ 21
109
93%
10
Bài phát biểu của phụ trách thương mại Hoa Kỳ
47
96%
11
Bài phát biểu của đại sứ Hoa Kỳ
62
97%
12
Thông điệp Liên bang của tổng thống Bush
225
98%
13
Bảo vệ thế hệ trẻ trước đại dịch
80
98%
14
Phát biểu của Thứ trưởng Ngoại giao Robert Zoellick tại họp báo ở Thành phố Hồ Chí Minh
96
96%
15
Phát biểu của Thứ trưởng Ngoại giao Robert Zoellick tại họp báo ở Hà Nội
165
97%
16
Trung Quốc và Tương lai Quan hệ Trung-Mỹ
251
97%
17
Diễn văn của ngài đại sứ Michael W. Marine
152
99%
18
Kinh tế thị trường là gì
243
100%
19
Những cuộc chiến vĩ đại của thế kỷ 20
190
99%
20
Giao thông vận tải: chìa khoá của toàn cầu hoá
136
99%
21
Các thành phần của một hệ thống máy tính
56
96%
22
Thực thi phương thức với thread-pool
30
100%
23
Phát triển ứng dụng C#
48
96%
24
Thao tác dữ liệu
40
93%
25
Kết nối cơ sở dữ liệu
34
97%
26
Máy tính là gì?
23
96%
27
Các chủ đề và khu vực
118
96%
28
Môi trường tự nhiên
247
100%
29
Những nền tảng hoạt động của con người
147
98%
30
Siêu đô thị
182
100%
Tổng cộng (tỉ lệ sai: 78 / 3990)
3990
98%
Bảng 61. Kết quả canh lề câu trong luận văn
Những phép canh lề 2-1, 1-2 phát hiện tương đối chính xác. Ví dụ trong văn bản: “Toàn cầu hoá và đạt đươc sự phát triển lâu dài”.
Khối
Câu tiếng Anh
Câu tiếng Việt
Loại
5
As that gathering discusses globalization and development, I hope it will be with a clear recognition that it is private enterprise that is the basic engine to both
Hội nghị bàn về vấn đề toàn cầu hóa và phát triển. Tôi hy vọng rằng đó sẽ là hội nghị với sự nhận thức rõ ràng rằng doanh nghiệp tư nhân là động lực cơ bản của toàn cầu hóa và phát triển
1-2
12
Another example is foreign direct investment, a flow that the Institute of International Finance forecast at $225 billion this year
Một ví dụ khác nữa đó là nguồn đầu tư trực tiếp nước ngoài. Viện Tài chính Quốc tế ước tính luồng đầu tư này năm nay đạt 225 tỷ đô-la
1-2
Bảng 62. Phát hiện các phép canh lề 1-2
Hay trong văng bản: “Diễn văn của ngài Đại sứ Michael W. Marine trước phòng thương mại Hoa Kỳ tại Hà Nội”
Khối
Câu tiếng Anh
Câu tiếng Việt
Loại
27
The BTA has had a significant impact on our bilateral trade over the past two years, but that fast growth is slowing now
Hiệp định Thương mại Song phương có tác động đáng kể đến tăng trưởng thương mại song phương giữa hai nước trong hai năm vừa qua. Tuy nhiên, sự tăng trưởng đó hiện đang chậm lại
1-2
29
Total trade for the first seven months of this year is about equal to total trade during the same period in 2003, so this could also be a good year, although not necessarily a record-breaking onethis year
Tổng giá trị thương mại trong bảy tháng đầu năm 2004 gần tương đương với tổng giá trị thương mại cùng kỳ năm 2003. Vì vậy, năm 2004 vẫn có thể được coi là một năm tốt đẹp, mặc dù chưa hẳn đã là một năm chứng kiến bước đột phá
1-2
36
The survey shows $2.6 billion in realized U.S.-related investment through the end of 2003. It also shows that investment by U.S. firms grew significantly last year
Theo khảo sát này, các khoản đầu tư liên quan đến Mỹ đã được thực hiện tại Việt Nam cho đến cuối năm 2003 đạt 2,6 tỷ đô-la, và đầu tư của các công ty Mỹ đã tăng đáng kể vào năm ngoái
2-1
74
The U.S. Government team met with AmCham members last week to discuss this, and I strongly encourage AmCham and its members to do your part to fight the spread of HIV/AIDS in Vietnam
Nhóm công tác của Chính phủ Mỹ đã gặp gỡ các thành viên của Phòng Thương mại Hoa Kỳ vào tuần trước để bàn thảo về vấn đề này. Và tôi đặc biệt mong muốn Phòng Thương mại Hoa Kỳ và các thành viên hãy góp phần vào cuộc chiến chống lại sự lan tràn của HIV/AIDS tại Việt Nam
1-2
Bảng 63. Phát hiện các phép canh lề 1-2, 2-1
Một số trường hợp phân đoạn câu sai do văn bản song ngữ có cách trình bày không đúng. Ví dụ: trong văn bản “TÓM LƯỢC LỊCH SỬ NỀN KINH TẾ MỸ”
Block
Văn bản tiếng Anh
Văn bản tiếng Việt
Canh lề
6
(They were mistakenly called "Indians" by European explorers, who thought they had reached India when first landing in the Americas.) These native peoples were organized in tribes and, in some cases, confederations of tribes
(Họ bị những nhà thám hiểm châu Âu gọi nhầm là “người ấn Độ” (Indians) vì nghĩ rằng đã đến được ấn Độ khi lần đầu tiên đặt chân lên châu Mỹ). Những người bản địa này được tổ chức theo các bộ tộc, và trong một số trường hợp theo liên minh các bộ tộc
1-2
12
In 1492, Christopher Columbus, an Italian sailing under the Spanish flag, set out to find a southwest passage to Asia and discovered a "New World." For the next 100 years, English, Spanish, Portuguese, Dutch, and French explorers sailed from Europe for the New World, looking for gold, riches, honor, and glory
Vào năm 1492, Christopher Columbus, một người Italia dẫn đầu đoàn thuyền của Tây Ban Nha đã lên đường để tìm một tuyến đường phía tây nam sang châu Á và đã khám phá ra một “Tân thế giới”. Trong 100 năm tiếp theo, các nhà thám hiểm người Anh, Tây Ban Nha, Bồ Đào Nha, Hà Lan và Pháp từ châu Âu đến Tân thế giới để tìm kiếm vàng, sự giàu có, danh vọng và vinh quang
1-2
Bảng 64. Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng
Tại những vị trí in đậm, cách trình bày của người viết làm cho chương trình nhận dạng sai dấu chấm câu. Tuy nhiên, kết quả chương trình vẫn xác định đúng khối canh lề 2-1.
Canh lề 1-0 trong văng bản “CÁC CHÍNH SÁCH NGOẠI THƯƠNG VÀ KINH TẾ TOÀN CẦU” được xác định trong phép canh lề 2-1.
Block
Văn bản tiếng Anh
Văn bản tiếng Việt
Canh lề
37
American Trade Principles and Practice. The United States believes in a system of open trade subject to the rule of law
Hoa Kỳ luôn tin vào một hệ thống thương mại rộng mở dựa trên quy định của luật pháp
2-1
Bảng 65. Canh lề 1-0 được xác định trong canh lề 2-1
Lý do xảy ra tình trạng nhận dạng không chính xác là do số liệu thống kê tần suất xuất hiện của các loại phép canh lề, phép canh lề 1-0 chiếm rất thấp so với 1-1 và 2-1. Trong trường hợp này, chiều dài câu bị dịch thiếu (in đậm ở trên) lại không đủ lớn để giải thuật lập trình động (phân đoạn câu) xác định được đây là canh lề 1-0. Tuy nhiên, kết quả của chương trình như vậy là không có gì sai, có thể chấp nhận được.
Ngoài ra, một số lỗi khác khi xác định dấu chấm câu sai đã được phát hiện khi chạy chương trình và có điều chỉnh lại cho phù hợp. Ví dụ trong việc xác định chữ viết tắt, khi nhận dạng chữ gồm 2 chữ cái tận cùng bằng dấu chấm, chữ cái đầu in hoa (ví dụ: Mr. Son) thì coi đây là chữ viết tắt. Tuy nhiên, trong các câu có quá nhiều câu tận cùng là “Mỹ._”. Vì thế, chương trình phải điều chỉnh lại, bỏ luật áp dụng như trên và phải nhận diện những từ viết tắt như “Mr._” dựa vào danh sách từ viết tắt lưu sẵn. Một trường hợp khác tương tự là chữ “P._” trong “P. Laran” được xem là từ viết tắt vì nó là một chữ cái viết hoa kết thúc bằng dấu chấm, và chữ đi liền sau có chữ cái đầu viết hoa. Nhưng trong trường hợp “… các nền kinh tế châu Á. Các dòng vốn …” thì dấu chấm này là dấu chấm kết thúc câu. Trường hợp này chương trình không điều chỉnh vì sự xuất hiện của các chữ viết tắt trong họ tên xuất hiện nhiều hơn so với ở vị trí kết thúc câu. (Đang tìm hướng khắc phục những trường hợp phân đoạn câu còn chưa chính xác).
Kết quả sau bước canh lề chéo (Bước 2):
Ngoài tác dụng canh lề chéo, bước này còn có nhiệm vụ kiểm tra kết quả canh lề ở bước 1. Nếu mức độ tương tự giữa hai khối (block) tính được quá thấp, chương trình phải thực hiện quá trình canh lề lại đối với những block này. Những văn bản đưa vào chạy kiểm tra như đã giới thiệu ở trên chỉ xuất hiện 3 văn bản có canh lề chéo. Đó là trường hợp chéo 2 câu liên tục nhau. Thay vì ở bước 1, chương trình phải xác định là phép canh lề 2-2 thì chương trình lại xác định là 2 phép canh lề 1-1.
Ví dụ: Trong văn bản “Cải thiện hiệu quả”, đoạn thứ 2 có các cặp câu:
TT
Tiếng Anh
Tiếng Việt
Sim
6
Offers brief descriptions of some improvement techniques to show where the ideas for the suggested improvement method are taken from, i.e. a part of the analysis and synthesis process
Hầu hết các kỹ thuật được mô tả là các công cụ phân tích vì tập trung vào đây là đang xác định lĩnh vực cần cải thiện- một khi nó tiến đến việc cải thiện thật sự, giải pháp thực tế cũng sẽ dễ dàng hơn
0.214
7
Most of the techniques described are analysis tools, as the focus here is on identifying areas to improve when it comes to the actual improvement, the actual solution is often quite easy
Vài lời giới thiệu mô tả ngắn gọn về một số kỹ thuật cải tiến để minh họa nguồn gốc các ý tưởng của các kỹ thuật cải tiến đã gợi ý, nghĩa là một phần của quy trình phân tích và tổng hợp
0.352
Bảng 66. Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu
Hai cặp câu thứ 6 và 7 có độ tương tự lần lượt là 0.214 và 0.352 vì nó cũng phát hiện ra một số cặp từ giống nhau trong hai câu:
TT câu
TT từ
xID
Từ TA
yID
Từ TV
6
1
110
many
235
nhiều
6
2
111
methods
236
phương pháp
6
3
113
improving
238
cải thiện
6
4
130
and
242
với
7
1
136
methods
251
phương pháp
7
2
141
improving
263
cải thiện
Với độ tương tự nhỏ như vậy, chương trình phải tiến hành canh lề chéo cho hai khối này. Sau bước canh lề chéo, độ tương tự tăng rõ rệt. Kết quả là:
TT
Tiếng Anh
Tiếng Việt
Sim
6
Offers brief descriptions of some improvement techniques to show where the ideas for the suggested improvement method are taken from, i.e. a part of the analysis and synthesis process
Vài lời giới thiệu mô tả ngắn gọn về một số kỹ thuật cải tiến để minh họa nguồn gốc các ý tưởng của các kỹ thuật cải tiến đã gợi ý, nghĩa là một phần của quy trình phân tích và tổng hợp
0.642
7
Most of the techniques described are analysis tools, as the focus here is on identifying areas to improve when it comes to the actual improvement, the actual solution is often quite easy
Hầu hết các kỹ thuật được mô tả là các công cụ phân tích vì tập trung vào đây là đang xác định lĩnh vực cần cải thiện- một khi nó tiến đến việc cải thiện thật sự, giải pháp thực tế cũng sẽ dễ dàng hơn
0.722
Bảng 67. Ví dụ minh họa - Kết quả canh lề chéo
Để kiểm tra thêm giải thuật canh lề chéo, nội dung văn bản được sửa đổi theo chủ ý (hoán đổi vị trí của một số câu tiếng Việt). Kết quả là chương trình nhận biết được phép canh lề chéo và canh lề lại chính xác đến 70% những tình huống đưa ra.
Kết quả canh lề từ:
Áp dụng giải thuật LSSA vào phép canh lề từ cho các khối song ngữ Anh – Việt, kết quả không tốt lắm. Vì LSSA cho ra chuỗi các từ canh lề dài nhất theo thứ tự sắp xếp, nhưng tiếng Việt và tiếng Anh có điểm khác biệt rất lớn. Ví dụ như tính từ tiếng Anh đứng trước danh từ. Trong khi đó, tính từ tiếng Việt thì đứng sau danh từ. Chương trình đã bỏ đi một số điểm canh lề tốt. Tuy nhiên, kết quả cũng chấp nhận được. Chương trình tạo được khoảng 4 điểm tương ứng chính xác cho một block có chiều dài trung bình là 10 từ. Ngoài ra chương trình cũng canh lề chéo cho những cụm từ có chiều dài trên 3 từ. Ví dụ dưới đây minh họa điều này.
Trong văn bản “Diễn văn của ngài Đại sứ Michael W. Marine tại Hà Nội”, kết quả canh lề từ của một số cặp câu như sau:
Cặp câu thứ 14:
TT
Tiếng Anh
Tiếng Việt
14
From the very limited relationship in the 1980s to normalization of relations in 1995, we moved on to negotiate a Bilateral Trade Agreement (or BTA) in 2001 followed by agreements involving counter-narcotics and civil aviation in the past year
Từ mối quan hệ rất hạn chế trong thập niên 80 đến sự kiện bình thường hóa quan hệ ngoại giao vào năm 1995, chúng ta đã tiến tới đàm phán Hiệp định Thương mại Song phương (gọi tắt là BTA) vào năm 2001, tiếp theo là những hiệp định về chống ma túy và hàng không dân dụng trong năm vừa qua
Có kết quả canh lề từ là:
TT
xID
Từ TA
yID
Từ TV
1
294
limited
410
hạn chế
2
295
relationship
406
mối quan hệ
3
300
normalization
419
bình thường hóa
4
302
relations
422
quan hệ
5
304
1995
428
1995
6
305
we
429
chúng ta
7
309
negotiate
434
đàm phán
8
311
bilateral trade
441
phương
9
313
agreement
436
hiệp định
10
314
(
442
(
11
316
bta
446
bta
12
317
)
447
)
13
319
2001
450
2001
14
320
followed
451
tiếp theo
15
321
by
416
đến
16
322
agreements
455
hiệp định
17
325
and
461
và
18
327
aviation
462
hàng không
19
331
year
427
năm
Bảng 68. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA
Trong đó, cặp từ thứ 8 là (bilateral trade, phương) và cặp từ thứ 15 (by, đến) bị loại ra khỏi danh sách điểm tương ứng sau giải thuật LSSA.
Trong cặp câu thứ 17, LSSA phát hiện được phép canh lề cụm từ chéo:
TT
Tiếng Anh
Tiếng Việt
17
My own Vietnam experience dates back to the years 1988 to 1990 when I was Deputy Director of the State Department's Office of Vietnam, Laos and Cambodia Affairs
Bản thân tôi cũng có nhiều kinh nghiệm về Việt Nam với tư cách là Phó Giám đốc Văn phòng Bộ Ngoại giao Mỹ phụ trách các vấn đề về Việt Nam, Lào và Campuchia từ năm 1988 đến năm 1990
Có kết quả canh lề từ như sau:
TT
xID
Từ TA
yID
Từ TV
1
402
my
594
tôi
2
403
own
592
bản thân
3
404
vietnam
601
việt nam
4
405
experience
598
kinh nghiệm
5
410
years
628
năm
6
411
1988
629
1988
7
413
1990
632
1990
8
417
deputy
607
phó
9
418
director
608
giám đốc
10
423
office
610
văn phòng
11
425
vietnam
622
việt nam
12
426
laos
624
lào
13
427
and
625
và
Bảng 69. Ví dụ kết quả canh lề chéo cụm từ
Trong đó các cặp từ thứ 5,6,7 là những cặp từ canh lề chéo (in đậm ở trên).
Kết quả hiển thị trong chương trình rất rõ ràng, cho phép kiểm tra phép canh lề câu và canh lề từ, kèm theo những kết quả tính toán. Khi chọn vào một khối canh lề ở trên, bên dưới sẽ hiển thị nội dung 2 văn bản của khối này. Đồng thời, hiển thị danh sách các từ được canh lề với nhau sau giải thuật canh lề từ.
Danh sách blocks tiếng Việt
Danh sách blocks tiếng Anh
Nội dung block tiếng Anh đang chọn
Nội dung block tiếng Việt đang chọn
Các điểm tương ứng thực sự của block đang chọn sau phép canh lề từ
Hình 62. Giao diện hiển thị kết quả.
Các chức năng khác:
Lưu kết quả canh lề:
Toàn bộ kết quả canh lề được lưu trữ vào cơ sở dữ liệu. Mỗi văn bản được phân loại theo lĩnh vực. Các cặp câu canh lề, các cặp từ tương ứng được lưu trữ, tạo thành kho ngữ liệu để phục vụ cho các ứng dụng khác.
Mở lại một qui trình canh lề:
Toàn bộ qui trình và kết quả canh lề được lưu lại và có thể phục hồi.
Chạy từng bước giải thuật:
Để phục vụ cho việc tìm hiểu giải thuật, chương trình có chức năng chạy từng bước và xem kết quả từng giai đoạn.
Kết luận
Đây là phần cuối của luận văn. Trong phần này, toàn bộ quá trình nghiên cứu về lý thuyết và hiện thực sẽ được tổng kết lại. Từ đó sẽ đề xuất một số hướng mở rộng và phát triển đề tài.
Tổng kết:
Theo thời gian, các giải thuật canh lề văn bản song ngữ ngày càng nhiều và kết quả đạt được ngày càng tốt hơn. Có thể chia các giải thuật ra làm hai xu hướng chính là canh lề dựa vào chiều dài câu và canh lề dựa vào từ vựng. Mỗi phương pháp có những ưu điểm và nhược điểm riêng. Một số nhà nghiên cứu kết hợp các phương pháp với nhau để tăng độ chính xác cho phép canh lề.
Một số phương pháp canh lề độc lập ngôn ngữ. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Một số phương pháp khác đòi hỏi thực hiện các thống kê và chuẩn bị kho dữ liệu ban đầu. Do đó, khi áp dụng một phương pháp canh lề vào một cặp ngôn ngữ cụ thể, chúng ta cần phải điều chỉnh lại cho phù hợp. Ngoài ra, chúng ta còn phải tập trung xử lý một số biệt lệ trong ngôn ngữ học và trong dịch thuật.
Nội dung của luận văn là canh lề văn bản Anh – Việt. Trong tiếng Việt, điểm khác biệt rõ nhất là phải xác định từ ghép tiếng Việt. Để làm việc này, thông thường chúng ta sử dụng từ điển từ ghép tiếng Việt. Ngoài ra, một điểm cần lưu ý trong dịch thuật là dịch tách câu (canh lề 1-2), gom câu (2-1), và dịch chéo. Đóng góp của luận văn là tìm hiểu các giải thuật đã được nghiên cứu, phân tích những điểm chưa phù hợp khi áp dụng vào canh lề văn bản Anh – Việt và đưa ra giải pháp khắc phục. Điểm mới trong luận văn là áp dụng giải thuật Porter để cắt lấy gốc từ tiếng Anh, phát hiện trường hợp dịch chéo. Khi đó, chương trình phải xử lý canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Bên cạnh đó, chương trình cũng áp dụng giải thuật LSSA, lần đầu áp dụng vào canh lề cho văn bản Anh – Việt. Mặc dù giải thuật này chưa thật sự phù hợp, nhưng cũng giúp chúng ta rút ra được một kinh nghiệm khi nghiên cứu về canh lề.
Phần hiện thực xây dựng một chương trình phần mềm máy tính với giao diện thân thiện, dễ sử dụng, trình bày kết quả rõ ràng. Kết quả thực nghiệm cho kết quả tương đối chính xác. Ngoài ra, chương trình tập hợp một kho ngữ liệu quan trọng, bao gồm các cặp câu song ngữ đã được canh lề, phân theo từng lĩnh vực. Kho dữ liệu này được lưu trữ với hệ quản trị cơ sở dữ liệu SQL Server, dễ dàng chia sẽ trong môi trường mạng máy tính toàn cầu. Đây là nguồn dữ liệu hữu ích để phát triển các ứng dụng, ví dụ như xây dựng một từ điển chuyên ngành, hỗ trợ dịch máy,…
Trong luận văn này, tôi đã thực hiện những công việc sau:
Tìm hiểu các công trình nghiên cứu trước đó thông qua các bài báo cáo khoa học tìm kiếm trên mạng Internet, và một số luận văn trong nước.
Xây dựng kho dữ liệu ban đầu bao gồm bộ từ điển Anh Việt, Việt Anh, từ ghép tiếng Việt, cụm từ tiếng Anh, từ viết tắt trong tiếng Anh.
Sử dụng từ điển từ ghép tiếng Việt và cụm từ tiếng Anh để phân đoạn từ, giúp chương trình không chia nhỏ những cụm từ, những thành ngữ mà khi tách ra từng từ nó hoàn toàn không có ý nghĩa.
Tập hợp những trường hợp kết thúc câu đặc biệt, sử dụng danh sách các từ viết tắt, những trường hợp dấu chấm không phải là dấu kết thúc câu để phân đoạn câu một cách hợp lý.
Tìm hiểu và hiện thực giải thuật stemming Porter. Áp dụng giải thuật này để cắt lấy gốc từ tiếng Anh, giúp cho giai đoạn nhận dạng các điểm tương ứng chính xác hơn
Lập trình động để canh lề câu theo chiều dài câu. Nhận dạng chính xác các phép canh lề 2-1, 1-2.
Phát hiện chính xác 80% các phép canh lề câu chéo.
Áp dụng giải thuật LSSA vào canh lề từ cho văn bản song ngữ Anh Việt. Xác định một số canh lề chéo các cụm từ trong câu.
Xây dựng kho ngữ liệu thu thập được từ kết quả canh lề: bao gồm khoảng 10000 cặp câu Anh Việt, phân loại theo lĩnh vực.
Vì thời gian có hạn nên kết quả nghiên cứu còn nhiều thiết sót, không thể trình bày chi tiết tất cả các giải thuật có liên quan, cũng như chưa thể hiện thực hoàn chỉnh tất cả các chức năng của chương trình canh lề.
Hướng mở rộng và phát triển đề tài:
Hoàn chỉnh luận văn:
Các thông số của chương trình cần chạy thử nghiệm nhiều lần và đánh giá xem với bộ thông số như thế nào thì chương trình chạy hiệu quả nhất. Giai đoạn này chưa có nhiều thời gian để thực hiện. Cần tìm kiếm những tài liệu mà chất lượng dịch thuật kém hơn hoặc có nhiều chỗ dịch chéo để đánh giá kết quả canh lề của phương pháp.
Trong luận văn có nói đến việc phân loại tự động các văn bản đưa vào canh lề. Việc này hoàn toàn có thể thực hiện được. Trong tương lai có thể thực hiện thêm chức năng này.
Phát triển theo hướng nghiên cứu:
Thông thường, chúng ta canh lề theo chiều: một từ được dịch thành nhiều hơn một từ. Ví dụ: một từ tiếng Anh được dịch thành 1.55 từ tiếng Việt à chiều canh lề: Anh - Việt. Nếu chúng ta canh lề theo chiều ngược lại thì như thế nào? Một số phương pháp sẽ gặp ngay sự cố. Tuy nhiên, do phương pháp này có xác định từ ghép tiếng Việt và cụm từ tiếng Anh nên có thể thực hiện theo chiều ngược lại: Viêt – Anh. Điều này có ý nghĩa khi chúng ta canh lề văn bản song ngữ mà hai ngôn ngữ đều có từ ghép.
Phát triển theo hướng ứng dụng:
Thu thập thêm các văn bản song ngữ và canh lề để bổ sung vào kho ngữ liệu.
Xây dựng từ điển chuyên ngành: Khi kho ngữ liệu đủ lớn, có thể xây dựng nên một từ điển Anh Việt, cũng như xây dựng danh sách cụm từ (collocation) trong một lĩnh vực chuyên môn (domain) nào đó. Khi đó, chúng ta có thể cập nhật tự động danh sách từ ghép và cụm từ tiếng Anh. Việc này hoàn toàn có thể thực hiện nhưng đòi hỏi phải có kho ngữ liệu (corpus) đủ lớn và mang tính đại diện.
Hiện nay, trung tâm BR&T đang xây dựng một kho tri thức (Casebase) các tình huống kinh doanh và giải pháp của nó. Một số tình huống được lưu trữ bằng tiếng Việt, một số bằng tiếng Anh, một số song ngữ. Khi có một tình huống mới bằng tiếng Việt, làm sao có thể sử dụng lại các tình huống trước đây. Đây cũng có thể là một ứng dụng có liên quan. Từ kho ngữ liệu mà luận văn này có thể thu thập được trong lĩnh vực kinh doanh, kết hợp với kho tri thức (Casebase – kho này có song ngữ), có thể tạo được bộ từ khóa cho lĩnh vực này và thực hiện việc tái sử dụng tri thức.
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT
Thuật ngữ tiếng Anh
Thuật ngữ tiếng Việt
Align
Canh lề, đối sánh
Aligned block
Khối được canh lề
Alignment
Canh lề
Bitext
Văn bản song ngữ
Bitext map
Bản đồ ánh xạ
Bitext slope
Góc nghiêng của văn bản song ngữ
Candidate point
Điểm dự tuyển
Chain
Chuỗi
Cognate
Từ có cùng nguồn gốc
Conditionally independent
Độc lập có điều kiện
Confidence bands
Dãy giới hạn
Corpus
Kho ngữ liệu
Cross alignment
Phép canh lề chéo
Dice’s coefficient
Hệ số Dice
Dynamic programming
Lập trình động
Dynamic programming Framework
Khung lập trình động
Generate point
Tạo điểm
Heuristics
Quyết định cảm tính
Histogram of Distances
Biểu đồ khoảng cách
Language independence
Độc lập ngôn ngữ
Language model
Mô hình ngôn ngữ
Length-based Alignment
Canh lề theo chiều dài câu
Linear Regression Line
Đường thẳng hồi qui tuyến tính
Main diagonal
Đường chéo chính
Map Point
Điểm tương ứng
Matching predicate
Vị từ so trùng
Mean
Trung bình
Parallel text
Văn bản song ngữ
Precision
Độ chính xác
Recall
Mức độ hoàn toàn
Reliable point
Điểm tin cậy
Segment
Đoạn
Sentence Alignment
Canh lề câu
Standard deviation
Độ lệch chuẩn
Stopword
Từ không có ý nghĩa
Text Alignment
Canh lề văn bản
Tokenize
Tách từ
Translation lexicon
Từ vựng dịch
Translation lexicon dictionary
Từ điển từ vựng
Translation model
Mô hình dịch
True bitext map – TBM
Bản đồ ánh xạ thực
True map point
Điểm tương ứng thực sự
True point of correspondence – TCP
Điểm tương ứng thực sự
Variance
Độ lệch
Word Alignment
Canh lề từ
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH
Thuật ngữ tiếng Việt
Thuật ngữ tiếng Anh
Canh lề, đối sánh
Align
Khối được canh lề
Aligned block
Canh lề
Alignment
Văn bản song ngữ
Bitext
Bản đồ ánh xạ
Bitext map
Góc nghiêng của văn bản song ngữ
Bitext slope
Điểm dự tuyển
Candidate point
Chuỗi
Chain
Từ có cùng nguồn gốc
Cognate
Độc lập có điều kiện
Conditionally independent
Dãy giới hạn
Confidence bands
Kho ngữ liệu
Corpus
Phép canh lề chéo
Cross alignment
Hệ số Dice
Dice’s coefficient
Lập trình động
Dynamic programming
Khung lập trình động
Dynamic programming Framework
Tạo điểm
Generate point
Quyết định cảm tính
Heuristics
Biểu đồ khoảng cách
Histogram of Distances
Độc lập ngôn ngữ
Language independence
Mô hình ngôn ngữ
Language model
Canh lề theo chiều dài câu
Length-based Alignment
Đường thẳng hồi qui tuyến tính
Linear Regression Line
Đường chéo chính
Main diagonal
Điểm tương ứng
Map Point
Vị từ so trùng
Matching predicate
Trung bình
Mean
Văn bản song ngữ
Parallel text
Độ chính xác
Precision
Mức độ hoàn toàn
Recall
Điểm tin cậy
Reliable point
Đoạn
Segment
Canh lề câu
Sentence Alignment
Độ lệch chuẩn
Standard deviation
Từ không có ý nghĩa
Stopword
Canh lề văn bản
Text Alignment
Tách từ
Tokenize
Từ vựng dịch
Translation lexicon
Từ điển từ vựng
Translation lexicon dictionary
Mô hình dịch
Translation model
Bản đồ ánh xạ thực
True bitext map – TBM
Điểm tương ứng thực sự
True map point
Điểm tương ứng thực sự
True point of correspondence – TCP
Độ lệch
Variance
Canh lề từ
Word Alignment
TÀI LIỆU THAM KHẢO
Tiago Ildefonso and Gabriel Pereira Lopes, Longest Sorted Sequence Algorithm for Parallel Text Alignment, CITI, 2005.
Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang, Bilingual Sentence Alignment Based on Punctual Statistical and Lexicon, 224-232, 2005.
Ismael Garcia Varea, Daniel Ortiz, Francisco Nevado, Pedro A.Gomez, and Francisco Casacuberta, Automatic Segmentation of Bilingual Corpora: A Comparison of Different Techniques, pp. 614-621, 2005.
Trần Giang Sơn, Canh lề văn bản song ngữ Anh Việt và ứng dụng, trường Đại học Bách Khoa Tp. Hố Chí Minh, 06/2005.
Đặng Huấn, Xác suất thống kê, Nhà xuất bản thống kê, 2004.
Seonho Kim, Juntae Yoon, Dong-Yul Ra, Two-Level Alignment by Words and Phrases Based on Syntactic Information, Springer-Verlag Berlin Heidelberge 2004, 2004.
Chirstopher D.Manning, Hinrich Schutze, Foundations of Statistical Natural Language Processing, The MIT Pres, Cambridge, Massachusetts, London, England, 2000.
Antonio Ribeiro, Gabriel Lopes, and Joao Mexia, A Self_Learning Method of Parallel Texts Alignment, Quinta da Torre, Portual, 2000.
Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre, An Algorithm for Aligning Sentences in Bilingual Corpora Using Lexical Information, International Institue of Information Technology, Hyderabad.
I. Dan Melamed, Bitext maps and Alignment via Pattern Recognition, Association for Computational Linguistics, 1999.
Martin Kay, Martin Roscheisen, Text-Translation Alignment, Computational Linguistics Volume 19, 1996.
James Allen, Natural Language Understanding, The Benjamin/Cummings Publishing Company, Inc, 1995.
Mark W.Davis, Ted E.Dunningand Willim C.Ogden, Text Alignment in the Real Work: Improving Alignments of Noisy Translations Using Common Lexical Feature, String Matching Strategies and N-Gram Comparisons, New Mexico State University, 1994.
Stanley F.Chen, Alignment Sentences in Bilingual Corporal Using Lexical Information, Proceeding of the 31st Annual Meeting of the Association for Computation Linguistics, 1993.
Michel Simard, George F. Foster, Pierre Isabelle, Using cognates to align sentences in bilingual corpora, 1993.
William A.Gale, Kenneth W.Church, A Program for aligning sentences in biligual corpora, 1991.
Peter F.Brown, Jennifer C.Lai, Robert L.Mercer, Aligning sentences in parallel corpora, 1991.
Nguyễn Thị Thu Hương, Lê Ngọc Minh Trị, Phát triển động cơ thu thập tự động các bài báo khoa học trên www, Luận văn tốt nghiệp đại học, ĐH Bách Khoa Tp. HCM, 2004.
Các file đính kèm theo tài liệu này:
- 260_luan_van_tot_nghiep_1787.doc