Hiện nay, dịch máy mạng nơ-ron đã đạt được những thành tựu đáng kể,
tuy nhiên, dịch máy thống kê vẫn có những thế mạnh và có thể phát huy như:
dịch tốt trong điều kiện ngữ liệu huấn luyện hạn chế, không đòi hỏi tài nguyên
phần cứng cao như dịch máy nơ-ron; từ đó có thể thấy rằng dịch máy thống kê
có thể áp dụng vào các ứng dụng dịch thuật trong các miền cụ thể (lĩnh vực
khoa học kỹ thuật quân sự) trên các hệ thống máy tính có cấu hình vừa phải,
hoạt động ở chế độ ngoại tuyến (offline). Luận án nghiên cứu các phương pháp
nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngôn ngữ Việt –
Anh, trong đó tập trung vào phần tiền xử lý dữ liệu và nâng cao chất lượng
gióng hàng từ. Các nghiên cứu đã được thực hiện nhằm nâng cao chất lượng
từng phần của hệ thống dịch máy thống kê, từ đó nâng cao chất lượng tổng thể
của cả hệ thống. Các kết quả chính của luận án bao gồm:
i) Nghiên cứu các kỹ thuật tăng cường dữ liệu bằng dịch ngược, trên cơ
sở phân tích các kỹ thuật này, lựa chọn phương pháp dịch ngược để tạo ra câu
giả lập là câu phía đích (tiếng Anh) thông qua ngôn ngữ trung gian (tiếng Đức)
vì cặp ngôn ngữ Anh – Đức là cặp ngôn ngữ có tài nguyên phong phú, được
quan tâm nghiên cứu nhiều và có các mô hình dịch được huấn luyện sẵn có chất
lượng tốt. Sau khi tạo ra các cặp câu giả lập, luận án đề xuất hai độ đo thích
nghi để lựa chọn dữ liệu bằng mô hình ngôn ngữ nhằm bổ sung ngữ liệu huấn
luyện cho hệ thống dịch máy, trong luận án cũng chỉ ra rằng nếu không sử dụng
các độ đo để lựa chọn dữ liệu, chất lượng dịch của hệ thống sẽ bị kém đi sau
khi bổ sung dữ liệu huấn luyện.
ii) Nghiên cứu các phương pháp chia nhỏ từ dựa trên thống kê và dựa
trên đặc điểm hình thái từ, các phương pháp chia nhỏ từ này chỉ được áp dụng
cho dịch máy nơ-ron nhằm giải quyết bài toán từ hiếm (rare words) và từ nằm
ngoài bảng từ vựng (out of vocabulary – OOV) mà chưa từng được áp dụng
cho dịch máy thống kê. Nghiên cứu các phương pháp nâng cao chất lượng gióng
hàng từ trong dịch máy thống kê, phân tích các đặc điểm hình thái ngôn ngữ100
tiếng Anh, trên cơ sở đó, đề xuất cải tiến mô hình gióng hàng trong đó áp dụng
các phương pháp chia nhỏ từ (subword) phía tiếng Anh và xây dựng thuật toán
gióng hàng mới cho phù hợp với phương pháp chia nhỏ từ khi áp dụng vào dịch
máy thống kê.
iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước và sau
khi áp dụng các đề xuất cải tiến trên hệ thống SMT MOSES và các tập dữ liệu
IWSLT2015, EVB.
127 trang |
Chia sẻ: huydang97 | Ngày: 27/12/2022 | Lượt xem: 316 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ Việt - Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
âu phía tiếng Anh đã được chia nhỏ từ E’, nên câu thu được từ hệ thống này
cũng đã được chia nhỏ từ, để tính điểm BLEU cần kết hợp các từ đã được chia
nhỏ (decode) các câu thu được để so sánh với các câu tham chiếu (reference)
trong tập tst2013.
Hình 3.5 minh họa quá trình thử nghiệm của hệ thống SMT-BPE-A,
trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet
they had to be very qui_ et), sau đó huấn luyện mô hình dịch trên các cặp câu vi-enbpe
(khán giả phải thực sự yên tĩnh - they had to be very qui_ et), mô hình ngôn ngữ cũng được
83
huấn luyện trên các câu đã được chia nhỏ (they had to be very qui_ et). Trong quá
trình đánh giá, vì mô hình dịch huấn luyện trên kho song ngữ có câu tiếng Anh
đã được chia nhỏ nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh đã chia
nhỏ (anh đã bao giờ tự gửi một tấm thiệp chưa ? have you ever sent yourself a post_ card ?),
cần thực hiện chuẩn hóa (giải mã) các câu tiếng Anh (have you ever sent yourself a
post_ card ? have you ever sent yourself a postcard ?) sau đó tính điểm BLEU để đánh
giá hệ thống.
Giai đoạn huấn luyện
Vi: khán giả phải thực sự yên tĩnh .
En: they had to be very quiet .
Giai đoạn đánh giá
Vi: anh đã bao giờ tự gửi một tấm thiệp
chưa ?
Bước
1: chia nhỏ từ
2: gióng hàng
từ
3: Huấn luyện
mô hình dịch
4: Huấn luyện
mô hình ngôn
ngữ
5: Đánh giá hệ
thống
Vi: khán giả phải thực sự yên tĩnh .
En: they had to be very qui_ et .
0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7
En: they had to be very qui_ et .
En: have you ever sent yourself a post_
card ?
En: have you ever sent yourself a
postcard ?
Hình 3.5. Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ.
Bảng 3.2. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ
bằng kỹ thuật BPE sử dụng bảng gióng hàng từ A
Tiêu chí Hệ thống SMT(BPE)-A
BLEU 23,40
BLEU -1,05
Kết quả thử nghiệm được trình bày trong Bảng 3.2. Kết quả này cho thấy,
việc chỉ áp dụng chia nhỏ từ và thực hiện huấn luyện hệ thống dịch máy thống
kê khiến cho hệ thống trở nên kém hơn so với hệ thống gốc, điểm BLEU giảm
so với mô hình baseline BLEU = 1,05. Điều này có thể lý giải là do việc chia
84
nhỏ từ đã làm thay đổi các câu dùng để huấn luyện mô hình ngôn ngữ, mô hình
ngôn ngữ không còn hiệu quả trong việc lựa chọn các câu dịch tốt nhất. Việc
chia nhỏ từ chỉ giúp ích cho công đoạn huấn luyện mô hình dịch, trực tiếp ở
đây là bảng gióng hàng từ.
3.4.4. Thử nghiệm mô hình được cải tiến gióng hàng từ sử dụng các kỹ thuật
chia nhỏ từ khác nhau
Trong phần này luận án tiến hành các thử nghiệm mô hình gióng hàng cải
tiến được đề xuất cho hệ thống SMT cặp ngôn ngữ Việt - Anh với các kỹ thuật
chia nhỏ từ khác nhau. Các thử nghiệm được tiến hành với qui trình như sau:
- Sử dụng kỹ thuật chia nhỏ từ để chia nhỏ (encode) các từ thuộc phía
tiếng Anh của kho ngữ liệu song ngữ “IWLST’15”.
- Sử dụng phần mềm MOSES để huấn luyện mô hình dịch máy thống kê
cặp ngôn ngữ Việt- Anh.
- Sử dụng công cụ gióng hàng GIZA++ để tạo bảng gióng hàng A.
- Áp dụng thuật toán DecodeAlignmentTable (đã đề xuất ở Mục 3.3.3)
để tạo bảng gióng hàng từ A* từ bảng gióng hàng từ A thu được ở bước trên.
- Sử dụng công cụ KenLM huấn luyện mô hình ngôn ngữ trên các câu
phía tiếng Anh gốc
- Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013.
Hình 3.7 minh họa quá trình thử nghiệm của các hệ thống có áp dụng
chia nhỏ từ và chuẩn hóa bảng gióng hàng từ A*. Trong quá trình huấn luyện,
câu đầu vào được chia nhỏ (they had to be very quiet they had to be very qui_ et), sau
đó gióng hàng từ trên các cặp câu vi-enbpe (khán giả phải thực sự yên tĩnh - they had to
be very qui_ et), bảng gióng hàng A được chuẩn hóa thành bảng gióng hàng A*
theo thuật toán mô tả trong phần 3.3.3 (). Mô hình ngôn ngữ được huấn luyện
trên các câu ban đầu (they had to be very quiet). Trong quá trình đánh giá, vì bảng
85
gióng hàng đã được chuẩn hóa thành gióng hàng “từ”-“từ” nên từ câu tiếng
Việt sẽ nhận được các câu tiếng Anh chuẩn (anh đã bao giờ tự gửi một tấm thiệp chưa
? have you ever sent yourself a post_ card ?), không cần thực hiện chuẩn hóa (giải
mã) các câu tiếng Anh và thực hiện tính điểm BLEU để đánh giá hệ thống.
Giai đoạn huấn luyện
Vi: khán giả phải thực sự yên tĩnh .
En: they had to be very quiet .
Giai đoạn đánh giá
Vi: anh đã bao giờ tự gửi một tấm thiệp
chưa ?
Bước
1: chia nhỏ từ
2: gióng hàng
từ (A)
4: Huấn luyện
mô hình dịch
5: Huấn luyện
mô hình ngôn
ngữ
6: Đánh giá hệ
thống
Vi: khán giả phải thực sự yên tĩnh .
En: they had to be very qui_ et .
0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7
En: they had to be very quiet .
En: have you ever sent yourself a
postcard ?
3: Chuẩn hóa
bảng gióng
hàng từ (A*)
0-0 2-1 2-2 2-3 3-3 3-4 4-4 5-5 6-5 7-6
Hình 3.6. Ví dụ huấn luyện hệ thống dịch máy áp dụng chia nhỏ từ kết hợp
với chuẩn hóa bảng gióng hàng từ A*.
Các thử nghiệm được tiến hành theo qui trình trên với các kỹ thuật chia
nhỏ từ khác nhau bao gồm:
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ
vựng mục tiêu lần lượt là 4K (4.000), 5K (5.000), 6K (6000), 8K (8.000). Hệ
thống thu được là SMT-BPE-A* .
Bảng 3.3 dưới đây thống kê tuần suất xuất hiện các từ hiếm phía tiếng
Anh khi sử dụng kỹ thuật chia nhỏ từ BPE với bảng từ vựng mục tiêu có các
kích thước khác nhau.
Bảng 3.3 Tần suất xuất hiện các từ hiếm tiếng Anh với thuật chia nhỏ từ BPE
86
Ngữ liệu
Kích
thước
bảng từ
vựng
Số lượng
từ
Số
lượng
từ xuất
hiện
<10 lần
% từ
xuất hiện
<10 lần
Số lượng
từ xuất
hiện
<20 lần
% từ xuất
hiện
<20 lần
IWSLT2015 2.706.404 94.591 3,495 144.102 5,32
Sử dụng chia
nhỏ từ BPE
4.000 3.307.167 544 0,016 1.576 0,048
5.000 3.216.123 760 0,024 2.382 0,074
6.000 3.149.614 1.058 0,033 3.488 0,111
8.000 3.057.980 1.847 0,060 6.347 0,208
Bảng 3.3 cho thấy việc chia nhỏ từ giảm kích thước bảng từ vựng, từ đó
tăng tần suất xuất hiện của từ hiếm trong ngữ liệu huấn luyện, giảm các từ có
tần suất xuất hiện thấp (các từ hiếm).
Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ
thuật BPE, sử dụng bảng A* để gióng hàng từ được trình bày Bảng 3.4 (BLEU
là kết quả so sánh với baseline).
Bảng 3.4. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ
bằng kỹ thuật BPE, sử dụng bảng A* để gióng hàng từ
Hệ thống: SMT(BPE)-A*
Kích thước
bảng từ vựng BLEU BLEU
4.000 24,86 0,41
5.000 25,11 0,66
6.000 24,65 0,20
8.000 24,82 0,27
87
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Wordpiece được hệ thống
SMT-Wordpiece-A*. Kết quả thử nghiệm thu được được trình bày trong Bảng
3.5 (BLEU là kết quả so sánh với baseline)
Bảng 3.5. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ
bằng kỹ thuật Wordpiece, sử dụng bảng A* để gióng hàng từ
Tiêu chí Hệ thống: SMT(Wordpiece)-A*
BLEU 24,87
BLEU 0,42
- Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Unigram kích thước bảng từ
vựng lần lượt được sử dụng là 4K (4.000), 5K (5.000), 6K (6000) được hệ thống
SMT-Unigram-A* . Kết quả thử nghiệm được trình bày trong Bảng 3.6 (BLEU
là kết quả so sánh với baseline).
Bảng 3.6. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ
bằng kỹ thuật Unigram, sử dụng bảng A* để gióng hàng từ
Hệ thống: SMT(Unigram)-A*
Kích thước
bảng từ
vựng
BLEU BLEU
4.000 24,73 0,28
5.000 24,80 0,35
6.000 24,69 0,24
- Thử nghiệm sử dụng công cụ Morfessor 2.0 để chia nhỏ các từ thuộc
phía tiếng Anh. Thử nghiệm này gồm hai mô hình chia nhỏ từ với các kho ngữ
liệu đơn ngữ khác nhau:
(i) Đối với hệ thống SMT-Morfessor1-A* thì sử dụng các câu phía tiếng
Anh của kho ngữ liệu huấn luyện “IWSLT2015”
(ii) Đối với hệ thống SMT-Morfessor2-A* thì sử dụng ngữ liệu đơn ngữ
từ kho europarl-v7.en.
88
Các kết quả thử nghiệm được trình bày trong Bảng 3.7. (BLEU là kết quả
so sánh với baseline).
Bảng 3.7. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ
bằng phương pháp Morfessor theo hai mô hình, sử dụng bảng gióng hàng từ
A*
Hệ thống: SMT(Morfessor)-A*
Dữ liệu
huấn luyện
BLEU BLEU
IWSLT2015 (en) 24,46 0,01
Europarl-v7.en 24,95 0,50
Tổng hợp các kết quả của các thử nghiệm được trình bày trong Bảng 3.8.
Từ kết quả cho thấy: việc áp dụng các kỹ thuật chia nhỏ từ khác nhau và sử
dụng thuật toán được đề xuất trong Mục 3.3.3 để xây dựng bảng gióng hàng từ
đều khiến cho hệ thống tốt hơn theo đánh giá bằng điểm BLEU. Trong đó, sử
dụng kỹ thuật BPE để chia nhỏ từ với kích thước bảng từ vựng là 5.000 cho kết
quả điểm BLEU đạt được cao nhất, tăng 0,81 điểm đối với dịch máy cho cặp
ngôn ngữ Việt - Anh.
Các kết quả thử nghiệm trong phần này đã chứng minh được phương
pháp cải tiến mô hình gióng hàng trong hệ thống dịch máy Việt – Anh sử dụng
kỹ thuật chia nhỏ từ giúp nâng cao chất lượng cho hệ thống dịch máy thống kê
với cặp ngôn ngữ Việt - Anh.
Bảng 3.8. Kết quả thử nghiệm với mô hình gióng hàng từ cải tiến bằng kỹ
thuật chia nhỏ từ.
Hệ thống Kích thước bảng
từ vựng BLEU BLEU
Baseline 24,45
SMT-BPE-A 23,40 -1,05
SMT-BPE-A*
4.000 24,86 0,41
5.000 25,26 0,81
89
6.000 24,65 0,20
8.000 24,82 0,27
SMT-Wordpiece-A* 24,87 0,42
SMT-Unigram-A*
4.000 24,73 0,28
5.000 24,80 0,35
6.000 24,69 0,24
SMT-Morfessor1-A* 24,46 0,01
SMT-Morfessor2-A* 24,95 0,50
3.5. Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB
Như đã trình bày trong Chương 2 của luận án, dịch ngược có thể mang
lại kết quả tốt hơn cho hệ SMT, nhất là đối với các cặp ngôn ngữ có tài nguyên
hạn chế. Bên cạnh đó, trong chương 2 cũng thử nghiệm và đánh giá việc sử
dụng toàn bộ dữ liệu giả lập thu được sau khi dịch ngược có thể làm cho chất
lượng của hệ thống dịch máy bị giảm sút, do đó cần phải có phương pháp lựa
chọn dữ liệu giả lập phù hợp để lựa chọn và thu được bộ ngữ liệu huấn luyện
đủ tốt để huấn luyện hệ SMT.
Trong các phần trước của chương này, luận án đã trình bày phương pháp
chia nhỏ từ, cải tiến phương pháp gióng hàng từ nhằm tăng chất lượng gióng
hàng từ, qua đó tăng chất lượng của hệ SMT. Các thử nghiệm, đánh giá bằng
điểm BLEU cho thấy: việc áp dụng kỹ thuật chia nhỏ từ với tham số thích hợp
có thể giúp tăng chất lượng của hệ SMT.
Dịch ngược nằm trong bước tiền xử lý dữ liệu, chia nhỏ từ thuộc bước
huấn luyện hệ dịch, do đó luận án đề xuất kết hợp hai phương pháp: dịch ngược
với độ đo thích nghi và chia nhỏ từ với cải tiến gióng hàng từ nhằm làm tăng
chất lượng của hệ SMT. Mô hình đề xuất được thể hiện trong Hình 3.5. Trong
phần này, luận án cũng thực hiện các thử nghiệm với bộ song ngữ EVB của tác
giả Ngô Quốc Hưng (file EVBCorpus_EVBNews_v2.0.rar ) tải về từ địa chỉ
https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus
90
3.5.1. Mô hình đề xuất kết hợp dịch ngược và chia nhỏ từ
Mô hình kết hợp được thể hiện trong Hình 3.7. Trong đó, ngữ liệu huấn
luyện ban đầu sẽ được dịch ngược ở phía ngôn ngữ đích, sau đó áp dụng các kỹ
thuật lựa chọn thích nghi đã đề cập trong Chương 2 để lựa chọn câu phía đích,
kết hợp với các câu phía nguồn tương ứng để tạo ra các cặp câu song ngữ giả
lập. Các cặp câu song ngữ giả lập này kết hợp với kho ngữ liệu ban đầu để tạo
thành kho ngữ liệu huấn luyện đầy đủ. Các câu phía đích của kho ngữ liệu đầy
đủ được sử dụng để huấn luyện mô hình ngôn ngữ phía đích. Khi đưa kho ngữ
liệu đầy đủ vào huấn luyện hệ SMT, các câu phía đích được chia nhỏ bằng các
phương pháp chia nhỏ đã trình bày trong Chương 3. Các câu đã được chia nhỏ
phía đích kết hợp với các câu phía nguồn để tạo thành kho ngữ liệu huấn luyện
đã chia nhỏ. trong khi khi thực hiện huấn luyện gióng hàng từ trên kho ngữ liệu
huấn luyện đã chia nhỏ, kỹ thuật cải tiến phương pháp gióng hàng từ được áp
dụng để thu được bảng gióng hàng từ đã được chuẩn hóa. Bảng gióng hàng từ
này được sử dụng để tiếp tục huấn luyện hệ SMT.
91
Kho song ngữ
đầy đủ
Kho song ngữ
huấn luyện
Chuẩn hóa dữ liệu
Gióng hàng từ
(tạo bảng gióng hàng A)Trích rút cụm từ
Huấn luyện mô hình
ngôn ngữ
Sinh mô hình dịch Tinh chỉnh tham số
Kho song ngữ
kiểm chứng
Hệ thống
dịch máy thống kê
Chuẩn hóa
bảng gióng hàng
(Tạo bảng gióng hàng A*)
Chia nhỏ từ (subword)
phía tiếng Anh
Kho song ngữ
đánh giá
Đánh giá hệ thống
Dịch ngược các câu
phía đích
Lựa chọn thích nghi
các câu giả lập
Kho song ngữ
giả lập
Hình 3.7. Mô hình kết hợp dịch ngược và chia nhỏ từ.
3.5.2. Dữ liệu và môi trường thử nghiệm
Dữ liệu sử dụng để thử nghiệm là bộ dữ liệu EVB của tác giả Ngô Quốc
Hưng (https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus), bộ dữ liệu bao
gồm 1.000 văn bản song ngữ Việt – Anh, sau khi chuẩn hóa dữ liệu, bộ dữ liệu
có 45.308 cặp câu song ngữ. từ bộ dữ liệu này, NCS chọn ra ngẫu nhiên 1.482
cặp câu để làm dữ liệu tinh chỉnh tham số, 1.527 cặp câu để làm dữ liệu đánh
92
giá, phân còn lại 42.299 cặp câu để làm dữ liệu huấn luyện. Mô tả đặc điểm của
các tập dữ liệu mô tả trong bảng 3.9.
Bảng 3.9. Các bộ dữ liệu sử dụng trong các thử nghiệm
Các mô hình, công cụ được sử dụng trong các thử nghiệm như sau:
- Mô hình sử dụng trong dịch ngược EN-DE-EN: Sử dụng các mô hình
đã được huấn luyện sẵn cho cặp ngôn ngữ Anh-Đức của nhóm Facebook AI
Research [81]. Mô hình ngôn ngữ tiếng Anh sử dụng để đánh giá độ đo
perplexity : Sử dụng mô hình ngôn ngữ tiếng Anh đã được huấn luyện sẵn của
nhóm Facebook AI Research.
- Kỹ thuật chia nhỏ từ sử dụng trong thử nghiệm là BPE với kích thước
bảng từ vựng lần lượt là 3K, 4K, 5K, 6K, 7K.
- Phần mềm MOSES ( với mô hình dịch
máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch
thuật Việt-Anh;
- Mô hình ngôn ngữ trong hệ SMT được huấn luyện bằng công cụ
KenLM;
- Mô hình gióng hàng từ là mô hình IBM-HHM với công cụ gióng hàng
được sử dụng là GIZA++ Toolkit [86].
Bộ dữ liệu
(EVB)
Huấn luyện Tinh chỉnh tham số Đánh giá
Tiếng
Anh
Tiếng
Việt
Tiếng
Anh
Tiếng
Việt
Tiếng
Anh
Tiếng
Việt
Số lượng câu 42.299 42.299 1.482 1.482 1.527 1.527
Số lượng từ 821.224 1.121.425 27.868 37.717 31.086 42.559
Độ dài câu lớn
nhất
149 185 80 136 100 150
Độ dài câu nhỏ
nhất
2 2 2 2 2 2
Độ dài câu
trung bình
19,41 26,51 18,80 25,45 20,36 27,87
Kích thước
bảng từ vựng
35.426 16.022 5.305 3.157 5.647 3.257
93
3.5.3. Kết quả thử nghiệm
* Mô hình baseline:
Baseline là mô hình SMT với các tham số cài đặt mặc định, không áp
dụng bất kỳ kỹ thuật nào khác với các bộ dữ liệu được tạo ra từ bộ EVB ban
đầu với các mô tả trong bảng 3.10. Kết quả thu được như sau:
- Số lượng cặp câu song ngữ huấn luyện: 42.299
- Điểm BLEU của hệ thống: 23,09
BaselineBT là mô hình SMT huấn luyện trên bộ dữ liệu EVB kết hợp
với toàn bộ dữ liệu giả lập thu được sau quá trình dịch ngược EN-DE-EN. Kết
quả thu được như sau:
Số lượng cặp câu song ngữ huấn luyện: 84.598
Điểm BLEU của hệ thống: 23,02
* Thử nghiệm với kỹ thuật BT có áp dụng các độ đo thích nghi đề xuất
trong Chương 2 của luận án:
Để thực hiện thử nghiệm, NCS sử dụng hệ thống dịch máy EN-DE-EN
được huấn luyện trước để thu được các cặp câu giả lập, sau đó áp dụng kỹ thuật
lựa chọn thích nghi với độ đo theo hiệu (H) và độ đo theo tỷ lệ (T). Kết quả thử
nghiệm được trình bày trong bảng 3.10 và bảng 3.11.
Bảng 3.10 Kết quả thử nghiệm BT với độ đo thích nghi H
Các kết quả thử nghiệm với độ đo thích nghi H được thể hiện bằng biểu
đồ hình 3.8. Các kết quả thử nghiệm cho thấy với toàn bộ dữ liệu giả lập, hệ SMT
cho chất lượng giảm so với ban đầu, khi áp dụng kỹ thuật lựa chọn thích nghi
theo hiệu, chất lượng hệ dịch có thể được cải thiện, với điểm số BLEU đạt được
là 23,60 ở H<-10
Thử nghiệm
Độ đo thích nghi theo hiệu H
0 -5 -10 -15 -20 -25
baseline 23,09
baselineBT 23,02
SMT(H) 23,23 23,04 23,62 23,59 23,34 23,04
94
Hình 3.8. Kết quả thử nghiệm BT với độ đo thích nghi H
Nhận xét về các kết quả thử nghiệm với độ đo thích nghi T bằng biểu đồ
trên hình 3.7 tương tự như đối với độ đo thích nghi H với điểm BLEU thu được
cao nhất là 23,47
Bảng 3.11. Kết quả thử nghiệm BT với độ đo thích nghi T
22.7
22.8
22.9
23
23.1
23.2
23.3
23.4
23.5
23.6
23.7
0 -5 -10 -15 -20 -25
baseline
baselineBT
H
Thử nghiệm
Độ đo thích nghi theo tỷ lệ T
0,40 0,45 0,50 0,55 0,60 0,65
baseline 23,09
baselineBT 23,02
SMT(T) 23,37 23,32 23,47 23,2 23,16 23,11
95
Hình 3.9. Kết quả thử nghiệm BT với độ đo thích nghi T
Trong các thử nghiệm tiếp theo, NCS thực hiện chia nhỏ từ bằng kỹ thuật
BPE với các bước lặp khác nhau trên các tập dữ liệu đã được tăng cường bằng
phương pháp BT có sử dụng kỹ thuật lựa chọn thích nghi.
Kết quả thử nghiệm khi áp dụng chia nhỏ từ với dữ liệu giả lập được lựa
chọn bằng độ đo theo hiệu được trình bày trong bảng 3.12 và hình 3.9.
Bảng 3.12. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng
BT với độ đo thích nghi H
22.7
22.8
22.9
23
23.1
23.2
23.3
23.4
23.5
23.6
0.4 0.45 0.5 0.55 0.6 0.65
baseline
baselineBT
T
Thử nghiệm
Độ đo thích nghi theo hiệu H
0 -5 -10 -15 -20 -25
baseline 23,09
baselineBT 23,02
SMT(H) 23,23 23,04 23,62 23,59 23,34 23,04
BPE-3K 23,24 23,30 23,29 23,21 23,24 23,53
BPE-4K 23,47 23,07 23,29 23,32 23,27 23,28
BPE-5K 23,57 23,46 23,32 23,19 23,62 23,39
BPE-6K 23,52 23,12 23,32 23,59 23,95 23,68
BPE-7K 23,34 23,11 23,01 23,15 23,16 23,48
96
Hình 3.10. Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng
cường bằng BT với độ đo thích nghi H
Trên hình 3.10 là biểu đồ mô tả các kết quả thử nghiệm, qua đó có thể
nhận thấy rằng hầu hết các hệ SMT được huấn luyện trên dữ liệu có chia nhỏ
từ và áp dụng cải tiến thuật toán gióng hàng từ đều cho kết quả tốt hơn so với
không sử dụng kỹ thuật chia nhỏ từ, trong đó hệ SMT được huấn luyện trên tập
dữ liệu được tăng cường với H<-10 và áp dụng kỹ thuật chia nhỏ từ BPE với
kích thước bảng từ vựng 6K đạt kết quả cao nhất với điểm BLEU là 23,95 điểm
tăng ∆𝐵𝐿𝐸𝑈= 0,86 so với Baseline.
Thử nghiệm với các hệ SMT được huấn luyện trên các tập dữ liệu được
tăng cường bằng BT với độ đo thích nghi theo tỷ lệ T. Kết quả được trình bày
trong bảng 3.13.
Bảng 3.13. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng
BT với độ đo thích nghi T
22.4
22.6
22.8
23
23.2
23.4
23.6
23.8
24
24.2
SMT(H) 3K 4K 5K 6K 7K
baseline
baselineBT
H<0
H<-5
H<-10
H<-15
H<-20
H<-25
Thử nghiệm
Độ đo thích nghi theo tỷ lệ T
0,40 0,45 0,50 0,55 0,60 0,65
baseline 23.09
baselineBT 23.02
SMT(T) 23,37 23,32 23,47 23,20 23,16 23,11
97
Hình 3.11. Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng
cường bằng BT với độ đo thích nghi T
Trên hình 3.11 là biểu đồ mô tả các kết quả thử nghiệm áp dụng chia nhỏ
từ với các tập dữ liệu được tăng cường bằng BT và lựa chọn thích nghi theo tỷ
lệ T, tương tự như trong thử nghiệm trước, có thể nhận thấy rằng hầu hết các
hệ SMT được huấn luyện trên dữ liệu có chia nhỏ từ và áp dụng cải tiến thuật
toán gióng hàng từ đều cho kết quả tốt hơn so với không sử dụng kỹ thuật chia
nhỏ từ, trong đó hệ SMT được huấn luyện trên tập dữ liệu được tăng cường với
T<0,60 và áp dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ vựng 5K
22
22.2
22.4
22.6
22.8
23
23.2
23.4
23.6
23.8
24
24.2
SMT(T) 3K 4K 5K 6K 7K
baseline
baslineBT
T<0.40
T<0.45
T<0.50
T<0.55
T<0.60
T<0.65
BPE-3K 22,85 22,90 23,64 22,84 23,61 23,51
BPE-4K 23,6 23,22 22,72 23,74 23,30 23,71
BPE-5K 23,47 23,61 23,43 23,49 23,96 23,31
BPE-6K 23,29 23,31 23,22 23,26 23,21 23,87
BPE-7K 23,66 23,34 23,41 23,44 23,31 23,50
98
đạt kết quả cao nhất với điểm BLEU là 23,96 điểm, tăng ∆𝐵𝐿𝐸𝑈 = 0,87 so với
Baseline
Trên tập dữ liệu thử nghiệm, có thể nhận thấy chia nhỏ từ với kích thước
khoảng 5K, 6K mang lại nhiều kết quả tốt hơn so với khoảng kích thước 3K và
4K. Bên cạnh đó, các kết quả thử nghiệm cũng cho thấy việc kết hợp chia nhỏ
từ và tăng cường dữ liệu bằng BT có lựa chọn thích nghi mang lại kết quả tốt
hơn cho hệ SMT so với sử dụng đơn lẻ một phương pháp.
3.6. Kết luận Chương 3
Trong chương này một phương pháp cải tiến mô hình gióng hàng từ sử
dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngôn
ngữ Việt - Anh để giải quyết vấn đề từ hiếm và sự khác biệt về hình thái giữa
hai ngôn ngữ tiếng Anh và tiếng Việt nhằm nâng cao chất lượng hệ thống SMT
đã được đề xuất. Phương pháp đề xuất bao gồm 2 cải tiến đối với mô hình gióng
hàng:
1. Áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa
vào gióng hàng trong hệ thống dịch máy Việt - Anh.
2. Đề xuất thuật toán tạo bảng gióng hàng từ A* từ bảng A thu được ở
bước gióng hàng từ với dữ liệu đã được chia nhỏ từ trước khi xây dựng mô hình
dịch, giúp giữ nguyên chất lượng mô hình ngôn ngữ trong hệ thống dịch máy.
Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia
nhỏ từ khác nhau như BPE, Wordpiece, unigram và Morfessor. Các kết quả thử
nghiệm cho thấy việc áp dụng phương pháp đề xuất giúp tăng chất lượng hệ
dịch thống dịch máy thống kê với cặp ngôn ngữ Việt - Anh, các kỹ thuật áp
dụng đều làm cho hệ thống dịch tăng điểm BLEU so với hệ thống trước khi cải
tiến.
Trong chương này, luận án đã tiến hành các thử nghiệm cho mô hình kết
hợp hai phương pháp đã trình bày ở chương 2 và chương 3 với bộ dữ liệu EVB.
Kết quả thử nghiệm đã cho thấy việc áp dụng kết hợp 2 phương pháp cho kết
quả cao hơn so với sử dụng đơn lẻ từng phương pháp.
Kết quả nghiên cứu chính trong chương đã được công bố ở công trình
[CT4].
99
KẾT LUẬN
1. Các kết quả nghiên cứu của luận án
Hiện nay, dịch máy mạng nơ-ron đã đạt được những thành tựu đáng kể,
tuy nhiên, dịch máy thống kê vẫn có những thế mạnh và có thể phát huy như:
dịch tốt trong điều kiện ngữ liệu huấn luyện hạn chế, không đòi hỏi tài nguyên
phần cứng cao như dịch máy nơ-ron; từ đó có thể thấy rằng dịch máy thống kê
có thể áp dụng vào các ứng dụng dịch thuật trong các miền cụ thể (lĩnh vực
khoa học kỹ thuật quân sự) trên các hệ thống máy tính có cấu hình vừa phải,
hoạt động ở chế độ ngoại tuyến (offline). Luận án nghiên cứu các phương pháp
nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngôn ngữ Việt –
Anh, trong đó tập trung vào phần tiền xử lý dữ liệu và nâng cao chất lượng
gióng hàng từ. Các nghiên cứu đã được thực hiện nhằm nâng cao chất lượng
từng phần của hệ thống dịch máy thống kê, từ đó nâng cao chất lượng tổng thể
của cả hệ thống. Các kết quả chính của luận án bao gồm:
i) Nghiên cứu các kỹ thuật tăng cường dữ liệu bằng dịch ngược, trên cơ
sở phân tích các kỹ thuật này, lựa chọn phương pháp dịch ngược để tạo ra câu
giả lập là câu phía đích (tiếng Anh) thông qua ngôn ngữ trung gian (tiếng Đức)
vì cặp ngôn ngữ Anh – Đức là cặp ngôn ngữ có tài nguyên phong phú, được
quan tâm nghiên cứu nhiều và có các mô hình dịch được huấn luyện sẵn có chất
lượng tốt. Sau khi tạo ra các cặp câu giả lập, luận án đề xuất hai độ đo thích
nghi để lựa chọn dữ liệu bằng mô hình ngôn ngữ nhằm bổ sung ngữ liệu huấn
luyện cho hệ thống dịch máy, trong luận án cũng chỉ ra rằng nếu không sử dụng
các độ đo để lựa chọn dữ liệu, chất lượng dịch của hệ thống sẽ bị kém đi sau
khi bổ sung dữ liệu huấn luyện.
ii) Nghiên cứu các phương pháp chia nhỏ từ dựa trên thống kê và dựa
trên đặc điểm hình thái từ, các phương pháp chia nhỏ từ này chỉ được áp dụng
cho dịch máy nơ-ron nhằm giải quyết bài toán từ hiếm (rare words) và từ nằm
ngoài bảng từ vựng (out of vocabulary – OOV) mà chưa từng được áp dụng
cho dịch máy thống kê. Nghiên cứu các phương pháp nâng cao chất lượng gióng
hàng từ trong dịch máy thống kê, phân tích các đặc điểm hình thái ngôn ngữ
100
tiếng Anh, trên cơ sở đó, đề xuất cải tiến mô hình gióng hàng trong đó áp dụng
các phương pháp chia nhỏ từ (subword) phía tiếng Anh và xây dựng thuật toán
gióng hàng mới cho phù hợp với phương pháp chia nhỏ từ khi áp dụng vào dịch
máy thống kê.
iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước và sau
khi áp dụng các đề xuất cải tiến trên hệ thống SMT MOSES và các tập dữ liệu
IWSLT2015, EVB.
Kết quả thử nghiệm trên tập dữ liệu cho thấy các phương pháp đề xuất
đều tăng chất lượng hệ dịch bằng đánh giá điểm BLEU, độ tăng phụ thuộc và
tham số và phương pháp cụ thể áp dụng trong từng thử nghiệm.
2. Những đóng góp mới của luận án
- Đề xuất một phương pháp tăng cường dữ liệu cho dịch máy thống kê
cặp ngôn ngữ Việt-Anh sử dụng kỹ thuật dịch ngược và độ đo thích nghi.
- Đề xuất một phương pháp cải tiến mô hình gióng hàng từ sử dụng kỹ
thuật chia nhỏ từ.
3. Hướng nghiên cứu tiếp theo
Mặc dù đã đạt được các kết quả theo mục tiêu đề ra của luận án, do hạn
chế về thời gian và khuôn khổ nội dung, luận án vẫn tồn tại một số điểm hạn
chế:
- Việc thử nghiệm đánh giá chỉ dựa trên một số ít bộ số liệu được công
bố nên các thử nghiệm đánh giá chưa được đa dạng với nhiều miền dữ liệu khác
nhau. Chất lượng gióng hàng từ được đánh giá thông qua điểm BLEU của hệ
thống dịch máy mà chưa có thử nghiệm đánh giá bằng các độ đo về chất lượng
gióng hàng từ như AER, precision, recall, F-measure nên chưa chỉ rõ được chất
lượng gióng hàng từ thay đổi như thế nào sau khi áp dụng các phương pháp
chia nhỏ từ và cải tiến thuật toán gióng hàng.
- Dịch ngược sử dụng ngôn ngữ trung gian đòi hỏi phải có ngữ liệu huấn
luyện đủ lớn để huấn luyện mô hình dịch hoặc phải có mô hình huấn luyện sẵn
chất lượng tốt, trong nghiên cứu sử dụng mô hình dịch máy nơ-ron cho cặp
101
ngôn ngữ Anh - Đức - Anh, điều này tăng thời gian tăng thời gian huấn luyện
mô hình dịch máy thống kê.
Để khắc phục các tồn tại nêu trên, NCS đề xuất một số hướng nghiên
cứu tiếp theo của luận án như sau:
1. Nghiên cứu, áp dụng kết hợp hai phương pháp đã đề xuất để nâng cao
chất lượng hệ thống dịch máy thống kê, bên cạnh đó, tiếp tục nghiên cứu cải
tiến các thành phần khác trong hệ thống dịch máy thống kê như mô hình ngôn
ngữ.
2. Phương pháp chia nhỏ từ có sẵn được xây dựng để áp dụng cho dịch
máy nơ-ron, trong luận án đã sử dụng cho dịch máy thống kê, tuy nhiên cần
nghiên cứu đề xuất phương pháp chia nhỏ từ phù hợp với kiến trúc và đặc điểm
của dịch máy thống kê.
3. Nghiên cứu, đề xuất áp dụng các phương pháp đã sử dụng trong luận
án vào dịch máy nơ-ron để có thể xây dựng hệ thống dịch máy tốt cho cả hai
chiều Việt - Anh và Anh - Việt.
102
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[CT1]. “Automatic Detection of Problematic Rules in Vietnamese Treebank”.
RIVF-2015.
[CT2]. “The JAIST-UET-MITI Machine Translation Systems for IWSLT
2015”. IWSLT-2015.
[CT3]. “Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp
ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích
nghi”. Tạp chí nghiên cứu khoa học và công nghệ quân sự số đặc san
tháng 12-2020.
[CT4]. “Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ
Việt - Anh với kỹ thuật chia nhỏ từ”. Tạp chí nghiên cứu khoa học và
công nghệ quân sự số 74 tháng 8-2021.
103
TÀI LIỆU THAM KHẢO
Tiếng Anh
1. Al-Onaizan Y, Curin J, Jahr M, Knight K, Lafferty J, Melamed D, et al.
(1999). Statistical machine translation: Final report. JHU Workshop.
2. Axelrod A, Elgohary A, Martindale M, Nguyen K, Niu X, Vyas Y, et al.
(2015). The UMD Machine Translation Systems at IWSLT 2015. Proc
IWSLT.
3. Ayan NF (2005). Combining linguistic and machine learning techniques
for word alignment improvement, PhD Thesis.
4. Bahdanau D, Cho K, Bengio Y (2014). Neural machine translation by
jointly learning to align and translate. ArXiv Prepr ArXiv14090473.
5. Banón M, Chen P, Haddow B, Heafield K, Hoang H, Espla-Gomis M, et
al. (2020). ParaCrawl: Web-scale acquisition of parallel corpora. Proc
58th Annu Meet Assoc Comput Linguist. Tr. 4555–67.
6. Bao HT, Khanh PN, Le HT, Thao NTP (2009). Issues and first
development phase of the english-vietnamese translation system evsmt1.
0. Proc Third Hanoi Forum Information—Communication Technol.
7. Bentivogli L, Bisazza A, Cettolo M, Federico M (2016). Neural versus
phrase-based machine translation quality: a case study. ArXiv Prepr
ArXiv160804631.
8. Bentivogli L, Bisazza A, Cettolo M, Federico M (2018). Neural versus
phrase-based mt quality: An in-depth analysis on english–german and
english–french. Comput Speech Lang. Số 49., Tr.52–70
9. Berg-Kirkpatrick T, Bouchard-Côté A, DeNero J, Klein D (2010).
Painless unsupervised learning with features. Hum Lang Technol 2010
Annu Conf North Am Chapter Assoc Comput Linguist. Tr. 582–90.
10. Bojar O, Tamchyna A (2011). Improving translation model by
monolingual data. Proc Sixth Workshop Stat Mach Transl. Tr. 330–6.
11. Brown PF, Cocke J, Della Pietra SA, Della Pietra VJ, Jelinek F, Lafferty
J, et al. (1990). A statistical approach to machine translation. Comput
Linguist. Số 16.(2), Tr.79–85
12. Brown PF, Della Pietra SA, Della Pietra VJ, Lai JC, Mercer RL (1992).
An estimate of an upper bound for the entropy of English. Comput
Linguist. Số 18.(1), Tr.31–40
104
13. Brown PF, Della Pietra SA, Della Pietra VJ, Mercer RL (1993). The
mathematics of statistical machine translation: Parameter estimation.
Comput Linguist. Số 19.(2), Tr.263–311
14. Castilho S, Gaspari F, Moorkens J, Popović M, Toral A (2019). Editors’
foreword to the special issue on human factors in neural machine
translation. Mach Transl. Số 33.(1), Tr.1–7
15. Castilho S, Moorkens J, Gaspari F, Calixto I, Tinsley J, Way A (2017). Is
neural machine translation the new state of the art? Prague Bull Math
Linguist. (108)
16. Castilho S, Moorkens J, Gaspari F, Sennrich R, Sosoni V,
Georgakopoulou P, et al. (2017). A comparative quality evaluation of
PBSMT and NMT using professional translators.
17. Cettolo M, Jan N, Sebastian S, Bentivogli L, Cattoni R, Federico M
(2015). The iwslt 2015 evaluation campaign. Int Workshop Spok Lang
Transl.
18. Chatzikoumi E (2020). How to evaluate machine translation: A review of
automated and human metrics. Nat Lang Eng. Số 26.(2), Tr.137–61
19. Cheng Y (2019). Semi-supervised learning for neural machine
translation. Jt Train Neural Mach Transl. Springer Tr. 25–40.
20. Chiang D (2005). A hierarchical phrase-based model for statistical
machine translation. Proc 43rd Annu Meet Assoc Comput Linguist
Acl’05. Tr. 263–70.
21. Chiang D (2007). Hierarchical phrase-based translation. Comput
Linguist. Số 33.(2), Tr.201–28
22. Cho K, Van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F,
Schwenk H, et al. (2014). Learning phrase representations using RNN
encoder-decoder for statistical machine translation. ArXiv Prepr
ArXiv14061078.
23. Chung J, Cho K, Bengio Y (2016). A character-level decoder without
explicit segmentation for neural machine translation. ArXiv Prepr
ArXiv160306147.
24. Clifton A, Sarkar A (2011). Combining morpheme-based machine
translation with post-processing morpheme prediction. Proc 49th Annu
Meet Assoc Comput Linguist Hum Lang Technol. Tr. 32–42.
105
25. Creutz M, Lagus K (2005). Inducing the morphological lexicon of a
natural language from unannotated text. Proc Int Interdiscip Conf Adapt
Knowl Represent Reason AKRR’05. Tr. 51–9.
26. Creutz M, Lagus K (2002). Unsupervised discovery of morphemes. ArXiv
Prepr Cs0205057.
27. Cui Y, Chen Z, Wei S, Wang S, Liu T, Hu G (2017). Attention-over-
Attention Neural Networks for Reading Comprehension. Proc 55th Annu
Meet Assoc Comput Linguist Vol 1 Long Pap. , Tr.593–602
28. Currey A, Miceli-Barone AV, Heafield K (2017). Copied monolingual
data improves low-resource neural machine translation. Proc Second
Conf Mach Transl. Tr. 148–56.
29. Dempster AP, Laird NM, Rubin DB (1977). Maximum likelihood from
incomplete data via the EM algorithm. J R Stat Soc Ser B Methodol. Số
39.(1), Tr.1–22
30. Dien D (2003). BTL: an Hybrid Model in the English-Vietnamese
Machine Translation System. Proc MT Summit IX La USA 2003.
31. Dinh D, Ngan NLT, Quang DX, Nam VC (2003). A Hybrid Approach to
Word Order Transfer in the English-to-Vietnamese Machine Translation.
Proc Mach Transl Summit IX. Citeseer
32. Doddington G (2002). Automatic evaluation of machine translation
quality using n-gram co-occurrence statistics. Proc Second Int Conf Hum
Lang Technol Res. Tr. 138–45.
33. Dowling M, Lynn T, Poncelas A, Way A (2018). SMT versus NMT:
Preliminary comparisons for Irish.
34. Dyer C, Chahuneau V, Smith NA (2013). A simple, fast, and effective
reparameterization of ibm model 2. Proc 2013 Conf North Am Chapter
Assoc Comput Linguist Hum Lang Technol. Tr. 644–8.
35. Dyer C, Clark JH, Lavie A, Smith NA (2011). Unsupervised word
alignment with arbitrary features. Proc 49th Annu Meet Assoc Comput
Linguist Hum Lang Technol. Tr. 409–19.
36. Edunov S, Ott M, Auli M, Grangier D (2018). Understanding back-
translation at scale. ArXiv Prepr ArXiv180809381.
37. Farwell D, Wilks Y (1990). ULTRA: a multilingual machine translator.
New Mexico State University Las Cruces, NM
106
38. Galley M, Hopkins M, Knight K, Marcu D (2004). What’s in a translation
rule? Proc Hum Lang Technol Conf North Am Chapter Assoc Comput
Linguist HLT-NAACL 2004. Tr. 273–80.
39. Garcia-Varea I, Och FJ, Ney H, Casacuberta F (2002). Improving
alignment quality in statistical machine translation using context-
dependent maximum entropy models. COLING 2002 19th Int Conf
Comput Linguist.
40. Ghaffar SA, Fakhr MW, Sheraton C (2011). English to arabic statistical
machine translation system improvements using preprocessing and
arabic morphology analysis. Recent Res Math Methods Electr Eng
Comput Sci. , Tr.50–4
41. Gibadullin I, Valeev A, Khusainova A, Khan A (2019). A survey of
methods to leverage monolingual data in low-resource neural machine
translation. ArXiv Prepr ArXiv191000373.
42. Ha T-L, Niehues J, Cho E, Mediani M, Waibel A (2015). The KIT
translation systems for IWSLT 2015. Universitätsbibliothek der RWTH
Aachen
43. Han D, Martínez-Gómez P, Miyao Y, Sudoh K, Nagata M (2013). Effects
of parsing errors on pre-reordering performance for Chinese-to-
Japanese SMT. Proc 27th Pac Asia Conf Lang Inf Comput PACLIC 27.
Tr. 267–76.
44. Ho TB (2005). Current Status of Machine Translation Research in
Vietnam Towards Asian wide multi language machine translation project.
Proc Vietnam Lang Speech Process Workshop.
45. Hoang VCD, Koehn P, Haffari G, Cohn T (2018). Iterative back-
translation for neural machine translation. Proc 2nd Workshop Neural
Mach Transl Gener. Tr. 18–24.
46. Hoang V, Ngo M, Dinh D (2008). A dependency-based word reordering
approach for statistical machine translation. 2008 IEEE Int Conf Res
Innov Vis Future Comput Commun Technol. IEEE Tr. 120–7.
47. Hutchins WJ (2001). Machine translation over fifty years. Hist
Epistémologie Lang. Số 23.(1), Tr.7–31
48. Hutchins WJ, Somers HL (1992). An introduction to machine translation.
Academic Press London
107
49. Isabelle P, Cherry C, Foster G (2017). A challenge set approach to
evaluating machine translation. ArXiv Prepr ArXiv170407431.
50. Ittycheriah A, Roukos S (2005). A maximum entropy word aligner for
arabic-english machine translation. Proc Hum Lang Technol Conf Conf
Empir Methods Nat Lang Process. Tr. 89–96.
51. Jia Y, Carl M, Wang X (2019). Post-editing neural machine translation
versus phrase-based machine translation for English–Chinese. Mach
Transl. Số 33.(1), Tr.9–29
52. Junczys-Dowmunt M, Dwojak T, Hoang H (2016). Is neural machine
translation ready for deployment? A case study on 30 translation
directions. ArXiv Prepr ArXiv161001108.
53. Jurafsky D, Martin JH. Speech and Language Processing: An
Introduction to Natural Language Processing, Computational
Linguistics, and Speech Recognition.
54. Kamigaito H, Watanabe T, Takamura H, Okumura M, Sumita E (2016).
Unsupervised Word Alignment Using Frequency Constraint in Posterior
Regularized EM. J Nat Lang Process. Số 23.(4), Tr.327–51
55. Kay M (1973). Automatic translation of natural languages. Daedalus. ,
Tr.217–30
56. Khayrallah H, Koehn P (2018). On the impact of various types of noise
on neural machine translation. ArXiv Prepr ArXiv180512282.
57. Koehn P, Hoang H (2007). Factored translation models. Proc 2007 Jt
Conf Empir Methods Nat Lang Process Comput Nat Lang Learn
EMNLP-CoNLL. Tr. 868–76.
58. Koehn P, Hoang H, Birch A, Callison-Burch C, Federico M, Bertoldi N,
et al. (2007). Moses: Open source toolkit for statistical machine
translation. Proc 45th Annu Meet Assoc Comput Linguist Companion
Vol Proc Demo Poster Sess. Tr. 177–80.
59. Koehn P, Knowles R (2017). Six challenges for neural machine
translation. ArXiv Prepr ArXiv170603872.
60. Koehn P, Och FJ, Marcu D (2003). Statistical phrase-based translation.
UNIVERSITY OF SOUTHERN CALIFORNIA MARINA DEL REY
INFORMATION SCIENCES INST2003
108
61. Kudo T (2018). Subword regularization: Improving neural network
translation models with multiple subword candidates. ArXiv Prepr
ArXiv180410959.
62. Lample G, Ott M, Conneau A, Denoyer L, Ranzato M (2018). Phrase-
based & neural unsupervised machine translation. ArXiv Prepr
ArXiv180407755.
63. Le A-C, Nguyen T-P, Tran Q-L, Linh DB (2018). Integrating Word
Embeddings into IBM Word Alignment Models. 2018 10th Int Conf
Knowl Syst Eng KSE. IEEE Tr. 79–84.
64. Le KH (2003). One method of Interlingua translation. Proc Natl Conf IT
Res Dev Appl.
65. Lee J-H, Lee S-W, Hong G, Hwang Y-S, Kim S-B, Rim HC (2010). A
post-processing approach to statistical word alignment reflecting
alignment tendency between part-of-speeches. Coling 2010 Posters. Tr.
623–9.
66. Lin D, Cherry C (2003). Word Alignment with Cohesion Constraint.
Companion Vol Proc HLT-NAACL 2003 - Short Pap. HLT-NAACL
2003 Truy cập ngày 11/05/2021, Tr. 49–51. URL:
https://www.aclweb.org/anthology/N03-2017 .
67. Liu Y, Liu Q, Lin S (2010). Discriminative word alignment by linear
modeling. Comput Linguist. Số 36.(3), Tr.303–39
68. Liu Y, Liu Q, Lin S (2005). Log-linear models for word alignment. Proc
43rd Annu Meet Assoc Comput Linguist ACL’05. Tr. 459–66.
69. Liu Y, Sun M (2015). Contrastive unsupervised word alignment with non-
local features. Proc AAAI Conf Artif Intell.
70. Luong M-T, Manning CD (2015). Stanford neural machine translation
systems for spoken language domains. Proc Int Workshop Spok Lang
Transl. Tr. 76–9.
71. Ma Y, Ozdowska S, Sun Y, Way A (2008). Improving word alignment
using syntactic dependencies. Association for Computational Linguistics
72. Mahata SK, Mandal S, Das D, Bandyopadhyay S (2018). SMT vs NMT:
a comparison over Hindi & Bengali simple sentences. ArXiv Prepr
ArXiv181204898.
109
73. Menacer MA, Langlois D, Mella O, Fohr D, Jouvet D, Smaïli K (2017).
Is statistical machine translation approach dead? ICNLSSP 2017-Int
Conf Nat Lang Signal Speech Process. Tr. 1–5.
74. Mermer C, Saraçlar M, Sarikaya R (2013). Improving statistical machine
translation using Bayesian word alignment and Gibbs sampling. IEEE
Trans Audio Speech Lang Process. Số 21.(5), Tr.1090–101
75. Mitamura T (1999). Controlled language for multilingual machine
translation. Proc Mach Transl Summit VII. Tr. 46–52.
76. Mitamura T, Nyberg E, Carbonell JG (1991). An efficient interlingua
translation system for multi-lingual document production.
77. Moore RC (2005). A discriminative framework for bilingual word
alignment. Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang
Process. Tr. 81–8.
78. Moore RC (2004). Improving IBM word alignment model 1. Proc 42nd
Annu Meet Assoc Comput Linguist ACL-04. Tr. 518–25.
79. Müller M, Nguyen T-S, Sperber M, Kilgour K, Stüker S, Waibel A
(2015). The 2015 KIT IWSLT Speech-to-Text Systems for English and
German. Int Workshop Spok Lang Transl IWSLT. Citeseer
80. Nagao M (1984). A framework of a mechanical translation between
Japanese and English by analogy principle. Artif Hum Intell. , Tr.351–4
81. Ng N, Yee K, Baevski A, Ott M, Auli M, Edunov S (2019). Facebook
FAIR’s WMT19 News Translation Task Submission. ArXiv Prepr
ArXiv190706616.
82. Nguyen NT, Le VQ, Nghiem M-Q, Dinh D (2015). A General Approach
for Word Reordering in English-Vietnamese-English Statistical Machine
Translation. Int J Artif Intell Tools. Số 24.(06), Tr.1550024
83. Nomura T, Tsukada H, Akiba T. Improvement of Word Alignment Models
for Vietnamese-to-English Translation.
84. Och FJ (2003). Minimum error rate training in statistical machine
translation. Proc 41st Annu Meet Assoc Comput Linguist. Tr. 160–7.
85. Och FJ, Ney H (2000). A Comparison of Alignment Models for Statistical
Machine Translation. COLING 2000 Vol 2 18th Int Conf Comput
Linguist. COLING 2000 Truy cập ngày 11/05/2021, URL:
https://www.aclweb.org/anthology/C00-2163 .
110
86. Och FJ, Ney H (2003). A systematic comparison of various statistical
alignment models. Comput Linguist. Số 29.(1), Tr.19–51
87. Och FJ, Ney H (2000). Improved statistical alignment models. Proc 38th
Annu Meet Assoc Comput Linguist. Tr. 440–7.
88. Och FJ, Ney H (2004). The alignment template approach to statistical
machine translation. Comput Linguist. Số 30.(4), Tr.417–49
89. Ojha AK, Chowdhury KD, Liu C-H, Saxena K (2018). The RGNLP
machine translation systems for WAT 2018. ArXiv Prepr
ArXiv181200798.
90. Ott M, Auli M, Grangier D, Ranzato M (2018). Analyzing uncertainty in
neural machine translation. Int Conf Mach Learn. PMLR Tr. 3956–65.
91. Papineni K, Roukos S, Ward T, Zhu W-J (2002). Bleu: a method for
automatic evaluation of machine translation. Proc 40th Annu Meet Assoc
Comput Linguist. Tr. 311–8.
92. Park J, Song J, Yoon S (2017). Building a neural machine translation
system using only synthetic parallel data. ArXiv Prepr ArXiv170400253.
93. Pham N-L, Nguyen V-V (2020). Adaptation in Statistical Machine
Translation for Low-resource Domains in English-Vietnamese Language.
VNU J Sci Comput Sci Commun Eng. Số 36.(1)
94. Phuoc NQ, Quan Y, Ock C-Y (2016). Building a bidirectional english-
vietnamese statistical machine translation system by using moses. Int J
Comput Electr Eng. Số 8.(2), Tr.161
95. Poerner N, Sabet MJ, Roth B, Schütze H (2018). Aligning Very Small
Parallel Corpora Using Cross-Lingual Word Embeddings and a
Monogamy Objective. ArXiv Prepr ArXiv181100066.
96. Poncelas A, Popovic M, Shterionov D, Wenniger GM de B, Way A
(2019). Combining SMT and NMT back-translated data for efficient
NMT. ArXiv Prepr ArXiv190903750.
97. Poncelas A, Shterionov D, Way A, Wenniger GM de B, Passban P (2018).
Investigating Backtranslation in Neural Machine Translation. Truy cập
ngày 11/05/2021; URL: https://arxiv.org/abs/1804.06189v1 .
98. Richman T. Johns Hopkins scientists win $10.7 million grant to translate
little-used languages. baltimoresun.com. Truy cập ngày 11/05/2021,
URL: https://www.baltimoresun.com/latest/bs-md-hopkins-language-
grant-20171011-story.html .
111
99. Ruiz N, Di Gangi MA, Bertoldi N, Federico M (2019). Assessing the
tolerance of neural machine translation systems against speech
recognition errors. ArXiv Prepr ArXiv190410997.
100. Sabet MJ, Faili H, Haffari G (2016). Improving word alignment of rare
words with word embeddings. Proc COLING 2016 26th Int Conf Comput
Linguist Tech Pap. Tr. 3209–15.
101. Sato S, Nagao M (1990). Toward memory-based translation. COLNG
1990 Vol 3 Pap Present 13th Int Conf Comput Linguist.
102. Schuster M, Nakajima K (2012). Japanese and korean voice search. 2012
IEEE Int Conf Acoust Speech Signal Process ICASSP. IEEE Tr. 5149–
52.
103. Sennrich R, Haddow B, Birch A (2015). Improving neural machine
translation models with monolingual data. ArXiv Prepr
ArXiv151106709.
104. Sennrich R, Haddow B, Birch A (2015). Neural machine translation of
rare words with subword units. ArXiv Prepr ArXiv150807909.
105. Shterionov D, Nagle P, Casanellas L, Superbo R, O’Dowd T (2017).
Empirical evaluation of NMT and PBSMT quality for large-scale
translation production. 20th Annu Conf Eur Assoc Mach Transl EAMT
2017.
106. Smit P, Virpioja S, Grönroos S-A, Kurimo M (2014). Morfessor 2.0:
Toolkit for statistical morphological segmentation. 14th Conf Eur
Chapter Assoc Comput Linguist EACL Gothenbg Swed April 26-30
2014. Aalto University
107. Snover M, Dorr B, Schwartz R, Micciulla L, Makhoul J (2006). A study
of translation edit rate with targeted human annotation. Proc Assoc Mach
Transl Am. Citeseer
108. Songyot T, Chiang D (2014). Improving word alignment using word
similarity. Proc 2014 Conf Empir Methods Nat Lang Process EMNLP.
Tr. 1840–5.
109. Stahlberg F (2020). Neural machine translation: A review. J Artif Intell
Res. Số 69., Tr.343–418
110. Stahlberg F, Cross J, Stoyanov V (2018). Simple fusion: Return of the
language model. ArXiv Prepr ArXiv180900125.
112
111. Stahlberg F, Hasler E, Waite A, Byrne B (2016). Syntactically guided
neural machine translation. ArXiv Prepr ArXiv160504569.
112. Sutskever I, Vinyals O, Le QV (2014). Sequence to Sequence Learning
with Neural Networks. Adv Neural Inf Process Syst. Curran Associates,
Inc. Truy cập ngày 06/01/2022, URL:
https://proceedings.neurips.cc/paper/2014/hash/a14ac55a4f27472c5d89
4ec1c3c743d2-Abstract.html .
113. Talbot D (2005). Constrained EM for parallel text alignment. Nat Lang
Eng. Số 11.(3), Tr.263
114. Tamura A, Watanabe T, Sumita E (2014). Recurrent neural networks for
word alignment model. Proc 52nd Annu Meet Assoc Comput Linguist
Vol 1 Long Pap. Tr. 1470–80.
115. Taskar B, Lacoste-Julien S, Klein D (2005). A discriminative matching
approach to word alignment. Proc Hum Lang Technol Conf Conf Empir
Methods Nat Lang Process. Tr. 73–80.
116. Taylor L, Nitschke G (2018). Improving deep learning with generic data
augmentation. 2018 IEEE Symp Ser Comput Intell SSCI. IEEE Tr. 1542–
7.
117. Thuong VTHHV, Van VN, Tien TL (2015). The English-Vietnamese
Machine Translation System for IWSLT 2015. Proceeding 12th Int
Workshop Spok Lang Transl.
118. Toral A, Sánchez-Cartagena VM (2017). A multifaceted evaluation of
neural versus phrase-based machine translation for 9 language
directions. ArXiv Prepr ArXiv170102901.
119. Tran VH, Vu HT, Pham TH, Van Nguyen V, Le Nguyen M (2016). A
reordering model for Vietnamese-English statistical machine translation
using dependency information. 2016 IEEE RIVF Int Conf Comput
Commun Technol Res Innov Vis Future RIVF. IEEE Tr. 125–30.
120. Tran VH, Vu HT, Van Nguyen V, Le Nguyen M (2016). A classifier-
based preordering approach for english-vietnamese statistical machine
translation. Int Conf Intell Text Process Comput Linguist. Springer Tr.
74–87.
121. T. Gowda, J. May (2020), Finding the Optimal Vocabulary Size for
Neural Machine Translation, arXiv:2004.02334v2.
113
122. Unanue IJ, Arratibel LG, Borzeshi EZ, Piccardi M (2018). English-
Basque statistical and neural machine translation. Proc Elev Int Conf
Lang Resour Eval LREC 2018.
123. Van Bui V, Tran TT, Nguyen NBT, Pham TD, Le AN, Le CA (2015).
Improving Word Alignment Through Morphological Analysis. Int Symp
Integr Uncertain Knowl Model Decis Mak. Springer Tr. 315–25.
124. Vaswani A, Huang L, Chiang D (2012). Smaller alignment models for
better translations: Unsupervised word alignment with the l0-norm. Proc
50th Annu Meet Assoc Comput Linguist Vol 1 Long Pap. Tr. 311–9.
125. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et
al. (2017). Attention is All you Need. Adv Neural Inf Process Syst. Curran
Associates, Inc. Truy cập ngày 06/01/2022, URL:
https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd05
3c1c4a845aa-Abstract.html .
126. Vauquois B (1968). A survey of formal grammars and algorithms for
recognition and transformation in mechanical translation. Ifip Congr 2.
Tr. 1114–22.
127. Vogel S, Ney H, Tillmann C (1996). HMM-based word alignment in
statistical translation. COLING 1996 Vol 2 16th Int Conf Comput
Linguist.
128. Volkart L, Bouillon P, Girletti S (2018). Statistical vs. neural machine
translation: A comparison of mth and deepl at swiss post’s language
service. Proc 40th Conf Transl Comput. Tr. 145–50.
129. Weaver W (1955). Translation. Mach Transl Lang. Số 14.(15–23), Tr.10
130. Wolk K, Marasek K (2015). PJAIT systems for the IWSLT 2015
evaluation campaign enhanced by comparable corpora. ArXiv Prepr
ArXiv151201639.
131. Yamada K, Knight K (2001). A syntax-based statistical translation
model. Proc 39th Annu Meet Assoc Comput Linguist. Tr. 523–30.
132. Yang N, Liu S, Li M, Zhou M, Yu N (2013). Word alignment modeling
with context dependent deep neural network. Proc 51st Annu Meet Assoc
Comput Linguist Vol 1 Long Pap. Tr. 166–75.
133. Zeman D (2010). Using TectoMT as a preprocessing tool for phrase-
based statistical machine translation. Int Conf Text Speech Dialogue.
Springer Tr. 216–23.
114
134. Zens R, Matusov E, Ney H (2004). Improved word alignment using a
symmetric lexicon model. COLING 2004 Proc 20th Int Conf Comput
Linguist. Tr. 36–42.
135. Zhang H, Chiang D (2014). Kneser-Ney smoothing on expected counts.
Proc 52nd Annu Meet Assoc Comput Linguist Vol 1 Long Pap. Tr. 765–
74.
136. Zheng W, Wang W, Liu D, Zhang C, Zeng Q, Deng Y, et al. (2018).
Oracle-free detection of translation issue for neural machine translation.
ArXiv E-Prints.