Luận án Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ Việt - Anh

Hiện nay, dịch máy mạng nơ-ron đã đạt được những thành tựu đáng kể, tuy nhiên, dịch máy thống kê vẫn có những thế mạnh và có thể phát huy như: dịch tốt trong điều kiện ngữ liệu huấn luyện hạn chế, không đòi hỏi tài nguyên phần cứng cao như dịch máy nơ-ron; từ đó có thể thấy rằng dịch máy thống kê có thể áp dụng vào các ứng dụng dịch thuật trong các miền cụ thể (lĩnh vực khoa học kỹ thuật quân sự) trên các hệ thống máy tính có cấu hình vừa phải, hoạt động ở chế độ ngoại tuyến (offline). Luận án nghiên cứu các phương pháp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngôn ngữ Việt – Anh, trong đó tập trung vào phần tiền xử lý dữ liệu và nâng cao chất lượng gióng hàng từ. Các nghiên cứu đã được thực hiện nhằm nâng cao chất lượng từng phần của hệ thống dịch máy thống kê, từ đó nâng cao chất lượng tổng thể của cả hệ thống. Các kết quả chính của luận án bao gồm: i) Nghiên cứu các kỹ thuật tăng cường dữ liệu bằng dịch ngược, trên cơ sở phân tích các kỹ thuật này, lựa chọn phương pháp dịch ngược để tạo ra câu giả lập là câu phía đích (tiếng Anh) thông qua ngôn ngữ trung gian (tiếng Đức) vì cặp ngôn ngữ Anh – Đức là cặp ngôn ngữ có tài nguyên phong phú, được quan tâm nghiên cứu nhiều và có các mô hình dịch được huấn luyện sẵn có chất lượng tốt. Sau khi tạo ra các cặp câu giả lập, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu bằng mô hình ngôn ngữ nhằm bổ sung ngữ liệu huấn luyện cho hệ thống dịch máy, trong luận án cũng chỉ ra rằng nếu không sử dụng các độ đo để lựa chọn dữ liệu, chất lượng dịch của hệ thống sẽ bị kém đi sau khi bổ sung dữ liệu huấn luyện. ii) Nghiên cứu các phương pháp chia nhỏ từ dựa trên thống kê và dựa trên đặc điểm hình thái từ, các phương pháp chia nhỏ từ này chỉ được áp dụng cho dịch máy nơ-ron nhằm giải quyết bài toán từ hiếm (rare words) và từ nằm ngoài bảng từ vựng (out of vocabulary – OOV) mà chưa từng được áp dụng cho dịch máy thống kê. Nghiên cứu các phương pháp nâng cao chất lượng gióng hàng từ trong dịch máy thống kê, phân tích các đặc điểm hình thái ngôn ngữ100 tiếng Anh, trên cơ sở đó, đề xuất cải tiến mô hình gióng hàng trong đó áp dụng các phương pháp chia nhỏ từ (subword) phía tiếng Anh và xây dựng thuật toán gióng hàng mới cho phù hợp với phương pháp chia nhỏ từ khi áp dụng vào dịch máy thống kê. iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước và sau khi áp dụng các đề xuất cải tiến trên hệ thống SMT MOSES và các tập dữ liệu IWSLT2015, EVB.

127 trang | Chia sẻ: huydang97 | Lượt xem: 567 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ Việt - Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

âu phía tiếng Anh đã được chia nhỏ từ E’, nên câu thu được từ hệ thống này cũng đã được chia nhỏ từ, để tính điểm BLEU cần kết hợp các từ đã được chia nhỏ (decode) các câu thu được để so sánh với các câu tham chiếu (reference) trong tập tst2013. Hình 3.5 minh họa quá trình thử nghiệm của hệ thống SMT-BPE-A, trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet  they had to be very qui_ et), sau đó huấn luyện mô hình dịch trên các cặp câu vi-enbpe (khán giả phải thực sự yên tĩnh - they had to be very qui_ et), mô hình ngôn ngữ cũng được 83 huấn luyện trên các câu đã được chia nhỏ (they had to be very qui_ et). Trong quá trình đánh giá, vì mô hình dịch huấn luyện trên kho song ngữ có câu tiếng Anh đã được chia nhỏ nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh đã chia nhỏ (anh đã bao giờ tự gửi một tấm thiệp chưa ?  have you ever sent yourself a post_ card ?), cần thực hiện chuẩn hóa (giải mã) các câu tiếng Anh (have you ever sent yourself a post_ card ?  have you ever sent yourself a postcard ?) sau đó tính điểm BLEU để đánh giá hệ thống. Giai đoạn huấn luyện Vi: khán giả phải thực sự yên tĩnh . En: they had to be very quiet . Giai đoạn đánh giá Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ? Bước 1: chia nhỏ từ 2: gióng hàng từ 3: Huấn luyện mô hình dịch 4: Huấn luyện mô hình ngôn ngữ 5: Đánh giá hệ thống Vi: khán giả phải thực sự yên tĩnh . En: they had to be very qui_ et . 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7 En: they had to be very qui_ et . En: have you ever sent yourself a post_ card ? En: have you ever sent yourself a postcard ? Hình 3.5. Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ. Bảng 3.2. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE sử dụng bảng gióng hàng từ A Tiêu chí Hệ thống SMT(BPE)-A BLEU 23,40 BLEU -1,05 Kết quả thử nghiệm được trình bày trong Bảng 3.2. Kết quả này cho thấy, việc chỉ áp dụng chia nhỏ từ và thực hiện huấn luyện hệ thống dịch máy thống kê khiến cho hệ thống trở nên kém hơn so với hệ thống gốc, điểm BLEU giảm so với mô hình baseline BLEU = 1,05. Điều này có thể lý giải là do việc chia 84 nhỏ từ đã làm thay đổi các câu dùng để huấn luyện mô hình ngôn ngữ, mô hình ngôn ngữ không còn hiệu quả trong việc lựa chọn các câu dịch tốt nhất. Việc chia nhỏ từ chỉ giúp ích cho công đoạn huấn luyện mô hình dịch, trực tiếp ở đây là bảng gióng hàng từ. 3.4.4. Thử nghiệm mô hình được cải tiến gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ khác nhau Trong phần này luận án tiến hành các thử nghiệm mô hình gióng hàng cải tiến được đề xuất cho hệ thống SMT cặp ngôn ngữ Việt - Anh với các kỹ thuật chia nhỏ từ khác nhau. Các thử nghiệm được tiến hành với qui trình như sau: - Sử dụng kỹ thuật chia nhỏ từ để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ “IWLST’15”. - Sử dụng phần mềm MOSES để huấn luyện mô hình dịch máy thống kê cặp ngôn ngữ Việt- Anh. - Sử dụng công cụ gióng hàng GIZA++ để tạo bảng gióng hàng A. - Áp dụng thuật toán DecodeAlignmentTable (đã đề xuất ở Mục 3.3.3) để tạo bảng gióng hàng từ A* từ bảng gióng hàng từ A thu được ở bước trên. - Sử dụng công cụ KenLM huấn luyện mô hình ngôn ngữ trên các câu phía tiếng Anh gốc - Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013. Hình 3.7 minh họa quá trình thử nghiệm của các hệ thống có áp dụng chia nhỏ từ và chuẩn hóa bảng gióng hàng từ A*. Trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet  they had to be very qui_ et), sau đó gióng hàng từ trên các cặp câu vi-enbpe (khán giả phải thực sự yên tĩnh - they had to be very qui_ et), bảng gióng hàng A được chuẩn hóa thành bảng gióng hàng A* theo thuật toán mô tả trong phần 3.3.3 (). Mô hình ngôn ngữ được huấn luyện trên các câu ban đầu (they had to be very quiet). Trong quá trình đánh giá, vì bảng 85 gióng hàng đã được chuẩn hóa thành gióng hàng “từ”-“từ” nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh chuẩn (anh đã bao giờ tự gửi một tấm thiệp chưa ?  have you ever sent yourself a post_ card ?), không cần thực hiện chuẩn hóa (giải mã) các câu tiếng Anh và thực hiện tính điểm BLEU để đánh giá hệ thống. Giai đoạn huấn luyện Vi: khán giả phải thực sự yên tĩnh . En: they had to be very quiet . Giai đoạn đánh giá Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ? Bước 1: chia nhỏ từ 2: gióng hàng từ (A) 4: Huấn luyện mô hình dịch 5: Huấn luyện mô hình ngôn ngữ 6: Đánh giá hệ thống Vi: khán giả phải thực sự yên tĩnh . En: they had to be very qui_ et . 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7 En: they had to be very quiet . En: have you ever sent yourself a postcard ? 3: Chuẩn hóa bảng gióng hàng từ (A*) 0-0 2-1 2-2 2-3 3-3 3-4 4-4 5-5 6-5 7-6 Hình 3.6. Ví dụ huấn luyện hệ thống dịch máy áp dụng chia nhỏ từ kết hợp với chuẩn hóa bảng gióng hàng từ A*. Các thử nghiệm được tiến hành theo qui trình trên với các kỹ thuật chia nhỏ từ khác nhau bao gồm: - Thử nghiệm sử dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ vựng mục tiêu lần lượt là 4K (4.000), 5K (5.000), 6K (6000), 8K (8.000). Hệ thống thu được là SMT-BPE-A* . Bảng 3.3 dưới đây thống kê tuần suất xuất hiện các từ hiếm phía tiếng Anh khi sử dụng kỹ thuật chia nhỏ từ BPE với bảng từ vựng mục tiêu có các kích thước khác nhau. Bảng 3.3 Tần suất xuất hiện các từ hiếm tiếng Anh với thuật chia nhỏ từ BPE 86 Ngữ liệu Kích thước bảng từ vựng Số lượng từ Số lượng từ xuất hiện <10 lần % từ xuất hiện <10 lần Số lượng từ xuất hiện <20 lần % từ xuất hiện <20 lần IWSLT2015 2.706.404 94.591 3,495 144.102 5,32 Sử dụng chia nhỏ từ BPE 4.000 3.307.167 544 0,016 1.576 0,048 5.000 3.216.123 760 0,024 2.382 0,074 6.000 3.149.614 1.058 0,033 3.488 0,111 8.000 3.057.980 1.847 0,060 6.347 0,208 Bảng 3.3 cho thấy việc chia nhỏ từ giảm kích thước bảng từ vựng, từ đó tăng tần suất xuất hiện của từ hiếm trong ngữ liệu huấn luyện, giảm các từ có tần suất xuất hiện thấp (các từ hiếm). Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để gióng hàng từ được trình bày Bảng 3.4 (BLEU là kết quả so sánh với baseline). Bảng 3.4. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE, sử dụng bảng A* để gióng hàng từ Hệ thống: SMT(BPE)-A* Kích thước bảng từ vựng BLEU BLEU 4.000 24,86 0,41 5.000 25,11 0,66 6.000 24,65 0,20 8.000 24,82 0,27 87 - Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Wordpiece được hệ thống SMT-Wordpiece-A*. Kết quả thử nghiệm thu được được trình bày trong Bảng 3.5 (BLEU là kết quả so sánh với baseline) Bảng 3.5. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật Wordpiece, sử dụng bảng A* để gióng hàng từ Tiêu chí Hệ thống: SMT(Wordpiece)-A* BLEU 24,87 BLEU 0,42 - Thử nghiệm sử dụng kỹ thuật chia nhỏ từ Unigram kích thước bảng từ vựng lần lượt được sử dụng là 4K (4.000), 5K (5.000), 6K (6000) được hệ thống SMT-Unigram-A* . Kết quả thử nghiệm được trình bày trong Bảng 3.6 (BLEU là kết quả so sánh với baseline). Bảng 3.6. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật Unigram, sử dụng bảng A* để gióng hàng từ Hệ thống: SMT(Unigram)-A* Kích thước bảng từ vựng BLEU BLEU 4.000 24,73 0,28 5.000 24,80 0,35 6.000 24,69 0,24 - Thử nghiệm sử dụng công cụ Morfessor 2.0 để chia nhỏ các từ thuộc phía tiếng Anh. Thử nghiệm này gồm hai mô hình chia nhỏ từ với các kho ngữ liệu đơn ngữ khác nhau: (i) Đối với hệ thống SMT-Morfessor1-A* thì sử dụng các câu phía tiếng Anh của kho ngữ liệu huấn luyện “IWSLT2015” (ii) Đối với hệ thống SMT-Morfessor2-A* thì sử dụng ngữ liệu đơn ngữ từ kho europarl-v7.en. 88 Các kết quả thử nghiệm được trình bày trong Bảng 3.7. (BLEU là kết quả so sánh với baseline). Bảng 3.7. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng phương pháp Morfessor theo hai mô hình, sử dụng bảng gióng hàng từ A* Hệ thống: SMT(Morfessor)-A* Dữ liệu huấn luyện BLEU BLEU IWSLT2015 (en) 24,46 0,01 Europarl-v7.en 24,95 0,50 Tổng hợp các kết quả của các thử nghiệm được trình bày trong Bảng 3.8. Từ kết quả cho thấy: việc áp dụng các kỹ thuật chia nhỏ từ khác nhau và sử dụng thuật toán được đề xuất trong Mục 3.3.3 để xây dựng bảng gióng hàng từ đều khiến cho hệ thống tốt hơn theo đánh giá bằng điểm BLEU. Trong đó, sử dụng kỹ thuật BPE để chia nhỏ từ với kích thước bảng từ vựng là 5.000 cho kết quả điểm BLEU đạt được cao nhất, tăng 0,81 điểm đối với dịch máy cho cặp ngôn ngữ Việt - Anh. Các kết quả thử nghiệm trong phần này đã chứng minh được phương pháp cải tiến mô hình gióng hàng trong hệ thống dịch máy Việt – Anh sử dụng kỹ thuật chia nhỏ từ giúp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngôn ngữ Việt - Anh. Bảng 3.8. Kết quả thử nghiệm với mô hình gióng hàng từ cải tiến bằng kỹ thuật chia nhỏ từ. Hệ thống Kích thước bảng từ vựng BLEU BLEU Baseline 24,45 SMT-BPE-A 23,40 -1,05 SMT-BPE-A* 4.000 24,86 0,41 5.000 25,26 0,81 89 6.000 24,65 0,20 8.000 24,82 0,27 SMT-Wordpiece-A* 24,87 0,42 SMT-Unigram-A* 4.000 24,73 0,28 5.000 24,80 0,35 6.000 24,69 0,24 SMT-Morfessor1-A* 24,46 0,01 SMT-Morfessor2-A* 24,95 0,50 3.5. Kết hợp hai phương pháp đề xuất với tập ngữ liệu EVB Như đã trình bày trong Chương 2 của luận án, dịch ngược có thể mang lại kết quả tốt hơn cho hệ SMT, nhất là đối với các cặp ngôn ngữ có tài nguyên hạn chế. Bên cạnh đó, trong chương 2 cũng thử nghiệm và đánh giá việc sử dụng toàn bộ dữ liệu giả lập thu được sau khi dịch ngược có thể làm cho chất lượng của hệ thống dịch máy bị giảm sút, do đó cần phải có phương pháp lựa chọn dữ liệu giả lập phù hợp để lựa chọn và thu được bộ ngữ liệu huấn luyện đủ tốt để huấn luyện hệ SMT. Trong các phần trước của chương này, luận án đã trình bày phương pháp chia nhỏ từ, cải tiến phương pháp gióng hàng từ nhằm tăng chất lượng gióng hàng từ, qua đó tăng chất lượng của hệ SMT. Các thử nghiệm, đánh giá bằng điểm BLEU cho thấy: việc áp dụng kỹ thuật chia nhỏ từ với tham số thích hợp có thể giúp tăng chất lượng của hệ SMT. Dịch ngược nằm trong bước tiền xử lý dữ liệu, chia nhỏ từ thuộc bước huấn luyện hệ dịch, do đó luận án đề xuất kết hợp hai phương pháp: dịch ngược với độ đo thích nghi và chia nhỏ từ với cải tiến gióng hàng từ nhằm làm tăng chất lượng của hệ SMT. Mô hình đề xuất được thể hiện trong Hình 3.5. Trong phần này, luận án cũng thực hiện các thử nghiệm với bộ song ngữ EVB của tác giả Ngô Quốc Hưng (file EVBCorpus_EVBNews_v2.0.rar ) tải về từ địa chỉ https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus 90 3.5.1. Mô hình đề xuất kết hợp dịch ngược và chia nhỏ từ Mô hình kết hợp được thể hiện trong Hình 3.7. Trong đó, ngữ liệu huấn luyện ban đầu sẽ được dịch ngược ở phía ngôn ngữ đích, sau đó áp dụng các kỹ thuật lựa chọn thích nghi đã đề cập trong Chương 2 để lựa chọn câu phía đích, kết hợp với các câu phía nguồn tương ứng để tạo ra các cặp câu song ngữ giả lập. Các cặp câu song ngữ giả lập này kết hợp với kho ngữ liệu ban đầu để tạo thành kho ngữ liệu huấn luyện đầy đủ. Các câu phía đích của kho ngữ liệu đầy đủ được sử dụng để huấn luyện mô hình ngôn ngữ phía đích. Khi đưa kho ngữ liệu đầy đủ vào huấn luyện hệ SMT, các câu phía đích được chia nhỏ bằng các phương pháp chia nhỏ đã trình bày trong Chương 3. Các câu đã được chia nhỏ phía đích kết hợp với các câu phía nguồn để tạo thành kho ngữ liệu huấn luyện đã chia nhỏ. trong khi khi thực hiện huấn luyện gióng hàng từ trên kho ngữ liệu huấn luyện đã chia nhỏ, kỹ thuật cải tiến phương pháp gióng hàng từ được áp dụng để thu được bảng gióng hàng từ đã được chuẩn hóa. Bảng gióng hàng từ này được sử dụng để tiếp tục huấn luyện hệ SMT. 91 Kho song ngữ đầy đủ Kho song ngữ huấn luyện Chuẩn hóa dữ liệu Gióng hàng từ (tạo bảng gióng hàng A)Trích rút cụm từ Huấn luyện mô hình ngôn ngữ Sinh mô hình dịch Tinh chỉnh tham số Kho song ngữ kiểm chứng Hệ thống dịch máy thống kê Chuẩn hóa bảng gióng hàng (Tạo bảng gióng hàng A*) Chia nhỏ từ (subword) phía tiếng Anh Kho song ngữ đánh giá Đánh giá hệ thống Dịch ngược các câu phía đích Lựa chọn thích nghi các câu giả lập Kho song ngữ giả lập Hình 3.7. Mô hình kết hợp dịch ngược và chia nhỏ từ. 3.5.2. Dữ liệu và môi trường thử nghiệm Dữ liệu sử dụng để thử nghiệm là bộ dữ liệu EVB của tác giả Ngô Quốc Hưng (https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus), bộ dữ liệu bao gồm 1.000 văn bản song ngữ Việt – Anh, sau khi chuẩn hóa dữ liệu, bộ dữ liệu có 45.308 cặp câu song ngữ. từ bộ dữ liệu này, NCS chọn ra ngẫu nhiên 1.482 cặp câu để làm dữ liệu tinh chỉnh tham số, 1.527 cặp câu để làm dữ liệu đánh 92 giá, phân còn lại 42.299 cặp câu để làm dữ liệu huấn luyện. Mô tả đặc điểm của các tập dữ liệu mô tả trong bảng 3.9. Bảng 3.9. Các bộ dữ liệu sử dụng trong các thử nghiệm Các mô hình, công cụ được sử dụng trong các thử nghiệm như sau: - Mô hình sử dụng trong dịch ngược EN-DE-EN: Sử dụng các mô hình đã được huấn luyện sẵn cho cặp ngôn ngữ Anh-Đức của nhóm Facebook AI Research [81]. Mô hình ngôn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mô hình ngôn ngữ tiếng Anh đã được huấn luyện sẵn của nhóm Facebook AI Research. - Kỹ thuật chia nhỏ từ sử dụng trong thử nghiệm là BPE với kích thước bảng từ vựng lần lượt là 3K, 4K, 5K, 6K, 7K. - Phần mềm MOSES ( với mô hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt-Anh; - Mô hình ngôn ngữ trong hệ SMT được huấn luyện bằng công cụ KenLM; - Mô hình gióng hàng từ là mô hình IBM-HHM với công cụ gióng hàng được sử dụng là GIZA++ Toolkit [86]. Bộ dữ liệu (EVB) Huấn luyện Tinh chỉnh tham số Đánh giá Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Số lượng câu 42.299 42.299 1.482 1.482 1.527 1.527 Số lượng từ 821.224 1.121.425 27.868 37.717 31.086 42.559 Độ dài câu lớn nhất 149 185 80 136 100 150 Độ dài câu nhỏ nhất 2 2 2 2 2 2 Độ dài câu trung bình 19,41 26,51 18,80 25,45 20,36 27,87 Kích thước bảng từ vựng 35.426 16.022 5.305 3.157 5.647 3.257 93 3.5.3. Kết quả thử nghiệm * Mô hình baseline: Baseline là mô hình SMT với các tham số cài đặt mặc định, không áp dụng bất kỳ kỹ thuật nào khác với các bộ dữ liệu được tạo ra từ bộ EVB ban đầu với các mô tả trong bảng 3.10. Kết quả thu được như sau: - Số lượng cặp câu song ngữ huấn luyện: 42.299 - Điểm BLEU của hệ thống: 23,09 BaselineBT là mô hình SMT huấn luyện trên bộ dữ liệu EVB kết hợp với toàn bộ dữ liệu giả lập thu được sau quá trình dịch ngược EN-DE-EN. Kết quả thu được như sau: Số lượng cặp câu song ngữ huấn luyện: 84.598 Điểm BLEU của hệ thống: 23,02 * Thử nghiệm với kỹ thuật BT có áp dụng các độ đo thích nghi đề xuất trong Chương 2 của luận án: Để thực hiện thử nghiệm, NCS sử dụng hệ thống dịch máy EN-DE-EN được huấn luyện trước để thu được các cặp câu giả lập, sau đó áp dụng kỹ thuật lựa chọn thích nghi với độ đo theo hiệu (H) và độ đo theo tỷ lệ (T). Kết quả thử nghiệm được trình bày trong bảng 3.10 và bảng 3.11. Bảng 3.10 Kết quả thử nghiệm BT với độ đo thích nghi H Các kết quả thử nghiệm với độ đo thích nghi H được thể hiện bằng biểu đồ hình 3.8. Các kết quả thử nghiệm cho thấy với toàn bộ dữ liệu giả lập, hệ SMT cho chất lượng giảm so với ban đầu, khi áp dụng kỹ thuật lựa chọn thích nghi theo hiệu, chất lượng hệ dịch có thể được cải thiện, với điểm số BLEU đạt được là 23,60 ở H<-10 Thử nghiệm Độ đo thích nghi theo hiệu H 0 -5 -10 -15 -20 -25 baseline 23,09 baselineBT 23,02 SMT(H) 23,23 23,04 23,62 23,59 23,34 23,04 94 Hình 3.8. Kết quả thử nghiệm BT với độ đo thích nghi H Nhận xét về các kết quả thử nghiệm với độ đo thích nghi T bằng biểu đồ trên hình 3.7 tương tự như đối với độ đo thích nghi H với điểm BLEU thu được cao nhất là 23,47 Bảng 3.11. Kết quả thử nghiệm BT với độ đo thích nghi T 22.7 22.8 22.9 23 23.1 23.2 23.3 23.4 23.5 23.6 23.7 0 -5 -10 -15 -20 -25 baseline baselineBT H Thử nghiệm Độ đo thích nghi theo tỷ lệ T 0,40 0,45 0,50 0,55 0,60 0,65 baseline 23,09 baselineBT 23,02 SMT(T) 23,37 23,32 23,47 23,2 23,16 23,11 95 Hình 3.9. Kết quả thử nghiệm BT với độ đo thích nghi T Trong các thử nghiệm tiếp theo, NCS thực hiện chia nhỏ từ bằng kỹ thuật BPE với các bước lặp khác nhau trên các tập dữ liệu đã được tăng cường bằng phương pháp BT có sử dụng kỹ thuật lựa chọn thích nghi. Kết quả thử nghiệm khi áp dụng chia nhỏ từ với dữ liệu giả lập được lựa chọn bằng độ đo theo hiệu được trình bày trong bảng 3.12 và hình 3.9. Bảng 3.12. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi H 22.7 22.8 22.9 23 23.1 23.2 23.3 23.4 23.5 23.6 0.4 0.45 0.5 0.55 0.6 0.65 baseline baselineBT T Thử nghiệm Độ đo thích nghi theo hiệu H 0 -5 -10 -15 -20 -25 baseline 23,09 baselineBT 23,02 SMT(H) 23,23 23,04 23,62 23,59 23,34 23,04 BPE-3K 23,24 23,30 23,29 23,21 23,24 23,53 BPE-4K 23,47 23,07 23,29 23,32 23,27 23,28 BPE-5K 23,57 23,46 23,32 23,19 23,62 23,39 BPE-6K 23,52 23,12 23,32 23,59 23,95 23,68 BPE-7K 23,34 23,11 23,01 23,15 23,16 23,48 96 Hình 3.10. Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi H Trên hình 3.10 là biểu đồ mô tả các kết quả thử nghiệm, qua đó có thể nhận thấy rằng hầu hết các hệ SMT được huấn luyện trên dữ liệu có chia nhỏ từ và áp dụng cải tiến thuật toán gióng hàng từ đều cho kết quả tốt hơn so với không sử dụng kỹ thuật chia nhỏ từ, trong đó hệ SMT được huấn luyện trên tập dữ liệu được tăng cường với H<-10 và áp dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ vựng 6K đạt kết quả cao nhất với điểm BLEU là 23,95 điểm tăng ∆𝐵𝐿𝐸𝑈= 0,86 so với Baseline. Thử nghiệm với các hệ SMT được huấn luyện trên các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi theo tỷ lệ T. Kết quả được trình bày trong bảng 3.13. Bảng 3.13. Kết quả thử nghiệm chia nhỏ từ trên tập dữ liệu tăng cường bằng BT với độ đo thích nghi T 22.4 22.6 22.8 23 23.2 23.4 23.6 23.8 24 24.2 SMT(H) 3K 4K 5K 6K 7K baseline baselineBT H<0 H<-5 H<-10 H<-15 H<-20 H<-25 Thử nghiệm Độ đo thích nghi theo tỷ lệ T 0,40 0,45 0,50 0,55 0,60 0,65 baseline 23.09 baselineBT 23.02 SMT(T) 23,37 23,32 23,47 23,20 23,16 23,11 97 Hình 3.11. Kết quả thử nghiệm chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT với độ đo thích nghi T Trên hình 3.11 là biểu đồ mô tả các kết quả thử nghiệm áp dụng chia nhỏ từ với các tập dữ liệu được tăng cường bằng BT và lựa chọn thích nghi theo tỷ lệ T, tương tự như trong thử nghiệm trước, có thể nhận thấy rằng hầu hết các hệ SMT được huấn luyện trên dữ liệu có chia nhỏ từ và áp dụng cải tiến thuật toán gióng hàng từ đều cho kết quả tốt hơn so với không sử dụng kỹ thuật chia nhỏ từ, trong đó hệ SMT được huấn luyện trên tập dữ liệu được tăng cường với T<0,60 và áp dụng kỹ thuật chia nhỏ từ BPE với kích thước bảng từ vựng 5K 22 22.2 22.4 22.6 22.8 23 23.2 23.4 23.6 23.8 24 24.2 SMT(T) 3K 4K 5K 6K 7K baseline baslineBT T<0.40 T<0.45 T<0.50 T<0.55 T<0.60 T<0.65 BPE-3K 22,85 22,90 23,64 22,84 23,61 23,51 BPE-4K 23,6 23,22 22,72 23,74 23,30 23,71 BPE-5K 23,47 23,61 23,43 23,49 23,96 23,31 BPE-6K 23,29 23,31 23,22 23,26 23,21 23,87 BPE-7K 23,66 23,34 23,41 23,44 23,31 23,50 98 đạt kết quả cao nhất với điểm BLEU là 23,96 điểm, tăng ∆𝐵𝐿𝐸𝑈 ⁡= ⁡0,87 so với Baseline Trên tập dữ liệu thử nghiệm, có thể nhận thấy chia nhỏ từ với kích thước khoảng 5K, 6K mang lại nhiều kết quả tốt hơn so với khoảng kích thước 3K và 4K. Bên cạnh đó, các kết quả thử nghiệm cũng cho thấy việc kết hợp chia nhỏ từ và tăng cường dữ liệu bằng BT có lựa chọn thích nghi mang lại kết quả tốt hơn cho hệ SMT so với sử dụng đơn lẻ một phương pháp. 3.6. Kết luận Chương 3 Trong chương này một phương pháp cải tiến mô hình gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngôn ngữ Việt - Anh để giải quyết vấn đề từ hiếm và sự khác biệt về hình thái giữa hai ngôn ngữ tiếng Anh và tiếng Việt nhằm nâng cao chất lượng hệ thống SMT đã được đề xuất. Phương pháp đề xuất bao gồm 2 cải tiến đối với mô hình gióng hàng: 1. Áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa vào gióng hàng trong hệ thống dịch máy Việt - Anh. 2. Đề xuất thuật toán tạo bảng gióng hàng từ A* từ bảng A thu được ở bước gióng hàng từ với dữ liệu đã được chia nhỏ từ trước khi xây dựng mô hình dịch, giúp giữ nguyên chất lượng mô hình ngôn ngữ trong hệ thống dịch máy. Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE, Wordpiece, unigram và Morfessor. Các kết quả thử nghiệm cho thấy việc áp dụng phương pháp đề xuất giúp tăng chất lượng hệ dịch thống dịch máy thống kê với cặp ngôn ngữ Việt - Anh, các kỹ thuật áp dụng đều làm cho hệ thống dịch tăng điểm BLEU so với hệ thống trước khi cải tiến. Trong chương này, luận án đã tiến hành các thử nghiệm cho mô hình kết hợp hai phương pháp đã trình bày ở chương 2 và chương 3 với bộ dữ liệu EVB. Kết quả thử nghiệm đã cho thấy việc áp dụng kết hợp 2 phương pháp cho kết quả cao hơn so với sử dụng đơn lẻ từng phương pháp. Kết quả nghiên cứu chính trong chương đã được công bố ở công trình [CT4]. 99 KẾT LUẬN 1. Các kết quả nghiên cứu của luận án Hiện nay, dịch máy mạng nơ-ron đã đạt được những thành tựu đáng kể, tuy nhiên, dịch máy thống kê vẫn có những thế mạnh và có thể phát huy như: dịch tốt trong điều kiện ngữ liệu huấn luyện hạn chế, không đòi hỏi tài nguyên phần cứng cao như dịch máy nơ-ron; từ đó có thể thấy rằng dịch máy thống kê có thể áp dụng vào các ứng dụng dịch thuật trong các miền cụ thể (lĩnh vực khoa học kỹ thuật quân sự) trên các hệ thống máy tính có cấu hình vừa phải, hoạt động ở chế độ ngoại tuyến (offline). Luận án nghiên cứu các phương pháp nâng cao chất lượng cho hệ thống dịch máy thống kê với cặp ngôn ngữ Việt – Anh, trong đó tập trung vào phần tiền xử lý dữ liệu và nâng cao chất lượng gióng hàng từ. Các nghiên cứu đã được thực hiện nhằm nâng cao chất lượng từng phần của hệ thống dịch máy thống kê, từ đó nâng cao chất lượng tổng thể của cả hệ thống. Các kết quả chính của luận án bao gồm: i) Nghiên cứu các kỹ thuật tăng cường dữ liệu bằng dịch ngược, trên cơ sở phân tích các kỹ thuật này, lựa chọn phương pháp dịch ngược để tạo ra câu giả lập là câu phía đích (tiếng Anh) thông qua ngôn ngữ trung gian (tiếng Đức) vì cặp ngôn ngữ Anh – Đức là cặp ngôn ngữ có tài nguyên phong phú, được quan tâm nghiên cứu nhiều và có các mô hình dịch được huấn luyện sẵn có chất lượng tốt. Sau khi tạo ra các cặp câu giả lập, luận án đề xuất hai độ đo thích nghi để lựa chọn dữ liệu bằng mô hình ngôn ngữ nhằm bổ sung ngữ liệu huấn luyện cho hệ thống dịch máy, trong luận án cũng chỉ ra rằng nếu không sử dụng các độ đo để lựa chọn dữ liệu, chất lượng dịch của hệ thống sẽ bị kém đi sau khi bổ sung dữ liệu huấn luyện. ii) Nghiên cứu các phương pháp chia nhỏ từ dựa trên thống kê và dựa trên đặc điểm hình thái từ, các phương pháp chia nhỏ từ này chỉ được áp dụng cho dịch máy nơ-ron nhằm giải quyết bài toán từ hiếm (rare words) và từ nằm ngoài bảng từ vựng (out of vocabulary – OOV) mà chưa từng được áp dụng cho dịch máy thống kê. Nghiên cứu các phương pháp nâng cao chất lượng gióng hàng từ trong dịch máy thống kê, phân tích các đặc điểm hình thái ngôn ngữ 100 tiếng Anh, trên cơ sở đó, đề xuất cải tiến mô hình gióng hàng trong đó áp dụng các phương pháp chia nhỏ từ (subword) phía tiếng Anh và xây dựng thuật toán gióng hàng mới cho phù hợp với phương pháp chia nhỏ từ khi áp dụng vào dịch máy thống kê. iii) Cài đặt, thử nghiệm, so sánh, đánh giá hệ thống SMT trước và sau khi áp dụng các đề xuất cải tiến trên hệ thống SMT MOSES và các tập dữ liệu IWSLT2015, EVB. Kết quả thử nghiệm trên tập dữ liệu cho thấy các phương pháp đề xuất đều tăng chất lượng hệ dịch bằng đánh giá điểm BLEU, độ tăng phụ thuộc và tham số và phương pháp cụ thể áp dụng trong từng thử nghiệm. 2. Những đóng góp mới của luận án - Đề xuất một phương pháp tăng cường dữ liệu cho dịch máy thống kê cặp ngôn ngữ Việt-Anh sử dụng kỹ thuật dịch ngược và độ đo thích nghi. - Đề xuất một phương pháp cải tiến mô hình gióng hàng từ sử dụng kỹ thuật chia nhỏ từ. 3. Hướng nghiên cứu tiếp theo Mặc dù đã đạt được các kết quả theo mục tiêu đề ra của luận án, do hạn chế về thời gian và khuôn khổ nội dung, luận án vẫn tồn tại một số điểm hạn chế: - Việc thử nghiệm đánh giá chỉ dựa trên một số ít bộ số liệu được công bố nên các thử nghiệm đánh giá chưa được đa dạng với nhiều miền dữ liệu khác nhau. Chất lượng gióng hàng từ được đánh giá thông qua điểm BLEU của hệ thống dịch máy mà chưa có thử nghiệm đánh giá bằng các độ đo về chất lượng gióng hàng từ như AER, precision, recall, F-measure nên chưa chỉ rõ được chất lượng gióng hàng từ thay đổi như thế nào sau khi áp dụng các phương pháp chia nhỏ từ và cải tiến thuật toán gióng hàng. - Dịch ngược sử dụng ngôn ngữ trung gian đòi hỏi phải có ngữ liệu huấn luyện đủ lớn để huấn luyện mô hình dịch hoặc phải có mô hình huấn luyện sẵn chất lượng tốt, trong nghiên cứu sử dụng mô hình dịch máy nơ-ron cho cặp 101 ngôn ngữ Anh - Đức - Anh, điều này tăng thời gian tăng thời gian huấn luyện mô hình dịch máy thống kê. Để khắc phục các tồn tại nêu trên, NCS đề xuất một số hướng nghiên cứu tiếp theo của luận án như sau: 1. Nghiên cứu, áp dụng kết hợp hai phương pháp đã đề xuất để nâng cao chất lượng hệ thống dịch máy thống kê, bên cạnh đó, tiếp tục nghiên cứu cải tiến các thành phần khác trong hệ thống dịch máy thống kê như mô hình ngôn ngữ. 2. Phương pháp chia nhỏ từ có sẵn được xây dựng để áp dụng cho dịch máy nơ-ron, trong luận án đã sử dụng cho dịch máy thống kê, tuy nhiên cần nghiên cứu đề xuất phương pháp chia nhỏ từ phù hợp với kiến trúc và đặc điểm của dịch máy thống kê. 3. Nghiên cứu, đề xuất áp dụng các phương pháp đã sử dụng trong luận án vào dịch máy nơ-ron để có thể xây dựng hệ thống dịch máy tốt cho cả hai chiều Việt - Anh và Anh - Việt. 102 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [CT1]. “Automatic Detection of Problematic Rules in Vietnamese Treebank”. RIVF-2015. [CT2]. “The JAIST-UET-MITI Machine Translation Systems for IWSLT 2015”. IWSLT-2015. [CT3]. “Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt - Anh bằng kỹ thuật back - translation và lựa chọn thích nghi”. Tạp chí nghiên cứu khoa học và công nghệ quân sự số đặc san tháng 12-2020. [CT4]. “Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ”. Tạp chí nghiên cứu khoa học và công nghệ quân sự số 74 tháng 8-2021. 103 TÀI LIỆU THAM KHẢO Tiếng Anh 1. Al-Onaizan Y, Curin J, Jahr M, Knight K, Lafferty J, Melamed D, et al. (1999). Statistical machine translation: Final report. JHU Workshop. 2. Axelrod A, Elgohary A, Martindale M, Nguyen K, Niu X, Vyas Y, et al. (2015). The UMD Machine Translation Systems at IWSLT 2015. Proc IWSLT. 3. Ayan NF (2005). Combining linguistic and machine learning techniques for word alignment improvement, PhD Thesis. 4. Bahdanau D, Cho K, Bengio Y (2014). Neural machine translation by jointly learning to align and translate. ArXiv Prepr ArXiv14090473. 5. Banón M, Chen P, Haddow B, Heafield K, Hoang H, Espla-Gomis M, et al. (2020). ParaCrawl: Web-scale acquisition of parallel corpora. Proc 58th Annu Meet Assoc Comput Linguist. Tr. 4555–67. 6. Bao HT, Khanh PN, Le HT, Thao NTP (2009). Issues and first development phase of the english-vietnamese translation system evsmt1. 0. Proc Third Hanoi Forum Information—Communication Technol. 7. Bentivogli L, Bisazza A, Cettolo M, Federico M (2016). Neural versus phrase-based machine translation quality: a case study. ArXiv Prepr ArXiv160804631. 8. Bentivogli L, Bisazza A, Cettolo M, Federico M (2018). Neural versus phrase-based mt quality: An in-depth analysis on english–german and english–french. Comput Speech Lang. Số 49., Tr.52–70 9. Berg-Kirkpatrick T, Bouchard-Côté A, DeNero J, Klein D (2010). Painless unsupervised learning with features. Hum Lang Technol 2010 Annu Conf North Am Chapter Assoc Comput Linguist. Tr. 582–90. 10. Bojar O, Tamchyna A (2011). Improving translation model by monolingual data. Proc Sixth Workshop Stat Mach Transl. Tr. 330–6. 11. Brown PF, Cocke J, Della Pietra SA, Della Pietra VJ, Jelinek F, Lafferty J, et al. (1990). A statistical approach to machine translation. Comput Linguist. Số 16.(2), Tr.79–85 12. Brown PF, Della Pietra SA, Della Pietra VJ, Lai JC, Mercer RL (1992). An estimate of an upper bound for the entropy of English. Comput Linguist. Số 18.(1), Tr.31–40 104 13. Brown PF, Della Pietra SA, Della Pietra VJ, Mercer RL (1993). The mathematics of statistical machine translation: Parameter estimation. Comput Linguist. Số 19.(2), Tr.263–311 14. Castilho S, Gaspari F, Moorkens J, Popović M, Toral A (2019). Editors’ foreword to the special issue on human factors in neural machine translation. Mach Transl. Số 33.(1), Tr.1–7 15. Castilho S, Moorkens J, Gaspari F, Calixto I, Tinsley J, Way A (2017). Is neural machine translation the new state of the art? Prague Bull Math Linguist. (108) 16. Castilho S, Moorkens J, Gaspari F, Sennrich R, Sosoni V, Georgakopoulou P, et al. (2017). A comparative quality evaluation of PBSMT and NMT using professional translators. 17. Cettolo M, Jan N, Sebastian S, Bentivogli L, Cattoni R, Federico M (2015). The iwslt 2015 evaluation campaign. Int Workshop Spok Lang Transl. 18. Chatzikoumi E (2020). How to evaluate machine translation: A review of automated and human metrics. Nat Lang Eng. Số 26.(2), Tr.137–61 19. Cheng Y (2019). Semi-supervised learning for neural machine translation. Jt Train Neural Mach Transl. Springer Tr. 25–40. 20. Chiang D (2005). A hierarchical phrase-based model for statistical machine translation. Proc 43rd Annu Meet Assoc Comput Linguist Acl’05. Tr. 263–70. 21. Chiang D (2007). Hierarchical phrase-based translation. Comput Linguist. Số 33.(2), Tr.201–28 22. Cho K, Van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, et al. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. ArXiv Prepr ArXiv14061078. 23. Chung J, Cho K, Bengio Y (2016). A character-level decoder without explicit segmentation for neural machine translation. ArXiv Prepr ArXiv160306147. 24. Clifton A, Sarkar A (2011). Combining morpheme-based machine translation with post-processing morpheme prediction. Proc 49th Annu Meet Assoc Comput Linguist Hum Lang Technol. Tr. 32–42. 105 25. Creutz M, Lagus K (2005). Inducing the morphological lexicon of a natural language from unannotated text. Proc Int Interdiscip Conf Adapt Knowl Represent Reason AKRR’05. Tr. 51–9. 26. Creutz M, Lagus K (2002). Unsupervised discovery of morphemes. ArXiv Prepr Cs0205057. 27. Cui Y, Chen Z, Wei S, Wang S, Liu T, Hu G (2017). Attention-over- Attention Neural Networks for Reading Comprehension. Proc 55th Annu Meet Assoc Comput Linguist Vol 1 Long Pap. , Tr.593–602 28. Currey A, Miceli-Barone AV, Heafield K (2017). Copied monolingual data improves low-resource neural machine translation. Proc Second Conf Mach Transl. Tr. 148–56. 29. Dempster AP, Laird NM, Rubin DB (1977). Maximum likelihood from incomplete data via the EM algorithm. J R Stat Soc Ser B Methodol. Số 39.(1), Tr.1–22 30. Dien D (2003). BTL: an Hybrid Model in the English-Vietnamese Machine Translation System. Proc MT Summit IX La USA 2003. 31. Dinh D, Ngan NLT, Quang DX, Nam VC (2003). A Hybrid Approach to Word Order Transfer in the English-to-Vietnamese Machine Translation. Proc Mach Transl Summit IX. Citeseer 32. Doddington G (2002). Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. Proc Second Int Conf Hum Lang Technol Res. Tr. 138–45. 33. Dowling M, Lynn T, Poncelas A, Way A (2018). SMT versus NMT: Preliminary comparisons for Irish. 34. Dyer C, Chahuneau V, Smith NA (2013). A simple, fast, and effective reparameterization of ibm model 2. Proc 2013 Conf North Am Chapter Assoc Comput Linguist Hum Lang Technol. Tr. 644–8. 35. Dyer C, Clark JH, Lavie A, Smith NA (2011). Unsupervised word alignment with arbitrary features. Proc 49th Annu Meet Assoc Comput Linguist Hum Lang Technol. Tr. 409–19. 36. Edunov S, Ott M, Auli M, Grangier D (2018). Understanding back- translation at scale. ArXiv Prepr ArXiv180809381. 37. Farwell D, Wilks Y (1990). ULTRA: a multilingual machine translator. New Mexico State University Las Cruces, NM 106 38. Galley M, Hopkins M, Knight K, Marcu D (2004). What’s in a translation rule? Proc Hum Lang Technol Conf North Am Chapter Assoc Comput Linguist HLT-NAACL 2004. Tr. 273–80. 39. Garcia-Varea I, Och FJ, Ney H, Casacuberta F (2002). Improving alignment quality in statistical machine translation using context- dependent maximum entropy models. COLING 2002 19th Int Conf Comput Linguist. 40. Ghaffar SA, Fakhr MW, Sheraton C (2011). English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis. Recent Res Math Methods Electr Eng Comput Sci. , Tr.50–4 41. Gibadullin I, Valeev A, Khusainova A, Khan A (2019). A survey of methods to leverage monolingual data in low-resource neural machine translation. ArXiv Prepr ArXiv191000373. 42. Ha T-L, Niehues J, Cho E, Mediani M, Waibel A (2015). The KIT translation systems for IWSLT 2015. Universitätsbibliothek der RWTH Aachen 43. Han D, Martínez-Gómez P, Miyao Y, Sudoh K, Nagata M (2013). Effects of parsing errors on pre-reordering performance for Chinese-to- Japanese SMT. Proc 27th Pac Asia Conf Lang Inf Comput PACLIC 27. Tr. 267–76. 44. Ho TB (2005). Current Status of Machine Translation Research in Vietnam Towards Asian wide multi language machine translation project. Proc Vietnam Lang Speech Process Workshop. 45. Hoang VCD, Koehn P, Haffari G, Cohn T (2018). Iterative back- translation for neural machine translation. Proc 2nd Workshop Neural Mach Transl Gener. Tr. 18–24. 46. Hoang V, Ngo M, Dinh D (2008). A dependency-based word reordering approach for statistical machine translation. 2008 IEEE Int Conf Res Innov Vis Future Comput Commun Technol. IEEE Tr. 120–7. 47. Hutchins WJ (2001). Machine translation over fifty years. Hist Epistémologie Lang. Số 23.(1), Tr.7–31 48. Hutchins WJ, Somers HL (1992). An introduction to machine translation. Academic Press London 107 49. Isabelle P, Cherry C, Foster G (2017). A challenge set approach to evaluating machine translation. ArXiv Prepr ArXiv170407431. 50. Ittycheriah A, Roukos S (2005). A maximum entropy word aligner for arabic-english machine translation. Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process. Tr. 89–96. 51. Jia Y, Carl M, Wang X (2019). Post-editing neural machine translation versus phrase-based machine translation for English–Chinese. Mach Transl. Số 33.(1), Tr.9–29 52. Junczys-Dowmunt M, Dwojak T, Hoang H (2016). Is neural machine translation ready for deployment? A case study on 30 translation directions. ArXiv Prepr ArXiv161001108. 53. Jurafsky D, Martin JH. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 54. Kamigaito H, Watanabe T, Takamura H, Okumura M, Sumita E (2016). Unsupervised Word Alignment Using Frequency Constraint in Posterior Regularized EM. J Nat Lang Process. Số 23.(4), Tr.327–51 55. Kay M (1973). Automatic translation of natural languages. Daedalus. , Tr.217–30 56. Khayrallah H, Koehn P (2018). On the impact of various types of noise on neural machine translation. ArXiv Prepr ArXiv180512282. 57. Koehn P, Hoang H (2007). Factored translation models. Proc 2007 Jt Conf Empir Methods Nat Lang Process Comput Nat Lang Learn EMNLP-CoNLL. Tr. 868–76. 58. Koehn P, Hoang H, Birch A, Callison-Burch C, Federico M, Bertoldi N, et al. (2007). Moses: Open source toolkit for statistical machine translation. Proc 45th Annu Meet Assoc Comput Linguist Companion Vol Proc Demo Poster Sess. Tr. 177–80. 59. Koehn P, Knowles R (2017). Six challenges for neural machine translation. ArXiv Prepr ArXiv170603872. 60. Koehn P, Och FJ, Marcu D (2003). Statistical phrase-based translation. UNIVERSITY OF SOUTHERN CALIFORNIA MARINA DEL REY INFORMATION SCIENCES INST2003 108 61. Kudo T (2018). Subword regularization: Improving neural network translation models with multiple subword candidates. ArXiv Prepr ArXiv180410959. 62. Lample G, Ott M, Conneau A, Denoyer L, Ranzato M (2018). Phrase- based & neural unsupervised machine translation. ArXiv Prepr ArXiv180407755. 63. Le A-C, Nguyen T-P, Tran Q-L, Linh DB (2018). Integrating Word Embeddings into IBM Word Alignment Models. 2018 10th Int Conf Knowl Syst Eng KSE. IEEE Tr. 79–84. 64. Le KH (2003). One method of Interlingua translation. Proc Natl Conf IT Res Dev Appl. 65. Lee J-H, Lee S-W, Hong G, Hwang Y-S, Kim S-B, Rim HC (2010). A post-processing approach to statistical word alignment reflecting alignment tendency between part-of-speeches. Coling 2010 Posters. Tr. 623–9. 66. Lin D, Cherry C (2003). Word Alignment with Cohesion Constraint. Companion Vol Proc HLT-NAACL 2003 - Short Pap. HLT-NAACL 2003 Truy cập ngày 11/05/2021, Tr. 49–51. URL: https://www.aclweb.org/anthology/N03-2017 . 67. Liu Y, Liu Q, Lin S (2010). Discriminative word alignment by linear modeling. Comput Linguist. Số 36.(3), Tr.303–39 68. Liu Y, Liu Q, Lin S (2005). Log-linear models for word alignment. Proc 43rd Annu Meet Assoc Comput Linguist ACL’05. Tr. 459–66. 69. Liu Y, Sun M (2015). Contrastive unsupervised word alignment with non- local features. Proc AAAI Conf Artif Intell. 70. Luong M-T, Manning CD (2015). Stanford neural machine translation systems for spoken language domains. Proc Int Workshop Spok Lang Transl. Tr. 76–9. 71. Ma Y, Ozdowska S, Sun Y, Way A (2008). Improving word alignment using syntactic dependencies. Association for Computational Linguistics 72. Mahata SK, Mandal S, Das D, Bandyopadhyay S (2018). SMT vs NMT: a comparison over Hindi & Bengali simple sentences. ArXiv Prepr ArXiv181204898. 109 73. Menacer MA, Langlois D, Mella O, Fohr D, Jouvet D, Smaïli K (2017). Is statistical machine translation approach dead? ICNLSSP 2017-Int Conf Nat Lang Signal Speech Process. Tr. 1–5. 74. Mermer C, Saraçlar M, Sarikaya R (2013). Improving statistical machine translation using Bayesian word alignment and Gibbs sampling. IEEE Trans Audio Speech Lang Process. Số 21.(5), Tr.1090–101 75. Mitamura T (1999). Controlled language for multilingual machine translation. Proc Mach Transl Summit VII. Tr. 46–52. 76. Mitamura T, Nyberg E, Carbonell JG (1991). An efficient interlingua translation system for multi-lingual document production. 77. Moore RC (2005). A discriminative framework for bilingual word alignment. Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process. Tr. 81–8. 78. Moore RC (2004). Improving IBM word alignment model 1. Proc 42nd Annu Meet Assoc Comput Linguist ACL-04. Tr. 518–25. 79. Müller M, Nguyen T-S, Sperber M, Kilgour K, Stüker S, Waibel A (2015). The 2015 KIT IWSLT Speech-to-Text Systems for English and German. Int Workshop Spok Lang Transl IWSLT. Citeseer 80. Nagao M (1984). A framework of a mechanical translation between Japanese and English by analogy principle. Artif Hum Intell. , Tr.351–4 81. Ng N, Yee K, Baevski A, Ott M, Auli M, Edunov S (2019). Facebook FAIR’s WMT19 News Translation Task Submission. ArXiv Prepr ArXiv190706616. 82. Nguyen NT, Le VQ, Nghiem M-Q, Dinh D (2015). A General Approach for Word Reordering in English-Vietnamese-English Statistical Machine Translation. Int J Artif Intell Tools. Số 24.(06), Tr.1550024 83. Nomura T, Tsukada H, Akiba T. Improvement of Word Alignment Models for Vietnamese-to-English Translation. 84. Och FJ (2003). Minimum error rate training in statistical machine translation. Proc 41st Annu Meet Assoc Comput Linguist. Tr. 160–7. 85. Och FJ, Ney H (2000). A Comparison of Alignment Models for Statistical Machine Translation. COLING 2000 Vol 2 18th Int Conf Comput Linguist. COLING 2000 Truy cập ngày 11/05/2021, URL: https://www.aclweb.org/anthology/C00-2163 . 110 86. Och FJ, Ney H (2003). A systematic comparison of various statistical alignment models. Comput Linguist. Số 29.(1), Tr.19–51 87. Och FJ, Ney H (2000). Improved statistical alignment models. Proc 38th Annu Meet Assoc Comput Linguist. Tr. 440–7. 88. Och FJ, Ney H (2004). The alignment template approach to statistical machine translation. Comput Linguist. Số 30.(4), Tr.417–49 89. Ojha AK, Chowdhury KD, Liu C-H, Saxena K (2018). The RGNLP machine translation systems for WAT 2018. ArXiv Prepr ArXiv181200798. 90. Ott M, Auli M, Grangier D, Ranzato M (2018). Analyzing uncertainty in neural machine translation. Int Conf Mach Learn. PMLR Tr. 3956–65. 91. Papineni K, Roukos S, Ward T, Zhu W-J (2002). Bleu: a method for automatic evaluation of machine translation. Proc 40th Annu Meet Assoc Comput Linguist. Tr. 311–8. 92. Park J, Song J, Yoon S (2017). Building a neural machine translation system using only synthetic parallel data. ArXiv Prepr ArXiv170400253. 93. Pham N-L, Nguyen V-V (2020). Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language. VNU J Sci Comput Sci Commun Eng. Số 36.(1) 94. Phuoc NQ, Quan Y, Ock C-Y (2016). Building a bidirectional english- vietnamese statistical machine translation system by using moses. Int J Comput Electr Eng. Số 8.(2), Tr.161 95. Poerner N, Sabet MJ, Roth B, Schütze H (2018). Aligning Very Small Parallel Corpora Using Cross-Lingual Word Embeddings and a Monogamy Objective. ArXiv Prepr ArXiv181100066. 96. Poncelas A, Popovic M, Shterionov D, Wenniger GM de B, Way A (2019). Combining SMT and NMT back-translated data for efficient NMT. ArXiv Prepr ArXiv190903750. 97. Poncelas A, Shterionov D, Way A, Wenniger GM de B, Passban P (2018). Investigating Backtranslation in Neural Machine Translation. Truy cập ngày 11/05/2021; URL: https://arxiv.org/abs/1804.06189v1 . 98. Richman T. Johns Hopkins scientists win $10.7 million grant to translate little-used languages. baltimoresun.com. Truy cập ngày 11/05/2021, URL: https://www.baltimoresun.com/latest/bs-md-hopkins-language- grant-20171011-story.html . 111 99. Ruiz N, Di Gangi MA, Bertoldi N, Federico M (2019). Assessing the tolerance of neural machine translation systems against speech recognition errors. ArXiv Prepr ArXiv190410997. 100. Sabet MJ, Faili H, Haffari G (2016). Improving word alignment of rare words with word embeddings. Proc COLING 2016 26th Int Conf Comput Linguist Tech Pap. Tr. 3209–15. 101. Sato S, Nagao M (1990). Toward memory-based translation. COLNG 1990 Vol 3 Pap Present 13th Int Conf Comput Linguist. 102. Schuster M, Nakajima K (2012). Japanese and korean voice search. 2012 IEEE Int Conf Acoust Speech Signal Process ICASSP. IEEE Tr. 5149– 52. 103. Sennrich R, Haddow B, Birch A (2015). Improving neural machine translation models with monolingual data. ArXiv Prepr ArXiv151106709. 104. Sennrich R, Haddow B, Birch A (2015). Neural machine translation of rare words with subword units. ArXiv Prepr ArXiv150807909. 105. Shterionov D, Nagle P, Casanellas L, Superbo R, O’Dowd T (2017). Empirical evaluation of NMT and PBSMT quality for large-scale translation production. 20th Annu Conf Eur Assoc Mach Transl EAMT 2017. 106. Smit P, Virpioja S, Grönroos S-A, Kurimo M (2014). Morfessor 2.0: Toolkit for statistical morphological segmentation. 14th Conf Eur Chapter Assoc Comput Linguist EACL Gothenbg Swed April 26-30 2014. Aalto University 107. Snover M, Dorr B, Schwartz R, Micciulla L, Makhoul J (2006). A study of translation edit rate with targeted human annotation. Proc Assoc Mach Transl Am. Citeseer 108. Songyot T, Chiang D (2014). Improving word alignment using word similarity. Proc 2014 Conf Empir Methods Nat Lang Process EMNLP. Tr. 1840–5. 109. Stahlberg F (2020). Neural machine translation: A review. J Artif Intell Res. Số 69., Tr.343–418 110. Stahlberg F, Cross J, Stoyanov V (2018). Simple fusion: Return of the language model. ArXiv Prepr ArXiv180900125. 112 111. Stahlberg F, Hasler E, Waite A, Byrne B (2016). Syntactically guided neural machine translation. ArXiv Prepr ArXiv160504569. 112. Sutskever I, Vinyals O, Le QV (2014). Sequence to Sequence Learning with Neural Networks. Adv Neural Inf Process Syst. Curran Associates, Inc. Truy cập ngày 06/01/2022, URL: https://proceedings.neurips.cc/paper/2014/hash/a14ac55a4f27472c5d89 4ec1c3c743d2-Abstract.html . 113. Talbot D (2005). Constrained EM for parallel text alignment. Nat Lang Eng. Số 11.(3), Tr.263 114. Tamura A, Watanabe T, Sumita E (2014). Recurrent neural networks for word alignment model. Proc 52nd Annu Meet Assoc Comput Linguist Vol 1 Long Pap. Tr. 1470–80. 115. Taskar B, Lacoste-Julien S, Klein D (2005). A discriminative matching approach to word alignment. Proc Hum Lang Technol Conf Conf Empir Methods Nat Lang Process. Tr. 73–80. 116. Taylor L, Nitschke G (2018). Improving deep learning with generic data augmentation. 2018 IEEE Symp Ser Comput Intell SSCI. IEEE Tr. 1542– 7. 117. Thuong VTHHV, Van VN, Tien TL (2015). The English-Vietnamese Machine Translation System for IWSLT 2015. Proceeding 12th Int Workshop Spok Lang Transl. 118. Toral A, Sánchez-Cartagena VM (2017). A multifaceted evaluation of neural versus phrase-based machine translation for 9 language directions. ArXiv Prepr ArXiv170102901. 119. Tran VH, Vu HT, Pham TH, Van Nguyen V, Le Nguyen M (2016). A reordering model for Vietnamese-English statistical machine translation using dependency information. 2016 IEEE RIVF Int Conf Comput Commun Technol Res Innov Vis Future RIVF. IEEE Tr. 125–30. 120. Tran VH, Vu HT, Van Nguyen V, Le Nguyen M (2016). A classifier- based preordering approach for english-vietnamese statistical machine translation. Int Conf Intell Text Process Comput Linguist. Springer Tr. 74–87. 121. T. Gowda, J. May (2020), Finding the Optimal Vocabulary Size for Neural Machine Translation, arXiv:2004.02334v2. 113 122. Unanue IJ, Arratibel LG, Borzeshi EZ, Piccardi M (2018). English- Basque statistical and neural machine translation. Proc Elev Int Conf Lang Resour Eval LREC 2018. 123. Van Bui V, Tran TT, Nguyen NBT, Pham TD, Le AN, Le CA (2015). Improving Word Alignment Through Morphological Analysis. Int Symp Integr Uncertain Knowl Model Decis Mak. Springer Tr. 315–25. 124. Vaswani A, Huang L, Chiang D (2012). Smaller alignment models for better translations: Unsupervised word alignment with the l0-norm. Proc 50th Annu Meet Assoc Comput Linguist Vol 1 Long Pap. Tr. 311–9. 125. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. (2017). Attention is All you Need. Adv Neural Inf Process Syst. Curran Associates, Inc. Truy cập ngày 06/01/2022, URL: https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd05 3c1c4a845aa-Abstract.html . 126. Vauquois B (1968). A survey of formal grammars and algorithms for recognition and transformation in mechanical translation. Ifip Congr 2. Tr. 1114–22. 127. Vogel S, Ney H, Tillmann C (1996). HMM-based word alignment in statistical translation. COLING 1996 Vol 2 16th Int Conf Comput Linguist. 128. Volkart L, Bouillon P, Girletti S (2018). Statistical vs. neural machine translation: A comparison of mth and deepl at swiss post’s language service. Proc 40th Conf Transl Comput. Tr. 145–50. 129. Weaver W (1955). Translation. Mach Transl Lang. Số 14.(15–23), Tr.10 130. Wolk K, Marasek K (2015). PJAIT systems for the IWSLT 2015 evaluation campaign enhanced by comparable corpora. ArXiv Prepr ArXiv151201639. 131. Yamada K, Knight K (2001). A syntax-based statistical translation model. Proc 39th Annu Meet Assoc Comput Linguist. Tr. 523–30. 132. Yang N, Liu S, Li M, Zhou M, Yu N (2013). Word alignment modeling with context dependent deep neural network. Proc 51st Annu Meet Assoc Comput Linguist Vol 1 Long Pap. Tr. 166–75. 133. Zeman D (2010). Using TectoMT as a preprocessing tool for phrase- based statistical machine translation. Int Conf Text Speech Dialogue. Springer Tr. 216–23. 114 134. Zens R, Matusov E, Ney H (2004). Improved word alignment using a symmetric lexicon model. COLING 2004 Proc 20th Int Conf Comput Linguist. Tr. 36–42. 135. Zhang H, Chiang D (2014). Kneser-Ney smoothing on expected counts. Proc 52nd Annu Meet Assoc Comput Linguist Vol 1 Long Pap. Tr. 765– 74. 136. Zheng W, Wang W, Liu D, Zhang C, Zeng Q, Deng Y, et al. (2018). Oracle-free detection of translation issue for neural machine translation. ArXiv E-Prints.

Các file đính kèm theo tài liệu này:

luan_an_phat_trien_mot_so_ky_thuat_trong_dich_may_thong_ke_v.pdf
QĐ cấp Viện NCS Quyền.pdf
ThongTin KetLuanMoi LuanAn NCS DangThanhQuyen.docx
TomTat LuanAn NCS DangThanhQuyen_English.pdf
TomTat LuanAn NCS DangThanhQuyen_TiengViet.doc.pdf
TrichYeu LuanAn NCS DangThanhQuyen.doc