Tóm tắt Luận văn Khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh – Việt
Luận án chúng tôi tập trung vào việc khai phá tri thức song ngữ và từng cung trong dịch mấy Anh - Việt. Chúng tôi đã đề xuất một số phương pháp để xây dựng ngữ liệu sang ngữ cho dịch mấy thống kê, đưa ra một số cải tiến mô hình IBM để giống hàng từ cho dịch mấy thống kẽ và xác định cụm từ song ngữ cho dịch truy thống kê. Các đóng góp chính của luận án có thể được tóm tắt như sau: Thứ nhất, chúng tôi đã đề xuất một số phương pháp để xây dựng ngữ liệu song ngữ cho SMIT. Cụ thể, chúng tôi khai thác từ hai nguồn: Web và cách điện tử Mong ngữ. Đối với nguồn từ Web, chúng tôi rất thích các văn bản Stig ngữ từ các trang web ng ngữ Anh - Việt; đưa ra hai phương pháp thiết kế các đặc trưng dựa trên nội dung: dựa trên Cognate và dựa trên việc xác định các phân đoạn dịch. Các phương pháp chủng tôi đề xuất đạt được kết quả tốt hơn (độ chính xác 88,2% và 90,0%) so với phương pháp sử dụng các đặc trưng dựa vào cấu trúc trong vatb (lộ chính xác 44,4%) và phương pháp sử dụng từ điển (độ chính xác 65,2%). Đối với 11guồn từ sách điện tử sang ngữ, chúng tôi sử dụng một số mẫu liên kết giữa các khối văn bản trong hai ngôn ngữ để rút trích các câu song ngữ. Các thực tigliệu về rút trích câu song ngữ từ sách điện tử theo phương pháp chúng tôi đề xuất đã đạt được 95, 0% theo độ đo Fore: Thứ hai, chúng tôi đã đề xuất một số cải tiến đối với mô hình IBM 1 theo cách tiếp cận dựa trên ràng buộc, bao gồm: ràng buộc neo, ràng buộc về vị trí của từ, ràng buộc về từ loại và ràng buộc về cụm từ. Với mỗi ràng buộc, chúng tôi đưa ra phương pháp tổng quát thể tích hợp nó vào thuật toán EMT trong quả trình trước lượng tham số của IIIõ hình. Việc cải tiến này giúp nâng cao chất lượng dịch cho các hệ thống SMT. Cụ thể, với phương pháp kết hợp ràng buộc, chất lượng MT tăng 7,16% so với mô hình IBMI gốc và tăng 5,31% so với sử dụng Giza++. Thứ ba, chúng tôi đã đề xuất phương pháp rút trích cụm từ 8011g ngữ từ ngữ liệu song ngữ, sử dụng các mẫu cú pháp kết hợp với giống hàng cụm từ. Các cụm từ song ngữ này được ứng dụng vào việc tăng chất lượng SMT Các thực nghiệm được thực hiện trên hệ thống SMT Anh - Việt cho thấy phương pháp xác định cụm từ song ngữ như chúng tôi đưa ra đạt được chất lượng dịch tốt hơn so với không xử lý cụm từ, cụ thể trong trường hợp tốt nhất điểm BLEU tăng 0,53.
Các file đính kèm theo tài liệu này:
- tom_tat_luan_van_khai_pha_tri_thuc_song_ngu_va_ung_dung_tron.pdf