Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh

Trang nhan đề Mục lục Danh mục Mở đầu Chương 1: Gioi thiệu Chương 2: Cơ sở lý thuyết Chương 3: Các kỹ thuật liên quan Chương 4: Chương trình và kết quả thực nghiệm Chương 5 Đánh giá và hướng phát triển Tài liệu tham khảo MỤC LỤC MỤC LỤC 3 DANH MỤC CÁC BẢNG 5 DANH MỤC CÁC HÌNH VẼ . 6 MỞ ĐẦU 7 Chương 1: GIỚI THIỆU . . 9 1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval) 9 1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval) 11 1.2.1 Khái niệm 11 1.2.2 Mô hình chung . 11 1.2.3 Các vấn đề . . 12 1.3 Các hướng tiếp cận 13 1.3.1 Dịch máy 13 1.3.2 Sử dụng từ điển 14 1.3.3 Sử dụng ngữ liệu 15 1.4 Một số công trình nghiên cứu trong và ngoài nước . 16 1.5 Giới thiệu luận văn . 16 Chương 2: CƠ SỞ LÝ THUYẾT . 18 2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary – MRD) 18 2.1.1 Vai trò của MRD . . 18 2.1.2 Sử dụng từ điển 19 2.2 Các phương pháp khử nhập nhằng . 20 2.2.1 Giới thiệu . 20 2.2.2 Khử nhập nhằng . 20 2.3 Mô hình thống kê . 25 2.3.1 Giới thiệu . 25 2.3.2 Dịch bằng xác suất thống kê . 25 2.3.3 Mô hình ngôn ngữ 28 2.3.4 Liên kết từ 28 2.3.5 Mô hình dịch 29 2.4 Kết luận . 33 Chương 3: CÁC KỸ THUẬT LIÊN QUAN 34 3.1 Tìm kiếm dựa trên MRD . . 34 3.2 Công cụ GIZA++ . 36 3.2.1 Cấu trúc đầu vào của GIZA++ 36 3.2.2 Cấu trúc đầu ra của GIZA++ 37 3.2.3 Sử dụng GIZA++ . 37 3.3 Kết luận . 38 Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM . 39 4.1 Kiến trúc hệ thống . . 39 4.1.1 Từ điển . 40 4.1.2 Thống kê từ ngữ liệu 41 4.1.3 Chương trình thử nghiệm . 42 4.2 Khai thác ngữ liệu song song . 45 4.3 Kết quả thử nghiệm 51 4 4.4 Đánh giá thử nghiệm 55 4.4.1 Nhận xét việc chuyển ngữ 55 4.4.2 Đánh giá kết quả thử nghiệm 57 Chương 5: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN . 62 5.1 Đánh giá 62 5.2 Hướng ứng dụng và phát triển . . 62 TÀI LIỆU THAM KHẢO . 65

23 trang | Chia sẻ: lvcdongnoi | Lượt xem: 3108 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM Chương 4 giới thiệu vệ hệ thống mà luận văn đã xây dựng được, bên cạnh đó còn trình bày về các cách thử nghiệm cũng như kết quả của thử nghiệm. Từ các kết quả này ta sẽ tiến hành đánh giá những kết quả đạt được của hệ thống cũng như những hạn chế mà phương pháp sử dụng trong luận văn gặp phải. Nội dung gồm các phần sau:  Giới thiệu về hệ thống.  Cách khai thác ngữ liệu song song.  Trình bày về việc thử nghiệm hệ thống.  Đánh giá các kết quả đạt được. 4.1 Kiến trúc hệ thống Hệ thống tìm kiếm xuyên ngữ Việt-Anh được xây dựng để thực hiện những công việc sau:  Cho phép người dùng nhập vào câu truy vấn bằng tiếng Việt.  Hệ thống tự động tách từ và chuyển ngữ các từ tiếng Việt sang tiếng Anh. Trong quá trình dịch dùng từ điển kết quả sẽ có thể có nhiều bản dịch của một từ tiếng Việt, do đó hệ thống cũng cần phải khử nhập nhằng các từ này. Phương pháp khử nhập nhằng được sử dụng ở đây là sử dụng xác suất dịch để chọn ra bản dịch tiếng Anh của từ tiếng Việt. Bản dịch nào có xác suất cao nhất sẽ được chọn, nếu có nhiều bản dịch có cùng xác suất dịch thì tất cả các bản dịch đó sẽ được chọn.  Sau quá trình dịch các câu truy vấn sẽ được gửi cho hệ thống tìm kiếm thông tin đơn ngữ thực hiện việc tìm kiếm và trả kết quả ra cho người dùng. Hệ thống có thể được trình bày như mô hình sau: 40 Hình 4.1 Mô hình hệ thống chương trình 4.1.1 Từ điển Từ điển được sử dụng để dịch câu truy vấn nhập từ người dùng là từ điển Việt Anh bao gồm 15000 từ tiếng Việt được tổ chức lại theo cấu trúc XML như sau: từ tiếng Việt từ loại nghĩa tiếng Anh lĩnh vực Người dùng Câu truy vấn tiếng Việt Câu truy vấn tiếng Anh Hệ tìm kiếm thông tin đơn ngữ Các tài liệu liên quan đến câu truy vấn bằng tiếng Anh, tiếng Việt Thống kê từ ngữ liệu Dịch Khử nhập nhằng Từ điển Chuyển ngữ 41 từ tham chiếu tiếng Việt từ đồng nghĩa tiếng Anh Ví dụ: ác khẩu a ác miệng ác miệng a foul-mouthed Quá trình dịch câu truy vấn bằng tiếng Việt được diễn ra như sau:  Hệ thống thực hiện tách từ dựa vào các từ điển đơn ngữ tiếng Việt (bao gồm từ điển từ ghép gồm 63251 từ, từ điển tiếng Việt gồm 56317 từ và từ điển danh từ tiếng Việt gồm 909 từ)  Thực hiện dịch các từ tiếng Việt có được từ quá trình tách từ bằng các so khớp với các từ tiếng Việt có trong từ điển, nếu từ đó có từ đồng nghĩ thì từ đồng nghĩa cũng được chọn. Nếu từ tiếng Việt có trong từ điển mà chỉ có từ tham chiếu thì sẽ tìm bản dịch tiếng Anh ở từ tham chiếu. Tuy nhiên, vẫn có trường hợp từ tiếng Việt không có trong từ điển. Khi đó chương trình sẽ trả về chính từ đó. 4.1.2 Thống kê từ ngữ liệu Kết quả thống kê từ ngữ liệu có được khi sử dụng GIZA++ để khai thác ngữ liệu song song (được mô tả ở phần sau). Kết quả thống kê được lưu trữ trong tập tin vn_en.snt (kết quả khi sử dụng công cụ GIZA++ khai thác ngữ liệu song song) theo cấu trúc như sau: Ví dụ: 4827 120 0.472075 có nghĩa là xác suất dịch từ từ nguồn có ID 4827 ra từ đích có ID 120 là 0.472075 42 Do bảng thống kê được lưu trữ theo ID của từ nên ta sử dụng thêm các tập tin từ vựng cho mỗi ngôn ngữ tiếng Việt (VnCorpus.vcb) và tiếng Anh (EnCorpus.vcb) (các tập tin này được tạo ra nhờ công cụ GIZA++ khi phân tích ngữ liệu song song, được mô tả ở phần sau). Các tập tin này sẽ được chương trình đọc lên để khởi tạo bộ dữ liệu thống kê để chương trình thực hiện việc so sánh xác suất dịch của từ tiếng Việt ra các bản dịch tiếng Anh được tìm thấy trong từ điển. Bộ dữ liệu thống kê được lưu trữ trong bảng Hash theo cấu trúc sau: Ta sử dụng từ tiếng Việt được tách từ câu truy vấn để tìm các bản dịch và xác suất dịch ra các bản dịch này (được khai thác từ ngữ liệu song song) để chọn bản dịch có xác suất dịch cao nhất trong các bản dịch có được sau khi dùng từ điển để dịch. Khi sử dụng xác suất dịch để khử nhập nhằng ta cần giải quyết các vấn đề sau:  Bản dịch được tìm thấy trong từ điển nhưng không có trong bộ dữ liệu thống kê.  Có nhiều bản dịch có cùng xác suất dịch trong bộ dữ liệu thống kê. Hệ thống chương trình chọn cách giải quyết các vấn đề trên như sau:  Khi bản dịch có trong từ điển mà không có trong bộ dữ liệu thống kê, khi đó ta sẽ xem như xác suất dịch của bản dịch này bằng 0.  Có nhiều bản dịch có cùng xác suất dịch, chương trình sẽ chọn tất cả các bản dịch này để đưa vào câu truy vấn đã được chuyển ngữ (câu truy vấn tiếng Anh được dịch từ câu tiếng Việt nhập bởi người sử dụng). 4.1.3 Chương trình thử nghiệm Chương trình thử nghiệm được xây dựng là một trang web có giao diện như sau: 43 Hình 4.2 Giao diện chương trình Dòng sự kiện của chương trình:  Người sử dụng nhập câu truy vấn bằng tiếng Việt (yêu cầu đúng chính tả).  Hệ thống sẽ thực hiện việc dịch bằng từ điển và khử nhập nhằng bằng xác suất dịch của từ tiếng Việt trong bảng xác suất dịch có được từ việc khai thác ngữ liệu song song.  Người sử dụng chọn tìm kiếm, chương trình sử dụng câu truy vấn tiếng Việt (nhập bởi người sử dụng) và câu truy vấn tiếng Anh (được chuyển ngữ từ câu tiếng Việt trong hệ thống) để tìm kiếm thông qua Google. Sau khi tìm kiếm với Google, hệ thống nhận kết quả trả về từ Google và hiển thị kết quả lên cho người sử dụng.  Người sử dụng có thể chọn kết quả hiển thị chỉ là tiếng Anh hay vừa tiếng Anh vừa tiếng Việt. Nếu kết quả hiển thị được chọn là tiếng Anh thì chỉ có các kết quả tìm kiếm từ câu truy vấn chuyển ngữ tiếng Anh được trả về. Nếu kết quả hiển thị được chọn là tiếng Anh và tiếng Việt, thì kết quả tìm kiếm từ câu chuyển ngữ tiếng Anh và câu truy vấn tiếng Việt 44 được trả về và được sắp xếp theo thứ tự một kết quả tiếng Anh đến một kết quả tiếng Việt. Sử dụng hệ thống với lựa chọn chỉ hiển thị kết quả tiếng Anh: Hình 4.3 Chương tình hiển thị kết quả tiếng Anh Hệ thống thực hiện tìm kiếm với kết quả hiển thị là tiếng Việt và tiếng Anh: 45 Hình 4.4 Chương trình hiển thị kết quả bằng tiếng Việt và tiếng Anh 4.2 Khai thác ngữ liệu song song Ngữ liệu song song là một tập văn bản gồm 2500 câu tiếng Việt và tiếng Anh được sắp xếp theo thứ tự các dòng tương ứng là bản dịch của nhau. Ngữ liệu song song được lưu trữ trong hai tập tin riêng biệt nhưng vẫn đảm bảo các dòng tương ứng liên quan với nhau. 46 Bảng 4.1 Bảng ngữ liệu song song Ngữ liệu tiếng Việt Ngữ liệu tiếng Anh * Bạn đã từng xem một cảnh kỳ thú trên phim hay đã từng xem một bức tranh mà trông như thật đến nỗi bạn nghĩ là một bức ảnh chưa ? * Và bạn có ngỡ ngàng khi học được cách làm những điều đó trên máy tính không ? * Nếu có , thì chắc chắn chẳng phải mình bạn đâu * Chúng ta sẽ không hết ngạc nhiên vì những kết quả hoàn hảo nhờ sự giúp đỡ của máy tính và chúng ta sẽ thú vị bởi sự phức tạp của nó * Vì lý do này , nhiều người cho rằng máy tính thật khó hiểu và khó sử dụng * Tuy nhiên , hầu hết chúng ta không hiểu rằng , cơ bản máy tính là một thiết bị đơn giản và tất cả các máy tính đều có một sự đồng nhất * Hầu hết các máy tính từ lớn nhất cho đến nhỏ nhất đều thao tác dựa vào các qui tắc căn bản như nhau * Tất cả đều được xây dựng trên các kiểu bộ phận cấu thành như nhau và đều * Have you ever watched an incredible scene in a movie , or seen a drawing that looked so realistic you thought it was a photograph ? * Afterward , were you amazed to learn that it was done on a computer ? * If so , you are certainly not alone . * We are endlessly surprised by the feats accomplished with the help of computers , and we marvel at their complexity . * For this reason , many people assume that computers must be difficult to understand and difficult to use . * Most of us do not realize , however , that computers are basically simple devices , and all computers have a great deal in common . * Most computers from the biggest to the smallest operate on the same fundamental principles . * They are all fabricated from the same basic types of components , 47 cần phải có các chỉ dẫn để điều khiển chúng hoạt động * Là bước đầu tiên để hiểu và học cách sử dụng máy tính , bài học này cung cấp cho bạn một cái nhìn cơ bản về loại máy hấp dẫn này * Chúng ta sẽ học các kiểu phần cứng mà tất cả các máy tính đều sử dụng , và các kiểu phần mềm vận hành chúng * Chúng ta cũng sẽ thấy rằng nếu không có người sử dụng - người nào đó như bạn - thì một hệ thống máy tính sẽ thực sự không đầy đủ * Liệt kê bốn phần của một hệ thống máy tính * Xác định bốn kiểu phần cứng máy tính ………… and they all need instructions to make them run . * As a first step toward understanding and learning to use computers , this lesson gives you a peek at these fascinating machines . * You will learn about the types of hardware that all computer systems use , and the types of software that make them run . * Yours truly, will also see that without a user - someone like you - a computer system is not really complete . * List the four parts of a computer system . * Identify four types of computer hardware . ………… Để xây dựng thông tin thống kê từ ngữ liệu song song luận văn sử dụng công cụ GIZA++ phiên bản 1.03 (xem thêm phần 3.2) để khai thác ngữ liệu song song. Ngữ liệu song song được sử dụng là ngữ liệu song song mô tả ở trên. Tiền xử lý ngữ liệu song song 48 Do công cụ GIZA++ chỉ hỗ trợ tốt cho các ngôn ngữ như là tiếng Anh, đó là các ngôn ngữ mà từng từ có thể được phân biệt dựa vào việc phân cách từ (bằng khoảng trắng, các dấu câu...). Đối với ngôn ngữ tiếng Việt, việc phân biệt các từ dựa vào các dấu hiệu phân cách như vậy sẽ cho ta một kết quả không chính xác. Do đó ta cần xử lý ngữ liệu tiếng Việt trước khi sử dụng công cụ GIZA++ để khai thác thông tin thống kê của ngữ liệu. Việc tách từ tiếng được dựa vào các từ điển đơn ngữ cho tiếng Việt, các từ được nhận diện sẽ được kết nối với nhau bằng dấu gạch dưới ( _ ) để tạo thành một từ duy nhất. Việc tạo liên kết như vậy sẽ giúp cho việc tách từ bằng các dấu phân cách câu được thực hiện dễ dàng hơn, giống như việc tách từ cho tiếng Anh. Khi đó, sẽ giúp cho GIZA++ tách từ một cách chính xác và có thể khai thác ngữ liệu để có được các thống kê về ngữ liệu. Ngữ liệu tiếng Việt trước khi xử lý: * Bạn đã từng xem một cảnh kỳ thú trên phim hay đã từng xem một bức tranh mà trông như thật đến nỗi bạn nghĩ là một bức ảnh chưa ? * Và bạn có ngỡ ngàng khi học được cách làm những điều đó trên máy tính không ? * Nếu có , thì chắc chắn chẳng phải mình bạn đâu * Chúng ta sẽ không hết ngạc nhiên vì những kết quả hoàn hảo nhờ sự giúp đỡ của máy tính và chúng ta sẽ thú vị bởi sự phức tạp của nó * Vì lý do này , nhiều người cho rằng máy tính thật khó hiểu và khó sử dụng * Tuy nhiên , hầu hết chúng ta không hiểu rằng , cơ bản máy tính là một thiết bị đơn giản và tất cả các máy tính đều có một sự đồng nhất * Hầu hết các máy tính từ lớn nhất cho đến nhỏ nhất đều thao tác dựa vào các qui tắc căn bản như nhau ............ Ngữ liệu tiếng Việt sau khi thực hiện xử lý các từ: * Bạn đã từng xem một cảnh kỳ_thú trên phim hay đã từng xem một bức tranh mà trông như thật đến_nỗi bạn nghĩ là một bức ảnh chưa ? * Và bạn có ngỡ_ngàng khi học được cách_làm những điều_đó trên máy_tính không ? * Nếu có , thì chắc_chắn chẳng phải mình bạn đâu 49 * Chúng_ta sẽ không hết ngạc_nhiên vì những kết_quả hoàn_hảo nhờ sự giúp_đỡ của máy_tính và chúng_ta sẽ thú_vị bởi sự phức_tạp của_nó * Vì lý_do này , nhiều người_cho rằng máy_tính thật khó_hiểu và khó_sử_dụng * Tuy_nhiên , hầu hết chúng_ta không hiểu rằng , cơ_bản máy_tính là một_thiết_bị đơn_giản và tất_cả các máy tính_đều có một sự đồng_nhất * Hầu hết các máy tính_từ lớn_nhất cho_đến nhỏ_nhất đều thao_tác dựa vào các qui tắc căn_bản như nhau ............ Sau khi thực hiện việc tách từ cho ngữ liệu tiếng Việt thì ngữ liệu tiếng Việt bây giờ có thể được xử lý như tiếng Anh (có thể tách từ bằng cách dựa vào các dấu phân cách trong câu). Sau đó ta sử dụng công cụ được cung cấp trong GIZA++ plain2snt.out để tạo các tập tin đầu vào sử dụng cho các mô hình dịch. Thực hiện câu lệnh sau: plain2snt.out corpus.vn corpus.en Ta sẽ có được các tập tin đầu vào: corpus.vn.vcb, corpus.en.vcb, và corpus.vn_corpus.en.snt (cấu trúc các tập tin này được mô tả ở phần 3.2). Sau đó thực hiện quá trình huấn luyện cho mô hình dịch sử dụng GIZA++ bằng cách thực hiện câu lệnh sau trên môi trường Linux: corpus.vn.vcb 2 Bạn 62 3 đã 346 4 từng 24 5 xem 59 6 một 772 7 cảnh 3 8 kỳ_thú 2 9 trên 245 10 phim 10 corpus.en.vcb 2 Have 4 3 you 326 4 ever 11 5 watched 2 6 an 174 7 incredible 4 8 scene 2 9 in 705 10 a 1089 corpus.vn_corpus.en.snt 1 2 3 4 5 6 7 8 9 10 11 3 4 5 6 12 13 14 15 16 17 18 19 20 21 6 12 22 23 24 2 3 4 5 6 7 8 9 10 11 12 13 14 10 15 16 17 18 19 3 20 21 22 10 23 24 1 25 19 26 27 28 29 30 31 32 33 9 34 35 24 25 12 26 3 27 28 29 16 21 22 30 31 10 32 24 50 trainGIZA++.sh corpus.vn.vcb corpus.en.vcb corpus.vn_corpus.en.snt Ta có được các bảng xác suất (bảng xác suất dịch t, bảng xác suất đảo từ...) tương ứng với các từ trong ngữ liệu. Trong luận văn chỉ sử dụng bảng xác suất dịch để xác định xác suất dịch của một từ tiếng Việt ra các từ tiếng Anh. Bảng xác suất dịch sau khi sử dụng GIZA++ khai thác ngữ liệu song song ở trên được lưu trong tập tin GIZA++.t3.final có nội dung như trong Bảng 4.2 (xem thêm về cấu trúc tập tin này ở phần 3.2). Bảng 4.2 Bảng kết quả xác suất dịch GIZA++.t3.final 5337 16 0.124912 3649 4971 0.999298 1779 421 0.399748 3479 4825 0.16655 3479 4826 0.16655 3479 4827 0.16655 680 2273 0.0742019 680 2310 0.148404 680 2328 0.074202 5167 29 0.166531 510 2017 0.000216541 510 2020 0.0626402 850 3072 0.138092 5167 305 0.1666 1439 10 0.106795 5088 4784 0.124912 1439 38 0.0017997 5507 1247 0.100051 3388 461 3.32089e-05 3139 4457 0.166119 51 3139 4458 0.166119 3388 484 0.249807 2459 2723 0.166593 2969 4044 0.249625 4997 9 0.199886 1439 161 0.369527 4068 2297 0.332014 4997 75 0.199895 3218 134 0.108627 850 3338 0.137919 5088 4996 0.124913 2289 2446 0.505259 3218 211 0.109524 4997 182 0.199895 3218 299 0.10862 3218 318 0.129501 1269 10 0.199496 4.3 Kết quả thử nghiệm Để đánh giá hệ thống có thực hiện tốt hay không ta dựa trên độ chính xác của hệ tìm kiếm thông tin. Ở đây do hệ thống sử dụng Google như công cụ tìm kiếm cho các câu truy vấn ở cả hai ngôn ngữ tiếng Việt và tiếng Anh nên ta không thể tính được độ chính xác trên toàn bộ các tập tài liệu. Vì vậy ta sử dụng độ chính xác top- k. Ta sẽ thử nghiệm với k = 50, có nghĩa là ta tính độ chính xác dựa trên 50 kết quả đầu tiên trả về từ hệ tìm kiếm Google. Việc thử nghiệm được tiến hành trên một tập 50 câu truy vấn tiếng Việt và 50 bản dịch tiếng Anh của các câu truy vấn này. Các câu truy vấn này không thuộc 2500 cặp câu trong ngữ liệu song song dùng để khai thác các kết quả thống kê từ 52 mô hình dịch sử dụng công cụ GIZA++ đã nêu ở trên. Tập câu hỏi gồm 50 câu tiếng Việt này được xây dựng dựa trên các tiêu chí như sau:  Những câu hỏi gồm 1 từ hoặc 2 từ như: cối xay gió, tôn giáo…  Những câu hỏi gồm nhiều từ riêng rẽ (không có cấu trúc) như: cây rừng không khí…  Những câu hỏi gồm các từ đơn giản, phổ biến như: ô nhiễm môi trường, khủng hoảng kinh tế…  Câu hỏi gồm những từ đặc biệt như: thời đại trung cổ, cúm gia cầm…  Câu hỏi là các câu có cấu trúc như: hướng dẫn cách làm bánh, thay đổi về chính sách tiền tệ… Danh sách các câu hỏi được liệt kê trong Bảng 4.3. Bảng 4.3 Bảng câu hỏi thử nghiệm Thứ tự Câu hỏi tiếng Việt Câu hỏi tiếng Anh Tiêu chí 1 lạm phát inflation 1 từ hoặc 2 từ 2 cối xay gió windmill 3 giáo dục education 4 tôn giáo religion 5 nhà hàng restaurant 6 tên lửa missile 7 phân tích thiết kế cơ sở dữ liệu database design and analysis 8 du lịch bằng xe lửa máy bay travel by train or airplane Nhiều từ riêng rẽ 9 cây rừng không khí tree forest air 10 sông hồ nước ngọt river lake water 11 khủng bố cao ốc máy bay terrorism building airplane 12 thị trường địa ốc real estate market 13 hội nghị thượng đỉnh summit meeting 14 trang trí nội thất inhouse decoration 15 thị trường chứng khoán toàn cầu global stock market Những từ đơn giản phổ biến 16 giàn khoan dầu oil rig 17 khủng hoảng kinh tế economic crisis 18 ô nhiễm môi trường air pollution 19 rượu vang đỏ red wine 20 trận động đất earthquake 21 phương pháp điện phân electrolysis Những từ đặc biệt 22 thời đại trung cổ medieval time 23 mã não tourmaline 24 vũ khí hạt nhân nuclear weapon 25 bùng nổ dân số population explosion 26 thông tin đội đặc nhiệm Information of Special Detachment 53 27 nhà chọc trời skycraper 28 trung tâm mua sắm shopping mall 29 cúm gia cầm bird flu 30 mạng không dây wireless network 31 kiêu hãnh và thành kiến pride and prejudice 32 chế độ dân chủ democracy 33 giao dịch trái phiếu bond trade 34 ma cà rồng vampire 35 khủng hoảng tài chính toàn cầu global financial crisis Câu có cấu trúc 36 hệ thống giáo dục tại Hoa Kỳ education system in US 37 du lịch bằng kinh khí cầu travelling by airship 38 lãi suất của ngân hàng bank interest 39 trang phục mùa hè summer costume 40 trang trí phòng tắm hiện đại decorade modern bath room 41 hướng dẫn cách làm bánh cake making intruction 42 làm gì khi bị say xe what should do when having car sick 43 địa điểm đi du lịch vào mùa hè place to travel in summer 44 dự báo thời tiết hôm nay weather forecase for today 45 di chuyển bằng xe máy trong thành phố travelling by motorbike in the city 46 thay đổi về chính sách tiền tệ change for monetary policy 47 lợi ích của việc di chuyển bằng xe buýt advantage of travelling by bus 48 kiểu nhà trong thành phố house model in the city 49 ngành nông nghiệp lúa nước rice agriculture 50 tuổi thọ của chó dog's age Việc xây dựng tập câu hỏi bao gồm nhiều tiêu chí như trên để đảm bảo việc thử nghiệm được trải rộng trên nhiều trường hợp khác nhau nhằm mục đích đánh giá hệ thống một cách đầy đủ hơn. Tập câu hỏi bao gồm 50 câu hỏi tiếng Việt sau khi được xây dựng theo các tiêu chí trên sẽ được dịch sang tiếng Anh. Việc dịch sang tiếng Anh này do người có trình độ tiếng Anh tốt dịch nhằm đảm bảo tính đúng đắn khi dịch. Việc thử nghiệm được tiến hành bằng cách tìm kiếm xuyên ngữ bằng nhiều phương pháp khác nhau nhằm mục đích so sánh giữa các phương pháp tìm kiếm xuyên ngữ (trong đó bao gồm cả cách tiếp cận của luận văn). Bên cạnh đó, việc tìm kiếm đơn ngữ trên tập câu hỏi tiếng Anh cũng được thực hiện để có thể so sánh kết quả đạt được của tìm kiếm xuyên ngữ với kết quả tìm kiếm đơn ngữ. 54 Với mỗi câu truy vấn tiếng Việt, hệ thống thực hiện chuyển ngữ và tìm kiếm thông qua Google với câu truy vấn là câu chuyển ngữ tiếng Anh (tìm kiếm xuyên ngữ). Việc chuyển ngữ được thực hiện theo ba cách nhằm mục đích so sánh: chỉ sử dụng từ điển để chuyển ngữ, sử dụng kết quả thống kê để chuyển ngữ, và kết hợp việc sử dụng từ điển và kết quả thống kê có được bằng cách sử dụng GIZA++ khai thác ngữ liệu song song (đây là hướng tiếp cận của luận văn). Bên cạnh đó, việc tìm kiếm xuyên ngữ còn được thực hiện bằng cách tách từ câu truy vấn tiếng Việt dựa vào các khoảng trắng trong câu và thực hiện chuyển ngữ bằng việc sử dụng kết quả thống kê do sử GIZA++ khai thác ngữ liệu song song mà trong đó ngữ liệu tiếng Việt không qua bước tiền xử lý tách từ tiếng Việt (như đã nêu trong phần 4.2 ở trên). Ngoài ra, nhằm mục đích so sánh giữa các cách chuyển ngữ, việc thử nghiệm còn sử dụng Google Translator để dịch các câu truy vấn tiếng Việt sang tiếng Anh và tiến hành tìm kiếm trên câu truy vấn đã được dịch. Với các câu truy vấn tiếng Anh là bản dịch tương ứng của các câu truy vấn tiếng Việt (xem như bản dịch do người dịch), ta thực hiện việc tìm kiếm với Google (tìm kiếm đơn ngữ) nhằm mục đích so sánh kết quả đạt được khi tìm kiếm xuyên ngữ đạt bao nhiêu phần trăm(%) so với tìm kiếm đơn ngữ. Việc so sánh được thực hiện bằng cách so sánh độ chính xác khi tìm kiếm của tìm kiếm xuyên ngữ so với tìm kiếm đơn ngữ. Sau khi thực hiện tìm kiếm, ta sẽ lưu lại 50 kết quả đầu tiên tìm được tương ứng với từng câu truy vấn. Sau đó ta tính độ chính xác như sau: P = (#số tài liệu liên quan) / 50 Các tài liệu được đánh giá là liên quan đến câu truy vấn hay không được thực hiện bởi ba người khác nhau dựa trên việc xem xét câu truy vấn và tài liệu tìm được để đánh giá tài liệu có liên quan đến câu truy vấn hay không. Từ các kết quả đánh giá riêng rẽ này sẽ đánh giá tài liệu có liên quan đến câu truy vấn hay không bằng cách lấy kết quả đa số từ kết quả được thực hiện bởi ba người khác nhau như đã trình bày ở trên. 55 4.4 Đánh giá thử nghiệm 4.4.1 Nhận xét việc chuyển ngữ Hệ thống tiến hành tìm kiếm xuyên ngữ bằng cách thực hiện việc chuyển ngữ và sau đó tiến hành tìm kiếm dựa trên câu truy vấn đã chuyển ngữ. Kết quả chuyển ngữ khi sử dụng kết hợp từ điển và thống kê được thể hiện trong Bảng 4.4. Bảng 4.4 Bảng kết quả chuyển ngữ Thứ tự Câu hỏi tiếng Việt Câu hỏi tiếng Anh (người dịch) Bản dịch của hệ thống 1 lạm phát inflation inflate 2 cối xay gió windmill windmill 3 giáo dục education education 4 tôn giáo religion religion 5 nhà hàng restaurant restaurant 6 tên lửa missile rocket 7 phân tích thiết kế cơ sở dữ liệu database design and analysis analyze design database 8 du lịch bằng xe lửa máy bay travel by train or airplane tour bằng xe lửa air plane 9 cây rừng không khí tree forest air tree forest air 10 sông hồ nước ngọt accident speed traffic jam river lake paste nước ngọt 11 khủng bố cao ốc máy bay terrorism building airplane terrorize high building air plane 12 thị trường địa ốc real estate market market real estate 13 hội nghị thượng đỉnh summit meeting summit 14 trang trí nội thất inhouse decoration decorate interior 15 thị trường chứng khoán toàn cầu global stock market stock market global 16 giàn khoan dầu oil rig rig oil 17 khủng hoảng kinh tế economic crisis economic crisis 18 ô nhiễm môi trường air pollution enviromental pollution 19 rượu vang đỏ red wine red wine 20 trận động đất earthquake earthquake 21 phương pháp điện phân electrolysis method điện phân 22 thời đại trung cổ medieval time era trung cổ 23 mã não tourmaline agate 24 vũ khí hạt nhân nuclear weapon vũ khí nuclear 25 bùng nổ dân số population explosion break out population 26 thông tin đội đặc nhiệm Information of Special Detachment information team đặc nhiệm 27 nhà chọc trời skycraper skyscraper 28 trung tâm mua sắm shopping mall centre go shopping 29 cúm gia cầm bird flu influenza domestic fowls 30 mạng không dây wireless network network not rope 31 kiêu hãnh và thành kiến pride and prejudice proud and prejudice 32 chế độ dân chủ democracy democratic 33 giao dịch trái phiếu bond trade trade bond 56 34 ma cà rồng vampire vampire 35 khủng hoảng tài chính toàn cầu global financial crisis financial crisis global 36 hệ thống giáo dục tại Hoa Kỳ education system in US hệ thống giáo dục tại america 37 du lịch bằng kinh khí cầu travelling by airship tour by airship 38 lãi suất của ngân hàng bank interest interest rate of bank 39 trang phục mùa hè summer costume costume summer 40 trang trí phòng tắm hiện đại decorade modern bath room decorate bath room modern 41 hướng dẫn cách làm bánh cake making intruction guide how cake 42 làm gì khi bị say xe what should do when having car sick what to do when sack drunk xe 43 địa điểm đi du lịch vào mùa hè place to travel in summer point tour into summer 44 dự báo thời tiết hôm nay weather forecase for today forecast weather today 45 di chuyển bằng xe máy trong thành phố travelling by motorbike in the city move by motorbike in city 46 thay đổi về chính sách tiền tệ change for monetary policy change about policy currency 47 lợi ích của việc di chuyển bằng xe buýt advantage of travelling by bus usefulness of business move by bus 48 kiểu nhà trong thành phố house model in the city model home in city 49 ngành nông nghiệp lúa nước rice agriculture twig agriculture rice country 50 tuổi thọ của chó dog's age life of dog Trên tập 50 câu hỏi thử nghiệm ta có thể thấy một số câu phương pháp dịch mà hệ thống sử dụng dịch khá chính xác, tuy nhiên bên cạnh đó vẫn có những câu hệ thống dịch không chính xác, thậm chí vẫn còn giữ lại tiếng Việt. Ví dụ như câu “hệ thống giáo dục tại Hoa Kỳ” hệ thống chỉ chuyển ngữ được từ “Hoa Kỳ” thành “america” trong khi đó phần còn lại “hệ thống giáo dục” do không có trong từ điển cũng như không có trong kết quả thống kê từ ngữ liệu song song nên vẫn được giữ lại. Hoặc câu “ngành nông nghiệp lúa nước” do việc tách từ thành các từ “ngành”, “nông nghiệp”, “lúa”, “nước” nên việc chuyển ngữ của hệ thống tạo thành câu “twig agriculture rice country” không giống như bản dịch do người dịch là “rice agriculture”. 57 4.4.2 Đánh giá kết quả thử nghiệm Việc thử nghiệm được tiến hành trên các phương pháp khác nhau nhằm mục đích so sánh kết quả đạt được giữa các phương pháp và nhằm xem xét kết quả thu được ở từng phương pháp. Do đặc trưng của tiếng Việt là các từ được tạo thành từ nhiều tiếng khác nhau, do đó để tách từ một câu tiếng Việt một cách đúng đắn ta không thể chỉ dựa vào các khoảng trắng trong câu như đối với tiếng Anh. Trong khi đó công cụ GIZA++ khi khai thác ngữ liệu song song lại chỉ tách từ dựa vào khoảng trắng, do đó việc thử nghiệm được tiến hành với phương pháp thống kê mà không tách từ tiếng Việt (tách từ dựa vào khoảng trắng trong câu), và phương pháp dùng kết quả thống kê trên các câu đã được tách từ cho tiếng Việt. Bên cạnh đó nhằm mục đích so sánh việc chỉ dùng từ điển để dịch và việc kết hợp giữa từ điển và thống kê để chuyển ngữ nên quá trình thử nghiệm cũng được tiến hành trên hai phương pháp là chỉ sử dụng từ điển và phương pháp sử dụng từ điển kết hợp với thống kê. Ngoài ra, hiện nay Google đã cung cấp một công cụ dịch cho phép chuyển ngữ các câu từ ngôn ngữ này sang ngôn ngữ khác một cách dễ dàng, vì vậy việc thử nghiệm được tiến hành thêm một phương pháp khác đó là dùng công cụ dịch của Google để chuyển ngữ và tiến hành tìm kiếm. Sau khi tiến hành việc chuyển ngữ và tìm kiếm với các phương pháp đã nêu trên, ta sẽ so sánh kết quả với việc tìm kiếm đơn ngữ bằng cách tính tỷ lệ (%) đạt được của từng phương pháp tìm kiếm xuyên ngữ so với tìm kiếm đơn ngữ. Sau khi tiến hành thử nghiệm và lấy kết quả trung bình từ các kết quả tương ứng với các câu hỏi ta có bảng kết quả trung bình thể hiện ở Bảng 4.5: 58 Bảng 4.5 Bảng kết quả thử nghiệm với kết quả trung bình Độ chính xác Tìm kiếm xuyên ngữ Tỷ lệ (%) Câu truy vấn Thống kê (không tách từ) Từ điển Thố ng kê Từ điển + Thống kê bằng GIZA++ Dịch bằng Googl e Tìm kiếm đơn ngữ Thốn g kê (khôn g tách từ) Từ điển Thốn g kê Từ điển + Thống kê bằng GIZA+ + Dịch bằng Googl e Trun g bình 0.34 0.39 0.29 0.42 0.49 0.61 55.37 64.65 47.53 69.72 79.86 Bảng kết quả chi tiết được thể hiện ở Bảng 4.6: Bảng 4.6 Bảng kết quả chi tiết Độ chính xác Tìm kiếm xuyên ngữ Tỷ lệ (% so với tìm kiếm đơn ngữ) Câu truy vấn Thống kê (không tách từ) Từ điển Thống kê Từ điển + Thống kê bằng GIZA++ Dịch bằng Google Tìm kiếm đơn ngữ Thống kê (không tách từ) Từ điển Thống kê Từ điển + Thống kê bằng GIZA++ Dịch bằng Google 1 0.3 0.3 0.28 0.36 0.42 0.54 55.56 62.96 51.85 66.67 77.78 2 0.38 0.4 0.3 0.48 0.48 0.6 63.33 73.33 50.00 80.00 80.00 3 0.34 0.4 0.3 0.46 0.46 0.6 56.67 70.00 50.00 76.67 76.67 4 0.32 0.4 0.3 0.4 0.4 0.5 64.00 72.00 60.00 80.00 80.00 5 0.38 0.4 0.32 0.44 0.44 0.48 79.17 83.33 66.67 91.67 91.67 6 0.34 0.4 0.3 0.36 0.5 0.58 58.62 62.07 51.72 62.07 86.21 7 0.34 0.4 0.3 0.4 0.84 0.88 38.64 45.45 34.09 45.45 95.45 8 0.34 0.4 0.28 0.48 0.6 0.66 51.52 54.55 42.42 72.73 90.91 9 0.38 0.4 0.32 0.44 0.36 0.48 79.17 87.50 66.67 91.67 75.00 10 0.32 0.3 0.28 0.34 0.38 0.46 69.57 73.91 60.87 73.91 82.61 11 0.38 0.5 0.32 0.5 0.62 0.94 40.43 53.19 34.04 53.19 65.96 12 0.28 0.3 0.24 0.34 0.34 0.42 66.67 76.19 57.14 80.95 80.95 13 0.2 0.2 0.16 0.22 0.22 0.4 50.00 55.00 40.00 55.00 55.00 14 0.38 0.4 0.32 0.4 0.42 0.46 82.61 91.30 69.57 86.96 91.30 15 0.36 0.4 0.32 0.42 0.5 0.9 40.00 44.44 35.56 46.67 55.56 16 0.22 0.3 0.18 0.26 0.26 0.38 57.89 68.42 47.37 68.42 68.42 17 0.36 0.4 0.3 0.48 0.48 0.54 66.67 81.48 55.56 88.89 88.89 18 0.42 0.5 0.34 0.5 0.5 0.56 75.00 82.14 60.71 89.29 89.29 19 0.4 0.5 0.34 0.56 0.56 0.7 57.14 71.43 48.57 80.00 80.00 20 0.34 0.4 0.28 0.38 0.5 0.54 62.96 70.37 51.85 70.37 92.59 59 21 0.24 0.3 0.16 0.26 0.4 0.52 46.15 50.00 30.77 50.00 76.92 22 0.38 0.4 0.32 0.46 0.46 0.54 70.37 77.78 59.26 85.19 85.19 23 0.18 0.2 0.16 0.2 0.36 0.44 40.91 45.45 36.36 45.45 81.82 24 0.38 0.4 0.34 0.46 0.54 0.66 57.58 63.64 51.52 69.70 81.82 25 0.26 0.3 0.22 0.3 0.5 0.66 39.39 45.45 33.33 45.45 75.76 26 0.26 0.3 0.24 0.34 0.34 0.42 61.90 76.19 57.14 80.95 80.95 27 0.34 0.4 0.3 0.42 0.48 0.52 65.38 73.08 57.69 80.77 92.31 28 0.24 0.3 0.24 0.28 0.36 0.52 46.15 53.85 46.15 53.85 69.23 29 0.2 0.2 0.18 0.3 0.5 0.6 33.33 36.67 30.00 50.00 83.33 30 0.42 0.5 0.36 0.54 0.62 0.76 55.26 65.79 47.37 71.05 81.58 31 0.36 0.4 0.3 0.4 0.48 0.74 48.65 54.05 40.54 54.05 64.86 32 0.38 0.5 0.34 0.48 0.54 0.66 57.58 72.73 51.52 72.73 81.82 33 0.46 0.6 0.36 0.6 0.7 0.74 62.16 78.38 48.65 81.08 94.59 34 0.3 0.3 0.26 0.36 0.38 0.42 71.43 80.95 61.90 85.71 90.48 35 0.48 0.6 0.36 0.62 0.58 0.72 66.67 86.11 50.00 86.11 80.56 36 0.4 0.5 0.36 0.54 0.58 0.62 64.52 80.65 58.06 87.10 93.55 37 0.32 0.4 0.28 0.52 0.48 0.54 59.26 66.67 51.85 96.30 88.89 38 0.42 0.6 0.34 0.6 0.62 0.64 65.63 90.63 53.13 93.75 96.88 39 0.38 0.5 0.34 0.46 0.46 0.68 55.88 67.65 50.00 67.65 67.65 40 0.4 0.5 0.36 0.56 0.76 0.84 47.62 61.90 42.86 66.67 90.48 41 0.3 0.3 0.26 0.4 0.4 0.76 39.47 44.74 34.21 52.63 52.63 42 0.24 0.3 0.22 0.36 0.32 0.76 31.58 39.47 28.95 47.37 42.11 43 0.36 0.4 0.32 0.46 0.7 0.8 45.00 52.50 40.00 57.50 87.50 44 0.38 0.5 0.34 0.54 0.54 0.76 50.00 60.53 44.74 71.05 71.05 45 0.3 0.4 0.26 0.42 0.5 0.62 48.39 58.06 41.94 67.74 80.65 46 0.36 0.4 0.32 0.5 0.54 0.68 52.94 61.76 47.06 73.53 79.41 47 0.28 0.3 0.22 0.32 0.4 0.42 66.67 71.43 52.38 76.19 95.24 48 0.36 0.4 0.32 0.44 0.52 0.56 64.29 71.43 57.14 78.57 92.86 49 0.34 0.4 0.3 0.42 0.5 0.64 53.13 62.50 46.88 65.63 78.13 50 0.32 0.4 0.28 0.4 0.42 0.52 61.54 69.23 53.85 76.92 80.77 Trung bình 0.34 0.39 0.29 0.42 0.49 0.61 55.37 64.65 47.53 69.72 79.86 Qua bảng kết quả trên ta thấy hiệu quả đạt được của hệ thống tìm kiếm thông tin xuyên ngữ với việc chuyển ngữ bằng cách sử dụng từ điển để dịch và khử nhập nhằng bằng xác suất thống kê đạt được hiệu quả tương đối tốt so với việc tìm kiếm đơn ngữ và cũng đạt được kết quả tốt hơn so với phương pháp chỉ dùng từ điển hay 60 chỉ dùng thống kê để chuyển ngữ. Tuy nhiên, bên cạnh đó ta cũng thấy được việc tìm kiếm xuyên ngữ theo hướng tiếp cận của luận văn không đạt hiệu quả tốt bằng việc dùng công cụ chuyển ngữ của Google để dịch câu truy vấn (trong khi chuyển ngữ bằng công cụ của Google đạt đến 80% so với tìm kiếm đơn ngữ thì việc kết hợp từ điển và thống kê để chuyển ngữ rồi tìm kiếm chỉ đạt được 70% so với tìm kiếm đơn ngữ). Bảng kết quả cũng cho thấy một số câu truy vấn khi thực hiện tìm kiếm xuyên ngữ đạt kết quả rất cao so với tìm kiếm đơn ngữ (các câu được in đậm trong bảng có kết quả đạt được hơn 85% so với tìm kiếm đơn ngữ). Tuy nhiên cũng có những câu truy vấn kết quả đạt được khá thấp khoảng 50% so với tìm kiếm đơn ngữ. Các câu truy vấn đạt được kết quả tìm kiếm cao so với tìm kiếm đơn ngữ đó là các câu ngắn chứa các cụm từ mang tính chuyên môn hay các từ đơn giản phổ biến và các từ này tồn tại trong từ điển cũng như phổ biến trong ngữ liệu song song nên xác suất dịch cũng cao hơn. Ví dụ: câu truy vấn “phân tích và thiết kế cơ sở dữ liệu” được hệ thống chuyển ngữ thành câu truy vấn “analyze and design database” bao gồm các từ rất gần với câu dịch bởi người “database design and analysis”. Vì vậy việc tìm kiếm sử dụng Google sẽ đạt được kết quả rất tốt cho những trường hợp này. Các câu truy vấn có kết quả tìm kiếm thấp hơn vì đó là các câu được hình thành bởi các từ đặc biệt và không thể tìm được các từ này trong từ điển được sử dụng cũng như không có trong bảng xác suất dịch (do từ điển không đầy đủ cũng như ngữ liệu song song không chứa hết mọi từ trong tiếng Việt), vì vậy khi chuyển ngữ các từ tiếng Việt được giữ lại tạo thành câu truy vấn vừa tiếng Anh vừa tiếng Việt hoặc là các câu truy vấn bằng tiếng Anh nhưng không dịch đúng dẫn đến việc giảm đi hiệu quả tìm kiếm của Google đối với các kết quả tiếng Anh. Ví dụ: câu truy vấn tiếng Việt như sau: “thông tin đội đặc nhiệm 88” khi được chuyển ngữ sẽ thành câu “information team đặc nhiệm 88”, trong khi đó câu tiếng Anh được dịch bởi người là: “Information of Special Detachment 88”. Ta có thể thấy hệ thống đã không xác 61 định được cũng như chuyển ngữ cụm từ “đội đặc nhiệm” một cách chính xác, do đó trong câu chuyển ngữ từ “đặc nhiệm” vẫn được giữ lại. Phương pháp tiếp cận của luận văn là sử dụng từ điển để dịch và sử dụng kết quả thống kê khai thác từ ngữ liệu song song để tiếng hành khử nhập nhằng cho việc dịch. Quá trình dịch là dịch từng từ tiếng Việt, hiện tại luận văn chưa áp dụng phương pháp dịch cụm danh từ như phương pháp được nhóm Trường Đại học Bách Khoa[31] sử dụng nên kết quả hiện tại chỉ giới hạn ở việc chuyển ngữ từng từ tiếng Việt sang tiếng Anh và hình thành nên câu truy vấn tiếng Anh. Ngoài ra, luận văn sử dụng ngữ liệu song song với 2500 cặp câu để khai thác thống kê, ngữ liệu này không giống và về số lượng cũng ít hơn so với ngữ liệu song song được nhóm Nghiên cứu Tìm kiếm Thông tin của Trường Đại học Khoa học Tự nhiên[29] sử dụng.

Các file đính kèm theo tài liệu này:

7.pdf
0.pdf
1.pdf
2.pdf
3.pdf
4.pdf
5.pdf
6.pdf
8.pdf
9.pdf