Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh
Trang nhan đề
Mục lục
Danh mục
Mở đầu
Chương 1: Gioi thiệu
Chương 2: Cơ sở lý thuyết
Chương 3: Các kỹ thuật liên quan
Chương 4: Chương trình và kết quả thực nghiệm
Chương 5 Đánh giá và hướng phát triển
Tài liệu tham khảo
MỤC LỤC
MỤC LỤC 3
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ . 6
MỞ ĐẦU 7
Chương 1: GIỚI THIỆU . . 9
1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval) 9
1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval) 11
1.2.1 Khái niệm 11
1.2.2 Mô hình chung . 11
1.2.3 Các vấn đề . . 12
1.3 Các hướng tiếp cận 13
1.3.1 Dịch máy 13
1.3.2 Sử dụng từ điển 14
1.3.3 Sử dụng ngữ liệu 15
1.4 Một số công trình nghiên cứu trong và ngoài nước . 16
1.5 Giới thiệu luận văn . 16
Chương 2: CƠ SỞ LÝ THUYẾT . 18
2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary – MRD) 18
2.1.1 Vai trò của MRD . . 18
2.1.2 Sử dụng từ điển 19
2.2 Các phương pháp khử nhập nhằng . 20
2.2.1 Giới thiệu . 20
2.2.2 Khử nhập nhằng . 20
2.3 Mô hình thống kê . 25
2.3.1 Giới thiệu . 25
2.3.2 Dịch bằng xác suất thống kê . 25
2.3.3 Mô hình ngôn ngữ 28
2.3.4 Liên kết từ 28
2.3.5 Mô hình dịch 29
2.4 Kết luận . 33
Chương 3: CÁC KỸ THUẬT LIÊN QUAN 34
3.1 Tìm kiếm dựa trên MRD . . 34
3.2 Công cụ GIZA++ . 36
3.2.1 Cấu trúc đầu vào của GIZA++ 36
3.2.2 Cấu trúc đầu ra của GIZA++ 37
3.2.3 Sử dụng GIZA++ . 37
3.3 Kết luận . 38
Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM . 39
4.1 Kiến trúc hệ thống . . 39
4.1.1 Từ điển . 40
4.1.2 Thống kê từ ngữ liệu 41
4.1.3 Chương trình thử nghiệm . 42
4.2 Khai thác ngữ liệu song song . 45
4.3 Kết quả thử nghiệm 51
4
4.4 Đánh giá thử nghiệm 55
4.4.1 Nhận xét việc chuyển ngữ 55
4.4.2 Đánh giá kết quả thử nghiệm 57
Chương 5: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN . 62
5.1 Đánh giá 62
5.2 Hướng ứng dụng và phát triển . . 62
TÀI LIỆU THAM KHẢO . 65
23 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2696 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM
Chương 4 giới thiệu vệ hệ thống mà luận văn đã xây dựng được, bên cạnh đó còn trình
bày về các cách thử nghiệm cũng như kết quả của thử nghiệm. Từ các kết quả này ta sẽ
tiến hành đánh giá những kết quả đạt được của hệ thống cũng như những hạn chế mà
phương pháp sử dụng trong luận văn gặp phải. Nội dung gồm các phần sau:
Giới thiệu về hệ thống.
Cách khai thác ngữ liệu song song.
Trình bày về việc thử nghiệm hệ thống.
Đánh giá các kết quả đạt được.
4.1 Kiến trúc hệ thống
Hệ thống tìm kiếm xuyên ngữ Việt-Anh được xây dựng để thực hiện những công
việc sau:
Cho phép người dùng nhập vào câu truy vấn bằng tiếng Việt.
Hệ thống tự động tách từ và chuyển ngữ các từ tiếng Việt sang tiếng Anh.
Trong quá trình dịch dùng từ điển kết quả sẽ có thể có nhiều bản dịch của
một từ tiếng Việt, do đó hệ thống cũng cần phải khử nhập nhằng các từ này.
Phương pháp khử nhập nhằng được sử dụng ở đây là sử dụng xác suất dịch
để chọn ra bản dịch tiếng Anh của từ tiếng Việt. Bản dịch nào có xác suất
cao nhất sẽ được chọn, nếu có nhiều bản dịch có cùng xác suất dịch thì tất cả
các bản dịch đó sẽ được chọn.
Sau quá trình dịch các câu truy vấn sẽ được gửi cho hệ thống tìm kiếm thông
tin đơn ngữ thực hiện việc tìm kiếm và trả kết quả ra cho người dùng.
Hệ thống có thể được trình bày như mô hình sau:
40
Hình 4.1 Mô hình hệ thống chương trình
4.1.1 Từ điển
Từ điển được sử dụng để dịch câu truy vấn nhập từ người dùng là từ điển Việt
Anh bao gồm 15000 từ tiếng Việt được tổ chức lại theo cấu trúc XML như sau:
từ tiếng Việt
từ loại
nghĩa tiếng Anh
lĩnh vực
Người dùng
Câu truy vấn
tiếng Việt
Câu truy vấn
tiếng Anh
Hệ tìm kiếm thông tin đơn ngữ
Các tài liệu
liên quan đến
câu truy vấn
bằng tiếng
Anh, tiếng
Việt
Thống kê
từ ngữ liệu
Dịch
Khử nhập
nhằng
Từ điển
Chuyển ngữ
41
từ tham chiếu tiếng Việt
từ đồng nghĩa tiếng Anh
Ví dụ:
ác khẩu
a
ác miệng
ác miệng
a
foul-mouthed
Quá trình dịch câu truy vấn bằng tiếng Việt được diễn ra như sau:
Hệ thống thực hiện tách từ dựa vào các từ điển đơn ngữ tiếng Việt (bao
gồm từ điển từ ghép gồm 63251 từ, từ điển tiếng Việt gồm 56317 từ và từ
điển danh từ tiếng Việt gồm 909 từ)
Thực hiện dịch các từ tiếng Việt có được từ quá trình tách từ bằng các so
khớp với các từ tiếng Việt có trong từ điển, nếu từ đó có từ đồng nghĩ thì từ
đồng nghĩa cũng được chọn. Nếu từ tiếng Việt có trong từ điển mà chỉ có
từ tham chiếu thì sẽ tìm bản dịch tiếng Anh ở từ tham chiếu. Tuy nhiên,
vẫn có trường hợp từ tiếng Việt không có trong từ điển. Khi đó chương
trình sẽ trả về chính từ đó.
4.1.2 Thống kê từ ngữ liệu
Kết quả thống kê từ ngữ liệu có được khi sử dụng GIZA++ để khai thác ngữ liệu
song song (được mô tả ở phần sau). Kết quả thống kê được lưu trữ trong tập tin
vn_en.snt (kết quả khi sử dụng công cụ GIZA++ khai thác ngữ liệu song song) theo
cấu trúc như sau:
Ví dụ:
4827 120 0.472075 có nghĩa là xác suất dịch từ từ nguồn có ID 4827 ra từ đích
có ID 120 là 0.472075
42
Do bảng thống kê được lưu trữ theo ID của từ nên ta sử dụng thêm các tập tin từ
vựng cho mỗi ngôn ngữ tiếng Việt (VnCorpus.vcb) và tiếng Anh (EnCorpus.vcb)
(các tập tin này được tạo ra nhờ công cụ GIZA++ khi phân tích ngữ liệu song song,
được mô tả ở phần sau).
Các tập tin này sẽ được chương trình đọc lên để khởi tạo bộ dữ liệu thống kê để
chương trình thực hiện việc so sánh xác suất dịch của từ tiếng Việt ra các bản dịch
tiếng Anh được tìm thấy trong từ điển. Bộ dữ liệu thống kê được lưu trữ trong bảng
Hash theo cấu trúc sau:
Ta sử dụng từ tiếng Việt được tách từ câu truy vấn để tìm các bản dịch và xác
suất dịch ra các bản dịch này (được khai thác từ ngữ liệu song song) để chọn bản
dịch có xác suất dịch cao nhất trong các bản dịch có được sau khi dùng từ điển để
dịch. Khi sử dụng xác suất dịch để khử nhập nhằng ta cần giải quyết các vấn đề sau:
Bản dịch được tìm thấy trong từ điển nhưng không có trong bộ dữ liệu thống
kê.
Có nhiều bản dịch có cùng xác suất dịch trong bộ dữ liệu thống kê.
Hệ thống chương trình chọn cách giải quyết các vấn đề trên như sau:
Khi bản dịch có trong từ điển mà không có trong bộ dữ liệu thống kê, khi đó
ta sẽ xem như xác suất dịch của bản dịch này bằng 0.
Có nhiều bản dịch có cùng xác suất dịch, chương trình sẽ chọn tất cả các bản
dịch này để đưa vào câu truy vấn đã được chuyển ngữ (câu truy vấn tiếng
Anh được dịch từ câu tiếng Việt nhập bởi người sử dụng).
4.1.3 Chương trình thử nghiệm
Chương trình thử nghiệm được xây dựng là một trang web có giao diện như sau:
43
Hình 4.2 Giao diện chương trình
Dòng sự kiện của chương trình:
Người sử dụng nhập câu truy vấn bằng tiếng Việt (yêu cầu đúng chính
tả).
Hệ thống sẽ thực hiện việc dịch bằng từ điển và khử nhập nhằng bằng xác
suất dịch của từ tiếng Việt trong bảng xác suất dịch có được từ việc khai
thác ngữ liệu song song.
Người sử dụng chọn tìm kiếm, chương trình sử dụng câu truy vấn tiếng
Việt (nhập bởi người sử dụng) và câu truy vấn tiếng Anh (được chuyển
ngữ từ câu tiếng Việt trong hệ thống) để tìm kiếm thông qua Google. Sau
khi tìm kiếm với Google, hệ thống nhận kết quả trả về từ Google và hiển
thị kết quả lên cho người sử dụng.
Người sử dụng có thể chọn kết quả hiển thị chỉ là tiếng Anh hay vừa
tiếng Anh vừa tiếng Việt. Nếu kết quả hiển thị được chọn là tiếng Anh thì
chỉ có các kết quả tìm kiếm từ câu truy vấn chuyển ngữ tiếng Anh được
trả về. Nếu kết quả hiển thị được chọn là tiếng Anh và tiếng Việt, thì kết
quả tìm kiếm từ câu chuyển ngữ tiếng Anh và câu truy vấn tiếng Việt
44
được trả về và được sắp xếp theo thứ tự một kết quả tiếng Anh đến một
kết quả tiếng Việt.
Sử dụng hệ thống với lựa chọn chỉ hiển thị kết quả tiếng Anh:
Hình 4.3 Chương tình hiển thị kết quả tiếng Anh
Hệ thống thực hiện tìm kiếm với kết quả hiển thị là tiếng Việt và tiếng Anh:
45
Hình 4.4 Chương trình hiển thị kết quả bằng tiếng Việt và tiếng Anh
4.2 Khai thác ngữ liệu song song
Ngữ liệu song song là một tập văn bản gồm 2500 câu tiếng Việt và tiếng Anh
được sắp xếp theo thứ tự các dòng tương ứng là bản dịch của nhau. Ngữ liệu song
song được lưu trữ trong hai tập tin riêng biệt nhưng vẫn đảm bảo các dòng tương
ứng liên quan với nhau.
46
Bảng 4.1 Bảng ngữ liệu song song
Ngữ liệu tiếng Việt Ngữ liệu tiếng Anh
* Bạn đã từng xem một cảnh kỳ thú trên
phim hay đã từng xem một bức tranh mà
trông như thật đến nỗi bạn nghĩ là một
bức ảnh chưa ?
* Và bạn có ngỡ ngàng khi học được
cách làm những điều đó trên máy tính
không ?
* Nếu có , thì chắc chắn chẳng phải
mình bạn đâu
* Chúng ta sẽ không hết ngạc nhiên vì
những kết quả hoàn hảo nhờ sự giúp đỡ
của máy tính và chúng ta sẽ thú vị bởi sự
phức tạp của nó
* Vì lý do này , nhiều người cho rằng
máy tính thật khó hiểu và khó sử dụng
* Tuy nhiên , hầu hết chúng ta không
hiểu rằng , cơ bản máy tính là một
thiết bị đơn giản và tất cả các máy tính
đều có một sự đồng nhất
* Hầu hết các máy tính từ lớn nhất cho
đến nhỏ nhất đều thao tác dựa vào các
qui tắc căn bản như nhau
* Tất cả đều được xây dựng trên các
kiểu bộ phận cấu thành như nhau và đều
* Have you ever watched an
incredible scene in a movie , or seen
a drawing that looked so realistic
you thought it was a photograph ?
* Afterward , were you amazed to
learn that it was done on a computer
?
* If so , you are certainly not alone .
* We are endlessly surprised by the
feats accomplished with the help of
computers , and we marvel at their
complexity .
* For this reason , many people
assume that computers must be
difficult to understand and difficult to
use .
* Most of us do not realize ,
however , that computers are
basically simple devices , and all
computers have a great deal in
common .
* Most computers from the biggest to
the smallest operate on the same
fundamental principles .
* They are all fabricated from the
same basic types of components ,
47
cần phải có các chỉ dẫn để điều khiển
chúng hoạt động
* Là bước đầu tiên để hiểu và học cách
sử dụng máy tính , bài học này cung
cấp cho bạn một cái nhìn cơ bản về loại
máy hấp dẫn này
* Chúng ta sẽ học các kiểu phần cứng
mà tất cả các máy tính đều sử dụng ,
và các kiểu phần mềm vận hành chúng
* Chúng ta cũng sẽ thấy rằng nếu không
có người sử dụng - người nào đó như
bạn - thì một hệ thống máy tính sẽ
thực sự không đầy đủ
* Liệt kê bốn phần của một hệ thống
máy tính
* Xác định bốn kiểu phần cứng máy tính
…………
and they all need instructions to
make them run .
* As a first step toward understanding
and learning to use computers , this
lesson gives you a peek at these
fascinating machines .
* You will learn about the types of
hardware that all computer systems
use , and the types of software that
make them run .
* Yours truly, will also see that
without a user - someone like you -
a computer system is not really
complete .
* List the four parts of a computer
system .
* Identify four types of computer
hardware .
…………
Để xây dựng thông tin thống kê từ ngữ liệu song song luận văn sử dụng công cụ
GIZA++ phiên bản 1.03 (xem thêm phần 3.2) để khai thác ngữ liệu song song. Ngữ
liệu song song được sử dụng là ngữ liệu song song mô tả ở trên.
Tiền xử lý ngữ liệu song song
48
Do công cụ GIZA++ chỉ hỗ trợ tốt cho các ngôn ngữ như là tiếng Anh, đó là các
ngôn ngữ mà từng từ có thể được phân biệt dựa vào việc phân cách từ (bằng khoảng
trắng, các dấu câu...). Đối với ngôn ngữ tiếng Việt, việc phân biệt các từ dựa vào
các dấu hiệu phân cách như vậy sẽ cho ta một kết quả không chính xác. Do đó ta
cần xử lý ngữ liệu tiếng Việt trước khi sử dụng công cụ GIZA++ để khai thác thông
tin thống kê của ngữ liệu. Việc tách từ tiếng được dựa vào các từ điển đơn ngữ cho
tiếng Việt, các từ được nhận diện sẽ được kết nối với nhau bằng dấu gạch dưới ( _ )
để tạo thành một từ duy nhất. Việc tạo liên kết như vậy sẽ giúp cho việc tách từ
bằng các dấu phân cách câu được thực hiện dễ dàng hơn, giống như việc tách từ cho
tiếng Anh. Khi đó, sẽ giúp cho GIZA++ tách từ một cách chính xác và có thể khai
thác ngữ liệu để có được các thống kê về ngữ liệu.
Ngữ liệu tiếng Việt trước khi xử lý:
* Bạn đã từng xem một cảnh kỳ thú trên phim hay đã từng xem một bức tranh mà trông
như thật đến nỗi bạn nghĩ là một bức ảnh chưa ?
* Và bạn có ngỡ ngàng khi học được cách làm những điều đó trên máy tính không ?
* Nếu có , thì chắc chắn chẳng phải mình bạn đâu
* Chúng ta sẽ không hết ngạc nhiên vì những kết quả hoàn hảo nhờ sự giúp đỡ của máy
tính và chúng ta sẽ thú vị bởi sự phức tạp của nó
* Vì lý do này , nhiều người cho rằng máy tính thật khó hiểu và khó sử dụng
* Tuy nhiên , hầu hết chúng ta không hiểu rằng , cơ bản máy tính là một thiết bị đơn
giản và tất cả các máy tính đều có một sự đồng nhất
* Hầu hết các máy tính từ lớn nhất cho đến nhỏ nhất đều thao tác dựa vào các qui tắc căn
bản như nhau
............
Ngữ liệu tiếng Việt sau khi thực hiện xử lý các từ:
* Bạn đã từng xem một cảnh kỳ_thú trên phim hay đã từng xem một bức tranh mà trông
như thật đến_nỗi bạn nghĩ là một bức ảnh chưa ?
* Và bạn có ngỡ_ngàng khi học được cách_làm những điều_đó trên máy_tính không ?
* Nếu có , thì chắc_chắn chẳng phải mình bạn đâu
49
* Chúng_ta sẽ không hết ngạc_nhiên vì những kết_quả hoàn_hảo nhờ sự giúp_đỡ của
máy_tính và chúng_ta sẽ thú_vị bởi sự phức_tạp của_nó
* Vì lý_do này , nhiều người_cho rằng máy_tính thật khó_hiểu và khó_sử_dụng
* Tuy_nhiên , hầu hết chúng_ta không hiểu rằng , cơ_bản máy_tính là một_thiết_bị
đơn_giản và tất_cả các máy tính_đều có một sự đồng_nhất
* Hầu hết các máy tính_từ lớn_nhất cho_đến nhỏ_nhất đều thao_tác dựa vào các qui tắc
căn_bản như nhau
............
Sau khi thực hiện việc tách từ cho ngữ liệu tiếng Việt thì ngữ liệu tiếng Việt bây
giờ có thể được xử lý như tiếng Anh (có thể tách từ bằng cách dựa vào các dấu phân
cách trong câu). Sau đó ta sử dụng công cụ được cung cấp trong GIZA++
plain2snt.out để tạo các tập tin đầu vào sử dụng cho các mô hình dịch. Thực hiện câu lệnh
sau:
plain2snt.out corpus.vn corpus.en
Ta sẽ có được các tập tin đầu vào: corpus.vn.vcb, corpus.en.vcb, và
corpus.vn_corpus.en.snt (cấu trúc các tập tin này được mô tả ở phần 3.2).
Sau đó thực hiện quá trình huấn luyện cho mô hình dịch sử dụng GIZA++ bằng
cách thực hiện câu lệnh sau trên môi trường Linux:
corpus.vn.vcb
2 Bạn 62
3 đã 346
4 từng 24
5 xem 59
6 một 772
7 cảnh 3
8 kỳ_thú 2
9 trên 245
10 phim 10
corpus.en.vcb
2 Have 4
3 you 326
4 ever 11
5 watched 2
6 an 174
7 incredible 4
8 scene 2
9 in 705
10 a 1089
corpus.vn_corpus.en.snt
1
2 3 4 5 6 7 8 9 10 11 3 4 5 6 12 13 14 15
16 17 18 19 20 21 6 12 22 23 24
2 3 4 5 6 7 8 9 10 11 12 13 14 10 15 16
17 18 19 3 20 21 22 10 23 24
1
25 19 26 27 28 29 30 31 32 33 9 34 35 24
25 12 26 3 27 28 29 16 21 22 30 31 10 32
24
50
trainGIZA++.sh corpus.vn.vcb corpus.en.vcb corpus.vn_corpus.en.snt
Ta có được các bảng xác suất (bảng xác suất dịch t, bảng xác suất đảo từ...)
tương ứng với các từ trong ngữ liệu. Trong luận văn chỉ sử dụng bảng xác suất dịch
để xác định xác suất dịch của một từ tiếng Việt ra các từ tiếng Anh. Bảng xác suất
dịch sau khi sử dụng GIZA++ khai thác ngữ liệu song song ở trên được lưu trong
tập tin GIZA++.t3.final có nội dung như trong Bảng 4.2 (xem thêm về cấu trúc tập
tin này ở phần 3.2).
Bảng 4.2 Bảng kết quả xác suất dịch
GIZA++.t3.final
5337 16 0.124912
3649 4971 0.999298
1779 421 0.399748
3479 4825 0.16655
3479 4826 0.16655
3479 4827 0.16655
680 2273 0.0742019
680 2310 0.148404
680 2328 0.074202
5167 29 0.166531
510 2017 0.000216541
510 2020 0.0626402
850 3072 0.138092
5167 305 0.1666
1439 10 0.106795
5088 4784 0.124912
1439 38 0.0017997
5507 1247 0.100051
3388 461 3.32089e-05
3139 4457 0.166119
51
3139 4458 0.166119
3388 484 0.249807
2459 2723 0.166593
2969 4044 0.249625
4997 9 0.199886
1439 161 0.369527
4068 2297 0.332014
4997 75 0.199895
3218 134 0.108627
850 3338 0.137919
5088 4996 0.124913
2289 2446 0.505259
3218 211 0.109524
4997 182 0.199895
3218 299 0.10862
3218 318 0.129501
1269 10 0.199496
4.3 Kết quả thử nghiệm
Để đánh giá hệ thống có thực hiện tốt hay không ta dựa trên độ chính xác của hệ
tìm kiếm thông tin. Ở đây do hệ thống sử dụng Google như công cụ tìm kiếm cho
các câu truy vấn ở cả hai ngôn ngữ tiếng Việt và tiếng Anh nên ta không thể tính
được độ chính xác trên toàn bộ các tập tài liệu. Vì vậy ta sử dụng độ chính xác top-
k. Ta sẽ thử nghiệm với k = 50, có nghĩa là ta tính độ chính xác dựa trên 50 kết quả
đầu tiên trả về từ hệ tìm kiếm Google.
Việc thử nghiệm được tiến hành trên một tập 50 câu truy vấn tiếng Việt và 50
bản dịch tiếng Anh của các câu truy vấn này. Các câu truy vấn này không thuộc
2500 cặp câu trong ngữ liệu song song dùng để khai thác các kết quả thống kê từ
52
mô hình dịch sử dụng công cụ GIZA++ đã nêu ở trên. Tập câu hỏi gồm 50 câu tiếng
Việt này được xây dựng dựa trên các tiêu chí như sau:
Những câu hỏi gồm 1 từ hoặc 2 từ như: cối xay gió, tôn giáo…
Những câu hỏi gồm nhiều từ riêng rẽ (không có cấu trúc) như: cây rừng
không khí…
Những câu hỏi gồm các từ đơn giản, phổ biến như: ô nhiễm môi trường,
khủng hoảng kinh tế…
Câu hỏi gồm những từ đặc biệt như: thời đại trung cổ, cúm gia cầm…
Câu hỏi là các câu có cấu trúc như: hướng dẫn cách làm bánh, thay đổi về
chính sách tiền tệ…
Danh sách các câu hỏi được liệt kê trong Bảng 4.3.
Bảng 4.3 Bảng câu hỏi thử nghiệm
Thứ
tự Câu hỏi tiếng Việt Câu hỏi tiếng Anh Tiêu chí
1 lạm phát inflation 1 từ hoặc 2 từ
2 cối xay gió windmill
3 giáo dục education
4 tôn giáo religion
5 nhà hàng restaurant
6 tên lửa missile
7 phân tích thiết kế cơ sở dữ liệu database design and analysis
8 du lịch bằng xe lửa máy bay travel by train or airplane Nhiều từ riêng rẽ
9 cây rừng không khí tree forest air
10 sông hồ nước ngọt river lake water
11 khủng bố cao ốc máy bay terrorism building airplane
12 thị trường địa ốc real estate market
13 hội nghị thượng đỉnh summit meeting
14 trang trí nội thất inhouse decoration
15 thị trường chứng khoán toàn cầu global stock market
Những từ đơn giản
phổ biến
16 giàn khoan dầu oil rig
17 khủng hoảng kinh tế economic crisis
18 ô nhiễm môi trường air pollution
19 rượu vang đỏ red wine
20 trận động đất earthquake
21 phương pháp điện phân electrolysis Những từ đặc biệt
22 thời đại trung cổ medieval time
23 mã não tourmaline
24 vũ khí hạt nhân nuclear weapon
25 bùng nổ dân số population explosion
26 thông tin đội đặc nhiệm
Information of Special
Detachment
53
27 nhà chọc trời skycraper
28 trung tâm mua sắm shopping mall
29 cúm gia cầm bird flu
30 mạng không dây wireless network
31 kiêu hãnh và thành kiến pride and prejudice
32 chế độ dân chủ democracy
33 giao dịch trái phiếu bond trade
34 ma cà rồng vampire
35 khủng hoảng tài chính toàn cầu global financial crisis Câu có cấu trúc
36 hệ thống giáo dục tại Hoa Kỳ education system in US
37 du lịch bằng kinh khí cầu travelling by airship
38 lãi suất của ngân hàng bank interest
39 trang phục mùa hè summer costume
40 trang trí phòng tắm hiện đại decorade modern bath room
41 hướng dẫn cách làm bánh cake making intruction
42 làm gì khi bị say xe
what should do when having car
sick
43 địa điểm đi du lịch vào mùa hè place to travel in summer
44 dự báo thời tiết hôm nay weather forecase for today
45
di chuyển bằng xe máy trong thành
phố travelling by motorbike in the city
46 thay đổi về chính sách tiền tệ change for monetary policy
47
lợi ích của việc di chuyển bằng xe
buýt advantage of travelling by bus
48 kiểu nhà trong thành phố house model in the city
49 ngành nông nghiệp lúa nước rice agriculture
50 tuổi thọ của chó dog's age
Việc xây dựng tập câu hỏi bao gồm nhiều tiêu chí như trên để đảm bảo việc thử
nghiệm được trải rộng trên nhiều trường hợp khác nhau nhằm mục đích đánh giá hệ
thống một cách đầy đủ hơn. Tập câu hỏi bao gồm 50 câu hỏi tiếng Việt sau khi
được xây dựng theo các tiêu chí trên sẽ được dịch sang tiếng Anh. Việc dịch sang
tiếng Anh này do người có trình độ tiếng Anh tốt dịch nhằm đảm bảo tính đúng đắn
khi dịch.
Việc thử nghiệm được tiến hành bằng cách tìm kiếm xuyên ngữ bằng nhiều
phương pháp khác nhau nhằm mục đích so sánh giữa các phương pháp tìm kiếm
xuyên ngữ (trong đó bao gồm cả cách tiếp cận của luận văn). Bên cạnh đó, việc tìm
kiếm đơn ngữ trên tập câu hỏi tiếng Anh cũng được thực hiện để có thể so sánh kết
quả đạt được của tìm kiếm xuyên ngữ với kết quả tìm kiếm đơn ngữ.
54
Với mỗi câu truy vấn tiếng Việt, hệ thống thực hiện chuyển ngữ và tìm kiếm
thông qua Google với câu truy vấn là câu chuyển ngữ tiếng Anh (tìm kiếm xuyên
ngữ). Việc chuyển ngữ được thực hiện theo ba cách nhằm mục đích so sánh: chỉ sử
dụng từ điển để chuyển ngữ, sử dụng kết quả thống kê để chuyển ngữ, và kết hợp
việc sử dụng từ điển và kết quả thống kê có được bằng cách sử dụng GIZA++ khai
thác ngữ liệu song song (đây là hướng tiếp cận của luận văn). Bên cạnh đó, việc tìm
kiếm xuyên ngữ còn được thực hiện bằng cách tách từ câu truy vấn tiếng Việt dựa
vào các khoảng trắng trong câu và thực hiện chuyển ngữ bằng việc sử dụng kết quả
thống kê do sử GIZA++ khai thác ngữ liệu song song mà trong đó ngữ liệu tiếng
Việt không qua bước tiền xử lý tách từ tiếng Việt (như đã nêu trong phần 4.2 ở
trên).
Ngoài ra, nhằm mục đích so sánh giữa các cách chuyển ngữ, việc thử nghiệm
còn sử dụng Google Translator để dịch các câu truy vấn tiếng Việt sang tiếng Anh
và tiến hành tìm kiếm trên câu truy vấn đã được dịch.
Với các câu truy vấn tiếng Anh là bản dịch tương ứng của các câu truy vấn tiếng
Việt (xem như bản dịch do người dịch), ta thực hiện việc tìm kiếm với Google (tìm
kiếm đơn ngữ) nhằm mục đích so sánh kết quả đạt được khi tìm kiếm xuyên ngữ đạt
bao nhiêu phần trăm(%) so với tìm kiếm đơn ngữ.
Việc so sánh được thực hiện bằng cách so sánh độ chính xác khi tìm kiếm của
tìm kiếm xuyên ngữ so với tìm kiếm đơn ngữ. Sau khi thực hiện tìm kiếm, ta sẽ lưu
lại 50 kết quả đầu tiên tìm được tương ứng với từng câu truy vấn. Sau đó ta tính độ
chính xác như sau:
P = (#số tài liệu liên quan) / 50
Các tài liệu được đánh giá là liên quan đến câu truy vấn hay không được thực
hiện bởi ba người khác nhau dựa trên việc xem xét câu truy vấn và tài liệu tìm được
để đánh giá tài liệu có liên quan đến câu truy vấn hay không. Từ các kết quả đánh
giá riêng rẽ này sẽ đánh giá tài liệu có liên quan đến câu truy vấn hay không bằng
cách lấy kết quả đa số từ kết quả được thực hiện bởi ba người khác nhau như đã
trình bày ở trên.
55
4.4 Đánh giá thử nghiệm
4.4.1 Nhận xét việc chuyển ngữ
Hệ thống tiến hành tìm kiếm xuyên ngữ bằng cách thực hiện việc chuyển ngữ và
sau đó tiến hành tìm kiếm dựa trên câu truy vấn đã chuyển ngữ. Kết quả chuyển ngữ
khi sử dụng kết hợp từ điển và thống kê được thể hiện trong Bảng 4.4.
Bảng 4.4 Bảng kết quả chuyển ngữ
Thứ tự Câu hỏi tiếng Việt
Câu hỏi tiếng Anh
(người dịch) Bản dịch của hệ thống
1 lạm phát inflation inflate
2 cối xay gió windmill windmill
3 giáo dục education education
4 tôn giáo religion religion
5 nhà hàng restaurant restaurant
6 tên lửa missile rocket
7
phân tích thiết kế cơ sở dữ
liệu
database design and
analysis analyze design database
8 du lịch bằng xe lửa máy bay travel by train or airplane tour bằng xe lửa air plane
9 cây rừng không khí tree forest air tree forest air
10 sông hồ nước ngọt accident speed traffic jam river lake paste nước ngọt
11 khủng bố cao ốc máy bay terrorism building airplane
terrorize high building air
plane
12 thị trường địa ốc real estate market market real estate
13 hội nghị thượng đỉnh summit meeting summit
14 trang trí nội thất inhouse decoration decorate interior
15
thị trường chứng khoán toàn
cầu global stock market stock market global
16 giàn khoan dầu oil rig rig oil
17 khủng hoảng kinh tế economic crisis economic crisis
18 ô nhiễm môi trường air pollution enviromental pollution
19 rượu vang đỏ red wine red wine
20 trận động đất earthquake earthquake
21 phương pháp điện phân electrolysis method điện phân
22 thời đại trung cổ medieval time era trung cổ
23 mã não tourmaline agate
24 vũ khí hạt nhân nuclear weapon vũ khí nuclear
25 bùng nổ dân số population explosion break out population
26 thông tin đội đặc nhiệm
Information of Special
Detachment information team đặc nhiệm
27 nhà chọc trời skycraper skyscraper
28 trung tâm mua sắm shopping mall centre go shopping
29 cúm gia cầm bird flu influenza domestic fowls
30 mạng không dây wireless network network not rope
31 kiêu hãnh và thành kiến pride and prejudice proud and prejudice
32 chế độ dân chủ democracy democratic
33 giao dịch trái phiếu bond trade trade bond
56
34 ma cà rồng vampire vampire
35
khủng hoảng tài chính toàn
cầu global financial crisis financial crisis global
36 hệ thống giáo dục tại Hoa Kỳ education system in US
hệ thống giáo dục tại
america
37 du lịch bằng kinh khí cầu travelling by airship tour by airship
38 lãi suất của ngân hàng bank interest interest rate of bank
39 trang phục mùa hè summer costume costume summer
40 trang trí phòng tắm hiện đại
decorade modern bath
room decorate bath room modern
41 hướng dẫn cách làm bánh cake making intruction guide how cake
42 làm gì khi bị say xe
what should do when
having car sick
what to do when sack drunk
xe
43
địa điểm đi du lịch vào mùa
hè place to travel in summer point tour into summer
44 dự báo thời tiết hôm nay weather forecase for today forecast weather today
45
di chuyển bằng xe máy trong
thành phố
travelling by motorbike in
the city move by motorbike in city
46
thay đổi về chính sách tiền
tệ change for monetary policy
change about policy
currency
47
lợi ích của việc di chuyển
bằng xe buýt
advantage of travelling by
bus
usefulness of business move
by bus
48 kiểu nhà trong thành phố house model in the city model home in city
49 ngành nông nghiệp lúa nước rice agriculture twig agriculture rice country
50 tuổi thọ của chó dog's age life of dog
Trên tập 50 câu hỏi thử nghiệm ta có thể thấy một số câu phương pháp dịch mà
hệ thống sử dụng dịch khá chính xác, tuy nhiên bên cạnh đó vẫn có những câu hệ
thống dịch không chính xác, thậm chí vẫn còn giữ lại tiếng Việt. Ví dụ như câu “hệ
thống giáo dục tại Hoa Kỳ” hệ thống chỉ chuyển ngữ được từ “Hoa Kỳ” thành
“america” trong khi đó phần còn lại “hệ thống giáo dục” do không có trong từ điển
cũng như không có trong kết quả thống kê từ ngữ liệu song song nên vẫn được giữ
lại. Hoặc câu “ngành nông nghiệp lúa nước” do việc tách từ thành các từ “ngành”,
“nông nghiệp”, “lúa”, “nước” nên việc chuyển ngữ của hệ thống tạo thành câu
“twig agriculture rice country” không giống như bản dịch do người dịch là “rice
agriculture”.
57
4.4.2 Đánh giá kết quả thử nghiệm
Việc thử nghiệm được tiến hành trên các phương pháp khác nhau nhằm mục
đích so sánh kết quả đạt được giữa các phương pháp và nhằm xem xét kết quả thu
được ở từng phương pháp.
Do đặc trưng của tiếng Việt là các từ được tạo thành từ nhiều tiếng khác nhau,
do đó để tách từ một câu tiếng Việt một cách đúng đắn ta không thể chỉ dựa vào các
khoảng trắng trong câu như đối với tiếng Anh. Trong khi đó công cụ GIZA++ khi
khai thác ngữ liệu song song lại chỉ tách từ dựa vào khoảng trắng, do đó việc thử
nghiệm được tiến hành với phương pháp thống kê mà không tách từ tiếng Việt (tách
từ dựa vào khoảng trắng trong câu), và phương pháp dùng kết quả thống kê trên
các câu đã được tách từ cho tiếng Việt.
Bên cạnh đó nhằm mục đích so sánh việc chỉ dùng từ điển để dịch và việc kết
hợp giữa từ điển và thống kê để chuyển ngữ nên quá trình thử nghiệm cũng được
tiến hành trên hai phương pháp là chỉ sử dụng từ điển và phương pháp sử dụng từ
điển kết hợp với thống kê.
Ngoài ra, hiện nay Google đã cung cấp một công cụ dịch cho phép chuyển ngữ
các câu từ ngôn ngữ này sang ngôn ngữ khác một cách dễ dàng, vì vậy việc thử
nghiệm được tiến hành thêm một phương pháp khác đó là dùng công cụ dịch của
Google để chuyển ngữ và tiến hành tìm kiếm.
Sau khi tiến hành việc chuyển ngữ và tìm kiếm với các phương pháp đã nêu
trên, ta sẽ so sánh kết quả với việc tìm kiếm đơn ngữ bằng cách tính tỷ lệ (%) đạt
được của từng phương pháp tìm kiếm xuyên ngữ so với tìm kiếm đơn ngữ.
Sau khi tiến hành thử nghiệm và lấy kết quả trung bình từ các kết quả tương ứng
với các câu hỏi ta có bảng kết quả trung bình thể hiện ở Bảng 4.5:
58
Bảng 4.5 Bảng kết quả thử nghiệm với kết quả trung bình
Độ chính xác
Tìm kiếm xuyên ngữ
Tỷ lệ (%)
Câu
truy
vấn
Thống
kê
(không
tách từ)
Từ
điển
Thố
ng
kê
Từ điển +
Thống kê
bằng
GIZA++
Dịch
bằng
Googl
e
Tìm
kiếm
đơn ngữ
Thốn
g kê
(khôn
g tách
từ)
Từ
điển
Thốn
g kê
Từ điển
+ Thống
kê bằng
GIZA+
+
Dịch
bằng
Googl
e
Trun
g bình
0.34 0.39 0.29 0.42 0.49 0.61
55.37 64.65 47.53 69.72 79.86
Bảng kết quả chi tiết được thể hiện ở Bảng 4.6:
Bảng 4.6 Bảng kết quả chi tiết
Độ chính xác
Tìm kiếm xuyên ngữ
Tỷ lệ (% so với tìm kiếm đơn ngữ)
Câu
truy
vấn
Thống
kê
(không
tách từ)
Từ
điển
Thống
kê
Từ điển
+ Thống
kê bằng
GIZA++
Dịch
bằng
Google
Tìm
kiếm
đơn
ngữ
Thống
kê
(không
tách từ)
Từ
điển
Thống
kê
Từ điển
+ Thống
kê bằng
GIZA++
Dịch
bằng
Google
1 0.3 0.3 0.28 0.36 0.42 0.54 55.56 62.96 51.85 66.67 77.78
2 0.38 0.4 0.3 0.48 0.48 0.6 63.33 73.33 50.00 80.00 80.00
3 0.34 0.4 0.3 0.46 0.46 0.6 56.67 70.00 50.00 76.67 76.67
4 0.32 0.4 0.3 0.4 0.4 0.5 64.00 72.00 60.00 80.00 80.00
5 0.38 0.4 0.32 0.44 0.44 0.48 79.17 83.33 66.67 91.67 91.67
6 0.34 0.4 0.3 0.36 0.5 0.58 58.62 62.07 51.72 62.07 86.21
7 0.34 0.4 0.3 0.4 0.84 0.88 38.64 45.45 34.09 45.45 95.45
8 0.34 0.4 0.28 0.48 0.6 0.66 51.52 54.55 42.42 72.73 90.91
9 0.38 0.4 0.32 0.44 0.36 0.48 79.17 87.50 66.67 91.67 75.00
10 0.32 0.3 0.28 0.34 0.38 0.46 69.57 73.91 60.87 73.91 82.61
11 0.38 0.5 0.32 0.5 0.62 0.94 40.43 53.19 34.04 53.19 65.96
12 0.28 0.3 0.24 0.34 0.34 0.42 66.67 76.19 57.14 80.95 80.95
13 0.2 0.2 0.16 0.22 0.22 0.4 50.00 55.00 40.00 55.00 55.00
14 0.38 0.4 0.32 0.4 0.42 0.46 82.61 91.30 69.57 86.96 91.30
15 0.36 0.4 0.32 0.42 0.5 0.9 40.00 44.44 35.56 46.67 55.56
16 0.22 0.3 0.18 0.26 0.26 0.38 57.89 68.42 47.37 68.42 68.42
17 0.36 0.4 0.3 0.48 0.48 0.54 66.67 81.48 55.56 88.89 88.89
18 0.42 0.5 0.34 0.5 0.5 0.56 75.00 82.14 60.71 89.29 89.29
19 0.4 0.5 0.34 0.56 0.56 0.7 57.14 71.43 48.57 80.00 80.00
20 0.34 0.4 0.28 0.38 0.5 0.54 62.96 70.37 51.85 70.37 92.59
59
21 0.24 0.3 0.16 0.26 0.4 0.52 46.15 50.00 30.77 50.00 76.92
22 0.38 0.4 0.32 0.46 0.46 0.54 70.37 77.78 59.26 85.19 85.19
23 0.18 0.2 0.16 0.2 0.36 0.44 40.91 45.45 36.36 45.45 81.82
24 0.38 0.4 0.34 0.46 0.54 0.66 57.58 63.64 51.52 69.70 81.82
25 0.26 0.3 0.22 0.3 0.5 0.66 39.39 45.45 33.33 45.45 75.76
26 0.26 0.3 0.24 0.34 0.34 0.42 61.90 76.19 57.14 80.95 80.95
27 0.34 0.4 0.3 0.42 0.48 0.52 65.38 73.08 57.69 80.77 92.31
28 0.24 0.3 0.24 0.28 0.36 0.52 46.15 53.85 46.15 53.85 69.23
29 0.2 0.2 0.18 0.3 0.5 0.6 33.33 36.67 30.00 50.00 83.33
30 0.42 0.5 0.36 0.54 0.62 0.76 55.26 65.79 47.37 71.05 81.58
31 0.36 0.4 0.3 0.4 0.48 0.74 48.65 54.05 40.54 54.05 64.86
32 0.38 0.5 0.34 0.48 0.54 0.66 57.58 72.73 51.52 72.73 81.82
33 0.46 0.6 0.36 0.6 0.7 0.74 62.16 78.38 48.65 81.08 94.59
34 0.3 0.3 0.26 0.36 0.38 0.42 71.43 80.95 61.90 85.71 90.48
35 0.48 0.6 0.36 0.62 0.58 0.72 66.67 86.11 50.00 86.11 80.56
36 0.4 0.5 0.36 0.54 0.58 0.62 64.52 80.65 58.06 87.10 93.55
37 0.32 0.4 0.28 0.52 0.48 0.54 59.26 66.67 51.85 96.30 88.89
38 0.42 0.6 0.34 0.6 0.62 0.64 65.63 90.63 53.13 93.75 96.88
39 0.38 0.5 0.34 0.46 0.46 0.68 55.88 67.65 50.00 67.65 67.65
40 0.4 0.5 0.36 0.56 0.76 0.84 47.62 61.90 42.86 66.67 90.48
41 0.3 0.3 0.26 0.4 0.4 0.76 39.47 44.74 34.21 52.63 52.63
42 0.24 0.3 0.22 0.36 0.32 0.76 31.58 39.47 28.95 47.37 42.11
43 0.36 0.4 0.32 0.46 0.7 0.8 45.00 52.50 40.00 57.50 87.50
44 0.38 0.5 0.34 0.54 0.54 0.76 50.00 60.53 44.74 71.05 71.05
45 0.3 0.4 0.26 0.42 0.5 0.62 48.39 58.06 41.94 67.74 80.65
46 0.36 0.4 0.32 0.5 0.54 0.68 52.94 61.76 47.06 73.53 79.41
47 0.28 0.3 0.22 0.32 0.4 0.42 66.67 71.43 52.38 76.19 95.24
48 0.36 0.4 0.32 0.44 0.52 0.56 64.29 71.43 57.14 78.57 92.86
49 0.34 0.4 0.3 0.42 0.5 0.64 53.13 62.50 46.88 65.63 78.13
50 0.32 0.4 0.28 0.4 0.42 0.52 61.54 69.23 53.85 76.92 80.77
Trung
bình
0.34 0.39 0.29 0.42 0.49 0.61
55.37 64.65 47.53 69.72 79.86
Qua bảng kết quả trên ta thấy hiệu quả đạt được của hệ thống tìm kiếm thông tin
xuyên ngữ với việc chuyển ngữ bằng cách sử dụng từ điển để dịch và khử nhập
nhằng bằng xác suất thống kê đạt được hiệu quả tương đối tốt so với việc tìm kiếm
đơn ngữ và cũng đạt được kết quả tốt hơn so với phương pháp chỉ dùng từ điển hay
60
chỉ dùng thống kê để chuyển ngữ. Tuy nhiên, bên cạnh đó ta cũng thấy được việc
tìm kiếm xuyên ngữ theo hướng tiếp cận của luận văn không đạt hiệu quả tốt bằng
việc dùng công cụ chuyển ngữ của Google để dịch câu truy vấn (trong khi chuyển
ngữ bằng công cụ của Google đạt đến 80% so với tìm kiếm đơn ngữ thì việc kết hợp
từ điển và thống kê để chuyển ngữ rồi tìm kiếm chỉ đạt được 70% so với tìm kiếm
đơn ngữ).
Bảng kết quả cũng cho thấy một số câu truy vấn khi thực hiện tìm kiếm xuyên
ngữ đạt kết quả rất cao so với tìm kiếm đơn ngữ (các câu được in đậm trong bảng
có kết quả đạt được hơn 85% so với tìm kiếm đơn ngữ). Tuy nhiên cũng có những
câu truy vấn kết quả đạt được khá thấp khoảng 50% so với tìm kiếm đơn ngữ.
Các câu truy vấn đạt được kết quả tìm kiếm cao so với tìm kiếm đơn ngữ đó là
các câu ngắn chứa các cụm từ mang tính chuyên môn hay các từ đơn giản phổ biến
và các từ này tồn tại trong từ điển cũng như phổ biến trong ngữ liệu song song nên
xác suất dịch cũng cao hơn. Ví dụ: câu truy vấn “phân tích và thiết kế cơ sở dữ liệu”
được hệ thống chuyển ngữ thành câu truy vấn “analyze and design database” bao
gồm các từ rất gần với câu dịch bởi người “database design and analysis”. Vì vậy
việc tìm kiếm sử dụng Google sẽ đạt được kết quả rất tốt cho những trường hợp
này.
Các câu truy vấn có kết quả tìm kiếm thấp hơn vì đó là các câu được hình thành
bởi các từ đặc biệt và không thể tìm được các từ này trong từ điển được sử dụng
cũng như không có trong bảng xác suất dịch (do từ điển không đầy đủ cũng như
ngữ liệu song song không chứa hết mọi từ trong tiếng Việt), vì vậy khi chuyển ngữ
các từ tiếng Việt được giữ lại tạo thành câu truy vấn vừa tiếng Anh vừa tiếng Việt
hoặc là các câu truy vấn bằng tiếng Anh nhưng không dịch đúng dẫn đến việc giảm
đi hiệu quả tìm kiếm của Google đối với các kết quả tiếng Anh. Ví dụ: câu truy vấn
tiếng Việt như sau: “thông tin đội đặc nhiệm 88” khi được chuyển ngữ sẽ thành câu
“information team đặc nhiệm 88”, trong khi đó câu tiếng Anh được dịch bởi người
là: “Information of Special Detachment 88”. Ta có thể thấy hệ thống đã không xác
61
định được cũng như chuyển ngữ cụm từ “đội đặc nhiệm” một cách chính xác, do đó
trong câu chuyển ngữ từ “đặc nhiệm” vẫn được giữ lại.
Phương pháp tiếp cận của luận văn là sử dụng từ điển để dịch và sử dụng kết
quả thống kê khai thác từ ngữ liệu song song để tiếng hành khử nhập nhằng cho
việc dịch. Quá trình dịch là dịch từng từ tiếng Việt, hiện tại luận văn chưa áp dụng
phương pháp dịch cụm danh từ như phương pháp được nhóm Trường Đại học Bách
Khoa[31] sử dụng nên kết quả hiện tại chỉ giới hạn ở việc chuyển ngữ từng từ tiếng
Việt sang tiếng Anh và hình thành nên câu truy vấn tiếng Anh. Ngoài ra, luận văn
sử dụng ngữ liệu song song với 2500 cặp câu để khai thác thống kê, ngữ liệu này
không giống và về số lượng cũng ít hơn so với ngữ liệu song song được nhóm
Nghiên cứu Tìm kiếm Thông tin của Trường Đại học Khoa học Tự nhiên[29] sử
dụng.