Việc sử dụng các nguyên tắc, phương pháp luận sáng tạo này sẽ giúp cho việc giải quyết
các bài toán trong tin học sẽ dễ dàng và nhanh hơn, bởi việc giải quyết chúng bằng những
phương pháp thuật toán tối ưu nhất. Không chỉ trong lĩnh vực tin học mà trong nhiều lĩnh
vực khác, việc áp dụng các nguyên tắc trong phương pháp luận sáng tạo sẽ giúp cho việc
giải quyết vấn đề nhanh chóng, tối ưu trong khoảng thời gian ngắn nhất và đem lại hiệu
quả cao nhất.
Phương pháp luận về tư duy sáng tạo và đổi mới là một môn khoa học về sáng tạo. Khi
được thầy Hoàng Kiếm giảng về phương pháp luận về tư duy sáng tạo và đổi mới, tôi đã
có được những phương pháp làm chủ tư duy từ đó đưa ra những sáng tạo nho nhỏ phục vụ
cho những đề tài nghiên cứu chính mình. Tôi rất thấm thía câu nói của thầy “Những vấn
đề liên quan tới kĩ thuật tuy không thật dễ nhưng cũng không thật khó, có thời gian thì sẽ
làm được. Nhưng có những vấn đề phải qua quá trình nghiên cứu, sáng tạo thì mới có thể
giải quyết hoặc thậm chí không có lời giải đáp!”
31 trang |
Chia sẻ: lylyngoc | Lượt xem: 2344 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Những nguyên tắc sáng tạo ứng dụng trong mô hình xử lý cú pháp và ngữ nghĩa cho câu hỏi tiếng việt trong hệ thống tìm kiếm thư viện, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI BÁO CÁO MÔN HỌC
PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC TRONG TIN HỌC
Đề tài:
NHỮNG NGUYÊN TẮC SÁNG TẠO ỨNG DỤNG
TRONG MÔ HÌNH XỬ LÝ CÚ PHÁP VÀ NGỮ
NGHĨA CHO CÂU HỎI TIẾNG VIỆT TRONG HỆ
THỐNG TÌM KIẾM THƯ VIỆN
Giảng viên hướng dẫn: GS.TSKH. HOÀNG KIẾM
Học viên thực hiện: NGUYỄN TRÍ PHÚC
Mã số: CH1101121
TP. Hồ Chí Minh, tháng 4 năm 2012
LỜI MỞ ĐẦU
“Nhân chi sơ tính sáng tạo”
Thật vậy, sáng tạo là tài nguyên cơ bản nhất của mỗi con người trong chúng ta. Sáng tạo
là phương châm và là động lực phát triển cho xã hội từ khi con người biết suy nghĩ. Nhờ
có tư duy sáng tạo,chúng ta có thể cải tiến công nghệ, làm cho những vấn đề gặp phải
trong cuộc sống sẽ được thực hiện theo những các đơn giản hơn và phù hợp hơn.
Sáng tạo là bản chất của con người tuy nhiên trong chúng ta hẳn có nhiều người tự hỏi
“Vì sao tôi có quá ít cải tiến sáng tạo?”, “Làm thế nào để có thể tạo ra nhiều cải tiến hơn
nữa trong công việc?”… Để tạo ra những ý tưởng, những cải tiến mới chúng ta cần phải
có phương pháp luận (các nguyên tắc, phương pháp, lý thuyết) về tư duy sáng tạo và đổi
mới. Điều này sẽ giúp chúng ta có những kỹ năng thực hành về suy nghĩ để giải quyết các
vấn đề và đưa ra những ý tưởng đổi mới sáng tạo.
Trong bài báo cáo này, tôi sẽ trình bày phương pháp luận về tư duy sáng tạo, đổi mới và
kèm theo đó là những phân tích về ứng dụng những nguyên tắc sáng tạo, đổi mới vào mô
hình xử lý cú pháp và ngữ nghĩa cho câu hỏi tiếng Việt trong hệ thống tìm kiếm thư viện.
TP. Hồ Chí Minh, tháng 4 năm 2012
Nguyễn Trí Phúc
MỤC LỤC
DANH MỤC HÌNH .......................................................................................................... 1
DANH MỤC BẢNG ........................................................................................................ 2
PHẦN 1: PHƯƠNG PHÁP LUẬN VỀ TƯ DUY SÁNG TẠO VÀ ĐỔI MỚI .................. 3
1.1. Khái niệm ............................................................................................................ 3
1.2. Ý nghĩa ................................................................................................................ 3
1.3. Nội dung chính .................................................................................................... 4
1.3.1. Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế .......... 4
1.3.2. Bốn mươi nguyên tắc sáng tạo cơ bản ........................................................... 4
1.3.3. Các phương pháp giải quyết vấn đề tổng quát ............................................. 10
PHẦN 2: ỨNG DỤNG NGUYÊN TẮC SÁNG TẠO VÀO MÔ HÌNH XỬ LÝ CÚ PHÁP
VÀ NGỮ NGHĨA CHO CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG TÌM KIẾM
THƯ VIỆN ..................................................................................................................... 12
2.1. Tổng quan về bài toán ........................................................................................ 12
2.1.1. Đặt vấn đề ................................................................................................... 12
2.1.2. Mục tiêu đề tài ............................................................................................ 12
2.1.3. Phạm vi nghiên cứu ..................................................................................... 12
2.2. Mô hình hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt .................... 13
2.2.1. Kiến trúc hệ thống ....................................................................................... 13
2.2.2. Ontology học liệu mở .................................................................................. 14
2.3. Mô hình cú pháp ................................................................................................ 20
2.4. Mô hình ngữ nghĩa ............................................................................................ 21
2.5. Phương pháp sinh mã truy vấn SPARQL ........................................................... 21
2.6. Cơ chế tạo sinh câu trả lời.................................................................................. 22
2.7. Những nguyên tắc sáng tạo cơ bản được ứng dụng ............................................ 22
2.7.1. Nguyên tắc phân nhỏ ................................................................................... 22
2.7.2. Nguyên tắc tách khỏi ................................................................................... 23
2.7.3. Nguyên tắc cục bộ ....................................................................................... 23
2.7.4. Nguyên tắc kết hợp ..................................................................................... 23
2.7.5. Nguyên tắc chứa trong ................................................................................ 23
2.7.6. Nguyên tắc dự phòng .................................................................................. 24
2.7.7. Nguyên tắc giải thiếu hoặc thừa .................................................................. 24
2.7.8. Nguyên tắc sao chép ................................................................................... 24
KẾT LUẬN .................................................................................................................... 25
TÀI LIỆU THAM KHẢO............................................................................................... 26
1
DANH MỤC HÌNH
Hình 1:. Mô hình giải quyết vấn đề tổng quát ................................................................. 10
Hình 1: Kiến trúc hệ thống tìm kiếm tài liệu dựa trên cơ chế xử lý các câu hỏi tiếng Việt
....................................................................................................................................... 14
2
DANH MỤC BẢNG
Bảng 1: Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế ................ 4
Bảng 2: Các thành phần hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt ......... 13
Bảng 3: Thống kê số lượng giáo trình trên các thư viện học học liệu mở ........................ 15
Bảng 4: Tổng hợp các thông tin mô tả học liệu mở cho 3 thư viện .................................. 16
Bảng 5: Các class trong ontology học liệu mở ................................................................ 16
Bảng 6: Object properties trong ontology học liệu mở .................................................... 17
Bảng7: Datatype properties trong ontology học liệu mở.................................................. 18
Bảng 8: Mô tả quan hệ của các lớp trong ontology học liệu mở ...................................... 20
Bảng 9: Các cấu trúc tổng quát của câu hỏi tiếng Việt .................................................... 21
Bảng 10:Chức năng các thành phần mô hình hệ thống .................................................... 23
Bảng 11:Chức năng các thành phần mô hình hệ thống .................................................... 24
3
PHẦN 1: PHƯƠNG PHÁP LUẬN VỀ TƯ DUY SÁNG TẠO VÀ
ĐỔI MỚI
1.1. Khái niệm
Phương pháp luận sáng tạo và đổi mới là phần ứng dụng của Khoa học về sáng tạo, bao
gồm hệ thống các phương pháp và các kĩ năng cụ thể giúp nâng cao năng suất và hiệu
quả, về lâu dài tiến tới điều khiển tư duy sáng tạo của người sử dụng.
1.2. Ý nghĩa
Suốt cuộc đời, mỗi người chúng ta dùng suy nghĩ rất nhiều (có thể nói là hằng ngày). Từ
việc trả lời những câu hỏi bình thường như “Hôm nay ăn gì? Mặc gì?Làm gì?Mua
gì?Xem gì? Đi đâu?...” đến làm các bài tập trên trường lớp, hoặc chọn ngành nghề đào
tạo, lo sức khỏe, việc làm, thu nhập, hôn nhân, nhà ở, giải quyết các vấn đề nảy sinh trong
công việc, trong quan hệ xã hội, gia đình, nuôi dạy con cái… tất tần tật đều đòi hỏi phải
suy nghĩ và chắc chắn rằng ai cũng muốn suy nghĩ tốt, ra những quyết định đúng để “đời
là bể khổ” trở thành “bể sướng”.
Chúng ta tuy được đào tạo và làm những ngành nghề khác nhau nhưng có lẽ có một nghề
chung, giữ nguyên suốt cuộc đời và là cần thiết cho tất cả mọi người.Đó là “nghề” suy
nghĩ và hành động giải quyết các vấn đề gặp phải trong suốt cuộc đời nhằm thỏa mãn các
nhu cầu chính đáng của cá nhân mình, đồng thời thỏa mãn các nhu cầu để xã hội tồn tại
và phát triển. Nhìn dưới góc độ này, Phương Pháp Luận Sáng Tạo Và Đổi Mới giúp trang
bị loại nghề chung nói trên, góp phần bổ sung cho giáo dục, đào tạo hiện nay, chủ yếu chỉ
đào tạo các nhà chuyên môn. Nhà chuyên môn có thể giải quyết tốt các vấn đề chuyên
môn nhưng nhiều khi không giải quyết tốt các vấn đề ngoài chuyên môn, do vậy không
thực sự hạnh phúc như ý.
Các nghiên cứu cho thấy, phần lớn mọi người thường suy nghĩ một cách tự nhiên như đi
lại, ăn uống, hít thở mà ít khi suy nghĩ về chính suy nghĩ của mình xem nó hoạt động ra
sao để cải tiến, làm suy nghĩ của mình trở nên tốt hơn như người ta thường cải tiến các
dụng cụ, máy móc dùng trong sinh hoạt và công việc. Cách suy nghĩ tự nhiên nói trên có
năng suất, hiệu quả rất thấp và nhiều khi trả giá đắt cho các quyết định sai. Tóm lại, cách
4
suy nghĩ tự nhiên ứng với việc lao động bằng xẻng thì Phương Pháp Luận Sáng Tạo Và
Đổi Mới là máy xúc với năng suất và hiệu quả cao hơn nhiều. Nếu xem bộ não của mỗi
người là máy tính tinh xảo – đỉnh cao tiến hóa và phát triển của tự nhiên thì phần mềm
(cách suy nghĩ) tự nhiên đi kèm với nó chỉ khai thác một phần rất nhỏ tiềm năng của bộ
não.Phương Pháp Luận Sáng Tạo Và Đổi Mới là phần mềm tiên tiến giúp máy tính – bộ
não hoạt động tốt hơn nhiều.Nếu như cần “học ăn, học nói, học gói, học mở” thì “học suy
nghĩ” cũng cần thiết cho tất cả mọi người.
Tóm lại, Phương Pháp Luận Sáng Tạo Và Đổi Mới đóng góp rất tích cực trong việc biến
thông tin thành tri thức, tri thức đã biết thành tri thức mới với các ích lợi toàn diện, không
chỉ riêng về mặt kinh tế.
1.3. Nội dung chính
1.3.1. Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng
chế
STT Phương pháp
1 Dựng Vepol đầy đủ
2 Chuyển sang Fepol
3 Phá vở Vepol
4 Xích Vepol
5 Liên trường
Bảng 1: Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế
1.3.2. Bốn mươi nguyên tắc sáng tạo cơ bản
Nhà khoa học Atshuler trong suốt quá trình làm việc của mình đã đưa ra một hệ thống các
nguyên tắc sáng tạo. Nó cung cấp hệ thống các cách xem xét sự vật; tăng tính nhanh nhạy
của việc tiếp thu và đánh giá giá trị của thông tin; đưa ra và lựa chọn các cách tiếp cận
thích hợp để giải quyết vấn đề. Hệ thống các nguyên tắc sáng tạo còn giúp cho chúng ta
5
xây dựng được tác phong, suy nghĩ và làm việc một cách khoa học, sáng tạo; góp phần
xây dựng tư duy biện chứng. Dưới đây xin được lần lượt điểm qua 40 nguyên tắc đó:
1/ Nguyên tắc phân nhỏ:
Chia các đối tượng thành các thành phần độc lập.
Làm đối tượng thành các thành phần tháo ráp.
Tăng mức độ phân nhỏ đối tượng.
2/ Nguyên tắc “tách riêng”:
Tách thành phần gây phiền phất ra khỏi đôi tượng hoặc ngược lại. Trách lấy phần
cần thiết.
3/ Nguyên tắc phẩm chất cục bộ:
Chuyển đối tượng (hay môi trường bên ngoài, tác động bên ngoài) có cấu trúc
đồng nhất thành không đồng nhất.
Các phần khác nhau của đối tượng phải có các chất năng khác nhau
Mỗi phần của đối tượng phải có các chất năng khác nhau
4/ Nguyên tắc phản đối xứng:
Chuyển đối tượng có hìng dạng, tính chất đối xứng thành phản đối xứng
5/ Nguyên tắc kết hợp:
Kết hợp các đối tượng đồng nhất hoặc các đối tượng dùng cho các hoạt động kế
cận.
Kết hợp về mặt thời gian các hoạt động đồng nhất hoặc kế cận gian rỗi của CPU,
tận dụng tài nguyên để cho ra hệ điều hành đa nhiệm, nhiều người dùng.
6/ Nguyên tắc vạn năng:
Vật thể hoạt động đa chức năng loại bỏ một số vật thể khác.
7/ Nguyên tắc chứa trong
Để một vật thể trong lòng một vật thể khác, vật thể khác này lại để trong lòng một
vật thể thứ ba.
Chuyển một vật thể thông qua một khoảng trống của một vật thể khác
8/ Nguyên tắc phản trọng lượng
Bù trừ trọng lượng của vật thể bằng cách nối với một vật thể khác mà có một lực
6
đẩy.
Bù trừ trọng lượng của vật thể bằng tương tác với môi trường cung cấp khí hoặc
thủy động lực.
9/ Nguyên tắc gây ứng suất sơ bộ
Thực hiện phản hoạt động trước tiên
Nếu vật thể chịu áp lực thì cung cấp cung cấp một phản áp lực trước đó
10/ Nguyên tắc thực hiện sơ bộ
Trước tiên thực hiện tất cả hoặc một phần hoạt động
Sắp xếp các vật thể sao cho chúng có thể đi vào hoạt động trong một khoảng thời
gian hợp lí và từ một vị trí thích hợp
11/ Nguyên tắc dự phòng
Bù trừ cho tính không tin cậy của vật thể bằng biện pháp trả đũa trước tiên
12/ Nguyên tắc đẳng thế
Thay đổi điều kiện làm việc sao cho không phải nâng lên hoặc hạ xuống
13/ Nguyên tắc đảo ngược
Thay cho một hành động điều khiển bởi các chi tiết kĩ thuật của bài toán, áp dụng
một hành động ngược lại
Làm cho phần chuyển động của vật thể hoặt môi trường bên ngoài của vật thể trở
nên bất động và những phần bất động trở thành chuyển động
Lật úp vật thể
14/ Nguyên tắc cầu (tròn) hóa
Thay những vật thể thẳng hoặc bề mặt bằng phẳng thành những mặt cong ; thay
thể hình lập phương thành hình cầu
Sử dụng con lăn, vật hình xoắn ốc
Thay thế chuyển động thẳng bằng chuyển động quay ; tận dụng lực li tâm
15/ Nguyên tắc năng động
Tạo một vật thể hoặc môi trường của nó tự động điều chỉnh tới chế độ tối ưu tại
mỗi trạng
thái hoạt động
7
Chia vật thể thành những phần nhỏ mà có thể thay đổi vị trí tương đối với nhau
Nếu vật thể bất động thì làm cho nó chuyển động và có thể trao đổi được
16/ Nguyên tắc tác động bộ phận và dư thừa
Nếu khó có thể đạt 100% hiệu quả mong muốn thì cố đạt đến cái đơn giản nhất
17/ Nguyên tắc bộ xung chiều khác
Loại bỏ các bài toán bằng cách dịch chuyển một vật thể trong một chuyển động hai
chiều
(tức là dọc theo mặt phẳng)
Dùng tổ hợp chồng chập đa lớp thay cho đơn lớp
Làm nghiêng vật thể hoặc quay nó lên cạnh của nó
18/ Sự dao động cơ học
Đặt vật thể vào thế rung động
Nếu đã rung động rồi thì tăng tần số, thậm chí đến tận tần số sóng siêu âm
Sử dụng tần số cộng hưởng
Thay áp rung cho rung cơ học
Dùng rung động siêu âm với từ trường
19/ Nguyên tắc tác đông theo chu kỳ
Thay một hành động liên tục thành một hành động tuần hoàn (xung)
Nếu một hành động đã tuần hoàn rồi thì thay đổi tần số
Sử dụng xung giữa các xung lực để cung cấp hành động bổ xung
20/ Nguyên tắc tác đông liên tục hữu hiệu
Thực hiện một hành động liên tục (không nghỉ) trong đó tất cả các phần của vật thể
hoạt động hết công suất
Loại bỏ các hành động không hiệu quả và trung gian
21/ Nguyên tắc vượt nhanh
Thực hành các thao tác có hại hoặc mạo hiểm với tốc độ thật nhanh
22/ Nguyên tắc chuyển hại thành thắng
Sử dụng những yếu tố có hại hoặc các tác động môi trường để thu những hiệu quả
tích cực
8
Loại bỏ những yếu tố có hại bằng việc kết hợp nó với một yếu tố có hại khác
Tăng tác động có hại đến khi nó tự triệt tiêu tính có hại của nó
23/ Nguyên tắc quan hệ phản hồi
Mở đầu thông tin phản hồi
Nếu đã có thông tin phản hồi thì đảo ngược nó
24/ Nguyên tắc sử dụng trung gian
Dùng một vật thể trung gian để truyền hay thực hiện một hành động
Tạm thời nối một vật thể với một vật thể khác mà nó dễ dàng được tháo bỏ đi
25/ Nguyên tắc tự phục vụ
Làm cho vật thể tự phục vụ và thực hiện những thao tác bổ sung và sửa chữa
Tận dụng vật liệu và năng lượng bỏ đi
26/ Nguyên tắc sao chép (copy)
Dùng một bản sao đơn giản và rẻ tiền thay cho một vật thể phức tạp, đắt tiền, dễ vỡ
hay bất tiện
Thay thế một vật thể bằng bản sao hoặc hình ảnh của nó, có thể dùng thước để tăng
hoặc giảm kích thước
Nếu các bản sao quang học đã được dùng, thay chúng bằng những bản sao hồng
ngoại hoặc tử ngoại
27/ Nguyên tắc rẻ thay cho đắt
Thay một vật thể đắt tiền bằng nhiều những vật thể rẻ tiền có ít ưu điểm hơn (ví dụ
tuổi thọ kém đi)
28/ Nguyên tắc thay thế sơ đồ cơ học
Thay thế hệ cơ học bằng hệ quang, âm hoặc khứu giác (mùi)
Dùng điện, từ, điện từ trường để tương tác với vật thể
Thay thế các trường
o Trường tĩnh bằng các trường động
o Trường cố định bằng trường thay đổi theo thời gian
o Trường ngẫu nhiên bằng trường cấu trúc
o Dùng một trường kết hợp với các hạt sắt từ
9
29/ Nguyên tắc sử dụng các kết cấu thủy và khí
Thay thế các phần cứng rắn của vật thể bằng khí hoặc chất lỏng. Các phần này có
thể dùng không khí hoặc nước để phồng lên, hoặc dùng đệm hơi hay đệm thủy tĩnh
30/ Sử dụng bao mềm dẻo và mềm mỏng
Thay cấu trúc truyền thống bằng cấu trúc làm từ màng linh động hoặc màng mỏng
Cô lập vật thể ra khỏi môi trường xung quanh bằng cách sử dụng màng linh động
hoặc màng mỏng
31/ Sử dụng vật liệu nhiều lỗ
Dùng vật thể xốp hoặc các yếu tố xốp (chèn, phủ, …)
Nếu một vật thể đã xốp thì làm đầy các lỗ chân lông trước bằng một vài chất liệu
32/ Nguyên tắc đổi màu
Đổi màu của vật thể hoặc những thứ quanh nó
Đổi độ trong suốt của vật thể hoặc quá trình mà khó có quan sát
Dùng bổ sung màu để quan sát các vật thể hoặc quá trình khó quan sát
Nếu đã dùng bổ sung màu thì dùng các yếu tố khác để theo dõi
33/ Nguyên tắc đồng nhất
Làm các vật thể tương tác với vật thể đầu tiên bằng cùng loại vật liệu hoặc vật liệu
rất gần với vật thể đầu tiên đó
34/ Nguyên tắc loại bỏ và tái sinh từng phần
Một yếu tố của vật thể sau khi hoàn thành chức năng hoặc trở nên vô dụng thì hãy
loại bỏ hoặc thay đổi nó (vứt bỏ, phân hủy, làm bay hơi, …)
Loại bỏ ngay lập tức những phần của vật thể không còn tác dụng
35/ Đổi các thông số hóa lý của đối tượng
Thay đổi trạng thái kết tập, phân bố mật độ, độ linh động, nhiệt độ của vật thể
36/ Sử dụng chuyển pha
Ứng dụng các hiệu ứng trong quá trình chuyển pha của vật liệu. Ví dụ trong khi
thay đổi thể tích, bậc tự do hay hấp thụ nhiệt
37/ Sử dụng nở nhiệt
Dùng vật liệu có thể co giãn theo nhiệt độ
10
Sử dụng các vật liệu khác nhau với các hệ số giãn nở nhiệt khác nhau
38/ Sử dụng các chất oxy hóa
Thay không khí thường bằng môi trường nhiều không khí
Thay môi trường giàu không khí bằng ô xi
Xử lí vật thể trong môi trường giàu không khí hoặc ô xi bằng phóng xạ ion hóa
Sử dụng ô xi ion hóa
39/ Sử dụng môi trường trơ
Thay môi trường thường bằng môi trường khí trơ
Thực hiện quá trình trong chân không
40/ Sử dụng vật liệu tổng hợp (composit)
Thay vật liệu đồng nhất bằng vật liệu composite
1.3.3. Các phương pháp giải quyết vấn đề tổng quát
Với thông tin ban đầu và cần giải quyết, ta có mô hình như sau:
Hình 1:. Mô hình giải quyết vấn đề tổng quát
1.3.3.1. Các phương pháp phân tích vấn đề
- Phân chia vấn đề
- Phân loại vấn đề
- Phân công vấn đề
- Phân cấp bài toán
11
- Phân tích.
1.3.3.2. Các phương pháp tổng hợp vấn đề
- Tổ hợp
- Đối hợp
- Tích hợp
- Kết hợp
- Tổng hợp theo không gian và thời gian
1.3.3.3. Các phương pháp giải quyết vấn đề trong tin học
- Phương pháp trực tiếp
- Phương pháp gián tiếp
Phương pháp Thử Sai
Phương pháp Heuristic
- Phương pháp Trí Tuệ Nhân Tạo
12
PHẦN 2: ỨNG DỤNG NGUYÊN TẮC SÁNG TẠO VÀO MÔ HÌNH
XỬ LÝ CÚ PHÁP VÀ NGỮ NGHĨA CHO CÂU HỎI TIẾNG VIỆT
TRONG HỆ THỐNG TÌM KIẾM THƯ VIỆN
2.1. Tổng quan về bài toán
2.1.1. Đặt vấn đề
Trong lĩnh vực tìm kiếm tài liệu, việc phát triển những hệ thống tìm kiếm có khả năng trả
lời các câu hỏi bằng ngôn ngữ tự nhiên sẽ đáp ứng được những nhu cầu sau:
Người dùng có thể tương tác với hệ thống tìm kiếm bằng ngôn ngữ tự nhiên, theo
một cách thức gần gũi mà không cần hiểu biết về các qui ước tìm kiếm được qui
định sẵn trong các hệ thống.
Câu hỏi được trả lời trực tiếp bằng kết quả tìm kiếm.
Tăng sự tương tác giữa con người với các hệ thống máy tính, góp phần cho sự phát triển
các hệ thống máy tính theo hướng tương tác người và máy trong tương lai.
2.1.2. Mục tiêu đề tài
Đề tài được thực hiện với mục tiêu xây dựng một hệ thống tìm kiếm tài liệu trong các thư
viện dựa trên cơ chế xử lý cáccâu hỏi tiếng Việt. Hệ thống tìm kiếm cho phép xử lý các
câu hỏi tiếng Việt đơn giản, có cấu trúc tường minh, diễn đạt ý nghĩa cụ thể, rõ ràng,
không chứa hàm ý hoặc các ý mơ hồ trong câu.
2.1.3. Phạm vi nghiên cứu
Đề hiện thực những mục tiêu được đặt ra cho đề tài, phạm vi nghiên cứu được hạn chế
như sau:
Hệ thống được xây dựng và thử nghiệm trên thư viện học liệu mở được đề tài xây
dựng từ các nguồn dữ liệu: [9], [10], [11].
Chỉ xử lý các dạng câu hỏi tiếng Việt có cấu trúc câu đơn, hỏi trực tiếp, thường
được dùng để hỏi những vấn đề trong phạm vi ứng dụng được xác định trước của
đề tài.
13
Chỉ xây dựng bộ phân tích cú pháp tiếng Việt hạn chế trong mục tiêu đề tài.
Giới hạn việc xử lý ngữ nghĩa cho những dạng câu hỏi có liên quan trực tiếp đến
việc truy vấn những thông tin mô tả về các tài liệu, được xác định trong mục tiêu
của đề tài.
Không xử lý các vấn đề về thời, thức, thể, tình thái, hàm ý, phong cách, ngữ dụng
và các vấn đề phức tạp khác trong nội dung câu hỏi.
Chỉ tìm kiếm tài liệu dựa trên những thông tin mô tả (tác giả, tựa đề, năm xuất bản,
nhà xuất bản, chủ đề, từ khóa, loại) về các tài liệu. Không tìm kiếm trong nội dung
văn bản của các tài liệu.
2.2. Mô hình hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt
2.2.1. Kiến trúc hệ thống
Đề tài xây dựng kiến của hệ thống với các thành phần chính như [Hình 2]:
STT Thành phần
1 Phân tích cú pháp
2 Phân tích ngữ nghĩa
3 Diễn dịch ngữ nghĩa
4 Tạo sinh câu trả lời
Bảng 2: Các thành phần hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt
14
Hình 2: Kiến trúc hệ thống tìm kiếm tài liệu dựa trên cơ chế xử lý các câu hỏi tiếng
Việt
2.2.2. Ontology học liệu mở
Nguồn dữ liệu để xây dựng ontology học liệu mở được lấy từ 3 web site chính:
Trang Số lượng tài liệu
506
16436
15
1179
Bảng 3: Thống kê số lượng giáo trình trên các thư viện học học liệu mở
Do các thư viện nói trên sử dụng cách mô tả khác nhau đối với học liệu mở, nên ta
cần tổng hợp thông tinmô tả của các trang học liệu mở để có một danh sách như sau:
STT Thông tin mô tả học liệu mở
1 Chủ đề
2 Loại tài liệu
3 Nguồn phát hành
4 Tài liệu tham khảo
5 Tác giả
6 Từ khóa
7 Dạng lưu trữ
8 ISBN
9 Kích thước
10 Mã số
11 Ngôn ngữ
12 Sơ lược
13 Số trang
14 Tiêu đề
16
15 Thởi gian xuất bản
16 Tài liệu ở trang
Bảng 4:Tổng hợp các thông tin mô tả học liệu mở cho 3 thư viện
Trên cơ sở các thông tin mô tả trong bảng trên, ta tiến hành xây dựng ontology lưu
trữ thông tin mô tả học liệu mở.
Danh sách các lớp của ontology học liệu mở được trình bày trong bảng sau:
STT Class Name
1 Class_tài_liệu
2 Class_chủ_đề
3 Class_loại_tài_liệu
4 Class_nguồn_phát_hành
5 Class_tài_liệu_tham_khảo
6 Class_tác_giả
7 Class_từ_khóa
Bảng 5:Cácclass trong ontology học liệu mở
17
Danh sách các object properties1 trong ontology học liệu mở được trình bày trong
bảng sau:
Property Name Domain Range
có_chủ_đề Class_tài_liệu Class_chủ_đề
có_loại_tài_liệu Class_tài_liệu Class_loại_tài_liệu
có_nguồn_phát_hành Class_tài_liệu Class_nguồn_phát_hành
có_tài_liệu_tham_khảo Class_tài_liệu Class_tài_liệu_tham_khảo
có_tác_giả Class_tài_liệu Class_tác_giả
có_từ_khóa Class_tài_liệu Class_từ_khóa
là_chủ_đề_của Class_chủ_đề Class_tài_liệu
là_loại_tài_liệu_của Class_loại_tài_liệu Class_tài_liệu
là_nguồn_phát_hành_của Class_nguồn_phát_hành Class_tài_liệu
là_tài_liệu_tham_khảo_của Class_tài_liệu_tham_khảo Class_tài_liệu
là_tác_giả_của Class_tác_giả Class_tài_liệu
là_từ_khóa_của Class_từ_khóa Class_tài_liệu
Bảng 6:Object properties trong ontology học liệu mở
Danh sách các datatype properties2 trong ontology học liệu mở được trình bày trong
bảng sau:
1 Object property: Biểu diễn mối quan hệ giữa object này với object khác
2 Datatype property: Biễu diễn mối quan hệ giữa object với XML Schema Datatype value (ví dụ: integer, string).
18
Property Name Domain Range Funtional
có_dạng_lưu_trữ Class_tài_liệu string
có_ISBN Class_tài_liệu string funtional
có_kích_thước Class_tài_liệu string
có_mã_số Class_tài_liệu string
có_ngôn_ngữ Class_tài_liệu string
có_sơ_lược Class_tài_liệu string
có_số_trang Class_tài_liệu string
có_thời_gian_xuất bản Class_tài_liệu string
có_tiêu_đề Class_tài_liệu string funtional
tài_liệu_ở_trang Class_tài_liệu string
Bảng7: Datatype properties trong ontology học liệu mở
Quan hệ của các lớp trong ontology học liệu mở được mô tả trong bảng sau:
Class Name Conditions
Property Restriction
Class_tài_liệu có_chủ_đề only Class_chủ_đề
có_loại_tài_liệu only Class_loại_tài_liệu
có_nguồn_phát_hành only Class_nguồn_phát_hành
có_tài_liệu_tham_khảo only Class_tài_liệu_tham_khảo
19
có_tác_giả only Class_tác_giả
có_từ_khóa only Class_từ_khóa
có_tiêu_đề only string
có_ngôn_ngữ only string
có_dạng_lưu_trữ only string
có_mã_số only string
có_ISBN only string
có_kích_thước only string
có_sơ_lược only string
có_số_trang only string
có_thời_gian_xuất_bản only string
tài_liệu_ở_trang only string
Class_chủ_đề là_chủ_đề_của only Class_tài_liệu
Class_loại_tài_li
ệu
là_loại_tài_liệu_của only Class_tài_liệu
Class_nguồn_ph
át_hành
là_nguồn_phát_hành_của only Class_tài_liệu
Class_tài_liệu_th
am_khảo
là_tài_liệu_tham_khảo_của only Class_tài_liệu
Class_tác_giả là_tác_giả_của only Class_tài_liệu
20
Class_từ_khóa là_từ_khóa_của only Class_tài_liệu
Bảng 8: Mô tả quan hệ của các lớp trong ontology học liệu mở
2.3. Mô hình cú pháp
Phân tích cú pháp là bước đầu tiên trong quá trình xử lý câu hỏi tiếng Việt. Trên cơ sở kết
quả của trình phân tích cú pháp, ở bước sau đó chúng ta có thể thiết lập các cơ chế để
phân tích ngữ nghĩa cho câu hỏi tiếng Việt.
Một cách tổng quát, nội dung của một câu hỏi có thể chia thành hai thành phần:
- Thành phần truy vấn (những thông tin được hỏi).
- Thành phần thông tin (những thông tin đã biết).
Trừ những câu hỏi thuộc loại đúng/sai, những thông tin cần hỏi sẽ có thể được xác định
thông qua những thông tin đã biết trong câu hỏi. Trong phạm vi ứng dụng của đề tài, các
thành phần đều có liên hệ với nhau thông qua Class_tài_liệu.
Ví dụ: Tác giả nào đã viết sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành?
Trong câu hỏi ở ví dụ, thành phần truy vấn là “tác giả”, thành phần thông tin là “nhà xuất
bản Nguyễn Thị Minh Khai”. Các thành phần này có quan hệ với nhau thông qua “sách”.
Do đó, từ thông tin “nhà xuất bản Nguyễn Thị Minh Khai”, có thể xác định được những
sách nào được nhà xuất bản Nguyễn Thị Minh Khai phát hành. Kế tiếp, từ những sách đã
biết, tiếp tục xác định được các tác giả của chúng. Cuối cùng, có được thông tin đầy đủ để
trả lời cho câu hỏi trong ví dụ.
Các bước truy vấn và xác định thông tin được mô tả như sau: Nhà xuất bản Nguyễn Thị
Minh Khai những sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành tác giả
của các sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành.
Cấu trúc tổng quát chung cho các loại câu hỏi như sau: các thông tin cần hỏi (thuộc thành
phần truy vấn) và các thông tin đã biết (thuộc thành phần thông tin). Tùy thuộc vào vị trí
21
đứng trước hay sau của thành phần truy vấn so với thành phần thông tin, chúng ta có hai
dạng cấu trúc tổng quát cho các câu hỏi như trình bày trong bảng sau.
Cấu trúc Thành phần đứng trước trong câu hỏi Thành phần đứng sau trong câu hỏi
Dạng 1 Thành phần truy vấn Thành phần thông tin
Dạng 2 Thành phần thông tin Thành phần truy vấn
Bảng 9:Các cấu trúc tổng quát của câu hỏi tiếng Việt
2.4. Mô hình ngữ nghĩa
Quá trìnhphân tích cú pháp cho một câu hỏi tiếng Việt nhằm mục đích xác định cấu trúc
cây cú pháp của câu hỏi. Sau đó, cây cú pháp này sẽ được chuyển về một cấu trúc nghĩa,
được biểu diễn dưới dạng cây ngữ nghĩa. Cây ngữ nghĩa bao gồm nhiều loại nút khác
nhau, các nút này được tổ chức thành một cấu trúc cây.
Mỗi nút trong cây ngữ nghĩa đều có hai thành phần: nhãn của nút và giá trị của nút. Nhãn
của nút cho biết nút đó chứa thông tin mô tả gì cho một hoặc nhiều tài liệu được hỏi. Giá
trị của nút cho biết cụ thể thông tin mô tả đó là gì.
Đối với mỗi loại câu hỏi, hệ thống cần phải xác định xem loại câu hỏi đó có những thành
phần nào: có đầy đủ cả thành phần truy vấn và thành phần thông tin, hoặc chỉ có thành
phần thông tin.
Từ các yếu tố trên, mô hình cây ngữ nghĩa có thể được dùng để biểu diễn ngữ nghĩa cho
các dạng câu hỏi mà trong đó một hoặc nhiều thông tin có thể được hỏi dựa trên các thông
tin khác đã biết trong câu hỏi đó. Đồng thời, mô hình cây ngữ nghĩa trên cũng cho phép
xử lý các quan hệ “và”, “hoặc” giữa các đối tượng trong cùng một thành phần truy vấn
hoặc thành phần thông tin.
2.5. Phương pháp sinh mã truy vấn SPARQL
Nguyên tắc sinh mã truy vấn SPARQL: mã truy vấn SPARQL gồm các thành phần quan
trọng:
22
Địa chỉ truy vấn ontology
Thành phần truy vấn ( với từ khóa Select )
Thành phần cung cấp thông tin ( với từ khóa Where)
Trong đó địa chỉ truy vấn ontology được cố định trước, vì vậy để xây dựng mã truy vấn
SPARQL để lấy thông tin từ ontology cần phải xác định 2 thành phần truy vấn và thông
tin trông mã truy vấn:
Sinh mã truy vấn từ cây ngữ nghĩa:
Thành phần truy vấn ( sau từ khóa Select ): được xác định dựa vào các node hỏi
thuộc nhánh QUES trong cây ngữ nghĩa.
Thành phần thông tin ( sau từ khóa Where): được xác định dựa vào các node
INFO thuộc cây ngữ nghĩa
2.6. Cơ chế tạo sinh câu trả lời
Việc tạo sinh câu trả lời tiếng Việt sẽ dựa trên nguyên tắc: biểu diễn cấu trúc ngữ nghĩa
của câu trả lời và trên cơ sở đó tạo sinh câu trả lời tiếng Việt. Cấu trúc ngữ nghĩa của câu
trả lời tiếng Việt sẽ được xác định dựa trên cấu trúc ngữ nghĩa của câu hỏi tiếng Việt
tương ứng. Mô hình ngữ nghĩa được dùng để biểu diễn cấu trúc ngữ nghĩa của câu trả lời.
Việc tạo sinh câu trả lời tiếng Việt được thực hiện dựa trên mối quan hệ giữa các nút
thành phần và yếu tố tài liệu trong cây ngữ nghĩa.Vì vậy câu trả lời tiếng Việt được tạo
sinh sau khi điền các nút quan hệ giữa các nút trên cây ngữ nghĩa với thành phần tài liệu
để cho ra câu trả lời hoàn chỉnh.
2.7. Những nguyên tắcsáng tạo cơ bản được ứng dụng
2.7.1. Nguyên tắcphân nhỏ
Mô hình được chia thành nhiều thành phần nhỏ như thành phần phân tích cú pháp, thành
phần phân tích ngữ nghĩa, thành phần diễn dịch ngữ nghĩa và thành phần tạo sinh câu trả
lời.
23
2.7.2. Nguyên tắc tách khỏi
Trong quá trình phân tích cú pháp, hệ thống loại bỏ các stop words không cần thiết để tiết
kiệm không gian lưu trữ và gia tăng tốc độ xử lý phân tích cú pháp. Ví dụ: “ắt hẳn”,
“chẳng lẽ”, “chung quy”, “cơ chừng” …
2.7.3. Nguyên tắc cục bộ
Mô hỉnh hệ thống có nhiều thành phần và mỗi thành phần có những chức năng khác nhau.
Tham khảo bảng bên dưới
Thành phần Chức năng
Phân tích cú pháp Phân tích cú pháp câu hòi tiếng Việt
Phân tích ngữ nghĩa Chuyển từ cấu trúc cú pháp sang cấu trúc nghĩa, biểu diễn
dưới dạng cây ngữ nghĩa.
Diễn dịch ngữ nghĩa Truy vấn thông tin và trả về thông tin cần thiết để thay thế
thành phấn hỏi trong cây ngữ nghĩa
Tạo sinh câu trả lời Tạo sinh câu trả lời từ cây ngữ nghĩa
Bảng 10:Chức năng các thành phần mô hình hệ thống
2.7.4. Nguyên tắc kết hợp
Để tiết kiệm thời gian và công sức cho việc lập trình phân tích cú pháp câu hỏi tiếng Việt
tôi đã kết hợp sử dụng công cụ ANTLR hỗ trợ phân tích cú pháp bằng việc định nghĩa
ngữ pháp theo cấu trúc văn phạm phi ngữ cảnh EBNF.
2.7.5. Nguyên tắc chứa trong
Nguyên tắc này được ứng dụng hầu hết trong việc lập trình phần mềm.Đối với hệ thống
này thì cũng không ngoại lệ.Nguyên tắc chứa trong được ứng dụng nhiều trong quá trình
lập trình hiện thực mô hình hệ thống. Ví dụ thành phần rút trích thông tin từ các trang
web học liệu mở có chương trình con làm nhiệm vụ rút trích. Trong chương trình con làm
24
nhiệm vụ rút trích gọi một chương trình con khác làm nhiệm vụ phân giải địa chỉ tên
miền…
2.7.6. Nguyên tắc dự phòng
Trong quá trình truy vấn nếu dạng câu truy vấn nào không nhận diện được cấu trúc câu ta
có thể sử dụng chức năng bổ sung dạng câu truy vấn trực tiếp. Sau khi bổ sung dạng câu,
hệ thống sẽ nhận diện và trả lời được câu hỏi với cấu trúc vừa bổ sung.
Dữ liệu ontology của hệ thống được lưu dưới dạng file filename.owl. Việc thiết kế này dễ
dàng cho việc backup và lưu trữ.
2.7.7. Nguyên tắc giải thiếu hoặc thừa
Việc xử lý ngữ nghĩa tiếng Việt là một vấn đề khó nên đề tài giới hạn chỉ xử lý những
dạng câu truy vấn như đã nêu ở mục 2.1.3 - Phạm vi nghiên cứu của đề tài
2.7.8. Nguyên tắc sao chép
Hệ thống sử dụng lại những thư viện mở để tiết kiệm chi phí lập trình. Tham khảo bảng
bên dưới
Thư viện Chức năng
HTMLParser Phân tích và hỗ trợ rút tríchthông tin các trang HTML
Jena Xây dựng, thao tác và truy vấn trên ontology
ANTLR Phân tích và nhận diện các nút thông tin cần thiết cho việc sinh mã truy
vấn và tạo câu trả lời dựa vào các cây cú pháp và cây ngữ nghĩa được
phát sinh.
Bảng 11:Chức năng các thành phần mô hình hệ thống
25
KẾT LUẬN
Việc sử dụng các nguyên tắc, phương pháp luận sáng tạo này sẽ giúp cho việc giải quyết
các bài toán trong tin học sẽ dễ dàng và nhanh hơn, bởi việc giải quyết chúng bằng những
phương pháp thuật toán tối ưu nhất. Không chỉ trong lĩnh vực tin học mà trong nhiều lĩnh
vực khác, việc áp dụng các nguyên tắc trong phương pháp luận sáng tạo sẽ giúp cho việc
giải quyết vấn đề nhanh chóng, tối ưu trong khoảng thời gian ngắn nhất và đem lại hiệu
quả cao nhất.
Phương pháp luận về tư duy sáng tạo và đổi mới là một môn khoa học về sáng tạo. Khi
được thầy Hoàng Kiếm giảng về phương pháp luận về tư duy sáng tạo và đổi mới, tôi đã
có được những phương pháp làm chủ tư duy từ đó đưa ra những sáng tạo nho nhỏ phục vụ
cho những đề tài nghiên cứu chính mình. Tôi rất thấm thía câu nói của thầy “Những vấn
đề liên quan tới kĩ thuật tuy không thật dễ nhưng cũng không thật khó, có thời gian thì sẽ
làm được. Nhưng có những vấn đề phải qua quá trình nghiên cứu, sáng tạo thì mới có thể
giải quyết hoặc thậm chí không có lời giải đáp!”
26
TÀI LIỆU THAM KHẢO
[1] Slides bài giảng “Phương pháp nghiên cứu khoa học trong tin học” – GS.TSKH
Hoàng Kiếm.
[2] Atshuler, Giải 1 bài toán phát minh sáng chế, Nhà xuất bản thống kê – 1991.
[3] Hoàng kiếm, Giải 1 bài tóan trên máy tính như thế nào I, II, III, Nhà xuất bản Giáo
dục – 2001, 2002, 2004
[4] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Semantic Model for
Representing Vietnamese Questions in OpenCourseWare Retrieval System", Proceedings
of the 2011 3rd International Conference on Machine Learning and Computing (ICMLC
2011), vol. 4, pp. 331-335, February 26-28, 2011, Singapore. ISBN: 978-1-4244-9252-7.
[5] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Understanding the Vietnamese
Questions in OpenCourseWare Retrieval System", Proceedings of the 2011 3rd
International Conference on Machine Learning and Computing (ICMLC 2011), vol. 4, pp.
327-330, February 26-28, 2011, Singapore. ISBN: 978-1-4244-9252-7.
[6] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Semantic Representation for
Processing a Series of Vietnamese Questions in OpenCourseWare Retrieval System", The
2011 International Conference on Information and Knowledge Management (ICIKM
2011), July 15 - 17, 2011, Haikou, China.
[7] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, “A Semantic Approach to
Answer Vietnamese Questions in OpenCourseWare Retrieval System”, The 2011
International Conference on Software Technology and Engineering (ICSTE 2011),
August 12-14, 2011, Kuala Lumpur, Malaysia.
[8] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Answering a Series of
Vietnamese Questions in Library Retrieval System", The 2011 The 2nd International
Conference on Future Information Technology (ICFIT 2011), September 16-18, 2011,
Singapore.
27
[9] Thư viện giáo trình điện tử của Bộ Giáo dục và Đào tạo. [Trực tuyến].
[10] Thư viện giáo trình điện tử của EdusoftTeam.[Trực tuyến].
[11]Thư viện học liệu mở Việt nam. [Trực tuyến].
Các file đính kèm theo tài liệu này:
- _121_nguyentriphuc_7987.pdf