Đề tài Những nguyên tắc sáng tạo ứng dụng trong mô hình xử lý cú pháp và ngữ nghĩa cho câu hỏi tiếng việt trong hệ thống tìm kiếm thư viện

Việc sử dụng các nguyên tắc, phương pháp luận sáng tạo này sẽ giúp cho việc giải quyết các bài toán trong tin học sẽ dễ dàng và nhanh hơn, bởi việc giải quyết chúng bằng những phương pháp thuật toán tối ưu nhất. Không chỉ trong lĩnh vực tin học mà trong nhiều lĩnh vực khác, việc áp dụng các nguyên tắc trong phương pháp luận sáng tạo sẽ giúp cho việc giải quyết vấn đề nhanh chóng, tối ưu trong khoảng thời gian ngắn nhất và đem lại hiệu quả cao nhất. Phương pháp luận về tư duy sáng tạo và đổi mới là một môn khoa học về sáng tạo. Khi được thầy Hoàng Kiếm giảng về phương pháp luận về tư duy sáng tạo và đổi mới, tôi đã có được những phương pháp làm chủ tư duy từ đó đưa ra những sáng tạo nho nhỏ phục vụ cho những đề tài nghiên cứu chính mình. Tôi rất thấm thía câu nói của thầy “Những vấn đề liên quan tới kĩ thuật tuy không thật dễ nhưng cũng không thật khó, có thời gian thì sẽ làm được. Nhưng có những vấn đề phải qua quá trình nghiên cứu, sáng tạo thì mới có thể giải quyết hoặc thậm chí không có lời giải đáp!”

pdf31 trang | Chia sẻ: lylyngoc | Lượt xem: 2221 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đề tài Những nguyên tắc sáng tạo ứng dụng trong mô hình xử lý cú pháp và ngữ nghĩa cho câu hỏi tiếng việt trong hệ thống tìm kiếm thư viện, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÀI BÁO CÁO MÔN HỌC PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC TRONG TIN HỌC Đề tài: NHỮNG NGUYÊN TẮC SÁNG TẠO ỨNG DỤNG TRONG MÔ HÌNH XỬ LÝ CÚ PHÁP VÀ NGỮ NGHĨA CHO CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG TÌM KIẾM THƯ VIỆN Giảng viên hướng dẫn: GS.TSKH. HOÀNG KIẾM Học viên thực hiện: NGUYỄN TRÍ PHÚC Mã số: CH1101121 TP. Hồ Chí Minh, tháng 4 năm 2012 LỜI MỞ ĐẦU “Nhân chi sơ tính sáng tạo” Thật vậy, sáng tạo là tài nguyên cơ bản nhất của mỗi con người trong chúng ta. Sáng tạo là phương châm và là động lực phát triển cho xã hội từ khi con người biết suy nghĩ. Nhờ có tư duy sáng tạo,chúng ta có thể cải tiến công nghệ, làm cho những vấn đề gặp phải trong cuộc sống sẽ được thực hiện theo những các đơn giản hơn và phù hợp hơn. Sáng tạo là bản chất của con người tuy nhiên trong chúng ta hẳn có nhiều người tự hỏi “Vì sao tôi có quá ít cải tiến sáng tạo?”, “Làm thế nào để có thể tạo ra nhiều cải tiến hơn nữa trong công việc?”… Để tạo ra những ý tưởng, những cải tiến mới chúng ta cần phải có phương pháp luận (các nguyên tắc, phương pháp, lý thuyết) về tư duy sáng tạo và đổi mới. Điều này sẽ giúp chúng ta có những kỹ năng thực hành về suy nghĩ để giải quyết các vấn đề và đưa ra những ý tưởng đổi mới sáng tạo. Trong bài báo cáo này, tôi sẽ trình bày phương pháp luận về tư duy sáng tạo, đổi mới và kèm theo đó là những phân tích về ứng dụng những nguyên tắc sáng tạo, đổi mới vào mô hình xử lý cú pháp và ngữ nghĩa cho câu hỏi tiếng Việt trong hệ thống tìm kiếm thư viện. TP. Hồ Chí Minh, tháng 4 năm 2012 Nguyễn Trí Phúc MỤC LỤC DANH MỤC HÌNH .......................................................................................................... 1 DANH MỤC BẢNG ........................................................................................................ 2 PHẦN 1: PHƯƠNG PHÁP LUẬN VỀ TƯ DUY SÁNG TẠO VÀ ĐỔI MỚI .................. 3 1.1. Khái niệm ............................................................................................................ 3 1.2. Ý nghĩa ................................................................................................................ 3 1.3. Nội dung chính .................................................................................................... 4 1.3.1. Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế .......... 4 1.3.2. Bốn mươi nguyên tắc sáng tạo cơ bản ........................................................... 4 1.3.3. Các phương pháp giải quyết vấn đề tổng quát ............................................. 10 PHẦN 2: ỨNG DỤNG NGUYÊN TẮC SÁNG TẠO VÀO MÔ HÌNH XỬ LÝ CÚ PHÁP VÀ NGỮ NGHĨA CHO CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG TÌM KIẾM THƯ VIỆN ..................................................................................................................... 12 2.1. Tổng quan về bài toán ........................................................................................ 12 2.1.1. Đặt vấn đề ................................................................................................... 12 2.1.2. Mục tiêu đề tài ............................................................................................ 12 2.1.3. Phạm vi nghiên cứu ..................................................................................... 12 2.2. Mô hình hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt .................... 13 2.2.1. Kiến trúc hệ thống ....................................................................................... 13 2.2.2. Ontology học liệu mở .................................................................................. 14 2.3. Mô hình cú pháp ................................................................................................ 20 2.4. Mô hình ngữ nghĩa ............................................................................................ 21 2.5. Phương pháp sinh mã truy vấn SPARQL ........................................................... 21 2.6. Cơ chế tạo sinh câu trả lời.................................................................................. 22 2.7. Những nguyên tắc sáng tạo cơ bản được ứng dụng ............................................ 22 2.7.1. Nguyên tắc phân nhỏ ................................................................................... 22 2.7.2. Nguyên tắc tách khỏi ................................................................................... 23 2.7.3. Nguyên tắc cục bộ ....................................................................................... 23 2.7.4. Nguyên tắc kết hợp ..................................................................................... 23 2.7.5. Nguyên tắc chứa trong ................................................................................ 23 2.7.6. Nguyên tắc dự phòng .................................................................................. 24 2.7.7. Nguyên tắc giải thiếu hoặc thừa .................................................................. 24 2.7.8. Nguyên tắc sao chép ................................................................................... 24 KẾT LUẬN .................................................................................................................... 25 TÀI LIỆU THAM KHẢO............................................................................................... 26 1 DANH MỤC HÌNH Hình 1:. Mô hình giải quyết vấn đề tổng quát ................................................................. 10 Hình 1: Kiến trúc hệ thống tìm kiếm tài liệu dựa trên cơ chế xử lý các câu hỏi tiếng Việt ....................................................................................................................................... 14 2 DANH MỤC BẢNG Bảng 1: Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế ................ 4 Bảng 2: Các thành phần hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt ......... 13 Bảng 3: Thống kê số lượng giáo trình trên các thư viện học học liệu mở ........................ 15 Bảng 4: Tổng hợp các thông tin mô tả học liệu mở cho 3 thư viện .................................. 16 Bảng 5: Các class trong ontology học liệu mở ................................................................ 16 Bảng 6: Object properties trong ontology học liệu mở .................................................... 17 Bảng7: Datatype properties trong ontology học liệu mở.................................................. 18 Bảng 8: Mô tả quan hệ của các lớp trong ontology học liệu mở ...................................... 20 Bảng 9: Các cấu trúc tổng quát của câu hỏi tiếng Việt .................................................... 21 Bảng 10:Chức năng các thành phần mô hình hệ thống .................................................... 23 Bảng 11:Chức năng các thành phần mô hình hệ thống .................................................... 24 3 PHẦN 1: PHƯƠNG PHÁP LUẬN VỀ TƯ DUY SÁNG TẠO VÀ ĐỔI MỚI 1.1. Khái niệm Phương pháp luận sáng tạo và đổi mới là phần ứng dụng của Khoa học về sáng tạo, bao gồm hệ thống các phương pháp và các kĩ năng cụ thể giúp nâng cao năng suất và hiệu quả, về lâu dài tiến tới điều khiển tư duy sáng tạo của người sử dụng. 1.2. Ý nghĩa Suốt cuộc đời, mỗi người chúng ta dùng suy nghĩ rất nhiều (có thể nói là hằng ngày). Từ việc trả lời những câu hỏi bình thường như “Hôm nay ăn gì? Mặc gì?Làm gì?Mua gì?Xem gì? Đi đâu?...” đến làm các bài tập trên trường lớp, hoặc chọn ngành nghề đào tạo, lo sức khỏe, việc làm, thu nhập, hôn nhân, nhà ở, giải quyết các vấn đề nảy sinh trong công việc, trong quan hệ xã hội, gia đình, nuôi dạy con cái… tất tần tật đều đòi hỏi phải suy nghĩ và chắc chắn rằng ai cũng muốn suy nghĩ tốt, ra những quyết định đúng để “đời là bể khổ” trở thành “bể sướng”. Chúng ta tuy được đào tạo và làm những ngành nghề khác nhau nhưng có lẽ có một nghề chung, giữ nguyên suốt cuộc đời và là cần thiết cho tất cả mọi người.Đó là “nghề” suy nghĩ và hành động giải quyết các vấn đề gặp phải trong suốt cuộc đời nhằm thỏa mãn các nhu cầu chính đáng của cá nhân mình, đồng thời thỏa mãn các nhu cầu để xã hội tồn tại và phát triển. Nhìn dưới góc độ này, Phương Pháp Luận Sáng Tạo Và Đổi Mới giúp trang bị loại nghề chung nói trên, góp phần bổ sung cho giáo dục, đào tạo hiện nay, chủ yếu chỉ đào tạo các nhà chuyên môn. Nhà chuyên môn có thể giải quyết tốt các vấn đề chuyên môn nhưng nhiều khi không giải quyết tốt các vấn đề ngoài chuyên môn, do vậy không thực sự hạnh phúc như ý. Các nghiên cứu cho thấy, phần lớn mọi người thường suy nghĩ một cách tự nhiên như đi lại, ăn uống, hít thở mà ít khi suy nghĩ về chính suy nghĩ của mình xem nó hoạt động ra sao để cải tiến, làm suy nghĩ của mình trở nên tốt hơn như người ta thường cải tiến các dụng cụ, máy móc dùng trong sinh hoạt và công việc. Cách suy nghĩ tự nhiên nói trên có năng suất, hiệu quả rất thấp và nhiều khi trả giá đắt cho các quyết định sai. Tóm lại, cách 4 suy nghĩ tự nhiên ứng với việc lao động bằng xẻng thì Phương Pháp Luận Sáng Tạo Và Đổi Mới là máy xúc với năng suất và hiệu quả cao hơn nhiều. Nếu xem bộ não của mỗi người là máy tính tinh xảo – đỉnh cao tiến hóa và phát triển của tự nhiên thì phần mềm (cách suy nghĩ) tự nhiên đi kèm với nó chỉ khai thác một phần rất nhỏ tiềm năng của bộ não.Phương Pháp Luận Sáng Tạo Và Đổi Mới là phần mềm tiên tiến giúp máy tính – bộ não hoạt động tốt hơn nhiều.Nếu như cần “học ăn, học nói, học gói, học mở” thì “học suy nghĩ” cũng cần thiết cho tất cả mọi người. Tóm lại, Phương Pháp Luận Sáng Tạo Và Đổi Mới đóng góp rất tích cực trong việc biến thông tin thành tri thức, tri thức đã biết thành tri thức mới với các ích lợi toàn diện, không chỉ riêng về mặt kinh tế. 1.3. Nội dung chính 1.3.1. Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế STT Phương pháp 1 Dựng Vepol đầy đủ 2 Chuyển sang Fepol 3 Phá vở Vepol 4 Xích Vepol 5 Liên trường Bảng 1: Năm phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế 1.3.2. Bốn mươi nguyên tắc sáng tạo cơ bản Nhà khoa học Atshuler trong suốt quá trình làm việc của mình đã đưa ra một hệ thống các nguyên tắc sáng tạo. Nó cung cấp hệ thống các cách xem xét sự vật; tăng tính nhanh nhạy của việc tiếp thu và đánh giá giá trị của thông tin; đưa ra và lựa chọn các cách tiếp cận thích hợp để giải quyết vấn đề. Hệ thống các nguyên tắc sáng tạo còn giúp cho chúng ta 5 xây dựng được tác phong, suy nghĩ và làm việc một cách khoa học, sáng tạo; góp phần xây dựng tư duy biện chứng. Dưới đây xin được lần lượt điểm qua 40 nguyên tắc đó: 1/ Nguyên tắc phân nhỏ:  Chia các đối tượng thành các thành phần độc lập.  Làm đối tượng thành các thành phần tháo ráp.  Tăng mức độ phân nhỏ đối tượng. 2/ Nguyên tắc “tách riêng”:  Tách thành phần gây phiền phất ra khỏi đôi tượng hoặc ngược lại. Trách lấy phần cần thiết. 3/ Nguyên tắc phẩm chất cục bộ:  Chuyển đối tượng (hay môi trường bên ngoài, tác động bên ngoài) có cấu trúc đồng nhất thành không đồng nhất.  Các phần khác nhau của đối tượng phải có các chất năng khác nhau  Mỗi phần của đối tượng phải có các chất năng khác nhau 4/ Nguyên tắc phản đối xứng:  Chuyển đối tượng có hìng dạng, tính chất đối xứng thành phản đối xứng 5/ Nguyên tắc kết hợp:  Kết hợp các đối tượng đồng nhất hoặc các đối tượng dùng cho các hoạt động kế cận.  Kết hợp về mặt thời gian các hoạt động đồng nhất hoặc kế cận gian rỗi của CPU, tận dụng tài nguyên để cho ra hệ điều hành đa nhiệm, nhiều người dùng. 6/ Nguyên tắc vạn năng:  Vật thể hoạt động đa chức năng loại bỏ một số vật thể khác. 7/ Nguyên tắc chứa trong  Để một vật thể trong lòng một vật thể khác, vật thể khác này lại để trong lòng một vật thể thứ ba.  Chuyển một vật thể thông qua một khoảng trống của một vật thể khác 8/ Nguyên tắc phản trọng lượng  Bù trừ trọng lượng của vật thể bằng cách nối với một vật thể khác mà có một lực 6 đẩy.  Bù trừ trọng lượng của vật thể bằng tương tác với môi trường cung cấp khí hoặc thủy động lực. 9/ Nguyên tắc gây ứng suất sơ bộ  Thực hiện phản hoạt động trước tiên  Nếu vật thể chịu áp lực thì cung cấp cung cấp một phản áp lực trước đó 10/ Nguyên tắc thực hiện sơ bộ  Trước tiên thực hiện tất cả hoặc một phần hoạt động  Sắp xếp các vật thể sao cho chúng có thể đi vào hoạt động trong một khoảng thời gian hợp lí và từ một vị trí thích hợp 11/ Nguyên tắc dự phòng  Bù trừ cho tính không tin cậy của vật thể bằng biện pháp trả đũa trước tiên 12/ Nguyên tắc đẳng thế  Thay đổi điều kiện làm việc sao cho không phải nâng lên hoặc hạ xuống 13/ Nguyên tắc đảo ngược  Thay cho một hành động điều khiển bởi các chi tiết kĩ thuật của bài toán, áp dụng một hành động ngược lại  Làm cho phần chuyển động của vật thể hoặt môi trường bên ngoài của vật thể trở nên bất động và những phần bất động trở thành chuyển động  Lật úp vật thể 14/ Nguyên tắc cầu (tròn) hóa  Thay những vật thể thẳng hoặc bề mặt bằng phẳng thành những mặt cong ; thay thể hình lập phương thành hình cầu  Sử dụng con lăn, vật hình xoắn ốc  Thay thế chuyển động thẳng bằng chuyển động quay ; tận dụng lực li tâm 15/ Nguyên tắc năng động  Tạo một vật thể hoặc môi trường của nó tự động điều chỉnh tới chế độ tối ưu tại mỗi trạng  thái hoạt động 7  Chia vật thể thành những phần nhỏ mà có thể thay đổi vị trí tương đối với nhau  Nếu vật thể bất động thì làm cho nó chuyển động và có thể trao đổi được 16/ Nguyên tắc tác động bộ phận và dư thừa  Nếu khó có thể đạt 100% hiệu quả mong muốn thì cố đạt đến cái đơn giản nhất 17/ Nguyên tắc bộ xung chiều khác  Loại bỏ các bài toán bằng cách dịch chuyển một vật thể trong một chuyển động hai chiều  (tức là dọc theo mặt phẳng)  Dùng tổ hợp chồng chập đa lớp thay cho đơn lớp  Làm nghiêng vật thể hoặc quay nó lên cạnh của nó 18/ Sự dao động cơ học  Đặt vật thể vào thế rung động  Nếu đã rung động rồi thì tăng tần số, thậm chí đến tận tần số sóng siêu âm  Sử dụng tần số cộng hưởng  Thay áp rung cho rung cơ học  Dùng rung động siêu âm với từ trường 19/ Nguyên tắc tác đông theo chu kỳ  Thay một hành động liên tục thành một hành động tuần hoàn (xung)  Nếu một hành động đã tuần hoàn rồi thì thay đổi tần số  Sử dụng xung giữa các xung lực để cung cấp hành động bổ xung 20/ Nguyên tắc tác đông liên tục hữu hiệu  Thực hiện một hành động liên tục (không nghỉ) trong đó tất cả các phần của vật thể hoạt động hết công suất  Loại bỏ các hành động không hiệu quả và trung gian 21/ Nguyên tắc vượt nhanh  Thực hành các thao tác có hại hoặc mạo hiểm với tốc độ thật nhanh 22/ Nguyên tắc chuyển hại thành thắng  Sử dụng những yếu tố có hại hoặc các tác động môi trường để thu những hiệu quả tích cực 8  Loại bỏ những yếu tố có hại bằng việc kết hợp nó với một yếu tố có hại khác  Tăng tác động có hại đến khi nó tự triệt tiêu tính có hại của nó 23/ Nguyên tắc quan hệ phản hồi  Mở đầu thông tin phản hồi  Nếu đã có thông tin phản hồi thì đảo ngược nó 24/ Nguyên tắc sử dụng trung gian  Dùng một vật thể trung gian để truyền hay thực hiện một hành động  Tạm thời nối một vật thể với một vật thể khác mà nó dễ dàng được tháo bỏ đi 25/ Nguyên tắc tự phục vụ  Làm cho vật thể tự phục vụ và thực hiện những thao tác bổ sung và sửa chữa  Tận dụng vật liệu và năng lượng bỏ đi 26/ Nguyên tắc sao chép (copy)  Dùng một bản sao đơn giản và rẻ tiền thay cho một vật thể phức tạp, đắt tiền, dễ vỡ hay bất tiện  Thay thế một vật thể bằng bản sao hoặc hình ảnh của nó, có thể dùng thước để tăng hoặc giảm kích thước  Nếu các bản sao quang học đã được dùng, thay chúng bằng những bản sao hồng ngoại hoặc tử ngoại 27/ Nguyên tắc rẻ thay cho đắt  Thay một vật thể đắt tiền bằng nhiều những vật thể rẻ tiền có ít ưu điểm hơn (ví dụ tuổi thọ kém đi) 28/ Nguyên tắc thay thế sơ đồ cơ học  Thay thế hệ cơ học bằng hệ quang, âm hoặc khứu giác (mùi)  Dùng điện, từ, điện từ trường để tương tác với vật thể  Thay thế các trường o Trường tĩnh bằng các trường động o Trường cố định bằng trường thay đổi theo thời gian o Trường ngẫu nhiên bằng trường cấu trúc o Dùng một trường kết hợp với các hạt sắt từ 9 29/ Nguyên tắc sử dụng các kết cấu thủy và khí  Thay thế các phần cứng rắn của vật thể bằng khí hoặc chất lỏng. Các phần này có thể dùng không khí hoặc nước để phồng lên, hoặc dùng đệm hơi hay đệm thủy tĩnh 30/ Sử dụng bao mềm dẻo và mềm mỏng  Thay cấu trúc truyền thống bằng cấu trúc làm từ màng linh động hoặc màng mỏng  Cô lập vật thể ra khỏi môi trường xung quanh bằng cách sử dụng màng linh động hoặc màng mỏng 31/ Sử dụng vật liệu nhiều lỗ  Dùng vật thể xốp hoặc các yếu tố xốp (chèn, phủ, …)  Nếu một vật thể đã xốp thì làm đầy các lỗ chân lông trước bằng một vài chất liệu 32/ Nguyên tắc đổi màu  Đổi màu của vật thể hoặc những thứ quanh nó  Đổi độ trong suốt của vật thể hoặc quá trình mà khó có quan sát  Dùng bổ sung màu để quan sát các vật thể hoặc quá trình khó quan sát  Nếu đã dùng bổ sung màu thì dùng các yếu tố khác để theo dõi 33/ Nguyên tắc đồng nhất  Làm các vật thể tương tác với vật thể đầu tiên bằng cùng loại vật liệu hoặc vật liệu rất gần với vật thể đầu tiên đó 34/ Nguyên tắc loại bỏ và tái sinh từng phần  Một yếu tố của vật thể sau khi hoàn thành chức năng hoặc trở nên vô dụng thì hãy loại bỏ hoặc thay đổi nó (vứt bỏ, phân hủy, làm bay hơi, …)  Loại bỏ ngay lập tức những phần của vật thể không còn tác dụng 35/ Đổi các thông số hóa lý của đối tượng  Thay đổi trạng thái kết tập, phân bố mật độ, độ linh động, nhiệt độ của vật thể 36/ Sử dụng chuyển pha  Ứng dụng các hiệu ứng trong quá trình chuyển pha của vật liệu. Ví dụ trong khi thay đổi thể tích, bậc tự do hay hấp thụ nhiệt 37/ Sử dụng nở nhiệt  Dùng vật liệu có thể co giãn theo nhiệt độ 10  Sử dụng các vật liệu khác nhau với các hệ số giãn nở nhiệt khác nhau 38/ Sử dụng các chất oxy hóa  Thay không khí thường bằng môi trường nhiều không khí  Thay môi trường giàu không khí bằng ô xi  Xử lí vật thể trong môi trường giàu không khí hoặc ô xi bằng phóng xạ ion hóa  Sử dụng ô xi ion hóa 39/ Sử dụng môi trường trơ  Thay môi trường thường bằng môi trường khí trơ  Thực hiện quá trình trong chân không 40/ Sử dụng vật liệu tổng hợp (composit)  Thay vật liệu đồng nhất bằng vật liệu composite 1.3.3. Các phương pháp giải quyết vấn đề tổng quát Với thông tin ban đầu và cần giải quyết, ta có mô hình như sau: Hình 1:. Mô hình giải quyết vấn đề tổng quát 1.3.3.1. Các phương pháp phân tích vấn đề - Phân chia vấn đề - Phân loại vấn đề - Phân công vấn đề - Phân cấp bài toán 11 - Phân tích. 1.3.3.2. Các phương pháp tổng hợp vấn đề - Tổ hợp - Đối hợp - Tích hợp - Kết hợp - Tổng hợp theo không gian và thời gian 1.3.3.3. Các phương pháp giải quyết vấn đề trong tin học - Phương pháp trực tiếp - Phương pháp gián tiếp  Phương pháp Thử Sai  Phương pháp Heuristic - Phương pháp Trí Tuệ Nhân Tạo 12 PHẦN 2: ỨNG DỤNG NGUYÊN TẮC SÁNG TẠO VÀO MÔ HÌNH XỬ LÝ CÚ PHÁP VÀ NGỮ NGHĨA CHO CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG TÌM KIẾM THƯ VIỆN 2.1. Tổng quan về bài toán 2.1.1. Đặt vấn đề Trong lĩnh vực tìm kiếm tài liệu, việc phát triển những hệ thống tìm kiếm có khả năng trả lời các câu hỏi bằng ngôn ngữ tự nhiên sẽ đáp ứng được những nhu cầu sau:  Người dùng có thể tương tác với hệ thống tìm kiếm bằng ngôn ngữ tự nhiên, theo một cách thức gần gũi mà không cần hiểu biết về các qui ước tìm kiếm được qui định sẵn trong các hệ thống.  Câu hỏi được trả lời trực tiếp bằng kết quả tìm kiếm. Tăng sự tương tác giữa con người với các hệ thống máy tính, góp phần cho sự phát triển các hệ thống máy tính theo hướng tương tác người và máy trong tương lai. 2.1.2. Mục tiêu đề tài Đề tài được thực hiện với mục tiêu xây dựng một hệ thống tìm kiếm tài liệu trong các thư viện dựa trên cơ chế xử lý cáccâu hỏi tiếng Việt. Hệ thống tìm kiếm cho phép xử lý các câu hỏi tiếng Việt đơn giản, có cấu trúc tường minh, diễn đạt ý nghĩa cụ thể, rõ ràng, không chứa hàm ý hoặc các ý mơ hồ trong câu. 2.1.3. Phạm vi nghiên cứu Đề hiện thực những mục tiêu được đặt ra cho đề tài, phạm vi nghiên cứu được hạn chế như sau:  Hệ thống được xây dựng và thử nghiệm trên thư viện học liệu mở được đề tài xây dựng từ các nguồn dữ liệu: [9], [10], [11].  Chỉ xử lý các dạng câu hỏi tiếng Việt có cấu trúc câu đơn, hỏi trực tiếp, thường được dùng để hỏi những vấn đề trong phạm vi ứng dụng được xác định trước của đề tài. 13  Chỉ xây dựng bộ phân tích cú pháp tiếng Việt hạn chế trong mục tiêu đề tài.  Giới hạn việc xử lý ngữ nghĩa cho những dạng câu hỏi có liên quan trực tiếp đến việc truy vấn những thông tin mô tả về các tài liệu, được xác định trong mục tiêu của đề tài.  Không xử lý các vấn đề về thời, thức, thể, tình thái, hàm ý, phong cách, ngữ dụng và các vấn đề phức tạp khác trong nội dung câu hỏi.  Chỉ tìm kiếm tài liệu dựa trên những thông tin mô tả (tác giả, tựa đề, năm xuất bản, nhà xuất bản, chủ đề, từ khóa, loại) về các tài liệu. Không tìm kiếm trong nội dung văn bản của các tài liệu. 2.2. Mô hình hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt 2.2.1. Kiến trúc hệ thống Đề tài xây dựng kiến của hệ thống với các thành phần chính như [Hình 2]: STT Thành phần 1 Phân tích cú pháp 2 Phân tích ngữ nghĩa 3 Diễn dịch ngữ nghĩa 4 Tạo sinh câu trả lời Bảng 2: Các thành phần hệ thống tìm kiếm tài liệu bằng chuỗi truy vấn tiếng Việt 14 Hình 2: Kiến trúc hệ thống tìm kiếm tài liệu dựa trên cơ chế xử lý các câu hỏi tiếng Việt 2.2.2. Ontology học liệu mở Nguồn dữ liệu để xây dựng ontology học liệu mở được lấy từ 3 web site chính: Trang Số lượng tài liệu 506 16436 15 1179 Bảng 3: Thống kê số lượng giáo trình trên các thư viện học học liệu mở Do các thư viện nói trên sử dụng cách mô tả khác nhau đối với học liệu mở, nên ta cần tổng hợp thông tinmô tả của các trang học liệu mở để có một danh sách như sau: STT Thông tin mô tả học liệu mở 1 Chủ đề 2 Loại tài liệu 3 Nguồn phát hành 4 Tài liệu tham khảo 5 Tác giả 6 Từ khóa 7 Dạng lưu trữ 8 ISBN 9 Kích thước 10 Mã số 11 Ngôn ngữ 12 Sơ lược 13 Số trang 14 Tiêu đề 16 15 Thởi gian xuất bản 16 Tài liệu ở trang Bảng 4:Tổng hợp các thông tin mô tả học liệu mở cho 3 thư viện Trên cơ sở các thông tin mô tả trong bảng trên, ta tiến hành xây dựng ontology lưu trữ thông tin mô tả học liệu mở. Danh sách các lớp của ontology học liệu mở được trình bày trong bảng sau: STT Class Name 1 Class_tài_liệu 2 Class_chủ_đề 3 Class_loại_tài_liệu 4 Class_nguồn_phát_hành 5 Class_tài_liệu_tham_khảo 6 Class_tác_giả 7 Class_từ_khóa Bảng 5:Cácclass trong ontology học liệu mở 17 Danh sách các object properties1 trong ontology học liệu mở được trình bày trong bảng sau: Property Name Domain Range có_chủ_đề Class_tài_liệu Class_chủ_đề có_loại_tài_liệu Class_tài_liệu Class_loại_tài_liệu có_nguồn_phát_hành Class_tài_liệu Class_nguồn_phát_hành có_tài_liệu_tham_khảo Class_tài_liệu Class_tài_liệu_tham_khảo có_tác_giả Class_tài_liệu Class_tác_giả có_từ_khóa Class_tài_liệu Class_từ_khóa là_chủ_đề_của Class_chủ_đề Class_tài_liệu là_loại_tài_liệu_của Class_loại_tài_liệu Class_tài_liệu là_nguồn_phát_hành_của Class_nguồn_phát_hành Class_tài_liệu là_tài_liệu_tham_khảo_của Class_tài_liệu_tham_khảo Class_tài_liệu là_tác_giả_của Class_tác_giả Class_tài_liệu là_từ_khóa_của Class_từ_khóa Class_tài_liệu Bảng 6:Object properties trong ontology học liệu mở Danh sách các datatype properties2 trong ontology học liệu mở được trình bày trong bảng sau: 1 Object property: Biểu diễn mối quan hệ giữa object này với object khác 2 Datatype property: Biễu diễn mối quan hệ giữa object với XML Schema Datatype value (ví dụ: integer, string). 18 Property Name Domain Range Funtional có_dạng_lưu_trữ Class_tài_liệu string có_ISBN Class_tài_liệu string funtional có_kích_thước Class_tài_liệu string có_mã_số Class_tài_liệu string có_ngôn_ngữ Class_tài_liệu string có_sơ_lược Class_tài_liệu string có_số_trang Class_tài_liệu string có_thời_gian_xuất bản Class_tài_liệu string có_tiêu_đề Class_tài_liệu string funtional tài_liệu_ở_trang Class_tài_liệu string Bảng7: Datatype properties trong ontology học liệu mở Quan hệ của các lớp trong ontology học liệu mở được mô tả trong bảng sau: Class Name Conditions Property Restriction Class_tài_liệu có_chủ_đề only Class_chủ_đề có_loại_tài_liệu only Class_loại_tài_liệu có_nguồn_phát_hành only Class_nguồn_phát_hành có_tài_liệu_tham_khảo only Class_tài_liệu_tham_khảo 19 có_tác_giả only Class_tác_giả có_từ_khóa only Class_từ_khóa có_tiêu_đề only string có_ngôn_ngữ only string có_dạng_lưu_trữ only string có_mã_số only string có_ISBN only string có_kích_thước only string có_sơ_lược only string có_số_trang only string có_thời_gian_xuất_bản only string tài_liệu_ở_trang only string Class_chủ_đề là_chủ_đề_của only Class_tài_liệu Class_loại_tài_li ệu là_loại_tài_liệu_của only Class_tài_liệu Class_nguồn_ph át_hành là_nguồn_phát_hành_của only Class_tài_liệu Class_tài_liệu_th am_khảo là_tài_liệu_tham_khảo_của only Class_tài_liệu Class_tác_giả là_tác_giả_của only Class_tài_liệu 20 Class_từ_khóa là_từ_khóa_của only Class_tài_liệu Bảng 8: Mô tả quan hệ của các lớp trong ontology học liệu mở 2.3. Mô hình cú pháp Phân tích cú pháp là bước đầu tiên trong quá trình xử lý câu hỏi tiếng Việt. Trên cơ sở kết quả của trình phân tích cú pháp, ở bước sau đó chúng ta có thể thiết lập các cơ chế để phân tích ngữ nghĩa cho câu hỏi tiếng Việt. Một cách tổng quát, nội dung của một câu hỏi có thể chia thành hai thành phần: - Thành phần truy vấn (những thông tin được hỏi). - Thành phần thông tin (những thông tin đã biết). Trừ những câu hỏi thuộc loại đúng/sai, những thông tin cần hỏi sẽ có thể được xác định thông qua những thông tin đã biết trong câu hỏi. Trong phạm vi ứng dụng của đề tài, các thành phần đều có liên hệ với nhau thông qua Class_tài_liệu. Ví dụ: Tác giả nào đã viết sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành? Trong câu hỏi ở ví dụ, thành phần truy vấn là “tác giả”, thành phần thông tin là “nhà xuất bản Nguyễn Thị Minh Khai”. Các thành phần này có quan hệ với nhau thông qua “sách”. Do đó, từ thông tin “nhà xuất bản Nguyễn Thị Minh Khai”, có thể xác định được những sách nào được nhà xuất bản Nguyễn Thị Minh Khai phát hành. Kế tiếp, từ những sách đã biết, tiếp tục xác định được các tác giả của chúng. Cuối cùng, có được thông tin đầy đủ để trả lời cho câu hỏi trong ví dụ. Các bước truy vấn và xác định thông tin được mô tả như sau: Nhà xuất bản Nguyễn Thị Minh Khai  những sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành  tác giả của các sách do nhà xuất bản Nguyễn Thị Minh Khai phát hành. Cấu trúc tổng quát chung cho các loại câu hỏi như sau: các thông tin cần hỏi (thuộc thành phần truy vấn) và các thông tin đã biết (thuộc thành phần thông tin). Tùy thuộc vào vị trí 21 đứng trước hay sau của thành phần truy vấn so với thành phần thông tin, chúng ta có hai dạng cấu trúc tổng quát cho các câu hỏi như trình bày trong bảng sau. Cấu trúc Thành phần đứng trước trong câu hỏi Thành phần đứng sau trong câu hỏi Dạng 1 Thành phần truy vấn Thành phần thông tin Dạng 2 Thành phần thông tin Thành phần truy vấn Bảng 9:Các cấu trúc tổng quát của câu hỏi tiếng Việt 2.4. Mô hình ngữ nghĩa Quá trìnhphân tích cú pháp cho một câu hỏi tiếng Việt nhằm mục đích xác định cấu trúc cây cú pháp của câu hỏi. Sau đó, cây cú pháp này sẽ được chuyển về một cấu trúc nghĩa, được biểu diễn dưới dạng cây ngữ nghĩa. Cây ngữ nghĩa bao gồm nhiều loại nút khác nhau, các nút này được tổ chức thành một cấu trúc cây. Mỗi nút trong cây ngữ nghĩa đều có hai thành phần: nhãn của nút và giá trị của nút. Nhãn của nút cho biết nút đó chứa thông tin mô tả gì cho một hoặc nhiều tài liệu được hỏi. Giá trị của nút cho biết cụ thể thông tin mô tả đó là gì. Đối với mỗi loại câu hỏi, hệ thống cần phải xác định xem loại câu hỏi đó có những thành phần nào: có đầy đủ cả thành phần truy vấn và thành phần thông tin, hoặc chỉ có thành phần thông tin. Từ các yếu tố trên, mô hình cây ngữ nghĩa có thể được dùng để biểu diễn ngữ nghĩa cho các dạng câu hỏi mà trong đó một hoặc nhiều thông tin có thể được hỏi dựa trên các thông tin khác đã biết trong câu hỏi đó. Đồng thời, mô hình cây ngữ nghĩa trên cũng cho phép xử lý các quan hệ “và”, “hoặc” giữa các đối tượng trong cùng một thành phần truy vấn hoặc thành phần thông tin. 2.5. Phương pháp sinh mã truy vấn SPARQL Nguyên tắc sinh mã truy vấn SPARQL: mã truy vấn SPARQL gồm các thành phần quan trọng: 22  Địa chỉ truy vấn ontology  Thành phần truy vấn ( với từ khóa Select )  Thành phần cung cấp thông tin ( với từ khóa Where) Trong đó địa chỉ truy vấn ontology được cố định trước, vì vậy để xây dựng mã truy vấn SPARQL để lấy thông tin từ ontology cần phải xác định 2 thành phần truy vấn và thông tin trông mã truy vấn: Sinh mã truy vấn từ cây ngữ nghĩa:  Thành phần truy vấn ( sau từ khóa Select ): được xác định dựa vào các node hỏi thuộc nhánh QUES trong cây ngữ nghĩa.  Thành phần thông tin ( sau từ khóa Where): được xác định dựa vào các node INFO thuộc cây ngữ nghĩa 2.6. Cơ chế tạo sinh câu trả lời Việc tạo sinh câu trả lời tiếng Việt sẽ dựa trên nguyên tắc: biểu diễn cấu trúc ngữ nghĩa của câu trả lời và trên cơ sở đó tạo sinh câu trả lời tiếng Việt. Cấu trúc ngữ nghĩa của câu trả lời tiếng Việt sẽ được xác định dựa trên cấu trúc ngữ nghĩa của câu hỏi tiếng Việt tương ứng. Mô hình ngữ nghĩa được dùng để biểu diễn cấu trúc ngữ nghĩa của câu trả lời. Việc tạo sinh câu trả lời tiếng Việt được thực hiện dựa trên mối quan hệ giữa các nút thành phần và yếu tố tài liệu trong cây ngữ nghĩa.Vì vậy câu trả lời tiếng Việt được tạo sinh sau khi điền các nút quan hệ giữa các nút trên cây ngữ nghĩa với thành phần tài liệu để cho ra câu trả lời hoàn chỉnh. 2.7. Những nguyên tắcsáng tạo cơ bản được ứng dụng 2.7.1. Nguyên tắcphân nhỏ Mô hình được chia thành nhiều thành phần nhỏ như thành phần phân tích cú pháp, thành phần phân tích ngữ nghĩa, thành phần diễn dịch ngữ nghĩa và thành phần tạo sinh câu trả lời. 23 2.7.2. Nguyên tắc tách khỏi Trong quá trình phân tích cú pháp, hệ thống loại bỏ các stop words không cần thiết để tiết kiệm không gian lưu trữ và gia tăng tốc độ xử lý phân tích cú pháp. Ví dụ: “ắt hẳn”, “chẳng lẽ”, “chung quy”, “cơ chừng” … 2.7.3. Nguyên tắc cục bộ Mô hỉnh hệ thống có nhiều thành phần và mỗi thành phần có những chức năng khác nhau. Tham khảo bảng bên dưới Thành phần Chức năng Phân tích cú pháp Phân tích cú pháp câu hòi tiếng Việt Phân tích ngữ nghĩa Chuyển từ cấu trúc cú pháp sang cấu trúc nghĩa, biểu diễn dưới dạng cây ngữ nghĩa. Diễn dịch ngữ nghĩa Truy vấn thông tin và trả về thông tin cần thiết để thay thế thành phấn hỏi trong cây ngữ nghĩa Tạo sinh câu trả lời Tạo sinh câu trả lời từ cây ngữ nghĩa Bảng 10:Chức năng các thành phần mô hình hệ thống 2.7.4. Nguyên tắc kết hợp Để tiết kiệm thời gian và công sức cho việc lập trình phân tích cú pháp câu hỏi tiếng Việt tôi đã kết hợp sử dụng công cụ ANTLR hỗ trợ phân tích cú pháp bằng việc định nghĩa ngữ pháp theo cấu trúc văn phạm phi ngữ cảnh EBNF. 2.7.5. Nguyên tắc chứa trong Nguyên tắc này được ứng dụng hầu hết trong việc lập trình phần mềm.Đối với hệ thống này thì cũng không ngoại lệ.Nguyên tắc chứa trong được ứng dụng nhiều trong quá trình lập trình hiện thực mô hình hệ thống. Ví dụ thành phần rút trích thông tin từ các trang web học liệu mở có chương trình con làm nhiệm vụ rút trích. Trong chương trình con làm 24 nhiệm vụ rút trích gọi một chương trình con khác làm nhiệm vụ phân giải địa chỉ tên miền… 2.7.6. Nguyên tắc dự phòng Trong quá trình truy vấn nếu dạng câu truy vấn nào không nhận diện được cấu trúc câu ta có thể sử dụng chức năng bổ sung dạng câu truy vấn trực tiếp. Sau khi bổ sung dạng câu, hệ thống sẽ nhận diện và trả lời được câu hỏi với cấu trúc vừa bổ sung. Dữ liệu ontology của hệ thống được lưu dưới dạng file filename.owl. Việc thiết kế này dễ dàng cho việc backup và lưu trữ. 2.7.7. Nguyên tắc giải thiếu hoặc thừa Việc xử lý ngữ nghĩa tiếng Việt là một vấn đề khó nên đề tài giới hạn chỉ xử lý những dạng câu truy vấn như đã nêu ở mục 2.1.3 - Phạm vi nghiên cứu của đề tài 2.7.8. Nguyên tắc sao chép Hệ thống sử dụng lại những thư viện mở để tiết kiệm chi phí lập trình. Tham khảo bảng bên dưới Thư viện Chức năng HTMLParser Phân tích và hỗ trợ rút tríchthông tin các trang HTML Jena Xây dựng, thao tác và truy vấn trên ontology ANTLR Phân tích và nhận diện các nút thông tin cần thiết cho việc sinh mã truy vấn và tạo câu trả lời dựa vào các cây cú pháp và cây ngữ nghĩa được phát sinh. Bảng 11:Chức năng các thành phần mô hình hệ thống 25 KẾT LUẬN Việc sử dụng các nguyên tắc, phương pháp luận sáng tạo này sẽ giúp cho việc giải quyết các bài toán trong tin học sẽ dễ dàng và nhanh hơn, bởi việc giải quyết chúng bằng những phương pháp thuật toán tối ưu nhất. Không chỉ trong lĩnh vực tin học mà trong nhiều lĩnh vực khác, việc áp dụng các nguyên tắc trong phương pháp luận sáng tạo sẽ giúp cho việc giải quyết vấn đề nhanh chóng, tối ưu trong khoảng thời gian ngắn nhất và đem lại hiệu quả cao nhất. Phương pháp luận về tư duy sáng tạo và đổi mới là một môn khoa học về sáng tạo. Khi được thầy Hoàng Kiếm giảng về phương pháp luận về tư duy sáng tạo và đổi mới, tôi đã có được những phương pháp làm chủ tư duy từ đó đưa ra những sáng tạo nho nhỏ phục vụ cho những đề tài nghiên cứu chính mình. Tôi rất thấm thía câu nói của thầy “Những vấn đề liên quan tới kĩ thuật tuy không thật dễ nhưng cũng không thật khó, có thời gian thì sẽ làm được. Nhưng có những vấn đề phải qua quá trình nghiên cứu, sáng tạo thì mới có thể giải quyết hoặc thậm chí không có lời giải đáp!” 26 TÀI LIỆU THAM KHẢO [1] Slides bài giảng “Phương pháp nghiên cứu khoa học trong tin học” – GS.TSKH Hoàng Kiếm. [2] Atshuler, Giải 1 bài toán phát minh sáng chế, Nhà xuất bản thống kê – 1991. [3] Hoàng kiếm, Giải 1 bài tóan trên máy tính như thế nào I, II, III, Nhà xuất bản Giáo dục – 2001, 2002, 2004 [4] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Semantic Model for Representing Vietnamese Questions in OpenCourseWare Retrieval System", Proceedings of the 2011 3rd International Conference on Machine Learning and Computing (ICMLC 2011), vol. 4, pp. 331-335, February 26-28, 2011, Singapore. ISBN: 978-1-4244-9252-7. [5] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Understanding the Vietnamese Questions in OpenCourseWare Retrieval System", Proceedings of the 2011 3rd International Conference on Machine Learning and Computing (ICMLC 2011), vol. 4, pp. 327-330, February 26-28, 2011, Singapore. ISBN: 978-1-4244-9252-7. [6] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Semantic Representation for Processing a Series of Vietnamese Questions in OpenCourseWare Retrieval System", The 2011 International Conference on Information and Knowledge Management (ICIKM 2011), July 15 - 17, 2011, Haikou, China. [7] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, “A Semantic Approach to Answer Vietnamese Questions in OpenCourseWare Retrieval System”, The 2011 International Conference on Software Technology and Engineering (ICSTE 2011), August 12-14, 2011, Kuala Lumpur, Malaysia. [8] Dang Tuan Nguyen, An Hoai Vo, Phuc Tri Nguyen, "Answering a Series of Vietnamese Questions in Library Retrieval System", The 2011 The 2nd International Conference on Future Information Technology (ICFIT 2011), September 16-18, 2011, Singapore. 27 [9] Thư viện giáo trình điện tử của Bộ Giáo dục và Đào tạo. [Trực tuyến]. [10] Thư viện giáo trình điện tử của EdusoftTeam.[Trực tuyến]. [11]Thư viện học liệu mở Việt nam. [Trực tuyến].

Các file đính kèm theo tài liệu này:

  • pdf_121_nguyentriphuc_7987.pdf