Đề tài Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số

Trang này cho phép đăng nhập vào hệ thống thư viện bài báo. Sau khi người dùng đã login vào hệ thống với đúng username/password đã đăng ký, người dùng sẽ truy cập được thư viện bài báo, có thể đọc được bài tóm lược của bài báo hay toàn văn của bài báo dựa trên việc truy vấn theo tên tác giả hay theo từ khóa hay từ danh sách bài báo, hay danh sách tác giả theo thứtự.

pdf128 trang | Chia sẻ: lylyngoc | Lượt xem: 2256 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Đề tài Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
một ma trận A cĩ dịng là văn bản và cột là các dãy từ phổ biến. Mỗi phần tử aik của ma trận A cho biết trọng số của dãy từ k trong văn bản thứ i. Gọi M là số dịng của ma trận (số văn bản) trong khối ngữ liệu, gọi N số cột (số dãy từ phổ biến) của khối dữ liệu, fik là tần số xuất hiện của dãy từ phổ biến thứ k trong văn bản i, nk là số văn bản cĩ chứa dãy từ phổ biến thứ k trong khối ngữ liệu. Cĩ nhiều cách để ấn định trọng số aik. Một số cách tiêu biểu như: a) Trị nhị phân aik = 1 nếu fik ≥ 0 và aik = 0 nếu ngược lại b) Tần số của dãy từ aik = fik c) Hệ số tfidf Các cách trên khơng tính đến tần số của dãy từ phổ biến trong tất cả các văn bản trong khối ngữ liệu. Một tiếp cận khác để tính trọng của dãy từ là sử dụng hệ số tfidf ( term frequency. Inversed document frequency) để gán trọng cho dãy từ k trong văn bản i là aik = fik x log( M/nk ) 5.3.2. Rút gọn chiều Như đã trình bày ở trên mỗi dãy từ phổ biến sẽ ứng với một chiều trong khơng gian vector đặc trưng cho văn bản. Trong khối ngữ liệu lớn với hàng ngàn văn bản, số dãy từ phổ biến cĩ thể lên đến hàng chục ngàn. Do vậy cần các phương pháp để rút gọn chiều của khơng gian vector đại diện văn bản. Mục đích của bước rút gọn chiều là loại bỏ các từ hoặc dãy từ khơng chứa thơng tin để cải thiện khả năng đặc trưng của vector cho văn bản. Một số phương pháp rút gọn chiều tiêu biểu cĩ thể liệt kê như sau: 5-18 a)Ngưỡng tần số văn bản Tần số văn bản của một dãy từ là số lượng văn bản cĩ chứa dãy từ đĩ. Các từ hoặc dãy từ cĩ tần số văn bản nhỏ hơn hoặc bằng một ngưỡng cho trước (ngưỡng tần số văn bản) sẽ bị loại bỏ. b)Các hư từ hoặc từ kết thúc Các hư từ là các từ xuất hiện phổ biến nhưng khơng mang thơng tin nào cả. Trong các văn bản tiếng Anh các hư từ thường là giới từ, đại từ, liên từ như: a, an, i , of, about, where, that, when. . . 5.3.3. Tạo vector đặc trưng văn bản 5.3.3.1. Tiếp cận truyền thống Khối ngữ liệu văn bản được phân tích để tìm các dãy từ phổ biến. Sau khi rút gọn đặc trưng, các vector nhị phân đặc trưng cho văn bản sẽ được tạo theo cơ chế trị nhị phân. Thành phần thứ aik =1 nếu văn bản i cĩ chứa dãy từ k và aik=0 nếu ngược lại. Một văn bản bản được đại diện bởi một điểm trong khơng gian n chiều (n là số dãy từ phổ biến trong khối ngữ liệu nhiều văn bản), trong đĩ mỗi thành phần của véc tơ cĩ giá trị 1 hay 0 tùy thuộc vào sự cĩ mặt hay khơng của cụm từ đĩ trong văn bản hiện hành ta đang xét. Goi T = {T1, T2,…,Tm} là tập các dãy từ phổ biến với ngưỡng τ Mỗi văn bản di ∈ D sẽ được đặc trưng thành vector vi m chiều Trong đĩ: vi = với 0 nếu Tj khơng xuất hiện trong di vij = 1 nếu Tj xuất hiện trong di Ví dụ: Giả sử ta cĩ 3 văn bản: 5-19 d1:“cat ate cheese” d2: “mouse ate cheese too” d3: “cat ate mouse too” Với ngưỡng τ = 2, ta cĩ 7 cụm từ phổ biến là: T ={cat, cat ate, ate, ate cheese, cheese, mouse, too} Khi đĩ: d1 đặc trưng thành v1(1, 1, 1, 1, 1, 0, 0) d2 đặc trưng thành v2(0, 0, 1, 1, 1, 1, 1) d3 đặc trưng thành v3(1, 1, 1, 0, 0, 1, 1) 5.3.3.2. Tiếp cận cải tiến cĩ sử dụng từ gần nghĩa Trong tâp các dãy từ phổ biến này cĩ thể cĩ các từ đồng nghĩa hoặc gần nghĩa với nhau. Ví dụ tập các dãy từ phổ biến cĩ chứa từ "man" và "person". Giả sử trong văn bản thứ nhất cĩ chứa từ "man" và khơng cĩ chứa từ "person", trong văn bản thứ hai cĩ chứa từ "person" nhưng khơng cĩ chứa từ "man". Theo cách truyền thống vector đặc trưng cho văn bản thứ nhất sẽ cĩ trị 1 ứng với thành phần "man" và cĩ trị 0 ứng với từ "person"; vector đặc trưng cho văn bản hai sẽ cĩ trị 0 ứng với thành phần "man" và cĩ trị 1 ứng với từ "person". Tuy vậy, giữa từ "person" và từ "man" cĩ liên hệ về nghĩa với nhau vì man (người đàn ơng, nhân loại) và person( người) nhưng trong tiếp cận truyền thống khơng xem xét khả năng này. Gần đây một số tác giả như Elle M. Voorhees (1998), Darin Brezeale(1999) đã quan tâm đến từ đồng nghĩa trong mơ hình vector đặc trưng cho văn bản nhằm nâng cao khả năng phân lớp hoặc gom cụm văn bản trong đĩ quan hệ giữa các văn bản được bổ sung thêm quan hệ gần nghĩa giữa các từ. Sau khi đã phát hiện được các từ gần nghĩa nhau, Darin Brezeale đã điều chỉnh các thành phần của vector nhị phân đặc trưng cho văn bản. Trong ví dụ trên, văn bản thứ nhất cĩ chứa từ "man" và khơng cĩ chứa từ "person" nhưng do từ "man" và "person" cĩ quan hệ gần nghĩa nên thành phần "person" trong vector đặc trưng cho văn bản thứ nhất sẽ được điều chỉnh thành trị 1. Vấn đề đặt ra là làm thế 5-20 nào để đo đạc mức độ đồng nghĩa giữa hai từ? Darin Bre.zeale(1999) đã sử dụng WordNet được cung cấp miễn phí trên Internet để thực hiện vần đề này. WordNet là tên của một dự án được khởi động từ năm 1985 do George Miller đề xướng nhằm thiết kế hệ thống cho phép tra cứu từ điển tiếng Anh theo khái niệm của từ. WordNet hiện đang được lưu trên Internet và cĩ thể mang về sử dụng trên máy tính cá nhân. Wordnet tổ chức thơng tin theo nghĩa của từ thay vì dạng từ. Như trong các từ điển tiếng Anh truyền thống, Wordnet chứa các thơng tin cơ bản về từ. Bên cạnh đĩ, WordNet cịn chứa một thơng tin hữu ích là các quan hệ giữa các từ trong đĩ cĩ quan hệ đồng nghĩa và quan hệ hypernym. Quan hệ hypernym của một từ là một từ tổng quát hơn thỏa phát biểu " là một loại của ". Ví dụ tree "là một loại của" plant, plant "là một loại của" organism". Hình 5.3 là một đồ thị biểu diễn quan hệ " là một loại của" của các từ organism, plant, flora, tree, bush, aralia. Hình 5.3. Đồ thị quan hệ hypernym giữa các danh từ WordNet lưu trữ các danh từ, động từ, tính từ, trạng tự. Trong tiếp cận của Darin Brezeale, chỉ sử dụng danh từ làm cơ sở phát triển thuật giải. Theo G.Miller, WordNet cĩ 25 nhĩm danh từ như sau: Organism Plant Flora Tree Bush Aralia 5-21 {act, activity} {animal,fauna} {artifact} {attribute} {body} {cognition,knowledge} {communication} {event, happening} {feeeling, emotion} {food} {group, grouping} {location} {motivation, motive} {natural object} {natural phenomenon} {person, human being} {plant, flora} {possesion} {process} {quantity, amount} {relation} {shape} {state} {substance} {time} WordNet cung cấp nhiều cách để xác định các từ cĩ quan hệ ngữ nghĩa với nhau. Tiếp cận của Darin Brezeale đã sử dụng cấu trúc cây hypernym của một từ nhằm phát hiện quan hệ gần nghĩa của hai từ. Sau khi đã xác lập được cây chứa hai từ cần xét, sẽ duyệt cây để xem hai từ này cĩ chung tổ tiên hay khơng và tính số nút từ nút ứng với từ cần xét đến nút tổ tiên chung. Khoảng cách ngữ nghĩa giữa hai từ bằng tổng khoảng cách của con đường đi từ hai từ đến nút tổ tiên chung. Khoảng cách này càng ngắn thì hai từ càng gần nghĩa. Ví dụ với cây hypernym trong hình 5.3, khoảng cách giữa từ "tree" và từ "flora" là 3, khoảng cách giữa từ "plant" và "flora" là 2. Để điều chỉnh các thành phần của vector nhị phân đặc trưng văn bản ừng với các từ gần nghĩa, Darin Brezeale đã sử dụng ngưỡng gần nghĩa. Chỉ cĩ các căp từ cĩ mức độ gần nghĩa nhỏ hơn hoặc bằng ngưỡng này thì các thành phần tương ứng trong vector đặc trưng mới bị điều chỉnh. Ngưỡng này thuờng được chọn là 3, do vậy từ "tree" và "flora" trong cây hypernym ở hình 5.3 được xem là đồng nghĩa và các thành phần tương ứng với các từ này trong vector đặc trưng đều bị điều chỉnh. 5-22 5.4. DÙNG CÂY HẬU TỐ HỖ TRỢ TẠO TIÊU ĐỀ ĐỀ MỤC Phần này trình bày các buớc sử dụng cây hậu tố đề tìm các dãy từ phổ biến tối đại trong một khối ngữ liệu gồm nhiều văn bản. Sau đĩ sử dụng tập hợp các từ phổ biến nhằm tiền xử lý dữ liệu (biên mục tài liệu) . Qui trình gồm các bước sau: Buớc 1: Sử dụng cây hậu tố để tìm danh sách các dãy từ phổ biến trong một khối ngữ liệu gồm nhiều văn bản Buớc 2: Sử dụng danh sách các dãy từ phổ biến để biên mục các tập tin trong khối ngữ liệu và tạo danh sách tiền kết hợp tập văn bản vào danh sách các dãy từ phổ biến. Bước 3:Tra cứu thư viện thơng qua danh sách tiền kết hợp Kết quả thử nghiệm: 1.Danh sách các dãy từ phổ biến được phát hiện từ các kho ngữ liệu thử nghiệm và số văn bản cĩ chứa dãy từ phổ biến. STT Dãy từ phổ biến Số văn bản ================================================ 1 : annotated 2 2 : automatic 11 3 : bilingual corpus 3 4 : in the 15 5 : in this 2 6 : method 24 7 : model for 2 8 : natural language processing 3 9 : of information 2 10 : the accuracy of 2 11 : this problem 4 12 : to solve 4 13 : we will 4 14 : extract 5 15 : human 2 16 : in a 13 17 : is a 23 18 : languages 5 19 : meaning 3 20 : on the 15 21 : organized 6 22 : part 32 23 : some 10 24 : the similar 3 25 : better 3 5-23 26 : is used 6 27 : machine translation 3 28 : natural 4 29 : optimized 2 30 : processing 8 31 : result 16 32 : we describe 4 33 : access 3 34 : application 11 35 : develop 10 36 : information 12 37 : on computer 2 38 : or to 2 39 : such as 7 40 : technology 3 41 : user 6 42 : course 2 43 : making 2 44 : student's 2 45 : network 5 46 : paper 27 47 : the document 8 48 : an overview 5 49 : applications 8 50 : geometric 2 51 : technique 4 52 : model 11 53 : algorithms 4 54 : approaches 4 55 : association rules 2 56 : data 14 57 : large set of 2 58 : mining 7 59 : problem 13 60 : way 5 61 : based 17 62 : can be 18 63 : cases 2 64 : complex 2 65 : knowledge 7 66 : problems 3 Tiền kết hợp các tập tin vào các danh sách dãy từ phổ biến: STT Dãy từ phổ biến Mã văn bản ================================================ 1 : (approx p1 2 : - sentence p1 3 : annotated p1 4 : annotated p22 5 : automatic p1 6 : automatic p2 7 : automatic p5 8 : automatic p15 9 : automatic p17 5-24 10 : automatic P25 11 : automatic P28 12 : automatic p32 13 : automatic p39 14 : automatic p40 15 : automatic p44 16 : been solved p1 17 : bilingual corpus p1 18 : bilingual corpus p20 19 : bilingual corpus P25 20 : but in p1 609 : page segmentation p18 610 : page segmentation P27 611 : using recursive morphological p18 612 : association rules are p19 613 : attributes p19 614 : dynamic programming p19 615 : numeric p19 616 : optimized association rules p19 617 : optimized support p19 Tra cứu thư viện thơng qua danh sách tiền kết hợp Chi tiết thuật giải kết hợp tập văn bản vào danh sách các dãy từ phổ biến: Input: − Tập các văn bản mới NP 5-25 − Tập các dãy từ phổ biến mới NS − Tập các dãy từ phổ biến được đánh dấu là đã được kết hợp với các văn bản hiện cĩ S − Tập các văn bản được đánh dấu là đã kết hợp với các dãy từ phổ biến hiện cĩ P − Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến SP{(px, sy), …}, px ∈ P, sy ∈ S − Tập các dãy từ phổ biến và số văn bản cĩ chứa dãy từ phổ biến SR{(sx, n), …}, sx ∈ S, n ∈ N Output: − Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến SP{(px, sy), …}, px ∈ P, sy ∈ S − Tập các dãy từ phổ biến được đánh dấu là đã được kết hợp với các văn bản hiện cĩ S − Tập các văn bản được đánh dấu là đã kết hợp với các dãy từ phổ biến P − Tập các dãy từ phổ biến và số văn bản cĩ chứa dãy từ phổ biến SR{(sx, n), …}, sx ∈ S, n ∈ N Bước 1: tP = ∅ tS = ∅ pc = 0 Bước 2: Nếu NS.count >0 thì { For i=1 to NS.count do { pc = 0 For j=1 to P.count do { 5-26 tSubS = {tập các tiêu đề con của NS[i]} T = True For k=1 to tSubS.count do { Nếu trong văn bản P[j] khơng chứa tSubS[k] thì { T = false ; break; } } Nếu T=True thì { SP = SP + {(P[j], NS[i])} pc = pc + 1 } } tS = tS + {NS[i]} Nếu NS[i] chưa cĩ trong SR thì SR = SR + {(NS[i], pc)} Ngược lại Trong SR, sửa (NS[i], n) thành (NS[i], pc), n giá trị ban đầu sẵn cĩ } S = S + tS } Bước 3: Nếu NP.count >0 thì { tP = NP P = P + tP For i=1 to S.count do { pc = 0 5-27 For j=1 to NP.count do { tSubS = {tập các tiêu đề con của S[i]} T = True For k=1 to tSubS.count do { Nếu trong văn bản P[j] khơng chứa tSubS[k] thì { T = false ; break; } } Nếu T=True thì { SP = SP + {(NP[j], S[i])} } } Nếu S[i] chưa cĩ trong SR thì SR = SR + {(S[i], pc)} Ngược lại Trong SR, sửa (S[i], n) thành (S[i], pc), n giá trị ban đầu sẵn cĩ } } 5-28 Các bảng dữ liệu liên quan đến thao tác kết hợp tập văn bản vào danh sách các dãy từ phổ biến: Mơ hình vật lý: PAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS, PAPERFILENAME, PAPERFILEPATH) NEWPAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS, PAPERFILENAME, PAPERFILEPATH) SUBJECTHEADINGS (SHID, SUBJECTHEADINGS) NEWSUBJECTHEADINGS (SHID, SUBJECTHEADINGS) SUBJECTHEADINGPAPER (SHID, PAPERID) SEARCHRESULT (SHID, SUBJECTHEADINGS, ITEMSCOUNT) 5-29 Mơ tả các bảng dữ liệu: PAPER: chứa các văn bản hiện cĩ đã được kết hợp vào danh sách các dãy từ phổ biến (chứa tập P trong giải thuật trên) Thuộc Tính Diễn giải PAPERID Mã số bài báo. Mỗi bài báo cĩ một mã số duy nhất để phân biệt với các bài báo khác PAPERNAME Tựa đề của bài báo TITLE Chủ đề của bài báo ABTRACT Trích yếu của bài báo, tĩm lược của bài báo KEYWORDS Các từ khĩa chính trong bài báo. Các từ khĩa này cĩ sẵn hoặc sẽ được trích rút đặc trưng từ các trích yếu của bài báo PAPERFILENAME Tên tập tin tồn văn của bài báo PAPERFILEPATH Đường dẫn nơi chứa tập tin tồn văn của bài báo. NEWPAPER: chứa các văn bản mới, chưa được kết hợp vào danh sách các dãy từ phổ biến (chứa tập NP trong giải thuật trên). Thuộc Tính Diễn giải PAPERID Mã số bài báo. Mỗi bài báo cĩ một mã số duy nhất để phân biệt với các bài báo khác PAPERNAME Tựa đề của bài báo TITLE Chủ đề của bài báo ABTRACT Trích yếu của bài báo, tĩm lược của bài báo KEYWORDS Các từ khĩa chính trong bài báo. Các từ khĩa này cĩ sẵn hoặc sẽ được trích rút đặc trưng từ các trích yếu của bài báo PAPERFILENAME Tên tập tin tồn văn của bài báo PAPERFILEPATH Đường dẫn nơi chứa tập tin tồn văn của bài 5-30 báo. SUBJECTHEADINGS: Tiêu đề đề mục. Chứa danh sách các dãy từ phổ biến hiện cĩ đã được kết hợp vào danh sách các văn bản (chứa tập S trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. SUBJECTHEADINGS Dãy các từ phổ biến được ngăn cáhch bằng một ký tự ngăn cách “&&” NEWJECTHEADINGS: Tiêu đề đề mục. Chứa danh sách các dãy từ phổ biến mới, chưa được kết hợp vào danh sách các văn bản (chứa tập NS trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. SUBJECTHEADINGS Dãy các từ phổ biến được ngăn cáhch bằng một ký tự ngăn cách “&&” SUBJECTHEADINGPAPER: Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến (chứa tập SP trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. PAPERID Tương ứng với một mã số của tiêu đề đề mục sẽ cĩ một hay nhiều mã số của bài báo đã được tìm thấy trong thư viện bài báo 5-31 SEARCHRESULT: Tập các dãy từ phổ biến và số văn bản cĩ chứa dãy từ phổ biến (chứa tập SR trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. THEADINGS Tên của một tiêu đề đề mục cùng từ đồng hiện của tiêu đề đề mục đĩ, hay dãy từ phổ biến. ItemsCount Số các bài báo được tìm thấy theo tiêu đề đề mục cĩ trong thư viện bài báo 5.5. SỬ DỤNG DÃY TỪ PHỔ BIẾN HỖ TRỢ BIÊN MỤC TỰ ĐỘNG Như đã trình bày trong chương 3 mỗi tiêu đề đề mục được xác định bằng một tập hợp các từ. Cĩ thể biểu diễn cấu trúc của tiêu đề đề mục dưới dạng cấu trúc cây như trong hình sau Việt Nam DakLak Điểm truy cập 1 Đồng Nai Điểm truy cập 2 An Giang Điểm truy cập 3 Vật lý Hiện đại Điểm truy cập 4 Hạt nhân Điểm truy cập 5 Lượng tử Điểm truy cập 6 . . . . . Một điểm truy cập được xác định bằng nhãn chứa các cụm từ trên các cạnh nối từ gốc đến nút lá ứng với điểm truy cập đĩ. Ví dụ điểm truy cập 1 sẽ 5-32 ứng với nhãn Việt Nam – DakLak, Điểm truy cập 2 ứng với nhãn Việt Nam - Đồng nai. Sử dụng cây hậu tố mở rộng cĩ thề xác định được một cách từ động các dãy từ phổ biến trong văn bản. Sau đĩ tra cứu trên cấu trúc cây hậu tố để gắn văn bản vào các điểm truy cập cĩ nhãn là tập con của tập các dãy từ phổ biến được phát hiện từ việc phân tích văn bản. Với phương pháp này cĩ thể hỗ trợ cơng tác biên mục tư liệu. Cũng cần lưu ý là một văn bản cĩ thể được gắn vào nhiều điểm truy cập. Ví dụ văn bản cĩ chứa dãy từ Vật Lý- Hiện đại- Hạt nhân sẽ được gắn vào hai điểm truy cập là điểm truy cập 4 và điểm truy cập 5. Do vậy cĩ thể truy cập văn bản từ nhiều điểm truy cập khác nhau. 6-1 CHƯƠNG 6 GOM CỤM THƠNG VĂN BẢN BẰNG MẠNG KOHONEN 6.1 KIẾN TRÚC CỤM PHẲNG Cho tập đối tượng O, gom cụm phẳng là tiến trình gom các đối tượng thành các cụm ( tập con của O) sao cho các đối tượng trong cụm cĩ mức độ tương tự cao và các đối tượng trong các cụm khác nhau cĩ mức độ tương tự thấp. Kết qủa gom cụm phẳng sẽ tạo ra một phân hoạch tập đối tượng. Gọi C1,C2,...,Ck là một kiến trúc cụm phẳng, các cụm thỏa các tính chất sau: i) ∀i,j ∈[1,...,k] , Ci ∩ Cj = ∅ ii) Υk i iC 1= = O 6.1. MẠNG KOHONEN Mạng Kohonen là một mạng nơron làm việc theo lối tự tổ chức nhằm tạo ra một ánh xạ từ tập các mẫu học cĩ số chiều lớn thành các cụm cĩ số chiều thấp hơn [3],[4]. Mạng Kohonen hai chiều thường được sử dụng để gom cụm văn bản vì kết quả gom cụm được thể hiện trực quan trên một lưới hai chiều. Trong mạng Kohonen hai chiều, các nơron của lớp ra được sắp xếp trên một mảng hai chiều. Mảng này được gọi là lớp ra Kohonen. Tất cả các nơron của lớp vào đều được nối với các nơron trên lớp ra Kohonen. Hình 6.1 là cấu trúc của mạng Kohonen hai chiều. Hình 6.1: Cấu trúc của mạng Kohonen hai chiều 6-2 6.3. GOM CỤM TỪ LỚP RA KOHONEN Mỗi liên kết giữa đầu vào và đầu ra của mạng Kohonen tương ứng với một trọng số. Tổng đầu vào của mỗi nơron trong lớp Kohonen bằng tổng các trọng của các đầu vào nơron đĩ. Tiến trình huấn luyện sẽ điều chỉnh các trọng số dần dần theo mẩu học. Kết quả của tiến trình huấn luyện sẽ tạo trên lớp ra Kohonen các cụm dữ liệu ứng với nhĩm các nút gần nhau trên lớp ra Kohonen. Các mẫu học sẽ thuộc về cụm cĩ khoảng cách gần nhất từ nĩ đến nơron trong cụm. Theo tính chất của thuật giải huấn luyện trên mạng Kohonen, các cụm cĩ vị trí gần nhau trên mạng Kohonen sẽ chứa các đối tượng cĩ mức độ tương tự cao. Tính chất này được sử dụng để truy cập thơng tin tương tự trong thư viện số nhờ lớp ra Kohonen được hiển thị trên màn hình. 6.4. THUẬT GIẢI HUẤN LUYỆN MẠNG KOHONEN Chức năng cơ bản của thuật giải huấn luyện mạng Kohonen là gom các vector trọng của các nơron trên lớp ra Kohonen thành các cụm rời nhau. Thuật giải huấn luyện mạng Kohonen Bước 1: Khởi tạo ngẫu nhiên các trọng số trên lớp ra Kohonen và gán Nc(t) là bán kính của vùng láng giềng. Khởi gán biến chu kỳ t=1 Bước 2: Đưa vào một mẫu học v(t) và chuẩn hĩa vector nhập v(t) Tính khoảng cách Euclide từ vector nhập v(t) đến tất cả các vector trọng của tất cả các nơron trên lớp ra Kohonen và chọn nơron cĩ khoảng cách Euclide dE nhỏ nhất từ vector học v(t) đến trọng ứng với nút đĩ. dE(v,wic jc) = min (dE(vi,wij)) Trong đĩ i,j là các chỉ số hợp lệ được xác lập theo kích thước của lớp ra Kohonen. Bước 3: Cập nhật các trọng số của các nút nằm trong vùng lân cận của nút chứa nơron chiến thắng (ic,jc) theo cơng thức: 6-3 wij(t+1) = wij(t) + g(i,j, ic,jc,t) (v – wij(t)) Trong đĩ ic-Nc(t) ≤ i ≤ ic + Nc(t) và jc-Nc(t) ≤ j ≤ jc + Nc(t) Bước 4. Cập nhật t = t + 1, đưa mẫu nhập kế tiếp vào mạng Kohonen và quay về bước 2 cho đến khi đạt được điều kiện hội tụ hay vượt qua số lần lặp qui định. 6.5. ĐẶC TRƯNG CÁC CỤM TRÊN LỚP RA KOHONEN Sử dụng phương pháp của Sestilo & Dillon,1997. Theo cấu trúc của lớp ra Kohonen, thành phần thứ k của vector trọng phản ánh mức độ đĩng gĩp của thành phần thứ k của tất cả các vector nhập. Gọi (wij1,wij2,. . . , wijn) là vector trọng tại nút i,j trên lớp ra Kohonen. Nguỡng được chọn wijmax=max((wij1,wij2,. . . , wijn). Các đầu vào k cĩ | wijmax - wijk | < T với T là ngưỡng nằm trong khoảng từ 0 đến 1. Giá trị của ngưỡng T phản ánh mức độ biến thiên quanh trị Wmax. Ví dụ: Với vector trọng w12 =(0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20), ta cĩ: w12max = max((0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20)=0,43 Nếu chọn T=0,05 thì các thành phần thứ 1, 2, 3, 6 sẽ đĩng gĩp mạnh vào vector trọng w12 và vector đặc trưng cho node này là (1,1,1,0,0,1,0) tương ứng với tập hợp tên các thành phần của vector nhập, trong trường hợp này là {term(1), term(2), term(3),term(6)}. Tập hợp này được gọi là nhãn của nút . 6.6. QUI TRÌNH GOM CỤM BẰNG MẠNG KOHONEN Cho tập văn bản D = {d1,d2,…,dn} với n là số văn bản trong D Bước 1: (Xây dựng cây hậu tố) Từ tập văn bản D ta rút trích và cập nhật tất cả các hậu tố của các văn bản trong D.Gọi T là tập các cụm từ của D. Bước 2: (Rút các dãy từ phổ biến) Dãy từ phổ biến là các cụm từ thường xuyên xuất hiện trong các văn bản thuộc D. 6-4 • Như vậy, với ngưỡng phổ biến τ cho trước ta cĩ thể tìm được các dãy từ phổ biến khác nhau. • Đăt T(τ ) = {t∈T / số lần xuất hiện của t trong D ≥ τ } Giả sử T(τ ) = {t1, t2,…,tm} với m là số cụm từ phổ biến Bước 3: (Rút đặc trưng các văn bản) Mỗi văn bản di∈D sẽ được đặc trưng thành điểm(véc tơ) vi cĩ toạ độ trong khơng gian m chiều là: vi(vi1,vi2,…,vim) Trong đĩ: 0 nếu tj khơng cĩ trong di vij = 1 nếu tj cĩ trong di Bước 4 : Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều chỉnh các thành phần của vector đặc trưng văn bản. Bước 5 : Huấn luyện mạng Kohonen. Bước 6: Truy vấn văn bản trong thư viện số qua lớp ra Kohonen. 6-5 6.7. HỆ THỐNG GIAO DIỆN 6.7.1 Sơ đồ liên kết các màn hình Hình 6.2: Sơ đồ liên kết màn hình MÀN HÌNH CHÍNH MÀN HÌNH CÂY HẬU TỐ XEM CÂY HẬU TỐ IN CÂY HẬU TỐ TRÚT TRÌCH ĐẶC TRƯNG VĂN BẢN TÌM CÁC ĐỒNG HIỆN LIỆT KÊ CÁC CỤM TỪ PHỔ BIẾN HUẤN LUYỆN MẠNG KOHONEN TRUY VẤN TƯƠNG TỰ TRÊN LỚP RA KOHONEN 6-6 6.7.2 Màn hình chính Màn hình 6.1: Màn hình chính Trong màn hình này, người dùng cĩ thể chọn cây hậu tố mà mình đã xây dựng từ trước bằng cách click vào nút Open. Nếu muốn xố cây hiện hành trên danh sách các cây hậu tố ở trên thì click vào nút Delete. Nếu chúng ta muốn tạo một cây hậu tố mới hồn tồn thì click vào nút New, và tên cây hậu tố mới này do người dùng đặt tên. Kế tiếp, người sử dụng chọn 1 cây hậu tố từ danh sách, hệ thống sẽ tự động thơng báo cây hậu tố đang được chọn và các văn bản hiện cĩ của nĩ trong các EditText ở dưới.Cuối cùng là bấm nút NEXT để tiến hành các thao tác trên cây hậu tố đã được chọn. 6-7 6.7.3. Màn hình cây hậu tố xử lý cây hậu tố Màn hình 6.2: Xử lý cây hậu tố Từ màn hình này, ta cĩ thể làm tất cả các thao tác trên cây hậu tố đã được chọn. Người sử dụng cĩ thể thực hiện các cơng việc của mình bằng cách click vào các nút bấm hay chọn các mục xử lý từ thanh thực đơn. Các thao tác người sử dụng cĩ thể thực hiện là: -Tăng cường văn bản vào cây: click vào nút Add để chọn các văn bản cần tăng cường, bấm nút Delete để loại các văn bản khơng quan tâm ra khỏi danh sách. Để tăng cường văn bản được chọn vào cây hậu tố ta bấm nút > , hay bấm nút >> để tăng cường tất cả các văn bản cĩ trong danh sách vào cây hậu tố đang được xét.Các văn bản được tăng cường vào cây sẽ khơng thể loại ra khỏi cây. Do đĩ, khi tăng cường các văn bản, người sử dụng phải cân nhắc một cách kỹ lưỡng. 6-8 - Clear Data : Chức năng này cho phép xĩa tồn bộ dữ liệu trong cây hậu tố. Sau khi thực hiện chức năng này, cây hậu tố trở thành cây rỗng và khơng thể phục hồi lại được nên trước khi xĩa dữ liệu trong cây hậu tố, người sử dụng nên cân nhắc một cách kĩ lưỡng. - Print Tree : Chức năng này cho phép xem tồn bộ cây hậu tố dướidạng file văn bản dạng Text. - Display Tree: chức năng này cho phép người dùng xem tồn bộ các thơng tin chi tiết của các cụm từ trong cây hậu tố đang xét như tần số xuất hiện của các cụm từ trong các văn bản và tập văn bản. - Select Doc Feature: chức năng này cho phép người dùng mở màn hình rút trích đặc trưng văn bản. - Update Dictionary: chức năng này chủ yếu dành cho người quản trị hệ thống cho phép thêm và loại bớt một số cụm từ vơ nghĩa vào từ điển chứa các cụm từ vơ nghĩa. Chức năng này cịn cho phép liệt kê và cập nhật các cụm từ xuất hiện trong tồn tập văn bản (thường là các cụm từ vơ nghĩa khơng cần thiết cho quá trình phân cụm). 6.7.4 Màn hình hiển thị các thơng tin liên quan đến cây hậu tố Màn hình 6.3:Màn hình hiển thị cây hậu tố 6-9 Màn hình này thể hiện tất cả các thơng tin của các cụm từ rút ra từ tập các văn bản, và xem nội dung của từng văn bản. 6.7.5 Màn hình rút đặc trưng văn bản Màn hình 6.4. Màn hình rút trích đặc trưng cho các văn bản Đây là màn hình rút cụm từ phổ biến và tạo véc tơ đặc trưng cho các văn bản. Màn hình trên gồm các chức năng sau chức năng sau: - Frequent term: Tiến hành tìm các cụm từ phổ biến xuất hiện trong tồn tập văn bản. - Binary Vector: Chức năng này dùng để rút trích đặc trưng cho các văn bản trong tồn tập văn bản. Sau khi thực hiện chức năng này thì mỗi văn bản được đặc trưng bởi một véc tơ nhị phân trong khơng gian n chiều (n là số cụm từ phổ biến trong tồn tập văn bản). 6-10 - Display term : Hiển thị tất cả các cụm từ phổ biến được rút trích từ tập các văn bản. - Cooccurrence: Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều chỉnh các thành phần của vector đặc trưng văn bản. 6.7.6. Màn hình hiển thị thơng tin các dãy từ phổ biến Màn hình 6.5: Hiển thị các các cụm từ phổ biến 6-11 6.7.7 Màn hình đồ thị đồng hiện các dãy từ phổ biến Màn hình 6.6: Dùng đồ thị đồng hiện Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều chỉnh các thành phần của vector đặc trưng văn bản theo một một ngưỡng cho trước. 6-12 6.7.8 Màn hình huấn luyện mạng KOHONEN Màn hình 6.7. Huấn luyện mạng Kohonen Để bắt đầu quá trình huấn luyện mạng Kohonen chúng ta bấm vào nút Run. Sau khi quá trình huấn luyện mạng Kohonen kết thúc, người dùng bấm vào nút Next để xem các cụm của mạng ra Kohonen. 6.7.9. Màn hình truy vấn tương tự qua lớp ra Kohonen Cho Ci là một cụm trên lớp ra Kohonen, gọi Ci.S là tập các thuộc tính chung đặc trưng cho cụm, Ci.X là các đối tượng trong cụm Ci, Ci.X được tạo bằng cách tính khoảng cách từ vector nhập đến tất cả các vector trọng tương ứng với cụm đĩ và gán vector nhập vào cụm cĩ khoảng cách nhỏ nhất. Kết quả là tại mỗi nút trên 6-13 lớp ra Kohonen sẽ tương ứng với một tập các đối tượng cĩ chứa các thuộc tính nằm trong nhãn của nút. Hình 6.8: Các dãy từ phổ biến đặc trưng cho một cụm trên lớp ra Kohonen Người dùng click chuột trái trên các cụm để xem các văn bản trong cụm đĩ. Người dùng xem nội dung của từng văn bản tại cụm hiện hành ta đang xét bằng cách click vào văn bản trong danh sách các văn bản tại cụm đĩ. 6-14 Màn hình 6.9: Truy vấn văn các văn bản cĩ cùng nội dung qua mang kohonen. 6-15 6.8 TRIỂN KHAI TRA CỨU THƯ VIỆN SỐ THƠNG QUA LỚP RA KOHONEN TRÊN WEB 6.8.1 Giới thiệu Phần này sử dụng các nghiên cứu gom cụm dữ liệu bằng lớp ra Kohonen để xây dựng một phần mềm trên Web nhằm hỗ tra cứu thơng tin trong thư viện số thơng qua lớp ra Kohonen. Thơng tin được gom theo cụm và cĩ thể truy cập dể dàng thơng qua giao diện Web. 6.8.2 Quy trình gom cụm văn bản và tra cứu thơng tin qua Web Cho tập văn bản D = {d1,d2,…,dn} với n là số văn bản trong D Bước 1: (Xây dựng cây hậu tố) Từ tập văn bản D ta rút trích và cập nhật tất cả các hậu tố của các văn bản trong D.Gọi T là tập các cụm từ của D. Bước 2: (Rút các dãy từ phổ biến) Dãy từ phổ biến là các cụm từ thường xuyên xuất hiện trong các văn bản của thuộc D. • Như vậy, với ngưỡng phổ biến τ cho trước ta cĩ thể tìm được các dãy từ phổ biến khác nhau. • Đăt T(τ ) = {t∈T / số lần xuất hiện của t trong D ≥ τ } Giả sử T(τ ) = {t1, t2,…,tm} với m là số cụm từ phổ biến Bước 3: (Rút đặc trưng các văn bản) Mỗi văn bản di∈D sẽ được đặc trưng thành điểm(véc tơ) vi cĩ toạ độ trong khơng gian m chiều là: vi(vi1,vi2,…,vim) Trong đĩ: 0 nếu tj khơng cĩ trong di vij = 1 nếu tj cĩ trong di 6-16 Bước 4 : Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều chỉnh các thành phần của vector đặc trưng văn bản. Bước 5 : Huấn luyện mạng Kohonen. Bước 6: Truy vấn văn bản trong thư viện số trên web thơng qua lớp ra Kohonen. 6. 8.3 Sơ đồ hoạt động hỗ trợ tra cứu thư viện số trên Web thơng qua lớp ra Kohonen Hình 6.10: Sơ đồ hoạt động hỗ trợ tra cứu thư viện số trên Web thơng qua lớp ra Kohonen Giải thích sơ đồ: 1. Dữ liệu được lưu trữ trên máy Server, máy Client lấy dữ liệu thơng qua kết nối Internet. 2. Xử lý, gom cụm dữ liệu được lấy về từ máy Server. 3. Trả kết quả gom cụm về cho máy Server. 4. Các máy Client truy cập kết quả từ máy chủ thơng qua kết nối Internet. ClienClient Kt Client Serve Tr  Ly Data Base Data Base Kt qu Gom cm d  ClienClien 6-17 6.8.4 Mơ tả các bảng dữ liệu Sau khi gom cụm dữ liệu văn bản địi hỏi chúng ta phải tổ chức dữ liệu theo dạng bảng thơng qua trình quản lý cơ sở dữ liệu SQL. Kết quả sau cùng của việc gom cụm văn bản sẽ được đưa lên máy Server để từ đĩ các máy Client truy cấp dữ liệu văn bản từ Server này thơng qua kết Web. Bao gồm 3 bảng chính sau: • Map Table Map Table Row Int(10) Col Int (10) 9 Row : Số dịng của lớp ra Kohonen 9 Col : Số dịng của lớp ra Kohonen • Table TextSpec Dùng để lưu trữ các thơng tin của các văn bản như tên file chứa văn bản, đường dẫn chứa tên file. TextSpec Table IdText Int(10) Tname Char(100) Turl char(70) 9 IdText : là trường khĩa 9 tName : là trường chứa tên file chứa văn bản 9 Turl : là trường chứa dường dẫn chứa tên file của văn bản 6-18 • Table TermSpec Lưu trữ các thơng tin lien quan đến cụm từ phổ biến tại mỗi nút trên bản đồ. TermSpec Table IdTerm Int (10) Term Char(50) 9 idTerm : Là trường khĩa. 9 Term : là trường chứa nội dung của từ khĩa. 6.8.5 Cài đặt cơng cụ hỗ trợ tra cứu trên mạng thơng qua lớp ra Kohonen Trong phần này chúng tơi xin trình bày 2 lớp chính của cơng cụ hỗ trợ tra cứu trên Web từ lớp ra Kohonen là WebForm1 và WebForm3. Chương trình được viết trên mơi trường C#. • WebForm1 dùng để hiển thị lớp ra Kohonen cùng với các thơng tin liên quan tại mỗi nút của lớp ra Kohonen như: tên các file chứa các văn bản tại nút đĩ, các từ phổ biến tại nút đĩ. • WebForm3 dùng để hiển thị nội dung của từng văn bản trong mỗi nút trên lớp ra Kohonen. 6.8.5.1 Thuật giải Input: Là các bảng dữ liệu đã được mơ tả ờ trên Output: hổ trợ tra cứu thư viện số từ lớp ra Kohonen thơng qua Web Các bước thuật giải: Bước 1 : Kết nối cơ sở dữ liệu (ở đây chúng tơi dùng hệ quản trị cơ sở dữ liệu SQL Server 7.0). If (Kết nối thành cơng) Ta qua bước 2 6-19 Else Thơng báo đến người dùng “kết nối dữ liệu khơng thành cơng” Bước 2: Load lớp ra Kononen lên trang Web If (Load Image Thành cơng) Ta qua bước 3 Else Quay lui Bước 1 Bước 3: Do { Tiến hành đọc từng Record của các Table và sau đĩ hiển thị thơng tin đọc được lên danh sách 1 và danh sách 2 (hình 6.11). } While (!EndTable) 6.8.5.2 Các thủ tục chính Ở đây chúng tơi trình bày 2 thủ tục chính trong hai lớp trên đĩ là thủ tục ImageButton1_Click(object)và thủ tục Page_Load(object). + ImageButton1_Click(object): Thực hiện chức năng cập nhật và hiển thị thơng tin của nút được kích hoạt trên lớp ra Kohonen. + Page_Load(object): Dùng để hiển thị thơng tin văn bản của một nút nào đĩ khi được kích hoạt. Void WebForm1:ImageButton1_Click(object) { Kết nối dữ liệu SQL ConnStr = "server=localhost;uid=sa;pwd=;database=Kohonen"; myReader = myCommand.ExecuteReader(); 6-20 while (myReader.Read()) { Thêm dữ liệu vào Danh sách 1 trên Web ListBox1.Items.Add((string)myReader.GetSqlString(0)); } myReader = myCommand.ExecuteReader(); while (myReader.Read()) { Thêm dữ liệu vào Danh sách 2 Trên Web ListBox2.Items.Add((string)myReader.GetSqlString(0)); } } Void WebForm3:LoadPage(object) { myReader = myCommand.ExecuteReader(); string strFile=""; if ( myReader.Read()) { Lấy tên file trên nút khi được kích hoạt strFile = (string) myReader.GetSqlString(0); } Load nội dung của file trên nút được kích hoạt FileStream fs = new FileStream(strFile, FileMode.Open,FileAccess.Read); } 6-21 6.8.6 Màn hình truy vấn thư viện số từ lớp ra Kohonen thơng qua Web Màn hình 6.11: truy vấn các văn bản cĩ cùng nội dung từ lớp ra Kohonen thơng qua mạng Web. Từ trang Web này chúng ta truy vấn được các văn bản cĩ nội dung tương tự nhau thơng qua lớp ra Kohonen, và chúng ta biết được cụm từ phổ biến của các văn bản trong cùng một cụm trên lớp ra Kohonen. Bằng cách kích hoạt các nút trên lớp ra Kohonen. Khi kích hoặt một nút nào đĩ trên lớp ra Kohonen thì các văn bản trong cụm sẽ được hiển thị lên danh sách 1 (hình 6.11), và các cụm từ phổ biến trong cụm đĩ được hiển thị lên danh sách 2 (hình 6.11). Nếu chúng ta muốn quan sát nội dung của các văn bản trong từng cụm từ lớp ra Kohonen, ta chỉ việc kích hoạt từng văn bản cĩ trong danh sách 1. Khi dĩ chương trình sẽ hiển thị nội dung của văn bản được kích hoạt trên một trang Web mới. Danh Sách 1 Danh sách 2 6-22 Màn hình 6.12: Hiển thị nội dung văn bản được kích hoạt 6-23 6.9. DÙNG ĐẶC TRƯNG CỦA CÁC CỤM TRÊN LỚP RA KOHONEN TẠO TẬP TỪ ĐỒNG HIỆN ĐỂ MỞ RỘNG TRUY VẤN THƠNG TIN 6.9.1. Tìm dãy từ đồng hiện dựa vào nhãn của cụm tr ên lớp ra Kohonen Trong các hệ thống truy vấn thơng tin hiện nay, bên cạnh việc tìm theo các từ trong câu truy vấn, các hệ thống tìm kiếm cịn cho phép mở rộng tìm thêm các từ cĩ mối liên hệ về nghĩa hay các từ đồng hiện với các từ cĩ trong câu truy vấn. Các từ đồng hiện hoặc gần nghĩa này thường được lưu trong các từ điển đồng và gần nghĩa ( thesaurus). Trong phần phụ lục của đề tài, chúng tơi cĩ trình bày một thesaurus được lấy lấy từ website yahoo.com. Gần đây, mạng Kohonen đã được sử dụng để tạo ra tập các từ cĩ đồng hiện với nhau nhằm hỗ trợ việc xây dựng tự động các thesaurus. Chúng tơi sữ dụng phương pháp của Sestilo, 1997 để đánh nhãn tự động cho các cụm trên lớp ra Kohonen. Trong lớp ra Kohonen, mỗi cụm là một nút với vector trọng tương ứng. Thành thần thứ k của vector trọng ( từ khĩa thứ k) phản ánh mức độ đĩng gĩp ( hiện diện ) của từ khĩa thứ k vào việc đặc trưng cho cụm đĩ. Gọi (wij1,wij2,. . . , wijn) là vector trọng ở nút (i,j) trên lớp ra Kohonen. Ngưỡng được chọn là wijmax=max((wij1,wij2,. . . , wijn). Các đầu vào k có | wijmax - wijk | < T với T là ngưỡng nằm trong khoảng từ 0 đến 1. Giá trị của ngưỡng T phản ánh mức độ biến thiên quanh trị Wmax. Ví dụ : Với vector trọng w12 =(0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20), ta có: w12max = max((0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20)=0,43 Nếu chọn T=0,05 thì các thành phần thứ 1, 2, 3, 6 sẽ đóng góp mạnh vào vector trọng w12 và vector đặc trưng cho node này là (1,1,1,0,0,1,0) tương ứng với tập hợp tên các thành phần của vector nhập, trong trường hợp này là {term(1), term(2), term(3),term(6)}. Tập hợp này được gọi là nhãn của nút. 6-24 Xét lớp ra Kohonen sau đây được tạo từ kho ngữ liệu các tĩm tắt bài báo khoa học trong đĩ các cụm trên lớp ra được đánh nhãn tự động theo phương pháp của Sestilo như sau: ( 1, 1) -winning- neuron ( 1, 2)- winning- neuron ( 1, 3) -rough-set- approximation- dependency- reduct ( 1, 4) -DNA-acid- promoter-code ( 1, 5) -DNA-acid- promoter-code ( 2, 1)- winning- neuron ( 2, 2)- winning- neuron ( 2, 3) -rough-set- approximation- dependency- reduct- information- discernibility- lower ( 2, 4) -DNA-acid- promoter-code ( 2, 5) -DNA-acid- promoter-code ( 3, 1) -SOM-map- layer ( 3, 2) -SOM-map- layer ( 3, 3)- information- discernibility- lower ( 3, 4)- information- discernibility- lower-GA- crossover- mutation- evolution- probability ( 3, 5) -GA- crossover- mutation- evolution- probability ( 4, 1) -SOM-map ( 4, 2) -SOM- document- map-feature- vector- learning ( 4, 3)- learning- information- discernibility- lower-GA- crossover- mutation ( 4, 4) -GA- crossover- mutation ( 4, 5) -GA- crossover- mutation ( 5, 1) -SOM- document- map-feature- ( 5, 2) -SOM- document- map-feature- ( 5, 3) -learning-GA- crossover- mutation ( 5, 4) -GA- crossover- mutation ( 5, 5) -GA- crossover- mutation- 6-25 vector vector- learning clustering Dùng quan hệ bao hàm làm quan hệ thứ tự, chúng tơi xây dựng thuật giải để tìm trội trực tiếp, kết quả như sau: ( 1, 3)-rough-set-approximation-dependency-reduct < -rough-set-approximation- dependency-reduct-information-discernibility-lower( 2, 3) ( 3, 3)-information-discernibility-lower < -rough-set-approximation- dependency-reduct-information-discernibility-lower( 2, 3) ( 3, 3)-information-discernibility-lower < -information-discernibility-lower-GA- crossover-mutation-evolution-probability( 3, 4) ( 3, 3)-information-discernibility-lower < -learning-information-discernibility- lower-GA-crossover-mutation( 4, 3) ( 3, 5)-GA-crossover-mutation-evolution-probability < -information- discernibility-lower-GA-crossover-mutation-evolution-probability( 3, 4) ( 4, 1)-SOM-map < -SOM-map-layer( 3, 1) ( 4, 1)-SOM-map < -SOM-document-map-feature-vector-learning( 4, 2) ( 4, 1)-SOM-map < -SOM-document-map-feature-vector( 5, 1) ( 4, 4)-GA-crossover-mutation < -information-discernibility-lower-GA- crossover-mutation-evolution-probability( 3, 4) ( 4, 4)-GA-crossover-mutation < -GA-crossover-mutation-evolution-probability( 3, 5) ( 4, 4)-GA-crossover-mutation < -learning-information-discernibility-lower-GA- crossover-mutation( 4, 3) ( 4, 4)-GA-crossover-mutation < -learning-GA-crossover-mutation( 5, 3) ( 4, 4)-GA-crossover-mutation < -GA-crossover-mutation-clustering( 5, 5) 6-26 ( 5, 1)-SOM-document-map-feature-vector < -SOM-document-map-feature- vector-learning( 4, 2) Sau đĩ tạo kiến trúc phân cấp dựa vào nhãn trên các nút của lớp ra Kohonen: |-----( 1, 3) -rough-set-approximation-dependency-reduct |-----( 2, 3) -rough-set-approximation-dependency-reduct-information-disce |-----( 3, 3) -information-discernibility-lower |-----( 2, 3) -rough-set-approximation-dependency-reduct-information-disce |-----( 3, 4) -information-discernibility-lower-GA-crossover-mutation-evol |-----( 4, 3) -learning-information-discernibility-lower-GA-crossover-muta |-----( 4, 1) -SOM-map |-----( 3, 1) -SOM-map-layer |-----( 5, 1) -SOM-document-map-feature-vector |-----( 4, 2) -SOM-document-map-feature-vector-learning |-----( 4, 4) -GA-crossover-mutation |-----( 3, 5) -GA-crossover-mutation-evolution-probability |-----( 3, 4) -information-discernibility-lower-GA-crossover-mutation-evol |-----( 5, 3) -learning-GA-crossover-mutation |-----( 4, 3) -learning-information-discernibility-lower-GA-crossover-muta |-----( 5, 5) -GA-crossover-mutation-clustering Từ đĩ rút ra các tập hợp từ đồng hiện, trong ví dụ trên ta cĩ các tập hợp từ sau: • (GA-crossover-mutation-clustering) • (SOM-document-map-feature-vector-learning • (-rough-set-approximation-dependency-reduct-information-discernibilty0 6-27 • (SOM-document-map-feature-vector-learning) • ………. 6.9.2 Mở rộng câu truy vấn Qui trình mở rộng truy vấn: 1. Tách các từ cĩ trong câu truy vấn 2. Tìm các từ đồng hi ện v ới từ c ĩ trong c âu truy vấn dựa trên thesaurus 3. Mở rộng truy vấn bằng cách tìm kiếm theo các từ đồng hiện với từ khĩa cần tìm. Ví dụ: trong câu truy vấn cĩ từ khĩa “GA”, dựa trên tập từ đồng hiện: (GA-crossover-mutation-clustering) Do đĩ cĩ thể mở rộng truy vấn theo từ khĩa “crossover” hay “mutation” hay “clustering “. Sau đây là tập tin chứa danh sách các từ đồng hiện STT Từ Từ đồng hiện 1 network CCITT protocol 2 network access privileges 3 network client-based application 4 network electronic mail 5 network file privilege 6 network freenet 7 network host 8 network kill file 9 network login name 10 network login security 11 network mail package 12 network micro-to-mainframe 13 network network 14 network network protocol 15 network node 16 network on-line help 17 network password 18 network repeater 19 network special interest group - SIG 20 network wide area network 21 cache RAM cache 6-28 22 cache cache 23 cache cache controller 24 cache cache memory 25 cache disk buffer 26 cache hardware cache 27 cache internal cache 28 cache memory cache 29 cache set-associative 30 cache software cache 31 cache write through 32 cache write-back . . . . . . . . . . . . . . . . . . .. . 7-1 CHƯƠNG 7 XÂY DỰNG THƯ VIỆN CÁC BÀI BÁO NGHIÊN CỨU LIÊN QUAN ĐẾN CNTT 7.1Thiết kế cơ sở dữ liệu 7.1.1 Mơ hình vật lý 7.1.2 Mơ hình dữ liệu PAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS, PAPERFILENAME, PAPERFILEPATH) PAUTHOR (AUTHORID, AUTHORNAME, FACULTY, EMAIL) PAPERAUTHOR (PAPERID, AUTHORID) LIENTHONG (SOHIEU, TUKHOA) COOCCURRENCE (QWORD, SWORD, COVISION) SUBJECTHEADINGS (SHID, SUBJECTHEADINGS) SUBJECTHEADINGPAPER (SHID, PAPERID) 7-2 SEARCHRESULT (SHID, PAPERID, ITEMSCOUNT) KEYWORDS (KWID, KEYWORD) KEYWORDPAPER (KWID, PAPERID) SEARCHKWRESULT (KWID, PAPERID, ITEMSCOUNT) SEARCHCORESULT (KWID, PAPERID) USER_ACCOUNT (USERID, HO_TEN, PASSWORD, QUOC_TICH, DIA_CHI, NAM_SINH, PHAI, NGHE_NGHIEP, NGAY_DK, NGAY_HHAN, PIN) 7.2 Mơ tả các thực thể 1.PAPER: Bài báo Thuộc Tính Diễn giải PAPERID Mã số bài báo. Mỗi bài báo cĩ một mã số duy nhất để phân biệt với các bài báo khác PAPERNAME Tựa đề của bài báo TITLE Chủ đề của bài báo ABTRACT Trích yếu của bài báo, tĩm lược của bài báo KEYWORDS Các từ khĩa chính trong bài báo. Các từ khĩa này cĩ sẵn hoặc sẽ được trích rút đặc trưng từ các trích yếu của bài báo PAPERFILENAME Tên tập tin tồn văn của bài báo PAPERFILEPATH Đường dẫn nơi chứa tập tin tồn văn của bài báo. 7-3 2.PAUTHOR: Tác giả Thuộc Tính Diễn giải AUTHORID Mã số tác giả. Mỗi tác giả cĩ một mã số duy nhất để phân biệt với các tác giả khác. AUTHORNAME Họ và Tên của tác giả bài báo FACULTY Trường hay nơi làm việc của tác giả bài báo EMAIL Địa chỉ email của tác giả của bài báo 3.PAPERAUTHOR: Tác giả - bài báo Thuộc Tính Diễn giải PAPERID Mã số bài báo AUTHORID Mã số tác giả tham gia viết bài báo theo mã số bài báo trên. MỗI tác giả sẽ cĩ một cặp khĩa theo mã bài báo và mã số tác giả là duy nhất để phân biệt. 4.LIENTHONG: liên thơng Thuộc Tính Diễn giải SOHIEU Số hiệu liên thơng TUKHOA Từ khĩa liên thơng. Các từ khĩa được gọi là liên thơng khi cĩ cùng một số hiệu liên thơng. Các từ khĩa này trích rút từ các cụm từ đặc trưng từ tập các văn bản 7-4 5.COOCCURRENCE: Đồng hiện Thuộc Tính Diễn giải QWORD Từ khĩa này chính là các keywords của bài báo. Dựa trên các từ khĩa người dùng truy vấn để lấy thêm các từ đồng hiện thơng qua từ khĩa này và tìm kiếm thêm các văn bản cĩ từ khĩa này hay từ các từ đồng hiện với từ khĩa này SWORD Từ khĩa đồng hiện được trích rút từ các cụm từ đặc trưng từ tập các văn bản COVISION Chỉ số đồng hiện giữa qword và sword trong tập các văn bản 6.USER_ACCOUNT: Account của Người dùng Thuộc Tính Diễn giải USERID Mã số ngườI dùng. Mỗi ngườI sử dụng cĩ một mã số để phân biệt với người sử dụng khác HO_TEN Họ tên của người sử dụng PASSWORD Password người sử dụng QUOC_TICH Quốc tịch của người sử dụng DIA_CHI Địa chỉ liên hệ của ngườI sử dụng NAM_SINH Năm sinh của ngườI dùng PHAI Giới tính của người sử dụng 7-5 NGHE_NGHIEP Nghề nghiệp của người sử dụng NGAY_DK Ngày đăng ký sử dụng hệ thống thư viện bài báo. Ứng với ngày đăng ký sẽ biết được ngày hết hạn của mỗi account sử dụng. NGAY_HHAN Ngày hết hạn dùng account này. Nếu ngày hiện tại lớn hơn ngày hết hạn từ account này đã bị lock và người dùng phải đăng ký sử dụng lại hệ thống. PIN Số PIN. Thơng qua chỉ số này để thu phí hay hệ thống sẽ cấp cho mỗi người dùng số PIN mỗi khi đăng ký sử dụng hệ thống 7. SUBJECTHEADINGS: Tiêu đề đề mục Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. SUBJECTHEADINGS Tên của một tiêu đề đề mục cùng từ đồng hiện của tiêu đề đề mục đĩ 8. SUBJECTHEADINGPAPER Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. PAPERID Tương ứng với một mã số của tiêu đề đề mục sẽ cĩ một hay nhiều mã số của bài báo đã được tìm thấy trong thư viện bài báo 7-6 9. SEARCHRESULT Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. SUBJECTHEADINGS Tên của một tiêu đề đề mục cùng từ đồng hiện của tiêu đề đề mục đĩ ItemsCount Số các bài báo được tìm thấy theo tiêu đề đề mục cĩ trong thư viện bài báo 10. KEYWORDS Thuộc Tính Diễn giải KWID Mã số một từ khĩa Keyword Từ khĩa được trích rút từ đặc trưng từ kho dữ liệu trong cơ sở dữ liệu. 11. KEYWORDPAPER Thuộc Tính Diễn giải KWID Mã số một từ khĩa. PAPERID Tương ứng với một mã số của từ khĩa sẽ cĩ một hay nhiều mã số của bài báo đã được tìm thấy trong thư viện bài báo 7-7 12. SEARCHKWRESULT Thuộc Tính Diễn giải KWID Mã số từ khĩa. Keyword Từ khĩa được trích rút từ đặc trưng từ kho dữ liệu trong cơ sở dữ liệu. ItemsCount Số các bài báo được tìm thấy theo từ khĩa cĩ trong thư viện bài báo 13. KEYWORDCOPAPER Thuộc Tính Diễn giải KWID Mã số một từ khĩa. PAPERID Tương ứng với một mã số của từ khĩa sẽ cĩ một hay nhiều mã số của bài báo đã được tìm thấy trong thư viện bài báo và cùng với một số mã số các bài báo cĩ chứa các từ đồng hiện với từ khĩa cần tìm. 14. SEARCHCORESULT Thuộc Tính Diễn giải KWID Mã số một từ khĩa. Keyword Từ khĩa được trích rút từ đặc trưng từ kho dữ liệu trong cơ sở dữ liệu. ItemsCount Số các bài báo được tìm thấy theo từ khĩa cĩ trong thư viện bài báo 7-8 7.3.Giao diện truy cập thư viện bài báo 7.3.1.Trang đăng nhập Trang này cho phép đăng nhập vào hệ thống thư viện bài báo. Sau khi người dùng đã login vào hệ thống với đúng username/password đã đăng ký, người dùng sẽ truy cập được thư viện bài báo, cĩ thể đọc được bài tĩm lược của bài báo hay tồn văn của bài báo dựa trên việc truy vấn theo tên tác giả hay theo từ khĩa hay từ danh sách bài báo, hay danh sách tác giả theo thứ tự. Nếu người dùng lần đầu tiên truy cập vào website của thư viện bài báo thì hãy chọn vào nút đăng ký để vào trang đăng ký. 7-9 7.3.2. Trang đăng ký Để cĩ thể truy cập được thư viện bài báo trước hết người ta phải đăng ký cho mình một username/password để cĩ thể login và truy cập hệ thống thư viện bài báo. Mỗi lần đăng ký một account người dùng sẽ được truy cập trong khoảng thời gian được nhất định, nếu vượt quá thời hạn sử dụng người dùng phải đăng ký sử dụng lại hệ thống. 7-10 7.3.3 Trang chính Từ trang chính này người dùng cĩ thể tham khảo thơng tin bài báo thơng qua việc truy vấn theo từ khĩa, tên tác giả. Người dùng cĩ thể chuyển đổi trang theo mục lục tác giả, bài báo hay tiêu đề đề mục để cĩ chọn lựa theo danh sách chữ cái đầu của tên tác giả, tên các bài báo, tên tiêu đề đề mục và danh sách các tác giả, bài báo, tiêu đề đề mục. 7-11 7.3.4. Trang hiển thị từ việc truy vấn thơng tin theo từ khĩa Dựa trên từ khĩa truy vấn, hệ thống thư viện này sẽ tìm kiếm thêm các từ khĩa đồng hiện với các từ khoa truy vấn để tìm kiếm thêm các tập văn bản chứa các từ khĩa trên nhằm giúp cho người dùng mở rộng thêm tập thơng tin cần tìm kiếm 7-12 7.3.5. Trang hiển thị danh sách tác giả theo tên thứ tự tên tác giả Với trang này người dùng cĩ thể chọn theo tác giả cĩ những bài báo cần tham khảo 7-13 7.3.6. Trang hiển thị danh sách của tất cả các bài báo Với trang này người dùng cĩ thể chọn tên bài báo cần tham khảo. 7-14 7.3.7. Trang hiển thị tìm kiếm thơng tin theo tiêu đề đề mục Dựa trên danh sách các tiêu đề đề mục theo thứ tự, hệ thống thư viện này sẽ tìm kiếm tất cả các bài báo với tiêu đề đề mục mà đã được chọn để tra cứu. 7-15 7.4 Kết luận Trong CSDL với phương pháp truy vấn thơng thường, ta chỉ cĩ thể tìm được một số văn bản dựa vào từ khĩa truy vấn cĩ chính xác trong văn bản cần tìm. Vậy chúng ta hãy xem xét làm thế nào để cĩ thể tìm được các văn bản sao cho cĩ sự xuất hiện các từ khĩa tương đương hay thường đồng hiện với từ khĩa truy vấn. Chính vì điều này thư viện bài báo đã ứng dụng những kết quả cĩ được từ nghiên cứu gom cụm và trích rút đặc trưng từ các tập văn bản. Với việc cĩ thêm các từ khĩa được trích rút từ các cụm từ đặc trưng từ tập các văn bản làm cho CSDL thêm phong phú, giúp cho việc truy vấn khơng chỉ tìm được các văn bản cĩ chính xác các từ khĩa truy vấn mà cịn thêm được các văn bản dựa trên các từ khĩa tương đương hay đồng hiện xuất hiện trong các tập văn bản. Thêm vào đĩ, việc thiết lập tiêu đề đề mục cũng dựa trên việc trích rút đặc trưng với nguyên tắc thống nhất chỉ cĩ một từ trong số nhiều từ đồng nghĩa được chọn làm tiêu đề đề mục. Chính việc cĩ thêm phần danh mục theo tiêu đề đề mục đã giúp cho việc tra cứu thơng tin của người sử dùng thêm tiện lợi, hiệu quả.

Các file đính kèm theo tài liệu này:

  • pdfĐề tài- Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số.pdf
Luận văn liên quan