Trang này cho phép đăng nhập vào hệ thống thư viện bài báo. Sau khi
người dùng đã login vào hệ thống với đúng username/password đã đăng ký,
người dùng sẽ truy cập được thư viện bài báo, có thể đọc được bài tóm lược
của bài báo hay toàn văn của bài báo dựa trên việc truy vấn theo tên tác giả hay
theo từ khóa hay từ danh sách bài báo, hay danh sách tác giả theo thứtự.
128 trang |
Chia sẻ: lylyngoc | Lượt xem: 2339 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Đề tài Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
một ma trận A cĩ dịng là văn bản và cột là các dãy từ phổ
biến. Mỗi phần tử aik của ma trận A cho biết trọng số của dãy từ k trong văn
bản thứ i. Gọi M là số dịng của ma trận (số văn bản) trong khối ngữ liệu, gọi
N số cột (số dãy từ phổ biến) của khối dữ liệu, fik là tần số xuất hiện của dãy
từ phổ biến thứ k trong văn bản i, nk là số văn bản cĩ chứa dãy từ phổ biến
thứ k trong khối ngữ liệu. Cĩ nhiều cách để ấn định trọng số aik. Một số
cách tiêu biểu như:
a) Trị nhị phân
aik = 1 nếu fik ≥ 0 và aik = 0 nếu ngược lại
b) Tần số của dãy từ
aik = fik
c) Hệ số tfidf
Các cách trên khơng tính đến tần số của dãy từ phổ biến trong tất cả các văn
bản trong khối ngữ liệu. Một tiếp cận khác để tính trọng của dãy từ là sử dụng
hệ số tfidf ( term frequency. Inversed document frequency) để gán trọng cho
dãy từ k trong văn bản i là aik = fik x log( M/nk )
5.3.2. Rút gọn chiều
Như đã trình bày ở trên mỗi dãy từ phổ biến sẽ ứng với một chiều trong khơng
gian vector đặc trưng cho văn bản. Trong khối ngữ liệu lớn với hàng ngàn văn
bản, số dãy từ phổ biến cĩ thể lên đến hàng chục ngàn. Do vậy cần các
phương pháp để rút gọn chiều của khơng gian vector đại diện văn bản. Mục
đích của bước rút gọn chiều là loại bỏ các từ hoặc dãy từ khơng chứa thơng tin
để cải thiện khả năng đặc trưng của vector cho văn bản. Một số phương pháp
rút gọn chiều tiêu biểu cĩ thể liệt kê như sau:
5-18
a)Ngưỡng tần số văn bản
Tần số văn bản của một dãy từ là số lượng văn bản cĩ chứa dãy từ đĩ. Các
từ hoặc dãy từ cĩ tần số văn bản nhỏ hơn hoặc bằng một ngưỡng cho trước
(ngưỡng tần số văn bản) sẽ bị loại bỏ.
b)Các hư từ hoặc từ kết thúc
Các hư từ là các từ xuất hiện phổ biến nhưng khơng mang thơng tin nào cả.
Trong các văn bản tiếng Anh các hư từ thường là giới từ, đại từ, liên từ như:
a, an, i , of, about, where, that, when. . .
5.3.3. Tạo vector đặc trưng văn bản
5.3.3.1. Tiếp cận truyền thống
Khối ngữ liệu văn bản được phân tích để tìm các dãy từ phổ biến. Sau khi rút
gọn đặc trưng, các vector nhị phân đặc trưng cho văn bản sẽ được tạo theo cơ
chế trị nhị phân. Thành phần thứ aik =1 nếu văn bản i cĩ chứa dãy từ k và
aik=0 nếu ngược lại.
Một văn bản bản được đại diện bởi một điểm trong khơng gian n chiều (n là số
dãy từ phổ biến trong khối ngữ liệu nhiều văn bản), trong đĩ mỗi thành phần
của véc tơ cĩ giá trị 1 hay 0 tùy thuộc vào sự cĩ mặt hay khơng của cụm từ đĩ
trong văn bản hiện hành ta đang xét.
Goi T = {T1, T2,…,Tm} là tập các dãy từ phổ biến với ngưỡng τ
Mỗi văn bản di ∈ D sẽ được đặc trưng thành vector vi m chiều
Trong đĩ:
vi =
với
0 nếu Tj khơng xuất hiện trong di
vij =
1 nếu Tj xuất hiện trong di
Ví dụ:
Giả sử ta cĩ 3 văn bản:
5-19
d1:“cat ate cheese”
d2: “mouse ate cheese too”
d3: “cat ate mouse too”
Với ngưỡng τ = 2, ta cĩ 7 cụm từ phổ biến là:
T ={cat, cat ate, ate, ate cheese, cheese, mouse, too}
Khi đĩ:
d1 đặc trưng thành v1(1, 1, 1, 1, 1, 0, 0)
d2 đặc trưng thành v2(0, 0, 1, 1, 1, 1, 1)
d3 đặc trưng thành v3(1, 1, 1, 0, 0, 1, 1)
5.3.3.2. Tiếp cận cải tiến cĩ sử dụng từ gần nghĩa
Trong tâp các dãy từ phổ biến này cĩ thể cĩ các từ đồng nghĩa hoặc gần
nghĩa với nhau. Ví dụ tập các dãy từ phổ biến cĩ chứa từ "man" và "person".
Giả sử trong văn bản thứ nhất cĩ chứa từ "man" và khơng cĩ chứa từ "person",
trong văn bản thứ hai cĩ chứa từ "person" nhưng khơng cĩ chứa từ "man".
Theo cách truyền thống vector đặc trưng cho văn bản thứ nhất sẽ cĩ trị 1 ứng
với thành phần "man" và cĩ trị 0 ứng với từ "person"; vector đặc trưng cho
văn bản hai sẽ cĩ trị 0 ứng với thành phần "man" và cĩ trị 1 ứng với từ
"person". Tuy vậy, giữa từ "person" và từ "man" cĩ liên hệ về nghĩa với nhau
vì man (người đàn ơng, nhân loại) và person( người) nhưng trong tiếp cận
truyền thống khơng xem xét khả năng này.
Gần đây một số tác giả như Elle M. Voorhees (1998), Darin Brezeale(1999)
đã quan tâm đến từ đồng nghĩa trong mơ hình vector đặc trưng cho văn bản
nhằm nâng cao khả năng phân lớp hoặc gom cụm văn bản trong đĩ quan hệ
giữa các văn bản được bổ sung thêm quan hệ gần nghĩa giữa các từ. Sau khi đã
phát hiện được các từ gần nghĩa nhau, Darin Brezeale đã điều chỉnh các thành
phần của vector nhị phân đặc trưng cho văn bản. Trong ví dụ trên, văn bản thứ
nhất cĩ chứa từ "man" và khơng cĩ chứa từ "person" nhưng do từ "man" và
"person" cĩ quan hệ gần nghĩa nên thành phần "person" trong vector đặc trưng
cho văn bản thứ nhất sẽ được điều chỉnh thành trị 1. Vấn đề đặt ra là làm thế
5-20
nào để đo đạc mức độ đồng nghĩa giữa hai từ? Darin Bre.zeale(1999) đã sử
dụng WordNet được cung cấp miễn phí trên Internet để thực hiện vần đề này.
WordNet là tên của một dự án được khởi động từ năm 1985 do George Miller
đề xướng nhằm thiết kế hệ thống cho phép tra cứu từ điển tiếng Anh theo khái
niệm của từ. WordNet hiện đang được lưu trên Internet và cĩ thể mang về sử
dụng trên máy tính cá nhân. Wordnet tổ chức thơng tin theo nghĩa của từ thay
vì dạng từ. Như trong các từ điển tiếng Anh truyền thống, Wordnet chứa các
thơng tin cơ bản về từ. Bên cạnh đĩ, WordNet cịn chứa một thơng tin hữu ích
là các quan hệ giữa các từ trong đĩ cĩ quan hệ đồng nghĩa và quan hệ
hypernym. Quan hệ hypernym của một từ là một từ tổng quát hơn thỏa phát
biểu " là một loại của ". Ví dụ tree "là một loại của" plant, plant "là một loại
của" organism". Hình 5.3 là một đồ thị biểu diễn quan hệ " là một loại của"
của các từ organism, plant, flora, tree, bush, aralia.
Hình 5.3. Đồ thị quan hệ hypernym giữa các danh từ
WordNet lưu trữ các danh từ, động từ, tính từ, trạng tự. Trong tiếp cận
của Darin Brezeale, chỉ sử dụng danh từ làm cơ sở phát triển thuật giải. Theo
G.Miller, WordNet cĩ 25 nhĩm danh từ như sau:
Organism
Plant Flora
Tree Bush Aralia
5-21
{act, activity} {animal,fauna} {artifact}
{attribute} {body} {cognition,knowledge}
{communication} {event, happening} {feeeling, emotion}
{food} {group, grouping} {location}
{motivation, motive} {natural object} {natural phenomenon}
{person, human being} {plant, flora} {possesion}
{process} {quantity, amount} {relation}
{shape} {state} {substance}
{time}
WordNet cung cấp nhiều cách để xác định các từ cĩ quan hệ ngữ nghĩa với
nhau. Tiếp cận của Darin Brezeale đã sử dụng cấu trúc cây hypernym của một
từ nhằm phát hiện quan hệ gần nghĩa của hai từ. Sau khi đã xác lập được cây
chứa hai từ cần xét, sẽ duyệt cây để xem hai từ này cĩ chung tổ tiên hay
khơng và tính số nút từ nút ứng với từ cần xét đến nút tổ tiên chung. Khoảng
cách ngữ nghĩa giữa hai từ bằng tổng khoảng cách của con đường đi từ hai từ
đến nút tổ tiên chung. Khoảng cách này càng ngắn thì hai từ càng gần nghĩa.
Ví dụ với cây hypernym trong hình 5.3, khoảng cách giữa từ "tree" và từ
"flora" là 3, khoảng cách giữa từ "plant" và "flora" là 2.
Để điều chỉnh các thành phần của vector nhị phân đặc trưng văn bản ừng với
các từ gần nghĩa, Darin Brezeale đã sử dụng ngưỡng gần nghĩa. Chỉ cĩ các căp
từ cĩ mức độ gần nghĩa nhỏ hơn hoặc bằng ngưỡng này thì các thành phần
tương ứng trong vector đặc trưng mới bị điều chỉnh. Ngưỡng này thuờng được
chọn là 3, do vậy từ "tree" và "flora" trong cây hypernym ở hình 5.3 được
xem là đồng nghĩa và các thành phần tương ứng với các từ này trong vector
đặc trưng đều bị điều chỉnh.
5-22
5.4. DÙNG CÂY HẬU TỐ HỖ TRỢ TẠO TIÊU ĐỀ ĐỀ MỤC
Phần này trình bày các buớc sử dụng cây hậu tố đề tìm các dãy từ phổ biến tối
đại trong một khối ngữ liệu gồm nhiều văn bản. Sau đĩ sử dụng tập hợp các từ
phổ biến nhằm tiền xử lý dữ liệu (biên mục tài liệu) .
Qui trình gồm các bước sau:
Buớc 1: Sử dụng cây hậu tố để tìm danh sách các dãy từ phổ biến trong một
khối ngữ liệu gồm nhiều văn bản
Buớc 2: Sử dụng danh sách các dãy từ phổ biến để biên mục các tập tin trong
khối ngữ liệu và tạo danh sách tiền kết hợp tập văn bản vào danh sách các dãy
từ phổ biến.
Bước 3:Tra cứu thư viện thơng qua danh sách tiền kết hợp
Kết quả thử nghiệm:
1.Danh sách các dãy từ phổ biến được phát hiện từ các kho ngữ liệu thử
nghiệm và số văn bản cĩ chứa dãy từ phổ biến.
STT Dãy từ phổ biến Số văn bản
================================================
1 : annotated 2
2 : automatic 11
3 : bilingual corpus 3
4 : in the 15
5 : in this 2
6 : method 24
7 : model for 2
8 : natural language processing 3
9 : of information 2
10 : the accuracy of 2
11 : this problem 4
12 : to solve 4
13 : we will 4
14 : extract 5
15 : human 2
16 : in a 13
17 : is a 23
18 : languages 5
19 : meaning 3
20 : on the 15
21 : organized 6
22 : part 32
23 : some 10
24 : the similar 3
25 : better 3
5-23
26 : is used 6
27 : machine translation 3
28 : natural 4
29 : optimized 2
30 : processing 8
31 : result 16
32 : we describe 4
33 : access 3
34 : application 11
35 : develop 10
36 : information 12
37 : on computer 2
38 : or to 2
39 : such as 7
40 : technology 3
41 : user 6
42 : course 2
43 : making 2
44 : student's 2
45 : network 5
46 : paper 27
47 : the document 8
48 : an overview 5
49 : applications 8
50 : geometric 2
51 : technique 4
52 : model 11
53 : algorithms 4
54 : approaches 4
55 : association rules 2
56 : data 14
57 : large set of 2
58 : mining 7
59 : problem 13
60 : way 5
61 : based 17
62 : can be 18
63 : cases 2
64 : complex 2
65 : knowledge 7
66 : problems 3
Tiền kết hợp các tập tin vào các danh sách dãy từ phổ biến:
STT Dãy từ phổ biến Mã văn bản
================================================
1 : (approx p1
2 : - sentence p1
3 : annotated p1
4 : annotated p22
5 : automatic p1
6 : automatic p2
7 : automatic p5
8 : automatic p15
9 : automatic p17
5-24
10 : automatic P25
11 : automatic P28
12 : automatic p32
13 : automatic p39
14 : automatic p40
15 : automatic p44
16 : been solved p1
17 : bilingual corpus p1
18 : bilingual corpus p20
19 : bilingual corpus P25
20 : but in p1
609 : page segmentation p18
610 : page segmentation P27
611 : using recursive morphological p18
612 : association rules are p19
613 : attributes p19
614 : dynamic programming p19
615 : numeric p19
616 : optimized association rules p19
617 : optimized support p19
Tra cứu thư viện thơng qua danh sách tiền kết hợp
Chi tiết thuật giải kết hợp tập văn bản vào danh sách các dãy từ phổ biến:
Input:
− Tập các văn bản mới NP
5-25
− Tập các dãy từ phổ biến mới NS
− Tập các dãy từ phổ biến được đánh dấu là đã được kết hợp với các
văn bản hiện cĩ S
− Tập các văn bản được đánh dấu là đã kết hợp với các dãy từ phổ
biến hiện cĩ P
− Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến SP{(px,
sy), …}, px ∈ P, sy ∈ S
− Tập các dãy từ phổ biến và số văn bản cĩ chứa dãy từ phổ biến
SR{(sx, n), …}, sx ∈ S, n ∈ N
Output:
− Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến SP{(px,
sy), …}, px ∈ P, sy ∈ S
− Tập các dãy từ phổ biến được đánh dấu là đã được kết hợp với các
văn bản hiện cĩ S
− Tập các văn bản được đánh dấu là đã kết hợp với các dãy từ phổ
biến P
− Tập các dãy từ phổ biến và số văn bản cĩ chứa dãy từ phổ biến
SR{(sx, n), …}, sx ∈ S, n ∈ N
Bước 1:
tP = ∅
tS = ∅
pc = 0
Bước 2:
Nếu NS.count >0 thì
{
For i=1 to NS.count do
{
pc = 0
For j=1 to P.count do
{
5-26
tSubS = {tập các tiêu đề con của NS[i]}
T = True
For k=1 to tSubS.count do
{
Nếu trong văn bản P[j] khơng chứa
tSubS[k] thì
{
T = false ; break;
}
}
Nếu T=True thì {
SP = SP + {(P[j], NS[i])}
pc = pc + 1
}
}
tS = tS + {NS[i]}
Nếu NS[i] chưa cĩ trong SR thì
SR = SR + {(NS[i], pc)}
Ngược lại
Trong SR, sửa (NS[i], n) thành (NS[i], pc), n
giá trị ban đầu sẵn cĩ
}
S = S + tS
}
Bước 3:
Nếu NP.count >0 thì
{
tP = NP
P = P + tP
For i=1 to S.count do
{
pc = 0
5-27
For j=1 to NP.count do
{
tSubS = {tập các tiêu đề con của S[i]}
T = True
For k=1 to tSubS.count do
{
Nếu trong văn bản P[j] khơng chứa
tSubS[k] thì
{
T = false ; break;
}
}
Nếu T=True thì {
SP = SP + {(NP[j], S[i])}
}
}
Nếu S[i] chưa cĩ trong SR thì
SR = SR + {(S[i], pc)}
Ngược lại
Trong SR, sửa (S[i], n) thành (S[i], pc), n giá trị
ban đầu sẵn cĩ
}
}
5-28
Các bảng dữ liệu liên quan đến thao tác kết hợp tập văn bản vào danh sách các
dãy từ phổ biến:
Mơ hình vật lý:
PAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS,
PAPERFILENAME, PAPERFILEPATH)
NEWPAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT,
KEYWORDS, PAPERFILENAME, PAPERFILEPATH)
SUBJECTHEADINGS (SHID, SUBJECTHEADINGS)
NEWSUBJECTHEADINGS (SHID, SUBJECTHEADINGS)
SUBJECTHEADINGPAPER (SHID, PAPERID)
SEARCHRESULT (SHID, SUBJECTHEADINGS, ITEMSCOUNT)
5-29
Mơ tả các bảng dữ liệu:
PAPER: chứa các văn bản hiện cĩ đã được kết hợp vào danh sách các
dãy từ phổ biến (chứa tập P trong giải thuật trên)
Thuộc Tính Diễn giải
PAPERID Mã số bài báo. Mỗi bài báo cĩ một mã số
duy nhất để phân biệt với các bài báo khác
PAPERNAME Tựa đề của bài báo
TITLE Chủ đề của bài báo
ABTRACT Trích yếu của bài báo, tĩm lược của bài báo
KEYWORDS Các từ khĩa chính trong bài báo. Các từ
khĩa này cĩ sẵn hoặc sẽ được trích rút đặc
trưng từ các trích yếu của bài báo
PAPERFILENAME Tên tập tin tồn văn của bài báo
PAPERFILEPATH Đường dẫn nơi chứa tập tin tồn văn của bài
báo.
NEWPAPER: chứa các văn bản mới, chưa được kết hợp vào danh sách các
dãy từ phổ biến (chứa tập NP trong giải thuật trên).
Thuộc Tính Diễn giải
PAPERID Mã số bài báo. Mỗi bài báo cĩ một mã số
duy nhất để phân biệt với các bài báo khác
PAPERNAME Tựa đề của bài báo
TITLE Chủ đề của bài báo
ABTRACT Trích yếu của bài báo, tĩm lược của bài báo
KEYWORDS Các từ khĩa chính trong bài báo. Các từ
khĩa này cĩ sẵn hoặc sẽ được trích rút đặc
trưng từ các trích yếu của bài báo
PAPERFILENAME Tên tập tin tồn văn của bài báo
PAPERFILEPATH Đường dẫn nơi chứa tập tin tồn văn của bài
5-30
báo.
SUBJECTHEADINGS: Tiêu đề đề mục. Chứa danh sách các dãy từ phổ
biến hiện cĩ đã được kết hợp vào danh sách các văn bản (chứa tập S trong giải
thuật trên).
Thuộc Tính Diễn giải
SHID Mã số một tiêu đề đề mục.
SUBJECTHEADINGS Dãy các từ phổ biến được ngăn cáhch bằng
một ký tự ngăn cách “&&”
NEWJECTHEADINGS: Tiêu đề đề mục. Chứa danh sách các dãy từ phổ
biến mới, chưa được kết hợp vào danh sách các văn bản (chứa tập NS trong
giải thuật trên).
Thuộc Tính Diễn giải
SHID Mã số một tiêu đề đề mục.
SUBJECTHEADINGS Dãy các từ phổ biến được ngăn cáhch bằng
một ký tự ngăn cách “&&”
SUBJECTHEADINGPAPER: Tập kết hợp tập văn bản vào danh sách
các dãy từ phổ biến (chứa tập SP trong giải thuật trên).
Thuộc Tính Diễn giải
SHID Mã số một tiêu đề đề mục.
PAPERID Tương ứng với một mã số của tiêu đề đề
mục sẽ cĩ một hay nhiều mã số của bài báo
đã được tìm thấy trong thư viện bài báo
5-31
SEARCHRESULT: Tập các dãy từ phổ biến và số văn bản cĩ chứa dãy
từ phổ biến (chứa tập SR trong giải thuật trên).
Thuộc Tính Diễn giải
SHID Mã số một tiêu đề đề mục.
THEADINGS Tên của một tiêu đề đề mục cùng từ đồng
hiện của tiêu đề đề mục đĩ, hay dãy từ
phổ biến.
ItemsCount Số các bài báo được tìm thấy theo tiêu đề
đề mục cĩ trong thư viện bài báo
5.5. SỬ DỤNG DÃY TỪ PHỔ BIẾN HỖ TRỢ BIÊN MỤC TỰ ĐỘNG
Như đã trình bày trong chương 3 mỗi tiêu đề đề mục được xác định bằng một
tập hợp các từ. Cĩ thể biểu diễn cấu trúc của tiêu đề đề mục dưới dạng cấu
trúc cây như trong hình sau
Việt Nam
DakLak Điểm truy cập 1
Đồng Nai Điểm truy cập 2
An Giang Điểm truy cập 3
Vật lý
Hiện đại Điểm truy cập 4
Hạt nhân Điểm truy cập 5
Lượng tử Điểm truy cập 6
. . . . .
Một điểm truy cập được xác định bằng nhãn chứa các cụm từ trên các
cạnh nối từ gốc đến nút lá ứng với điểm truy cập đĩ. Ví dụ điểm truy cập 1 sẽ
5-32
ứng với nhãn Việt Nam – DakLak, Điểm truy cập 2 ứng với nhãn Việt Nam -
Đồng nai.
Sử dụng cây hậu tố mở rộng cĩ thề xác định được một cách từ động các dãy từ
phổ biến trong văn bản. Sau đĩ tra cứu trên cấu trúc cây hậu tố để gắn văn bản
vào các điểm truy cập cĩ nhãn là tập con của tập các dãy từ phổ biến được
phát hiện từ việc phân tích văn bản. Với phương pháp này cĩ thể hỗ trợ cơng
tác biên mục tư liệu. Cũng cần lưu ý là một văn bản cĩ thể được gắn vào nhiều
điểm truy cập. Ví dụ văn bản cĩ chứa dãy từ Vật Lý- Hiện đại- Hạt nhân sẽ
được gắn vào hai điểm truy cập là điểm truy cập 4 và điểm truy cập 5. Do vậy
cĩ thể truy cập văn bản từ nhiều điểm truy cập khác nhau.
6-1
CHƯƠNG 6
GOM CỤM THƠNG VĂN BẢN BẰNG MẠNG KOHONEN
6.1 KIẾN TRÚC CỤM PHẲNG
Cho tập đối tượng O, gom cụm phẳng là tiến trình gom các đối tượng thành các
cụm ( tập con của O) sao cho các đối tượng trong cụm cĩ mức độ tương tự cao và
các đối tượng trong các cụm khác nhau cĩ mức độ tương tự thấp.
Kết qủa gom cụm phẳng sẽ tạo ra một phân hoạch tập đối tượng. Gọi
C1,C2,...,Ck là một kiến trúc cụm phẳng, các cụm thỏa các tính chất sau:
i) ∀i,j ∈[1,...,k] , Ci ∩ Cj = ∅ ii) Υk
i
iC
1=
= O
6.1. MẠNG KOHONEN
Mạng Kohonen là một mạng nơron làm việc theo lối tự tổ chức nhằm tạo ra một
ánh xạ từ tập các mẫu học cĩ số chiều lớn thành các cụm cĩ số chiều thấp hơn
[3],[4]. Mạng Kohonen hai chiều thường được sử dụng để gom cụm văn bản vì kết
quả gom cụm được thể hiện trực quan trên một lưới hai chiều. Trong mạng
Kohonen hai chiều, các nơron của lớp ra được sắp xếp trên một mảng hai chiều.
Mảng này được gọi là lớp ra Kohonen. Tất cả các nơron của lớp vào đều được nối
với các nơron trên lớp ra Kohonen. Hình 6.1 là cấu trúc của mạng Kohonen hai
chiều.
Hình 6.1: Cấu
trúc của mạng
Kohonen hai
chiều
6-2
6.3. GOM CỤM TỪ LỚP RA KOHONEN
Mỗi liên kết giữa đầu vào và đầu ra của mạng Kohonen tương ứng với một
trọng số. Tổng đầu vào của mỗi nơron trong lớp Kohonen bằng tổng các trọng của
các đầu vào nơron đĩ.
Tiến trình huấn luyện sẽ điều chỉnh các trọng số dần dần theo mẩu học. Kết quả
của tiến trình huấn luyện sẽ tạo trên lớp ra Kohonen các cụm dữ liệu ứng với
nhĩm các nút gần nhau trên lớp ra Kohonen. Các mẫu học sẽ thuộc về cụm cĩ
khoảng cách gần nhất từ nĩ đến nơron trong cụm. Theo tính chất của thuật giải
huấn luyện trên mạng Kohonen, các cụm cĩ vị trí gần nhau trên mạng Kohonen sẽ
chứa các đối tượng cĩ mức độ tương tự cao. Tính chất này được sử dụng để truy
cập thơng tin tương tự trong thư viện số nhờ lớp ra Kohonen được hiển thị trên
màn hình.
6.4. THUẬT GIẢI HUẤN LUYỆN MẠNG KOHONEN
Chức năng cơ bản của thuật giải huấn luyện mạng Kohonen là gom các vector
trọng của các nơron trên lớp ra Kohonen thành các cụm rời nhau.
Thuật giải huấn luyện mạng Kohonen
Bước 1: Khởi tạo ngẫu nhiên các trọng số trên lớp ra Kohonen và gán Nc(t) là bán
kính của vùng láng giềng. Khởi gán biến chu kỳ t=1
Bước 2: Đưa vào một mẫu học v(t) và chuẩn hĩa vector nhập v(t)
Tính khoảng cách Euclide từ vector nhập v(t) đến tất cả các vector trọng của tất cả
các nơron trên lớp ra Kohonen và chọn nơron cĩ khoảng cách Euclide dE nhỏ
nhất từ vector học v(t) đến trọng ứng với nút đĩ.
dE(v,wic jc) = min (dE(vi,wij))
Trong đĩ i,j là các chỉ số hợp lệ được xác lập theo kích thước của lớp ra Kohonen.
Bước 3: Cập nhật các trọng số của các nút nằm trong vùng lân cận của nút chứa
nơron chiến thắng (ic,jc) theo cơng thức:
6-3
wij(t+1) = wij(t) + g(i,j, ic,jc,t) (v – wij(t))
Trong đĩ ic-Nc(t) ≤ i ≤ ic + Nc(t) và jc-Nc(t) ≤ j ≤ jc + Nc(t)
Bước 4. Cập nhật t = t + 1, đưa mẫu nhập kế tiếp vào mạng Kohonen và quay về
bước 2 cho đến khi đạt được điều kiện hội tụ hay vượt qua số lần lặp qui định.
6.5. ĐẶC TRƯNG CÁC CỤM TRÊN LỚP RA KOHONEN
Sử dụng phương pháp của Sestilo & Dillon,1997. Theo cấu trúc của lớp ra
Kohonen, thành phần thứ k của vector trọng phản ánh mức độ đĩng gĩp của thành
phần thứ k của tất cả các vector nhập. Gọi (wij1,wij2,. . . , wijn) là vector trọng tại
nút i,j trên lớp ra Kohonen.
Nguỡng được chọn wijmax=max((wij1,wij2,. . . , wijn).
Các đầu vào k cĩ | wijmax - wijk | < T với T là ngưỡng nằm trong khoảng từ 0
đến 1. Giá trị của ngưỡng T phản ánh mức độ biến thiên quanh trị Wmax.
Ví dụ: Với vector trọng w12 =(0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20), ta cĩ:
w12max = max((0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20)=0,43
Nếu chọn T=0,05 thì các thành phần thứ 1, 2, 3, 6 sẽ đĩng gĩp mạnh vào vector
trọng w12 và vector đặc trưng cho node này là (1,1,1,0,0,1,0) tương ứng với tập
hợp tên các thành phần của vector nhập, trong trường hợp này là {term(1),
term(2), term(3),term(6)}. Tập hợp này được gọi là nhãn của nút .
6.6. QUI TRÌNH GOM CỤM BẰNG MẠNG KOHONEN
Cho tập văn bản D = {d1,d2,…,dn} với n là số văn bản trong D
Bước 1: (Xây dựng cây hậu tố)
Từ tập văn bản D ta rút trích và cập nhật tất cả các hậu tố của các văn bản trong
D.Gọi T là tập các cụm từ của D.
Bước 2: (Rút các dãy từ phổ biến)
Dãy từ phổ biến là các cụm từ thường xuyên xuất hiện trong các văn bản thuộc
D.
6-4
• Như vậy, với ngưỡng phổ biến τ cho trước ta cĩ thể tìm được các dãy từ
phổ biến khác nhau.
• Đăt T(τ ) = {t∈T / số lần xuất hiện của t trong D ≥ τ }
Giả sử T(τ ) = {t1, t2,…,tm} với m là số cụm từ phổ biến
Bước 3: (Rút đặc trưng các văn bản)
Mỗi văn bản di∈D sẽ được đặc trưng thành điểm(véc tơ) vi cĩ toạ độ trong
khơng gian m chiều là:
vi(vi1,vi2,…,vim)
Trong đĩ:
0 nếu tj khơng cĩ trong di
vij =
1 nếu tj cĩ trong di
Bước 4 : Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều chỉnh các
thành phần của vector đặc trưng văn bản.
Bước 5 : Huấn luyện mạng Kohonen.
Bước 6: Truy vấn văn bản trong thư viện số qua lớp ra Kohonen.
6-5
6.7. HỆ THỐNG GIAO DIỆN
6.7.1 Sơ đồ liên kết các màn hình
Hình 6.2: Sơ đồ liên kết màn hình
MÀN HÌNH
CHÍNH
MÀN HÌNH CÂY
HẬU TỐ
XEM CÂY
HẬU TỐ
IN CÂY HẬU TỐ
TRÚT TRÌCH
ĐẶC TRƯNG
VĂN BẢN
TÌM CÁC
ĐỒNG HIỆN
LIỆT KÊ CÁC
CỤM TỪ PHỔ
BIẾN
HUẤN LUYỆN
MẠNG
KOHONEN
TRUY VẤN
TƯƠNG TỰ TRÊN
LỚP RA KOHONEN
6-6
6.7.2 Màn hình chính
Màn hình 6.1: Màn hình chính
Trong màn hình này, người dùng cĩ thể chọn cây hậu tố mà mình đã xây dựng
từ trước bằng cách click vào nút Open. Nếu muốn xố cây hiện hành trên danh
sách các cây hậu tố ở trên thì click vào nút Delete. Nếu chúng ta muốn tạo một cây
hậu tố mới hồn tồn thì click vào nút New, và tên cây hậu tố mới này do người
dùng đặt tên. Kế tiếp, người sử dụng chọn 1 cây hậu tố từ danh sách, hệ thống sẽ
tự động thơng báo cây hậu tố đang được chọn và các văn bản hiện cĩ của nĩ trong
các EditText ở dưới.Cuối cùng là bấm nút NEXT để tiến hành các thao tác trên
cây hậu tố đã được chọn.
6-7
6.7.3. Màn hình cây hậu tố xử lý cây hậu tố
Màn hình 6.2: Xử lý cây hậu tố
Từ màn hình này, ta cĩ thể làm tất cả các thao tác trên cây hậu tố đã được
chọn. Người sử dụng cĩ thể thực hiện các cơng việc của mình bằng cách click
vào các nút bấm hay chọn các mục xử lý từ thanh thực đơn. Các thao tác người sử
dụng cĩ thể thực hiện là:
-Tăng cường văn bản vào cây: click vào nút Add để chọn các văn bản cần
tăng cường, bấm nút Delete để loại các văn bản khơng quan tâm ra khỏi danh
sách. Để tăng cường văn bản được chọn vào cây hậu tố ta bấm nút > , hay bấm
nút >> để tăng cường tất cả các văn bản cĩ trong danh sách vào cây hậu tố đang
được xét.Các văn bản được tăng cường vào cây sẽ khơng thể loại ra khỏi cây. Do
đĩ, khi tăng cường các văn bản, người sử dụng phải cân nhắc một cách kỹ lưỡng.
6-8
- Clear Data : Chức năng này cho phép xĩa tồn bộ dữ liệu trong cây hậu
tố. Sau khi thực hiện chức năng này, cây hậu tố trở thành cây rỗng và khơng thể
phục hồi lại được nên trước khi xĩa dữ liệu trong cây hậu tố, người sử dụng nên
cân nhắc một cách kĩ lưỡng.
- Print Tree : Chức năng này cho phép xem tồn bộ cây hậu tố dướidạng
file văn bản dạng Text.
- Display Tree: chức năng này cho phép người dùng xem tồn bộ các
thơng tin chi tiết của các cụm từ trong cây hậu tố đang xét như tần số xuất hiện
của các cụm từ trong các văn bản và tập văn bản.
- Select Doc Feature: chức năng này cho phép người dùng mở màn hình
rút trích đặc trưng văn bản.
- Update Dictionary: chức năng này chủ yếu dành cho người quản trị
hệ thống cho phép thêm và loại bớt một số cụm từ vơ nghĩa vào từ điển chứa các
cụm từ vơ nghĩa. Chức năng này cịn cho phép liệt kê và cập nhật các cụm từ xuất
hiện trong tồn tập văn bản (thường là các cụm từ vơ nghĩa khơng cần thiết
cho quá trình phân cụm).
6.7.4 Màn hình hiển thị các thơng tin liên quan đến cây hậu tố
Màn hình 6.3:Màn hình hiển thị cây hậu tố
6-9
Màn hình này thể hiện tất cả các thơng tin của các cụm từ rút ra từ tập các văn
bản, và xem nội dung của từng văn bản.
6.7.5 Màn hình rút đặc trưng văn bản
Màn hình 6.4. Màn hình rút trích đặc trưng cho các văn bản
Đây là màn hình rút cụm từ phổ biến và tạo véc tơ đặc trưng cho các văn bản. Màn
hình trên gồm các chức năng sau chức năng sau:
- Frequent term: Tiến hành tìm các cụm từ phổ biến xuất hiện trong tồn tập
văn bản.
- Binary Vector: Chức năng này dùng để rút trích đặc trưng cho các văn bản
trong tồn tập văn bản. Sau khi thực hiện chức năng này thì mỗi văn bản được đặc
trưng bởi một véc tơ nhị phân trong khơng gian n chiều (n là số cụm từ phổ biến
trong tồn tập văn bản).
6-10
- Display term : Hiển thị tất cả các cụm từ phổ biến được rút trích từ tập các
văn bản.
- Cooccurrence: Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều
chỉnh các thành phần của vector đặc trưng văn bản.
6.7.6. Màn hình hiển thị thơng tin các dãy từ phổ biến
Màn hình 6.5: Hiển thị các các cụm từ phổ biến
6-11
6.7.7 Màn hình đồ thị đồng hiện các dãy từ phổ biến
Màn hình 6.6: Dùng đồ thị đồng hiện
Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều chỉnh các thành
phần của vector đặc trưng văn bản theo một một ngưỡng cho trước.
6-12
6.7.8 Màn hình huấn luyện mạng KOHONEN
Màn hình 6.7. Huấn luyện mạng Kohonen
Để bắt đầu quá trình huấn luyện mạng Kohonen chúng ta bấm vào nút Run.
Sau khi quá trình huấn luyện mạng Kohonen kết thúc, người dùng bấm vào nút
Next để xem các cụm của mạng ra Kohonen.
6.7.9. Màn hình truy vấn tương tự qua lớp ra Kohonen
Cho Ci là một cụm trên lớp ra Kohonen, gọi Ci.S là tập các thuộc tính chung
đặc trưng cho cụm, Ci.X là các đối tượng trong cụm Ci, Ci.X được tạo bằng cách
tính khoảng cách từ vector nhập đến tất cả các vector trọng tương ứng với cụm đĩ
và gán vector nhập vào cụm cĩ khoảng cách nhỏ nhất. Kết quả là tại mỗi nút trên
6-13
lớp ra Kohonen sẽ tương ứng với một tập các đối tượng cĩ chứa các thuộc tính
nằm trong nhãn của nút.
Hình 6.8: Các dãy từ phổ biến đặc trưng cho một cụm trên lớp ra Kohonen
Người dùng click chuột trái trên các cụm để xem các văn bản trong cụm đĩ.
Người dùng xem nội dung của từng văn bản tại cụm hiện hành ta đang xét bằng
cách click vào văn bản trong danh sách các văn bản tại cụm đĩ.
6-14
Màn hình 6.9: Truy vấn văn các văn bản cĩ cùng nội dung qua mang kohonen.
6-15
6.8 TRIỂN KHAI TRA CỨU THƯ VIỆN SỐ THƠNG QUA LỚP RA
KOHONEN TRÊN WEB
6.8.1 Giới thiệu
Phần này sử dụng các nghiên cứu gom cụm dữ liệu bằng lớp ra Kohonen để
xây dựng một phần mềm trên Web nhằm hỗ tra cứu thơng tin trong thư viện số
thơng qua lớp ra Kohonen. Thơng tin được gom theo cụm và cĩ thể truy cập dể
dàng thơng qua giao diện Web.
6.8.2 Quy trình gom cụm văn bản và tra cứu thơng tin qua Web
Cho tập văn bản D = {d1,d2,…,dn} với n là số văn bản trong D
Bước 1: (Xây dựng cây hậu tố)
Từ tập văn bản D ta rút trích và cập nhật tất cả các hậu tố của các văn bản trong
D.Gọi T là tập các cụm từ của D.
Bước 2: (Rút các dãy từ phổ biến)
Dãy từ phổ biến là các cụm từ thường xuyên xuất hiện trong các văn bản của
thuộc D.
• Như vậy, với ngưỡng phổ biến τ cho trước ta cĩ thể tìm được các dãy từ
phổ biến khác nhau.
• Đăt T(τ ) = {t∈T / số lần xuất hiện của t trong D ≥ τ }
Giả sử T(τ ) = {t1, t2,…,tm} với m là số cụm từ phổ biến
Bước 3: (Rút đặc trưng các văn bản)
Mỗi văn bản di∈D sẽ được đặc trưng thành điểm(véc tơ) vi cĩ toạ độ trong
khơng gian m chiều là:
vi(vi1,vi2,…,vim)
Trong đĩ:
0 nếu tj khơng cĩ trong di
vij =
1 nếu tj cĩ trong di
6-16
Bước 4 : Dùng đồ thị đồng hiện liên kết các dãy từ phổ biến để điều chỉnh các
thành phần của vector đặc trưng văn bản.
Bước 5 : Huấn luyện mạng Kohonen.
Bước 6: Truy vấn văn bản trong thư viện số trên web thơng qua lớp ra Kohonen.
6. 8.3 Sơ đồ hoạt động hỗ trợ tra cứu thư viện số trên Web thơng qua lớp ra Kohonen
Hình 6.10: Sơ đồ hoạt động hỗ trợ tra cứu thư viện số trên Web thơng qua lớp ra
Kohonen
Giải thích sơ đồ:
1. Dữ liệu được lưu trữ trên máy Server, máy Client lấy dữ liệu thơng qua kết
nối Internet.
2. Xử lý, gom cụm dữ liệu được lấy về từ máy Server.
3. Trả kết quả gom cụm về cho máy Server.
4. Các máy Client truy cập kết quả từ máy chủ thơng qua kết nối Internet.
ClienClient
Kt
Client
Serve
Tr
Ly Data Base
Data Base Kt qu
Gom cm d
ClienClien
6-17
6.8.4 Mơ tả các bảng dữ liệu
Sau khi gom cụm dữ liệu văn bản địi hỏi chúng ta phải tổ chức dữ liệu theo
dạng bảng thơng qua trình quản lý cơ sở dữ liệu SQL. Kết quả sau cùng của việc
gom cụm văn bản sẽ được đưa lên máy Server để từ đĩ các máy Client truy cấp dữ
liệu văn bản từ Server này thơng qua kết Web.
Bao gồm 3 bảng chính sau:
• Map Table
Map Table
Row
Int(10)
Col
Int (10)
9 Row : Số dịng của lớp ra Kohonen
9 Col : Số dịng của lớp ra Kohonen
• Table TextSpec
Dùng để lưu trữ các thơng tin của các văn bản như tên file chứa văn bản, đường
dẫn chứa tên file.
TextSpec Table
IdText
Int(10)
Tname
Char(100)
Turl
char(70)
9 IdText : là trường khĩa
9 tName : là trường chứa tên file chứa văn bản
9 Turl : là trường chứa dường dẫn chứa tên file của văn bản
6-18
• Table TermSpec
Lưu trữ các thơng tin lien quan đến cụm từ phổ biến tại mỗi nút trên bản đồ.
TermSpec Table
IdTerm
Int (10)
Term
Char(50)
9 idTerm : Là trường khĩa.
9 Term : là trường chứa nội dung của từ khĩa.
6.8.5 Cài đặt cơng cụ hỗ trợ tra cứu trên mạng thơng qua lớp ra Kohonen
Trong phần này chúng tơi xin trình bày 2 lớp chính của cơng cụ hỗ trợ tra cứu
trên Web từ lớp ra Kohonen là WebForm1 và WebForm3. Chương trình được viết
trên mơi trường C#.
• WebForm1 dùng để hiển thị lớp ra Kohonen cùng với các thơng tin liên
quan tại mỗi nút của lớp ra Kohonen như: tên các file chứa các văn bản
tại nút đĩ, các từ phổ biến tại nút đĩ.
• WebForm3 dùng để hiển thị nội dung của từng văn bản trong mỗi nút
trên lớp ra Kohonen.
6.8.5.1 Thuật giải
Input: Là các bảng dữ liệu đã được mơ tả ờ trên
Output: hổ trợ tra cứu thư viện số từ lớp ra Kohonen thơng qua Web
Các bước thuật giải:
Bước 1 :
Kết nối cơ sở dữ liệu (ở đây chúng tơi dùng hệ quản trị cơ sở dữ liệu SQL Server
7.0).
If (Kết nối thành cơng)
Ta qua bước 2
6-19
Else
Thơng báo đến người dùng “kết nối dữ liệu khơng thành cơng”
Bước 2: Load lớp ra Kononen lên trang Web
If (Load Image Thành cơng)
Ta qua bước 3
Else
Quay lui Bước 1
Bước 3:
Do
{
Tiến hành đọc từng Record của các Table và sau đĩ hiển thị thơng tin đọc
được lên danh sách 1 và danh sách 2 (hình 6.11).
}
While (!EndTable)
6.8.5.2 Các thủ tục chính
Ở đây chúng tơi trình bày 2 thủ tục chính trong hai lớp trên đĩ là thủ tục
ImageButton1_Click(object)và thủ tục Page_Load(object).
+ ImageButton1_Click(object): Thực hiện chức năng cập nhật và hiển thị
thơng tin của nút được kích hoạt trên lớp ra Kohonen.
+ Page_Load(object): Dùng để hiển thị thơng tin văn bản của một nút nào đĩ
khi được kích hoạt.
Void WebForm1:ImageButton1_Click(object)
{
Kết nối dữ liệu SQL
ConnStr = "server=localhost;uid=sa;pwd=;database=Kohonen";
myReader = myCommand.ExecuteReader();
6-20
while (myReader.Read())
{
Thêm dữ liệu vào Danh sách 1 trên Web
ListBox1.Items.Add((string)myReader.GetSqlString(0));
}
myReader = myCommand.ExecuteReader();
while (myReader.Read())
{
Thêm dữ liệu vào Danh sách 2 Trên Web
ListBox2.Items.Add((string)myReader.GetSqlString(0));
}
}
Void WebForm3:LoadPage(object)
{
myReader = myCommand.ExecuteReader();
string strFile="";
if ( myReader.Read())
{
Lấy tên file trên nút khi được kích hoạt
strFile = (string) myReader.GetSqlString(0);
}
Load nội dung của file trên nút được kích hoạt
FileStream fs = new FileStream(strFile, FileMode.Open,FileAccess.Read);
}
6-21
6.8.6 Màn hình truy vấn thư viện số từ lớp ra Kohonen thơng qua Web
Màn hình 6.11: truy vấn các văn bản cĩ cùng nội dung từ lớp ra Kohonen thơng
qua mạng Web.
Từ trang Web này chúng ta truy vấn được các văn bản cĩ nội dung tương tự
nhau thơng qua lớp ra Kohonen, và chúng ta biết được cụm từ phổ biến của các
văn bản trong cùng một cụm trên lớp ra Kohonen. Bằng cách kích hoạt các nút
trên lớp ra Kohonen. Khi kích hoặt một nút nào đĩ trên lớp ra Kohonen thì các văn
bản trong cụm sẽ được hiển thị lên danh sách 1 (hình 6.11), và các cụm từ phổ
biến trong cụm đĩ được hiển thị lên danh sách 2 (hình 6.11).
Nếu chúng ta muốn quan sát nội dung của các văn bản trong từng cụm từ lớp
ra Kohonen, ta chỉ việc kích hoạt từng văn bản cĩ trong danh sách 1. Khi dĩ
chương trình sẽ hiển thị nội dung của văn bản được kích hoạt trên một trang Web
mới.
Danh Sách 1
Danh sách 2
6-22
Màn hình 6.12: Hiển thị nội dung văn bản được kích hoạt
6-23
6.9. DÙNG ĐẶC TRƯNG CỦA CÁC CỤM TRÊN LỚP RA KOHONEN
TẠO TẬP TỪ ĐỒNG HIỆN ĐỂ MỞ RỘNG TRUY VẤN THƠNG TIN
6.9.1. Tìm dãy từ đồng hiện dựa vào nhãn của cụm tr ên lớp ra Kohonen
Trong các hệ thống truy vấn thơng tin hiện nay, bên cạnh việc tìm theo các
từ trong câu truy vấn, các hệ thống tìm kiếm cịn cho phép mở rộng tìm thêm các
từ cĩ mối liên hệ về nghĩa hay các từ đồng hiện với các từ cĩ trong câu truy vấn.
Các từ đồng hiện hoặc gần nghĩa này thường được lưu trong các từ điển đồng và
gần nghĩa ( thesaurus). Trong phần phụ lục của đề tài, chúng tơi cĩ trình bày một
thesaurus được lấy lấy từ website yahoo.com.
Gần đây, mạng Kohonen đã được sử dụng để tạo ra tập các từ cĩ đồng hiện
với nhau nhằm hỗ trợ việc xây dựng tự động các thesaurus.
Chúng tơi sữ dụng phương pháp của Sestilo, 1997 để đánh nhãn tự động
cho các cụm trên lớp ra Kohonen. Trong lớp ra Kohonen, mỗi cụm là một nút với
vector trọng tương ứng. Thành thần thứ k của vector trọng ( từ khĩa thứ k) phản
ánh mức độ đĩng gĩp ( hiện diện ) của từ khĩa thứ k vào việc đặc trưng cho cụm
đĩ. Gọi (wij1,wij2,. . . , wijn) là vector trọng ở nút (i,j) trên lớp ra Kohonen. Ngưỡng
được chọn là wijmax=max((wij1,wij2,. . . , wijn).
Các đầu vào k có | wijmax - wijk | < T với T là ngưỡng nằm trong khoảng từ
0 đến 1. Giá trị của ngưỡng T phản ánh mức độ biến thiên quanh trị Wmax.
Ví dụ : Với vector trọng w12 =(0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20), ta có:
w12max = max((0,43; 0,43; 0,43; 0,00; 0,42; 0,43; 0,20)=0,43
Nếu chọn T=0,05 thì các thành phần thứ 1, 2, 3, 6 sẽ đóng góp mạnh vào
vector trọng w12 và vector đặc trưng cho node này là (1,1,1,0,0,1,0) tương ứng
với tập hợp tên các thành phần của vector nhập, trong trường hợp này là
{term(1), term(2), term(3),term(6)}. Tập hợp này được gọi là nhãn của nút.
6-24
Xét lớp ra Kohonen sau đây được tạo từ kho ngữ liệu các tĩm tắt bài báo khoa học
trong đĩ các cụm trên lớp ra được đánh nhãn tự động theo phương pháp của
Sestilo như sau:
( 1, 1)
-winning-
neuron
( 1, 2)-
winning-
neuron
( 1, 3)
-rough-set-
approximation-
dependency-
reduct
( 1, 4)
-DNA-acid-
promoter-code
( 1, 5)
-DNA-acid-
promoter-code
( 2, 1)-
winning-
neuron
( 2, 2)-
winning-
neuron
( 2, 3)
-rough-set-
approximation-
dependency-
reduct-
information-
discernibility-
lower
( 2, 4)
-DNA-acid-
promoter-code
( 2, 5)
-DNA-acid-
promoter-code
( 3, 1)
-SOM-map-
layer
( 3, 2)
-SOM-map-
layer
( 3, 3)-
information-
discernibility-
lower
( 3, 4)-
information-
discernibility-
lower-GA-
crossover-
mutation-
evolution-
probability
( 3, 5)
-GA-
crossover-
mutation-
evolution-
probability
( 4, 1)
-SOM-map
( 4, 2)
-SOM-
document-
map-feature-
vector-
learning
( 4, 3)-
learning-
information-
discernibility-
lower-GA-
crossover-
mutation
( 4, 4)
-GA-
crossover-
mutation
( 4, 5)
-GA-
crossover-
mutation
( 5, 1)
-SOM-
document-
map-feature-
( 5, 2)
-SOM-
document-
map-feature-
( 5, 3)
-learning-GA-
crossover-
mutation
( 5, 4)
-GA-
crossover-
mutation
( 5, 5)
-GA-
crossover-
mutation-
6-25
vector
vector-
learning
clustering
Dùng quan hệ bao hàm làm quan hệ thứ tự, chúng tơi xây dựng thuật giải để tìm
trội trực tiếp, kết quả như sau:
( 1, 3)-rough-set-approximation-dependency-reduct < -rough-set-approximation-
dependency-reduct-information-discernibility-lower( 2, 3)
( 3, 3)-information-discernibility-lower < -rough-set-approximation-
dependency-reduct-information-discernibility-lower( 2, 3)
( 3, 3)-information-discernibility-lower < -information-discernibility-lower-GA-
crossover-mutation-evolution-probability( 3, 4)
( 3, 3)-information-discernibility-lower < -learning-information-discernibility-
lower-GA-crossover-mutation( 4, 3)
( 3, 5)-GA-crossover-mutation-evolution-probability < -information-
discernibility-lower-GA-crossover-mutation-evolution-probability( 3, 4)
( 4, 1)-SOM-map < -SOM-map-layer( 3, 1)
( 4, 1)-SOM-map < -SOM-document-map-feature-vector-learning( 4, 2)
( 4, 1)-SOM-map < -SOM-document-map-feature-vector( 5, 1)
( 4, 4)-GA-crossover-mutation < -information-discernibility-lower-GA-
crossover-mutation-evolution-probability( 3, 4)
( 4, 4)-GA-crossover-mutation < -GA-crossover-mutation-evolution-probability(
3, 5)
( 4, 4)-GA-crossover-mutation < -learning-information-discernibility-lower-GA-
crossover-mutation( 4, 3)
( 4, 4)-GA-crossover-mutation < -learning-GA-crossover-mutation( 5, 3)
( 4, 4)-GA-crossover-mutation < -GA-crossover-mutation-clustering( 5, 5)
6-26
( 5, 1)-SOM-document-map-feature-vector < -SOM-document-map-feature-
vector-learning( 4, 2)
Sau đĩ tạo kiến trúc phân cấp dựa vào nhãn trên các nút của lớp ra Kohonen:
|-----( 1, 3) -rough-set-approximation-dependency-reduct
|-----( 2, 3) -rough-set-approximation-dependency-reduct-information-disce
|-----( 3, 3) -information-discernibility-lower
|-----( 2, 3) -rough-set-approximation-dependency-reduct-information-disce
|-----( 3, 4) -information-discernibility-lower-GA-crossover-mutation-evol
|-----( 4, 3) -learning-information-discernibility-lower-GA-crossover-muta
|-----( 4, 1) -SOM-map
|-----( 3, 1) -SOM-map-layer
|-----( 5, 1) -SOM-document-map-feature-vector
|-----( 4, 2) -SOM-document-map-feature-vector-learning
|-----( 4, 4) -GA-crossover-mutation
|-----( 3, 5) -GA-crossover-mutation-evolution-probability
|-----( 3, 4) -information-discernibility-lower-GA-crossover-mutation-evol
|-----( 5, 3) -learning-GA-crossover-mutation
|-----( 4, 3) -learning-information-discernibility-lower-GA-crossover-muta
|-----( 5, 5) -GA-crossover-mutation-clustering
Từ đĩ rút ra các tập hợp từ đồng hiện, trong ví dụ trên ta cĩ các tập hợp từ sau:
• (GA-crossover-mutation-clustering)
• (SOM-document-map-feature-vector-learning
• (-rough-set-approximation-dependency-reduct-information-discernibilty0
6-27
• (SOM-document-map-feature-vector-learning)
• ……….
6.9.2 Mở rộng câu truy vấn
Qui trình mở rộng truy vấn:
1. Tách các từ cĩ trong câu truy vấn
2. Tìm các từ đồng hi ện v ới từ c ĩ trong c âu truy vấn dựa trên thesaurus
3. Mở rộng truy vấn bằng cách tìm kiếm theo các từ đồng hiện với từ khĩa cần
tìm. Ví dụ: trong câu truy vấn cĩ từ khĩa “GA”, dựa trên tập từ đồng hiện:
(GA-crossover-mutation-clustering)
Do đĩ cĩ thể mở rộng truy vấn theo từ khĩa “crossover” hay “mutation” hay
“clustering “.
Sau đây là tập tin chứa danh sách các từ đồng hiện
STT Từ Từ đồng hiện
1 network CCITT protocol
2 network access privileges
3 network client-based application
4 network electronic mail
5 network file privilege
6 network freenet
7 network host
8 network kill file
9 network login name
10 network login security
11 network mail package
12 network micro-to-mainframe
13 network network
14 network network protocol
15 network node
16 network on-line help
17 network password
18 network repeater
19 network special interest group - SIG
20 network wide area network
21 cache RAM cache
6-28
22 cache cache
23 cache cache controller
24 cache cache memory
25 cache disk buffer
26 cache hardware cache
27 cache internal cache
28 cache memory cache
29 cache set-associative
30 cache software cache
31 cache write through
32 cache write-back
. . . . . . . . . . . . . . . . . . .. .
7-1
CHƯƠNG 7
XÂY DỰNG THƯ VIỆN CÁC BÀI BÁO NGHIÊN CỨU
LIÊN QUAN ĐẾN CNTT
7.1Thiết kế cơ sở dữ liệu
7.1.1 Mơ hình vật lý
7.1.2 Mơ hình dữ liệu
PAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS,
PAPERFILENAME, PAPERFILEPATH)
PAUTHOR (AUTHORID, AUTHORNAME, FACULTY, EMAIL)
PAPERAUTHOR (PAPERID, AUTHORID)
LIENTHONG (SOHIEU, TUKHOA)
COOCCURRENCE (QWORD, SWORD, COVISION)
SUBJECTHEADINGS (SHID, SUBJECTHEADINGS)
SUBJECTHEADINGPAPER (SHID, PAPERID)
7-2
SEARCHRESULT (SHID, PAPERID, ITEMSCOUNT)
KEYWORDS (KWID, KEYWORD)
KEYWORDPAPER (KWID, PAPERID)
SEARCHKWRESULT (KWID, PAPERID, ITEMSCOUNT)
SEARCHCORESULT (KWID, PAPERID)
USER_ACCOUNT (USERID, HO_TEN, PASSWORD, QUOC_TICH,
DIA_CHI, NAM_SINH, PHAI, NGHE_NGHIEP, NGAY_DK,
NGAY_HHAN, PIN)
7.2 Mơ tả các thực thể
1.PAPER: Bài báo
Thuộc Tính Diễn giải
PAPERID Mã số bài báo. Mỗi bài báo cĩ
một mã số duy nhất để phân biệt
với các bài báo khác
PAPERNAME Tựa đề của bài báo
TITLE Chủ đề của bài báo
ABTRACT Trích yếu của bài báo, tĩm lược
của bài báo
KEYWORDS Các từ khĩa chính trong bài báo.
Các từ khĩa này cĩ sẵn hoặc sẽ
được trích rút đặc trưng từ các
trích yếu của bài báo
PAPERFILENAME Tên tập tin tồn văn của bài báo
PAPERFILEPATH Đường dẫn nơi chứa tập tin tồn
văn của bài báo.
7-3
2.PAUTHOR: Tác giả
Thuộc Tính Diễn giải
AUTHORID Mã số tác giả. Mỗi tác giả cĩ một
mã số duy nhất để phân biệt với
các tác giả khác.
AUTHORNAME Họ và Tên của tác giả bài báo
FACULTY Trường hay nơi làm việc của tác
giả bài báo
EMAIL Địa chỉ email của tác giả của bài
báo
3.PAPERAUTHOR: Tác giả - bài báo
Thuộc Tính Diễn giải
PAPERID Mã số bài báo
AUTHORID Mã số tác giả tham gia viết bài
báo theo mã số bài báo trên. MỗI
tác giả sẽ cĩ một cặp khĩa theo
mã bài báo và mã số tác giả là
duy nhất để phân biệt.
4.LIENTHONG: liên thơng
Thuộc Tính Diễn giải
SOHIEU Số hiệu liên thơng
TUKHOA Từ khĩa liên thơng. Các từ khĩa
được gọi là liên thơng khi cĩ
cùng một số hiệu liên thơng. Các
từ khĩa này trích rút từ các cụm
từ đặc trưng từ tập các văn bản
7-4
5.COOCCURRENCE: Đồng hiện
Thuộc Tính Diễn giải
QWORD Từ khĩa này chính là các
keywords của bài báo. Dựa trên
các từ khĩa người dùng truy vấn
để lấy thêm các từ đồng hiện
thơng qua từ khĩa này và tìm
kiếm thêm các văn bản cĩ từ
khĩa này hay từ các từ đồng hiện
với từ khĩa này
SWORD Từ khĩa đồng hiện được trích rút
từ các cụm từ đặc trưng từ tập các
văn bản
COVISION Chỉ số đồng hiện giữa qword và
sword trong tập các văn bản
6.USER_ACCOUNT: Account của Người dùng
Thuộc Tính Diễn giải
USERID Mã số ngườI dùng. Mỗi ngườI sử
dụng cĩ một mã số để phân biệt
với người sử dụng khác
HO_TEN Họ tên của người sử dụng
PASSWORD Password người sử dụng
QUOC_TICH Quốc tịch của người sử dụng
DIA_CHI Địa chỉ liên hệ của ngườI sử dụng
NAM_SINH Năm sinh của ngườI dùng
PHAI Giới tính của người sử dụng
7-5
NGHE_NGHIEP Nghề nghiệp của người sử dụng
NGAY_DK Ngày đăng ký sử dụng hệ thống
thư viện bài báo. Ứng với ngày
đăng ký sẽ biết được ngày hết hạn
của mỗi account sử dụng.
NGAY_HHAN Ngày hết hạn dùng account này.
Nếu ngày hiện tại lớn hơn ngày
hết hạn từ account này đã bị lock
và người dùng phải đăng ký sử
dụng lại hệ thống.
PIN Số PIN. Thơng qua chỉ số này để
thu phí hay hệ thống sẽ cấp cho
mỗi người dùng số PIN mỗi khi
đăng ký sử dụng hệ thống
7. SUBJECTHEADINGS: Tiêu đề đề mục
Thuộc Tính Diễn giải
SHID Mã số một tiêu đề đề mục.
SUBJECTHEADINGS Tên của một tiêu đề đề mục cùng
từ đồng hiện của tiêu đề đề mục
đĩ
8. SUBJECTHEADINGPAPER
Thuộc Tính Diễn giải
SHID Mã số một tiêu đề đề mục.
PAPERID Tương ứng với một mã số của
tiêu đề đề mục sẽ cĩ một hay
nhiều mã số của bài báo đã được
tìm thấy trong thư viện bài báo
7-6
9. SEARCHRESULT
Thuộc Tính Diễn giải
SHID Mã số một tiêu đề đề mục.
SUBJECTHEADINGS Tên của một tiêu đề đề mục cùng
từ đồng hiện của tiêu đề đề mục
đĩ
ItemsCount Số các bài báo được tìm thấy theo
tiêu đề đề mục cĩ trong thư viện
bài báo
10. KEYWORDS
Thuộc Tính Diễn giải
KWID Mã số một từ khĩa
Keyword Từ khĩa được trích rút từ đặc
trưng từ kho dữ liệu trong cơ sở
dữ liệu.
11. KEYWORDPAPER
Thuộc Tính Diễn giải
KWID Mã số một từ khĩa.
PAPERID Tương ứng với một mã số của từ
khĩa sẽ cĩ một hay nhiều mã số
của bài báo đã được tìm thấy
trong thư viện bài báo
7-7
12. SEARCHKWRESULT
Thuộc Tính Diễn giải
KWID Mã số từ khĩa.
Keyword Từ khĩa được trích rút từ đặc
trưng từ kho dữ liệu trong cơ sở
dữ liệu.
ItemsCount Số các bài báo được tìm thấy theo
từ khĩa cĩ trong thư viện bài báo
13. KEYWORDCOPAPER
Thuộc Tính Diễn giải
KWID Mã số một từ khĩa.
PAPERID Tương ứng với một mã số của từ
khĩa sẽ cĩ một hay nhiều mã số
của bài báo đã được tìm thấy
trong thư viện bài báo và cùng
với một số mã số các bài báo cĩ
chứa các từ đồng hiện với từ khĩa
cần tìm.
14. SEARCHCORESULT
Thuộc Tính Diễn giải
KWID Mã số một từ khĩa.
Keyword Từ khĩa được trích rút từ đặc
trưng từ kho dữ liệu trong cơ sở
dữ liệu.
ItemsCount Số các bài báo được tìm thấy theo
từ khĩa cĩ trong thư viện bài báo
7-8
7.3.Giao diện truy cập thư viện bài báo
7.3.1.Trang đăng nhập
Trang này cho phép đăng nhập vào hệ thống thư viện bài báo. Sau khi
người dùng đã login vào hệ thống với đúng username/password đã đăng ký,
người dùng sẽ truy cập được thư viện bài báo, cĩ thể đọc được bài tĩm lược
của bài báo hay tồn văn của bài báo dựa trên việc truy vấn theo tên tác giả hay
theo từ khĩa hay từ danh sách bài báo, hay danh sách tác giả theo thứ tự. Nếu
người dùng lần đầu tiên truy cập vào website của thư viện bài báo thì hãy chọn
vào nút đăng ký để vào trang đăng ký.
7-9
7.3.2. Trang đăng ký
Để cĩ thể truy cập được thư viện bài báo trước hết người ta phải đăng ký
cho mình một username/password để cĩ thể login và truy cập hệ thống thư viện
bài báo. Mỗi lần đăng ký một account người dùng sẽ được truy cập trong
khoảng thời gian được nhất định, nếu vượt quá thời hạn sử dụng người dùng
phải đăng ký sử dụng lại hệ thống.
7-10
7.3.3 Trang chính
Từ trang chính này người dùng cĩ thể tham khảo thơng tin bài báo thơng
qua việc truy vấn theo từ khĩa, tên tác giả. Người dùng cĩ thể chuyển đổi trang
theo mục lục tác giả, bài báo hay tiêu đề đề mục để cĩ chọn lựa theo danh sách
chữ cái đầu của tên tác giả, tên các bài báo, tên tiêu đề đề mục và danh sách các
tác giả, bài báo, tiêu đề đề mục.
7-11
7.3.4. Trang hiển thị từ việc truy vấn thơng tin theo từ khĩa
Dựa trên từ khĩa truy vấn, hệ thống thư viện này sẽ tìm kiếm thêm các
từ khĩa đồng hiện với các từ khoa truy vấn để tìm kiếm thêm các tập văn bản
chứa các từ khĩa trên nhằm giúp cho người dùng mở rộng thêm tập thơng tin
cần tìm kiếm
7-12
7.3.5. Trang hiển thị danh sách tác giả theo tên thứ tự tên tác giả
Với trang này người dùng cĩ thể chọn theo tác giả cĩ những bài báo cần
tham khảo
7-13
7.3.6. Trang hiển thị danh sách của tất cả các bài báo
Với trang này người dùng cĩ thể chọn tên bài báo cần tham khảo.
7-14
7.3.7. Trang hiển thị tìm kiếm thơng tin theo tiêu đề đề mục
Dựa trên danh sách các tiêu đề đề mục theo thứ tự, hệ thống thư viện
này sẽ tìm kiếm tất cả các bài báo với tiêu đề đề mục mà đã được chọn để tra
cứu.
7-15
7.4 Kết luận
Trong CSDL với phương pháp truy vấn thơng thường, ta chỉ cĩ thể tìm
được một số văn bản dựa vào từ khĩa truy vấn cĩ chính xác trong văn bản cần
tìm. Vậy chúng ta hãy xem xét làm thế nào để cĩ thể tìm được các văn bản sao
cho cĩ sự xuất hiện các từ khĩa tương đương hay thường đồng hiện với từ khĩa
truy vấn. Chính vì điều này thư viện bài báo đã ứng dụng những kết quả cĩ
được từ nghiên cứu gom cụm và trích rút đặc trưng từ các tập văn bản.
Với việc cĩ thêm các từ khĩa được trích rút từ các cụm từ đặc trưng từ
tập các văn bản làm cho CSDL thêm phong phú, giúp cho việc truy vấn khơng
chỉ tìm được các văn bản cĩ chính xác các từ khĩa truy vấn mà cịn thêm được
các văn bản dựa trên các từ khĩa tương đương hay đồng hiện xuất hiện trong
các tập văn bản.
Thêm vào đĩ, việc thiết lập tiêu đề đề mục cũng dựa trên việc trích rút
đặc trưng với nguyên tắc thống nhất chỉ cĩ một từ trong số nhiều từ đồng nghĩa
được chọn làm tiêu đề đề mục. Chính việc cĩ thêm phần danh mục theo tiêu đề
đề mục đã giúp cho việc tra cứu thơng tin của người sử dùng thêm tiện lợi, hiệu
quả.
Các file đính kèm theo tài liệu này:
- Đề tài- Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số.pdf