Với bài toán dóng hàng hai mạng tương tác protein, chúng tôi đề xuất các thuật toán mới theo hướng tiếp
cận dóng hàng toàn cục. Thuật toán thứ nhất là thuật toán FASTAN cho phép dóng hàng nhanh và cho chất
lượng lời giải tốt so với các thuật toán trước đó. Thuật toán này phù hợp với các mạng tương tác protein-protein
có kích thước lớn và yêu cầu thời gian giải bài toán nhanh. Tuy nhiên khi tăng thời gian chạy thuật toán thì
chất lượng của FASTAN được cải thiện không nhiều. Để khắc phục nhược điểm trên của FASTAN, chúng tôi
tiếp tục đề xuất thuật toán giải bài toán dóng hàng toàn cục mạng tương tác protein-protein dựa trên phương
pháp tối ưu hóa đàn kiến có tên là ACOGNA. Các kết quả thực nghiệm trên các bộ dữ liệu sinh học thực đã
chứng minh những hiệu quả của phương pháp ACOGNA tốt hơn so với các thuật toán trước đó theo các tiêu
chuẩn GNAS, EC; tuy nhiên với tiêu chuẩn S3 thuật toán ACOGNA còn cho chất lượng lời giải kém hơn so
với thuật toán MAGNA++. Thuật toán ACOGNA++ được đề xuất sau đó cho phép thay đổi hàm mục tiêu theo
các tiêu chuẩn dóng hàng khác nhau và sử dụng thuật toán kiến trong cả 2 giai đoạn xác định thứ tự các đỉnh
trên đồ thị nguồn và xác định ảnh của nó trên đồ thị đích. Vì vậy ACOGNA++ cho chất lượng lời giải tốt hơn
ACOGNA, ModuleAlign, MAGNA++ đối với tất cả các bộ dữ liệu.24
Các kết quả nghiên cứu đã được công bố trong 5 bài báo công bố tại các hội nghị quốc tế cũng như trong
nước có phản biện, trong đó có 3 bài được đưa vào danh mục Scopus; một bài báo đăng tại tạp chí VNU Journal
of Science: Computer Science and Communication Engineering.
Các thuật toán đề xuất trong luận án cho thấy hiệu quả tốt hơn hẳn so với các thuật toán đề xuất trước đó
để giải các bài toán dóng hàng nhiều mạng các vị trí liên kết protein và bài toán dóng hàng toàn cục 2 mạng
tương tác protein. Về thời gian chạy, các thuật toán đề xuất cũng nhanh hơn các thuật toán tính toán mềm khác
được đề xuất trước đó trong phần lớn các bộ dữ liệu. Các thuật toán đề xuất đều dựa trên phương pháp tối ưu
đàn kiến, vì vậy có thể cải thiện thời gian chạy theo hướng song song hóa các thuật toán, bên cạnh đó nghiên
cứu sâu hơn về các phương pháp tính toán mềm khác để cải tiến các thuật toán đề xuất nhằm giảm thời gian
chạy.
Đối với bài toán dóng hàng các mạng các vị trí liên kết protein. Thời gian gần đây, người ta tập trung
nghiên cứu việc ứng dụng bài toán này vào việc nghiên cứu thuốc [Borrel, 2016; Jukič, Konc, Gobec, &
Janežič, 2017; Yuan et al., 2018]. Chúng tôi dự kiến sẽ liên hệ với các cơ sở nghiên cứu y-sinh để cùng phát
triển các nghiên cứu mang tính ứng dụng.
Đối với bài toán dóng hàng mạng tương tác protein, thời gian tới chúng tôi sẽ nghiên cứu để mở rộng việc
áp dụng các thuật toán đề xuất cho bài toán dóng hàng đồng thời nhiều mạng tương tác protein-protein, hay
bài toán dóng hàng các mạng động. Bên cạnh đó là việc nghiên cứu ứng dụng các thuật toán đề xuất vào trong
các bài toán thời sự trong lĩnh vực mạng xã hội.
26 trang |
Chia sẻ: yenxoi77 | Lượt xem: 525 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Một số thuật toán dóng hàng các mạng protein, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
a lần lặp để cập nhật mùi. Một phép hoán vị hai đỉnh cùng nhãn
A được minh họa trong hình 2.3
2.3. Thuật toán theo lược đồ memetic
2.3.1. Lược đồ chung
Sau khi khởi tạo các tham số và các kiến nhân tạo, thuật toán ACO-MGA2 thực hiện các vòng lặp theo
2 giai đoạn như mô tả trong thuật toán 2.1. Giai đoạn đầu trong mỗi vòng lặp, các kiến xây dựng lời giải trên
đồ thị cấu trúc dựa trên thông tin heuristic và vết mùi. Sau đó lời giải tốt nhất của các kiến được lựa chọn để
cập nhật vết mùi theo quy tắc cập nhật mùi SMMAS, đồng thời cập nhật lại lời giải tốt nhất toàn cục.
Giai đoạn 2 của thuật toán, trong mỗi vòng lặp, sau khi các kiến xây dựng xong các lời giải, 2 kỹ thuật tìm
kiếm cục bộ được áp dụng để tìm lời giải tốt nhất của mỗi vòng lặp.
Thuật toán 2.1: Thuật toán ACO-MGA2
Input: Tập các đồ thị G ={G1(V1,E1),,Gn(Vn,En)
Output: Dóng hàng tốt nhất cho tập đồ thị G: 1( ) ... ( )nA V V
Begin
Khởi tạo;
Hình 2.3. Một hoán vị cặp đỉnh có
trong thủ tục Local Search
11
while (Chưa thỏa mãn điều kiện dừng) do
for each a A do
Kiến a xây dựng một dóng hàng cho tập các đồ thị;
Tìm kiếm cục bộ trên lời giải tốt nhất //Chỉ áp dụng ở giai đoạn 2
//Tìm kiếm bằng cách đổi vị trí của các đỉnh khác nhãn.
//Tìm kiếm bằng cách đổi vị trí của các đỉnh cùng nhãn.
Cập nhật vết mùi theo quy tắc SMMAS;
Cập nhật lại lời giải tốt nhất;
End for;
End while;
Lưu lại lời giải tốt nhất;
End;
2.3.2. Đồ thị cấu trúc
Đồ thị cấu trúc của thuật toán ACO-GMA2 được sử dụng giống như thuật toán ACO-MGA.
2.3.3. Vết mùi và thông tin heuristic
Vết mùi 𝜏𝑗,𝑘
𝑖 kết nối đỉnh j của đồ thị Gi với đỉnh k ở đồ thị Gi+1 được khởi tạo bằng 𝜏𝑚𝑎𝑥 và được
cập nhật lại sau các vòng lặp.
Thông tin Heuristic 𝜂𝑗,𝑘
𝑖 (𝑎)được tính bởi công thức 2.8.
,
( , ) 1
( )
1
.
i
j k
max
count k a
k
i
n a
nV
lµ ®Ønh thùc
k lµ ®Ønh gi¶
(2.8)
Trong đó count(k,a) là số lượng đỉnh trên véc tơ {a1,ai} có nhãn trùng với nhãn của đỉnh k trong trường
hợp k là đỉnh thực, Vmax là số lượng đỉnh của đồ thị có nhiều đỉnh nhất..
2.3.4. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng
Tại mỗi vòng lặp, mỗi kiến sẽ lặp lại quá trình xây dựng véc tơ a = (a1,, an) cho dóng hàng A tương tự
như thuật toán ACO-MGA.
2.3.5. Qui tắc cập nhật vết mùi
Thuật toán ACO-MGA2 sử dụng quy tắc cập nhật vết mùi SMMAS nhưng cải tiến so với thuật toán
ACO-MGA ở điểm thuật toán ACO-MGA2 sử dụng 2 giá trị của tham số ở 2 giai đoạn khác nhau. Giai
đoạn đầu không sử dụng tìm kiếm địa phương nên tham số được thiết lập nhỏ hơn để khai thác thông tin
học tăng cường, còn giai đoạn 2 khi áp dụng tìm kiếm cục bộ thì tham số này được thiết lập lớn hơn để
tăng tính khám phá.
2.3.6. Thủ tục tìm kiếm cục bộ
Thủ tục tìm kiếm cục bộ thực hiện tuần tự trên đồ thị G1 đến đồ thị Gn theo nguyên tắc tìm được kết quả
tốt nhất thì dừng. Thủ tục này gồm hai kỹ thuật: đổi các đỉnh cùng nhãn và đổi các đỉnh khác nhãn.
1) Đổi các đỉnh khác nhãn. Đổi vị trí trên cặp vectơ dóng hàng tương ứng với mỗi cặp đỉnh khác nhãn
của đồ thị Gi đang xét nếu việc đổi chỗ đó làm tăng số lượng các đỉnh cùng nhãn trên các vector dóng hàng.
2) Đổi các đỉnh cùng nhãn. Đổi vị trí trên cặp vectơ dóng hàng tương ứng với mỗi cặp đỉnh tcùng nhãn
của đồ thị Gi đang xét nếu việc đổi vị trí đó cải thiện độ phù hợp của trọng số ở các cạnh liên quan.
Nếu sau khi đổi chỗ, hàm đánh giá chất lượng tăng lên thì lời giải nhận được sẽ thay thế cho lời giải tốt
nhất lúc đó. Quá trình này được lặp lại cho đến khi tìm được lời giải tốt nhất. Vì thủ tục tìm kiếm cục bộ
tốn thời gian nên chỉ áp dụng cho giai đoạn hai, khi lời giải tốt nhất tìm được đủ tốt.
2.4. Thuật toán memetic mới kết hợp ACO và Tabu Search
2.4.1. Đồ thị cấu trúc
Đồ thị cấu trúc của thuật toán ACOTS-MGA được sử dụng giống như thuật toán ACO-MGA2.
12
2.4.2. Thông tin heuristic
Heuristic information 𝜂𝑗,𝑘
𝑖 (𝑎) là số điểm cạnh tính theo công thức (2.3) khi đỉnh k của đồ thị Gi+1 được
dóng với đỉnh j của đồ thị Gi
2.4.3. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng
Tại mỗi vòng lặp, mỗi kiến sẽ lặp lại quá trình xây dựng các véctơ dóng hàng a = (a1,, an) cho dóng hàng
A như sau:
Kiến lựa chọn ngẫu nhiên một đỉnh thực ở tầng 1 là đỉnh khởi tạo. Tại các tầng tiếp theo, ký hiệu (a)label
là tập các nhãn của các đỉnh thuộc véctơ dóng hàng a, gọi { | (v) (a)}i iB v G label label là tập các đỉnh thuộc
đồ thị Gi có nhãn trùng với nhãn của các đỉnh thuộc véctơ dóng hàng. Trong trường hợp không có đỉnh nào có
nhãn trùng với nhãn của các đỉnh đã được dóng hàng, Bi sẽ là tập các đỉnh còn lại chưa được dóng hàng. Kiến
sẽ lựa chọn ngẫu nhiên 1 đỉnh trong Bi với xác suất được cho ở công thức 2.9.
Để dễ hình dung, giả sử véctơ dóng hàng đã được xây dựng từ đỉnh a1 của đồ thị G1 và thực hiện thủ tục
bước ngẫu nhiên để phát triển đến đỉnh ai của đồ thị Gi khi đó sẽ lựa chọn đỉnh thứ k thuộc đồ thị Gi +1 với xác
suất là:
1
, ,
,
, ,
( ) . (a)]
( ) .[ (a)]
i
i i
j k j ki
j k i i
j s j ss B
p
(2.9)
Sau khi xây dựng đầy đủ véctơ a=(a1,,an), các đỉnh thực thuộc véctơ này sẽ bị loại bỏ khỏi đồ thị cấu
trúc để tiếp tục quá trình xây dựng các véctơ dóng hàng cho đến khi tất cả các đỉnh đều được dóng hàng.
2.4.4. Qui tắc cập nhật vết mùi
Khác với thuật toán ACO-MGA2, việc cập nhật mùi của ACOTS-MGA được thực hiện theo các công thức
2.10 và 2.11.
, , ,(1 )
i i i
j k j k j k (2.10)
,
.
.
.
max
i
j k mid
min
(i,j,k)
(i,j,k)
lêi gi¶i tèt nhÊt
lêi gi¶i tèt nhÊt vßng lÆp
trêng hîp kh¸c
(2.11)
Các tham số max,min và ∈ (0,1) được khởi tạo tương tự như thuật toán ACO-MGA2. Trong thuật toán
ACOTS-MGA luận án sử dụng thêm tham số mid để cập nhật mùi trong trường hợp lời giải mới mà các kiến
tìm được là lời giải tốt nhất của vòng lặp nhưng chưa phải là lời giải tốt nhất toàn cục. Tham số này được thiết
lập nhỏ hơn max với ý nghĩa là lời giải tốt nhất toàn cục sẽ để lại lượng vết mùi lớn hơn so với lời giải tốt nhất
của vòng lặp.
2.4.5. Thủ tục tìm kiếm Tabu
Trong các vòng lặp cuối của thuật toán ACOTS-MGA, thuật toán Tabu Search được áp dụng để tăng
cường chất lượng lời giải. Thủ tục tìm kiếm Tabu sẽ duyệt lần lượt các đỉnh của các đồ thị, với mỗi đồ thị sẽ
thực hiện việc hoán vị các cặp đỉnh trên các vector dóng hàng. Nếu việc hoán vị này làm tăng điểm đánh giá
thì lời giải tốt nhất sẽ được cập nhật bằng lời giải hiện tại. Khác với thủ tục tìm kiếm thông thường, thủ tục
Tabu Search này có sử dụng một danh sách Tabu để lưu lại các bước chuyển. Các bước chuyển nằm trong
danh sách Tabu sẽ không được xét lại nữa để tránh lặp lại các bước chuyển.
Một khác biệt nữa so với thuật toán ACO-MGA2 là thủ tục tìm kiếm cục bộ của ACO-MGA2 chỉ được
gọi một lần trong mỗi vòng lặp, còn trong thuật toán ACOTS-MGA, thủ tục tìm kiếm được gọi lặp lại nhiều
lần cho đến khi không cải thiện được chất lượng lời giải nữa.
2.5. Các kết quả thực nghiệm
2.5.1. Dữ liệu thực nghiệm
Khi đánh giá hiệu quả các thuật toán, việc lựa chọn dữ liệu là rất quan trọng, để đảm bảo sự khách quan,
luận án sử dụng lại các bộ dữ liệu thực đã được sử dụng để đánh giá hiệu quả của các thuật toán tham lam do
Weskamp và thuật toán GAVEO do Thomas Fober đề xuất. Các công trình do 2 tác giả đề xuất đã được đăng
13
tải trên các tạp chí uy tín nên bộ dữ liệu thực nghiệm được lựa chọn có thể đảm bảo về độ tin cậy và khách
quan.
Dữ liệu thực nghiệm bao gồm 74 cấu trúc sinh ra từ cơ sở dữ liệu Cavbase. Mỗi cấu trúc biểu diễn cho một
protein cavity thuộc họ protein của thermolysin, vi khuẩn protease thường được sử dụng trong phân tích cấu
trúc protein và được chú thích với số hiệu EC 3.4.24.27 trong cơ sở dữ liệu enzyme.
Trong bộ dữ liệu này, mỗi đồ thị sinh ra có từ 42 đến 95 đỉnh. Từ 74 cấu trúc đó, các đồ thị được lựa chọn
ngẫu nhiên để sinh ra các tập dữ liệu gồm 4, 8, 16, 32 đồ thị để tiến hành chạy thực nghiệm các thuật toán.
2.5.2. Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy và GAVEO
Thực nghiệm nhằm so sánh ACO-MGA với hai thuật toán Greedy và thuật toán tiến hóa GAVEO về chất
lượng lời giải và thời gian chạy. Các thực nghiệm bao gồm:
1) Chạy các thuật toán trên cùng một bộ dữ liệu với số vòng lặp định trước để so sánh về chất lượng dóng
hàng và thời gian chạy.
2) Chạy các thuật toán trên cùng một bộ dữ liệu với cùng một thời gian định trước để so sánh về chất lượng
dóng hàng.
Các thí nghiệm của chúng tôi được thực hiện trên máy tính có cấu hình: CPU Dual Core 2.2Ghz, RAM
DDR3 3GB trên hệ điều hành Windows XP SP3.
Đối với thuật toán ACO-MGA, sau khi tiến hành thực nghiệm với các giá trị khác nhau của từng tham số,
chúng tôi thấy rằng với các giá trị của các tham số như dưới đây sẽ cho kết quả lời giải tốt nhất, vì vậy trong
các thực nghiệm các tham số của thuật toán được thiết lập như sau: Số kiến trong mỗi lần lặp là 20, =0.06,
𝛼 = 𝛽 = 1, max = 1.0 và min = max/(n2*Vmax2), trong đó n là số đồ thị, Vmax là số đỉnh của đồ thị có nhiều đỉnh
nhất. Trong thời gian đầu tiến hành nghiên cứu bài toán MGA, do chưa có dữ liệu thực, chúng tôi sinh ngẫu
nhiên các tập dữ liệu thực nghiệm là các tập đồ thị với các đồ thị có 20 và 50 đỉnh, số đồ thị lần lượt là 4,8,16
và 32.
Bảng 2.1 và bảng 2.2 dưới đây là kết quả so sánh các thuật toán ACO-MGA, GAVEO và Greedy về điểm
chất lượng dóng hàng (score) và thời gian chạy của các thuật toán. Bảng 2.1 là kết quả dóng hàng ứng với các
đồ thị có trung bình là 20 đỉnh và bảng 2.2 là kết quả ứng với các đồ thị có trung bình là 50 đỉnh. Các kết quả
tốt hơn được thể hiện bằng chữ in đậm, thời gian chạy ngắn hơn được thể hiện bằng chữ in nghiêng, đậm.
Bảng 2.1. So sánh chất lượng dóng hàng và thời gian chạy với các bộ dữ liệu gồm 4, 8, 16 và 32 đồ thị,
trung bình mỗi đồ thị có 20 đỉnh.
Thuật toán/Số đồ thị 4 8 16 32
Greedy
Điểm -40 -35 -570 -1055
Thời gian (s) 0.6 2.3 6 17
GAVEO
Điểm -20 65 45 1132
Thời gian (s) 249 501 1087.7 2484.1
ACO-
MGA
Điểm 124 696 1480 7289
Thời gian (s) 33.6 231.5 481.2 1266
Bảng 2.2. So sánh kết quả chất lượng dóng hàng và thời gian chạy với các bộ dữ liệu gồm 4, 8, 16 và 32 đồ
thị, trung bình của mỗi đồ thị có 50 đỉnh
Thuật toán/Số đồ thị 4 8 16 32
Greedy
Điểm -1144 -4704 -31004 -155508
Thời gian (s) 4.8 11.3 49 210.8
GAVEO
Điểm -101 -75 -10872 -33698
Thời gian (s) 1164 2739.1 6921.3 16340.8
ACO-
MGA
Điểm 685 3338 1273 -18643
Thời gian (s) 763.4 6523.5 12670.5 28859.8
14
Kết quả thực nghiệm cho thấy rằng: Trong cả 2 trường hợp các đồ thị gồm 20 đỉnh và đồ thị 50 đỉnh thì
thuật toán Greedy đều cho thời gian chạy rất nhanh so với 2 thuật toán còn lại. Tuy nhiên kết quả về điểm dóng
hàng của thuật toán này lại rất thấp so với GAVEO và ACO-MGA. Thuật toán ACO-MGA cho kết quả điểm
tốt hơn thuật toán GAVEO. Với các đồ thị 20 đỉnh, thời gian chạy của ACO-MGA nhanh hơn so với GAVEO
nhưng khi số đỉnh trong đồ thị tăng lên thì thời gian chạy của GAVEO nhanh hơn khi số đồ thị vượt quá 4.
Tuy nhiên, thực nghiệm ở mục sau cho thấy cùng thời gian chạy thì ACO-MGA vẫn cho kết quả tốt hơn nhiều.
Vì thuật toán Greedy có thời gian chạy ngắn nhưng lại có điểm thấp nên luận án chỉ tiến hành các thí
nghiệm để so sánh hiệu quả của thuật toán GAVEO và thuật toán ACO-MGA với cùng thời gian chạy.
Bảng 2.3. So sánh chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16 và 32 đồ thị, với số đỉnh trung bình
của mỗi đồ thị là 20 đỉnh và thời gian chạy là 200s
Thuật toán/Số đồ thị 8 16 32
GAVEO 74 -38 1254
ACO-MGA 690 2262 10060
Bảng 2.4. So sánh chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16 và 32 đồ thị, với số đỉnh trung
bình của mỗi đồ thị là 50 đỉnh và thời gian chạy là 600s
Thuật toán/Số đồ thị 4 8 16 32
GAVEO -107 -77 -5282 -96123
ACO-MGA 673 2898 744 -16945
Các kết quả thực nghiệm được trình bày ở các bảng trên cho thấy khi so sánh 2 thuật toán ACO-
MGA và GAVEO với cùng một bộ dữ liệu mô phỏng, trên cùng một cấu hình máy và cùng thời gian chạy
thì thuật toán ACO-MGA cũng cho kết quả tốt hơn nhiều so với thuật toán GAVEO.
2.5.3. Thực nghiệm so sánh các thuật toán ACOTS-MGA, ACO-MGA2, GAVEO và Greedy
Vì ACO-MGA2 được cải tiến từ ACO-MGA, với nhiều cải tiến đã được phân tích trong phần đầu
của mục 2.5.1 đảm bảo thuật toán cho chất lượng lời giải tốt hơn so với ACO-MGA, nên các thực nghiệm
ở đây chỉ so sánh các thuật toán ACOTS-MGA, ACO-MGA2 với hai thuật toán Greedy và thuật toán tiến
hóa GAVEO về chất lượng lời giải và thời gian chạy.
Các thuật toán đều được chạy lại trên máy tính có cấu hình: CPU Dual Core 3 Ghz, RAM DDR2 4GB
trên hệ điều hành Windows 7.
Thuật toán GAVEO sử dụng các tham số được lựa chọn như trong bài báo [Fober et al., 2009]. Đối với
2 thuật toán ACO-MGA2 và ACOTS-MGA, sau khi tiến hành thực nghiệm với các giá trị khác nhau của
các tham số. Các bộ tham số mà các thuật toán cho chất lượng lời giải tốt nhất được lựa chọn. Các tham số
cụ thể như sau:
Thuật toán ACO-MGA2: Số kiến trong mỗi lần lặp là 30 ;1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;max = 1.0 và min =
max/(n
2*Vmax
2), trong đó n là số đồ thị, Vmax là số nút của đồ thị có nhiều nút nhất. Thủ tục local search được
gọi trong 30% số vòng lặp cuối cùng.
Thuật toán ACOTS-MGA: Số kiến trong mỗi lần lặp là 30 ; 1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;max = 1.0, min =
max/(n
2*Vmax
2) và mid=0.8. Thủ tục local search được gọi trong 20% số vòng lặp cuối cùng.
Bảng 2.5. So sánh chất lượng dóng hàng của các thuật toán với các tập dữ liệu gồm 4, 8, 16 và 32 đồ thị
Thuật toán/Số đồ thị 4 8 16 32
Greedy -4098 -11827 -56861 -267004
GAVEO -1224 -2729 -10604 -63205
ACO-MGA2 -972 -2277 -7857 -53960
ACOTS-MGA -963 -1089 -5671 -42216
Các kết quả thực nghiệm trong bảng 2.5 cho thấy thuật toán ACOTS-MGA cho chất lượng lời giải tốt
hơn Greedy, GAVEO và ACO-MGA2 đối với cả 4 tập dữ liệu. Khi số lượng đồ thị tăng thì chất lượng
lời giải của ACOTS-MGA cao hơn so với các thuật toán Greedy, GAVEO và ACO-MGA2 càng thể hiện
rõ rệt hơn.
15
Luận án cũng tiến hành chạy các thuật toán trong cùng một thời gian với cả 4 tập dữ liệu thì thuật toán
ACOTS-MGA đều cho kết quả tốt hơn so với GAVEO và ACO-MGA2.
2.6. Kết luận chương
Trong chương này, chúng tôi trình bày các khái niệm liên quan đến bài toán dóng hàng tập gồm nhiều đồ
thị và đề xuất 3 thuật toán là ACO-MGA, ACO-MGA2 và ACOTS-MGA để giải quyết bài toán dóng hàng
nhiều đồ thị. Kết quả thực nghiệm trên các bộ dữ liệu mô phỏng và dữ liệu thực cho thấy các thuật toán đề
xuất cho kết quả tốt hơn nhiều so với thuật toán GAVEO khi chạy với cùng bộ dữ liệu và cùng thời gian chạy.
Khi số đỉnh của đồ thị tăng lên thì thời gian tìm kiếm địa phương trong ACO-MGA, ACO-MGA2 và ACOTS-
MGA làm tăng thời gian chạy nên các thuật toán đề xuất chạy lâu hơn GAVEO trong một số trường hợp.
Các thuật toán đề xuất dóng hàng nhiều mạng các vị trí liên kết protein cho chất lượng dóng hàng tốt hơn
các thuật toán GAVEO và Greedy sẽ giúp xác định được sự tương đồng về cấu trúc của các protein chính xác
hơn. Thông qua tính tương đồng về mặt cấu trúc đó có thể suy diễn chức năng của các protein chưa biết thông
qua các protein đã biết [Yuan et al., 2018]. Đó chính là ý nghĩa sinh học mà các thuật toán đề xuất mang lại.
Chương 3. DÓNG HÀNG TOÀN CỤC HAI MẠNG TƯƠNG TÁC PROTEIN- PROTEIN
Chương này giới thiệu 3 thuật toán mà luận án đề xuất để giải bài toán dóng hàng toàn cục mạng tương tác
protein là FASTAN, ACOGNA và ACOGNA++. Các thực nghiệm đã chứng minh các thuật toán này cho chất
lượng lời giải tốt hơn đáng kể so với các phương pháp mới nhất hiện nay.
3.1. Bài toán dóng hàng toàn cục mạng tương tác Protein
3.1.1. Phát biểu bài toán
Giả sử G1 = (V1, E1) và G2 = (V2, E2) là 2 đồ thị mô tả 2 mạng tương tác protein, trong đó V1, V2 tương
ứng là tập các đỉnh của các đồ thị G1 và G2; E1, E2 à tập các cạnh tương ứng của G1, G2. Không mất tính tổng
quát ta có thể giả sử 1 2| | | |V V trong đó |V| là ký hiệu cho số phần tử của tập V.
Định nghĩa 3.1. Dóng hàng toàn cục 2 mạng tương tác protein là xác định một đơn ánh
1 2
:f V V trong
đó mỗi đỉnh của V1 được khớp với duy nhất 1 đỉnh
2 1 2
( )v f v V .
Trong trường hợp 1 2| | | |V V thì f là một song ánh.
3.1.2. Đánh giá chất lượng dóng hàng toàn cục
Cho một dóng hàng mạng f ký hiệu 1 2 1( ) {( ( ), ( )) : ( , ) }f E f u f v E u v E và 1 2 1( ) { ( ) : }f V f v V v V .
Các tiêu chuẩn dóng hàng được sử dụng phổ biến nhất trong các nghiên cứu về bài toán dóng hàng toàn cục
mạng tương tác protein được trình bày như dưới đây:
Tiêu chuẩn GNAS được Aladag giới thiệu được tính theo công thức sau:
𝐺𝑁𝐴𝑆 = 𝛼|𝑓(𝐸1)| + (1 − 𝛼) ∑ 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢))𝑢∈𝑉1 , (3.1)
trong đó 𝛼 ∈ [0.1] là tham số thể hiện sự tương quan về mức độ quan trọng giữa độ tương đồng về mặt cấu
trúc và sự tương đồng về mặt trình tự, 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) là độ đo tương tự trình tự nào đó, chẳng hạn, BLAST
bit-scores hay E-values (Các giá trị này đã được tính toán trước và là dữ liệu đầu vào của một số thuật toán
dóng hàng toàn cục).Ưu điểm của độ đo GNAS là thể hiện được cả mối tương quan về topology và độ tương
đồng về trình tự giữa 2 đồ thị được dóng hàng.
Kuchaiev và các cộng đề xuất dùng độ đo EC (Edge Correctness) như trong công thức 3.2.
1
1
( )f E
EC
E
(3.2)
EC là độ đo tỷ lệ của các cạnh trong đồ thị nguồn được dóng hàng chính xác đến các cạnh trong đồ thị thứ
hai với số lượng cạnh của đồ thị nguồn. Giá trị EC lớn có nghĩa là hai mạng có cấu trúc tương tự nhau. Tiêu
chuẩn này định lượng sự giống nhau giữa hai mạng. EC chỉ bằng 100% khi và chỉ khi đồ thị thứ hai G2 chứa
một bản sao đẳng cấu của G1
16
Khi dóng hàng một mạng có mật độ cạnh thưa với mạng đích có mật độ cạnh dày, có nhiều cách để dóng
hàng G1 với các mạng con của G2. Tuy nhiên bằng trực giác có thể thấy việc dóng hàng G1 với mạng con thưa
của G2 sẽ tốt hơn so với việc dóng hàng G1 với một mạng con dày. Để “phạt” những dóng hàng những dóng
hàng mà ánh xạ đồ thị G1 với một mạng con dày của đồ thị G2, Patro và các cộng sự [Patro & Kingsford, 2012]
đề xuất dùng độ đo ICS (Induced Conserved Structure), độ đo ICS thể hiện tỷ lệ các cạnh của đồ thị nguồn
được bảo tồn trên đồ thị đích sau khi dóng hàng (f(E1)) với số cạnh của đồ thị con của đồ thị đích được sinh ra
bởi các đỉnh được dóng hàng với các đỉnh trên đồ thị nguồn (E(G2[f(V1)])). Cụ thể ICS được tính theo công
thức 3.3.
1
2 1
( )
( [ ( )])
f E
ICS
E G f V
, (3.3)
trong đó 𝐸(𝐺2[𝑓(𝐸1)]) là tập cạnh trong 𝐺2 của đồ thị con có tập đỉnh là 𝑓(𝑉1).
Qua các công thức 3.2 và 3.3 có thể thấy, độ đo EC chú trọng đến đồ thị nguồn, trong khi độ đo ICS chú
trọng đến đồ thị đích. Vì vậy độ đo EC không tốt khi đánh giá chất lượng dóng hàng nếu ta dóng hàng một
mạng có mật độ cạnh thưa với một mạng có mật độ cạnh dày. Ngược lại độ đo ICS không tốt khi ta dóng hàng
một mạng dày với 1 mạng thưa. Nhận thấy nhược điểm trên của 2 độ đo EC và ICS, Saraph và các cộng sự
[Saraph & Milenković, 2014] đề xuất độ đo S3 như công thức 3.4. 3 1
1 2 1 1
( )
( [ ( )]) ( )
f E
S
E E G f V f E
(3.4)
S3 xét đến cả số cạnh của đồ thị nguồn và số cạnh của đồ thị con được sinh ra bởi cách đỉnh của đồ thị đích
được dóng hàng, vì vậy nó khắc phục được các nhược điểm của EC và ICS như đã phân tích ở trên.
3.2. Thuật toán FASTAN
3.2.1. Đặc tả thuật toán
Thuật toán FASTAN gồm hai giai đoạn: giai đoạn thứ nhất xây dựng dóng hàng ban đầu và giai đoạn sau
cải tiến nó nhờ thủ tục tối ưu cục bộ Rebuild.
3.2.1.1. Xây dựng dóng hàng ban đầu
Cho các đồ thị G1, G2; tham số α và các độ tương tự của các cặp đỉnh tương ứng của V1, V2 là similar(i,
j). Ký hiệu Vi là tập các đỉnh đã được dóng hàng của đồ thị Gi và RVi = Vi –Vi là tập các đỉnh chưa được dóng
hàng của đồ thị Gi. Gọi A12= (V12, E12) là kết quả của phép dóng hàng đồ thị G1 với đồ thị G2, trong đó
12 1 2, ( ) : , ( )V i f i i V f i V ; 12 1 2( , ( ) , , ( ) ) : ( , ) , ( ( ), ( ))E u f u v f v u v E f u f v E
Thủ tục FASTAN được thực hiện như sau:
Bước 1. Xác định cặp đỉnh i ∈ V1 và j ∈ V2 có độ tương tự similar(i, j) lớn nhất. Gán f(i):=j; Khởi tạo V
1=
{i};V2= {j};
Bước 2. Thực hiện lặp với k= 2 tới |𝑉1|
2.1. Tìm nút i RV1 có số cạnh nối với các đỉnh trong 𝑉1 lớn nhất (Thủ tục này gọi là find_next_node).
2.2. Tìm f(i) = j RV2 mà khi dóng hàng j với i thì công thức 𝛼|𝑓(𝐸1
∗)| + (1 − 𝛼)(∑ 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) +𝑢∈𝑉1
𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑖, 𝑗)) đạt giá trị lớn nhất. Trong đó 𝐸1
∗ là các cạnh của đồ thị G1 có các đỉnh thuộc tập 𝑉1 ∪ 𝑖. (Thủ
tục này gọi là choose_best_matched_node).
2.3. Lần lượt thêm i,j vào các tập đỉnh đã được dóng hàng V1, V2.
Bước 3. Thực hiện lặp cải tiến 𝐴12 nhờ thủ tục Rebuild.
Chú ý rằng ở các bước 2.1 và 2.2 có thể tìm được nhiều đỉnh tốt nhất, khi đó sẽ chọn ngẫu nhiên một đỉnh
trong số đó để tạo ra sự đa dạng về lời giải trong các lần chạy khác nhau.
3.2.1.2. Thủ tục Rebuild
Sau giai đoạn 1, đã xác định được dóng hàng thô A12, để tăng chất lượng của lời giải, thuật toán sử dụng
thủ tục tối ưu cục bộ rebuild. Ý tưởng của thủ tục này là sử dụng một tập giống gồm nkeep những cặp đỉnh đã
được dóng hàng tốt của A12, sau đó dóng hàng lại các cặp đỉnh khác, nếu lời giải mới tốt hơn sẽ thay thế cho
lời giải trước đó. Chi tiết thủ tục rebuil như dưới đây.
17
Bước 1. Xây dựng SeedV12 gồm 𝑛𝑘𝑒𝑒𝑝 đỉnh của V1 có điểm tốt nhất theo tiêu chí cho bởi công thức 3.5:
𝑠𝑐𝑜𝑟𝑒(𝑢) = 𝛼. 𝑤(𝑢) + (1 − 𝛼). 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) (3.5)
trong đó u𝑉1 và 𝑓(𝑢)𝑉2 được dóng hàng với u trong 𝐴12, w(u) là số lượng nút v thuộc V1 mà (u,v) thuộc
E1 và (f(u),f(v)) thuộc E2
Bước 2. Thực hiện lặp như bước 2 của giai đoạn 1 với k = 𝑛𝑘𝑒𝑒𝑝 + 1 tới |𝑉1| để xây dựng lại A12
Sau mỗi lần thực hiện thủ tục Rebuild ta có một dóng hàng mới làm input 𝐺12cho lần lặp tiếp theo, quá
trình này lặp lại cho đến khi không cải tiến được GNAS(A12) nữa.
3.2.2. Độ phức tạp của thuật toán FASTAN so với SPINAL
Trong nghiên cứu của Aladag và Erten [Aladag & Erten, 2013], bài toán dóng hàng toàn cục mạng tương
tác protein đã được chứng minh là NP-khó. Các tác giả cũng đã đề xuất thuật toán SPINAL có độ phức tạp với
thời gian đa thức là: 1 2 1 2 1 2 SPINALComplexity O k V V log (3.6)
Trong đó k là số lần lặp chính khi chạy thuật toán, theo [Aladag & Erten, 2013] thuật toán sẽ hội tụ sau 10 đến
15 lần lặp; ∆1, ∆2 lần lượt là bậc của đỉnh thuộc các đồ thị G1 và G2 có bậc lớn nhất.
Dễ dàng kiểm tra được độ phức tạp của giai đoạn 1 và mỗi bước lặp trong giai đoạn 2 của thuật toán
FASTAN là: O(|V1|×(E1|+|E2|)) (3.7)
Các thực nghiệm được tiến hành với các bộ dữ liệu thực nghiệm IsoBase cho thấy số lần lặp của giai đoạn
2 của thuật toán không vượt quá 20 lần. Bởi vì |V1|×∆1 ≥ E1 nên chú ý tới độ phức tạp của SPINAL trong công
thức (3.6) ta có: |V1|×|V2|×∆1×∆2 ≥ E1× E2 > (|V1|×(E1|+|E2|)). (3.8)
Như vậy độ phức tạp của FASTAN so với độ phức tạp của SPINAL thấp hơn nhiều.
3.3. Thuật toán ACOGNA
3.3.1. Lược đồ chung
Thuật toán ACOGNA được xây dựng như dưới đây:
Bước 1. Khởi tạo ma trận vết mùi, và tập A gồm m kiến.
Bước 2. Thực hiện lặp trong khi chưa thoả mãn điều kiện dừng
Với mỗi kiến ta tiến hành các bước sau:
2.1. Gán f(i)=j trong đó i, j là cặp đỉnh có độ tương đồng similar (i,j) lớn nhất. Khởi tạo V1 = {i}; V2 = {j};
2.2. Thực hiện lặp với k= 2 tới 1V
2.2.1. Tìm đỉnh 1i RV có số cạnh tới các đỉnh trong
1V lớn nhất;
2.2.2. Sử dụng thuật toán ACO tìm đỉnh f(i)=
2
j RV theo thủ tục bước ngẫu nhiên (thủ tục antMove)
2.2.3. Lần lượt thêm 2 đỉnh i và j vào các tập đỉnh V1 và V2
2.3. Thực hiện tìm kiếm cục bộ trên lời giải tốt nhất do các kiến tìm được để cải thiện chất lượng lời giải.
2.4. Cập nhật lại lời giải tốt nhất.
2.5. Cập nhật vết mùi theo quy tắc SMMAS dựa trên lời giải tốt nhất.
Bước 3. Lưu lại lời giải tốt nhất.
Chú ý rằng ở bước 2.2.1, việc tìm 1i RV có số cạnh tới các đỉnh trong
1V lớn nhất nhằm tăng số
lượng các cạnh có thể được bảo toàn sau khi dóng hàng, nếu tìm được nhiều đỉnh tốt nhất thì sẽ lựa chọn ngẫu
nhiên một đỉnh tìm được để dóng hàng.
3.3.2. Đồ thị cấu trúc
Đồ thị cấu trúc của thuật toán gồm 2 tầng, tầng thứ i thể hiện đồ thị iG . Các đỉnh ở tầng trên được kết nối
với tất cả các đỉnh ở tầng dưới. Hình 3.1 thể hiện đồ thị cấu trúc của thuật toán ACOGNA. Khi xây dựng lời
Hình 3.1. Đồ thị cấu trúc của thuật toán ACOGNA
18
giải, kiến sẽ xuất phát từ một đỉnh thuộc tầng 1 và lựa chọn dóng hàng với 1 đỉnh thuộc tầng 2 theo công thức
(3.10).
Một dóng hàng toàn cục của 2 đồ thị theo định nghĩa 1 là một đường đi xuất phát từ 1 đỉnh của 1G dóng
với 1 đỉnh của 2G sau đó quay lại 1G rồi tiếp tục dóng với 1 đỉnh của 2G , lặp lại cho tới khi tất cả các đỉnh
của 1G đã được dóng hàng.
3.3.3. Vết mùi và thông tin heuristic
Vết mùi 𝜏𝑗
𝑖 trên cạnh ,i j dóng đỉnh 1i V với đỉnh 2j V được khởi tạo bằng 𝜏𝑚𝑎𝑥 và sau đó được
cập nhật lại sau mỗi vòng lặp theo công thức 3.11
Thông tin heuristic 𝜂𝑗
𝑖 được tính theo công thức 3.9. *1. (1 ). ( , )ij f E similar i j (3.9)
Trong đó *1f E là số cạnh được bảo tồn nếu tiếp tục dóng hàng đỉnh j với đỉnh i, α là hằng số thể hiện
mối tương quan giữa độ tương đồng về cấu trúc và tính tương đồng về trình tự, ( , )similar i j là độ tương
đồng giữa 2 đỉnh i và j.
3.3.4. Thủ tục bước ngẫu nhiên để xây dựng dóng hàng
Tại mỗi vòng lặp, sau khi chọn một đỉnh 1i RV bằng thủ tục find_next_node tương tự thuật toán
FASTAN, kiến chọn đỉnh 2j RV theo xác suất được cho bởi công thức 3.10.
2
( ) .[ ]
( ) .[ ]
i a i b
j ji
j i a i b
k kk RV
p
(3.10)
Sau khi lựa chọn được đỉnh 2j RV để dóng với 1i RV , kiến quay lại lựa chọn đỉnh tiếp theo của đồ thị
G1 để tiếp tục dóng hàng. Quá trình lặp lại cho đến khi tất cả các đỉnh của G1 được dóng hàng với các đỉnh của
G2
3.3.5. Quy tắc cập nhật vết mùi
Sau khi tất cả các kiến đã xây dựng lời giải, lời giải của kiến tốt nhất được áp dụng thủ tục tìm kiếm cục
bộ để tăng chất lượng lời giải. Lời giải tốt nhất này được sử dụng để cập nhật vết mùi trên các cạnh theo quy
tắc cập nhật mùi SMMAS, như dưới đây:
(1 )i i ij j j (3.11) .
.
maxi
j
min
j=f(i)
j f(i)
(3.12)
Trong đó max và min là các tham số được cho trước, ∈ (0,1) là tham số bay hơi cho trước quy định 2
thuộc tính, nhỏ thể hiện việc tìm kiếm quanh thông tin học tăng cường, lớn thể hiện tính khám phá.
3.3.6. Thủ tục tìm kiếm cục bộ
Trong mỗi vòng lặp, sau khi tất cả các kiến đã xây dựng xong lời giải, lời giải tốt nhất 𝐴12 được kiến xây
dựng sẽ được áp dụng tìm kiếm cục bộ. Thủ tục tìm kiếm cục bộ được cải tiến từ thủ tục rebuilt trong FASTAN.
Điểm khác biệt của ACOGNA so với FASTAN là khi chất lượng dóng hàng tăng lên khi gọi thủ tục dóng
hàng cục bộ thì giá trị nkeep sẽ được điều chỉnh tăng lên để giữ được nhiều cặp đỉnh tốt hơn và giảm thời gian
xây dựng lại các dóng hàng.
3.4. Thuật toán ACOGNA++
3.4.1. Mô tả thuật toán
Với đồ thị cấu trúc được xây dựng giống như thuật toán ACOGNA, để xây dựng một dóng hàng, các kiến
sẽ thực hiện quả trình lặp để xác định 1 đỉnh thuộc tầng 1 của đồ thị cấu trúc và một đỉnh thuộc tầng 2 sẽ được
dóng hàng với nó. Quá trình này kết thúc khi tất cả các đỉnh thuộc đồ thị G1 đã được dóng hàng. Sau khi tất cả
20
các kiến xây dựng xong dóng hàng, thủ tục tìm kiếm cục bộ sẽ được áp dụng trên lời giải tốt nhất của vòng lặp
để nâng cao chất lượng.
Tùy theo tiêu chuẩn tối ưu được lựa chọn là GNAS, EC hay S3, tiêu chuẩn được sử dụng để lựa chọn lời
giải tốt nhất sẽ được thay đổi tương ứng theo các hàm mục tiêu này.
3.4.2. Vết mùi
Vết mùi lưu thông tin học tăng cường để đánh giá một cặp đỉnh được dóng hàng là tốt hay không. Thuật
toán ACOGNA++ sử dụng 2 ma trận vết mùi. Vết mùi 𝜏1
𝑖 đặt trên các đỉnh của đồ thị G1 để xác định các đỉnh
sẽ được ưu tiên lựa chọn để dóng hàng trước. Vết mùi 𝜏𝑗
𝑖 đặt trên cạnh (i,j) của đồ thị cấu trúc, dùng để xác
định đỉnh 2j G
được dóng hàng với đỉnh
1
i G . Các vết mùi được khởi tạo bằng giá trị 𝜏𝑚𝑎𝑥 và được cập
nhật lại sau mỗi vòng lặp.
3.4.3. Thủ tục xác định cặp đỉnh dóng hàng
Thủ tục này gồm 2 bước, đầu tiên xác định đỉnh được dóng hàng trên đồ thị G1 và sau đó là xác định ảnh
của nó trên đồ thị G2.
Xác định đỉnh được dóng hàng thuộc đồ thị nguồn
Khác với thủ tục find_next_node trong FASTAN và ACOGNA sử dụng để xác định đỉnh 1i RV sẽ được
dóng hàng. Thuật toán ACOGNA++ sử dụng thuật toán ACO để xác định đỉnh i được dóng hàng như dưới
đây.
Gọi tập T chứa các đỉnh 𝑖 sao cho 1i RV và có nhiều cạnh nối với các đỉnh của
1V nhất. Khi đó, đỉnh
𝑖 ∈ 𝑇 được chọn ngẫu nhiên theo xác suất:
1
1
( ) .[ ]
( ) .[ ]
i a b
i
i j a b
jj T
p
(3.13)
Trong đó 𝜂𝑖 là số lượng đỉnh kề của i trong đồ thị 𝐺1, 𝜏1𝑖 là vết mùi 𝜏1𝑖 đặt trên các đỉnh của đồ thị G1 như
đã mô tả ở mục 3.5.2.
Việc sử dụng ACO để tìm đỉnh thuộc đồ thị nguồn được dóng hàng sẽ giúp khai thác tốt thông tin học tăng
cường thông qua vết mùi mà các kiến để lại. Điều này giúp cải thiện chất lượng lời giải tốt hơn so với cách lựa
chọn ngẫu nhiên trong FASTAN và ACOGNA.
Xác định ảnh của điểm được dóng hàng trên đồ thị đích G2
Sau khi xác định được đỉnh 1i V đỉnh 2j V được các kiến lựa chọn theo xác suất.
2
( ) .[ ]
( ) .[ ]
i c i d
j ji
j i c i d
k kk RV
p
(3.14)
Khi chạy thuật toán ACOGNA++ để tối ưu theo hàm mục tiêu GNAS thì thông tin heuristic được sử dụng
giống thuật toán ACOGNA. Trong trường hợp chạy thuật toán ACOGNA++ tối ưu theo hàm mục tiêu EC,
hoặc S3, thông tin heuristic 𝜂𝑗
𝑖 lần lượt được tính theo các công thức 3.15 hoặc 3.16.
11
1
( [V i])
i
j
f E G
E
(3.15)
1
1
1 1
1 2 1
( [V i])
( ( ) j ) ( [V i])
i
j
f E G
E E G f V f E G
(3.16)
3.4.4. Quy tắc cập nhật vết mùi
Sau mỗi vòng lặp, lời giải tốt nhất được xác định được sử dụng để cập nhật lại vết mùi theo quy tắc
cập nhật mùi SMMAS. Vết mùi đặt trên các đỉnh của đồ thị G1 được cập nhật theo công thức 3.17 và 3.18:
𝜏1
𝑖 ← (1 − 𝜌). 𝜏1
𝑖 + Δ𝜏𝑖 (3.17)
Trong đó
12
Δ𝜏𝑖 = {
𝜌. 𝜏𝑚𝑖𝑛 𝑛ế𝑢 𝑘ℎô𝑛𝑔 𝑐ó đỉ𝑛ℎ 𝑘ề
𝜌. 𝜏𝑚𝑎𝑥𝑛ế𝑢 𝑐ó í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 đỉ𝑛ℎ 𝑘ề
(3.18)
Vết mùi đặt trên các cạnh của đồ thị cấu trúc được cập nhật theo công thức (3.19) và (3.20)
(1 )i i ij j j (3.19)
.
. ( )
maxi
j
min
j=f(i)
j f i
(3.20)
3.4.5. Thủ tục tìm kiếm cục bộ
Thủ tục tìm kiếm cục bộ của ACOGNA++ được sử dụng tương tự như trong ACOGNA.
3.5. Kết quả thực nghiệm
3.5.1. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm là bộ dữ liệu thực gồm 4 mạng tương tác protein được sử dụng phổ biến khi đánh giá
chất lượng các thuật toán dóng hàng mạng PPI. Đó là các mạng tương tác protein của các loài như: giun, ruồi
giấm, khỉ và người [Park, Singh, Baym, Liao, & Berger, 2010]. Mô tả về các tập dữ liệu này được chỉ ra trong
bảng 3.1. Từ các bộ dữ liệu đó chúng tôi tạo ra sáu cặp mạng tương tác để dóng hàng (ce-dm, ce-hs,ce-sc,dm-
hs, dm-sc,hs-sc).
Bảng 3.1. Mô tả bộ dữ liệu
Tập dữ liệu Ký hiệu Số đỉnh Số cạnh
C.elegans (Worm) ce 2805 4495
D. melanogaster (fly) dm 7518 25635
S.cerevisiae (yeast) sc 5499 31261
H.sapiens (human) hs 9633 34327
3.5.2. Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL
Có nhiều thuật toán dóng hàng toàn cục hai mạng tương tác protein – protein đã được đề xuất trước
đó, tuy nhiên trong bài báo [Aladag & Erten, 2013], Aladag đã tiến hành các thực nghiệm trên bộ dữ liệu
IsoBase và cho thấy thuật toán SPINAL cho kết quả tốt hơn các thuật toán khác khi đánh giá theo tiêu chuẩn
GNAS và |E12| (số tương tác protein được bảo tồn khi dóng hàng mạng PPI nguồn với mạng PPI đích). Vì vậy
các thực nghiệm ở mục này chỉ tiến hành so sánh 2 thuật toán heuristic là thuật toán FASTAN và SPINAL trên
các bộ dữ liệu đã được mô tả ở mục 3.5.1 với tiêu chuẩn GNAS và |E12|. Để đảm bảo tính công bằng về mặt
thời gian, cả 2 thuật toán đều được chạy lại trên máy tính có cùng cấu hình và cùng hệ điều hành.
Kết quả thực nghiệm từ bảng 3.2 chỉ ra rằng FASTAN có thể tìm ra lời giải (dóng hàng toàn cục) có
điểm GNAS và |E12| tốt hơn nhiều so với Spinal (p-value <2.2e-16 được tính sử dụng t-test dựa trên kết quả
GNAS và giá trị |E12| của 100 lần chạy) đối với cả 6 cặp mạng PPI. Ngoài ra, kết quả kém nhất của FASTAN
từ 100 lần chạy đối với tất cả các cặp mạng protein được dóng hàng đều tốt hơn các kết quả dóng hàng tạo ra
bởi Spinal. Mặc dù đã so sánh về độ phức tạp của FASTAN và Spinal, trong phần này chúng tôi so sánh cả thời
gian chạy của 2 thuật toán. Kết quả so sánh thời gian chạy được thể hiện trong bảng 3.3.
Bảng 3.2. So sánh thuật toán FASTAN và thuật toán Spinal theo các hàm mục tiêu GNAS và giá trị |E12|
với các giá trị tham số α khác nhau. Trong mỗi ô, dòng trên là điểm GNAS và dòng dưới là giá trị |E12|
α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7
FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL
778.46
2560.7
717.99
2343.0
1034.20
2564.6
941.19
2320.0
1290.11
2567.2
1159.93
2300.0
1545.86
2567.7
1350.59
2237.0
1801.24
2567.6
1586.87
2258.0
863.46
2842.8
728.26
2370.0
1144.17
2838.1
993.07
2446.0
1429.89
2844.9
1229.95
2437.0
1708.81
2838.0
1501.61
2487.0
1994.87
2843.4
1764.93
2512.0
834.79
2761.1
709.12
2326.0
1109.93
2761.2
963.28
2384.0
1389.21
2769.7
1168.95
2323.0
1663.39
2766.5
1422.74
2361.0
1936.83
2763.1
1683.13
2398.0
2260.31
7478.3
1883.22
6189.0
3007.11
7481.9
2517.23
6235.0
3755.36
7429.0
3160.48
6282.0
4496.45
7478.2
3790.79
6291.0
5242.32
7478.8
4451.6
6344.0
1977.82
6569.7
1579.06
5203.0
2631.85
6565.5
2075.14
5150.0
3290.03
6570.7
2668.65
5311.0
3950.16
6577.4
3180.27
5283.0
4603.41
6572.3
3759.07
5360.0
2268.21
7531.8
1731.81
5703.0
3017.96
7528.5
2253.66
5593.0
3772.96
7535.2
2839.00
5651.0
4520.51
7527.0
3434.54
5706.0
5279.88
7538.1
4066.22
5798.0
21
Bảng 3.3. Thời gian chạy trung bình của thuật toán FASTAN (tính theo đơn vị giây) và thuật toán SPINAL
Data sets ce-dm dm-sc dm-hs ce-hs hs-sc ce-sc
SPINAL 540.2 1912.1 1736.8 664.3 2630.6 638.2
FASTAN 221.5 1064.5 1395.9 327.9 1507.8 142.2
Về thời gian chạy, kết quả ở bảng 3.3 cho thấy thời gian chạy của FASTAN nhanh xấp xỉ gấp đôi thuật
toán SPINAL trong phần lớn các cặp mạng PPI.
3.5.3. Thực nghiệm so sánh thuật toán ACOGNA với các thuật toán FASTAN và MAGNA++
Luận án so sánh thuật toán ACOGNA với thuật toán FASTAN theo tiêu chuẩn GNAS và giá trị |E12|. Kết
quả thực nghiệm cho thấy trong tất cả các trường hợp thì thuật toán ACOGNA đều cho các kết quả tốt hơn so
với thuật toán FASTAN đối với tiêu chuẩn là GNAS và cả giá trị |E12|.
Bảng 3.4. So sánh thuật toán ACOGNA và thuật toán FASTAN theo tiêu chuẩn GNAS và giá trị |E12| với
các giá trị α khác nhau.
Datasets
α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7
FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA
ce-dm
778.46
2560.7
833.14
2749.2
1109.92
2564.6
1109.92
2758.2
1290.11
2567.2
1368.35
2726.10
1545.86
2567.7
1641.35
2728.3
1801.24
2567.6
1930.84
2753.7
ce-hs
863.46
2842.8
913.39
3015.3
1144.17
2838.1
1207.94
3001.1
1429.89
2844.9
1513.4
3014.2
1708.81
2838.0
1824.69
3033.0
1994.87
2843.4
2091.43
2982.6
ce-sc
834.79
2761.1
876.78
2902.9
1109.93
2761.2
1178.46
2934.8
1389.21
2769.7
1457.65
2907.9
1663.39
2766.5
1742.2
2898.3
1936.83
2763.1
2064.12
2945
dm-hs
2260.31
7478.3
2431.59
8058.4
3007.11
7481.9
3226.76
8038.7
3755.36
7429.0
4039.68
8060.1
4496.45
7478.2
4828.29
8034.29
5242.32
7478.8
5648.18
8060.9
dm-sc
1977.82
6569.7
2108.13
7008.7
2631.85
6565.5
2811.97
7019.2
3290.03
6570.7
3518.87
7030.2
3950.16
6577.4
4203.53
7000.90
4603.41
6572.3
4908.90
7009.6
hs-sc
2268.21
7531.8
2429.12
8072.9
3017.96
7528.5
3256.54
8182.8
3772.96
7535.2
3938.3
7666.0
4520.51
7527
4895.45
8153.4
5279.88
7538.1
5693.4
8129.8
Tiến hành thực nghiệm so sánh ACOGNA với thuật toán MAGNA++, các kết quả thực nghiệm ở bảng 3.5
chỉ ra rằng với tất cả các giá trị của tham số α và tất cả các bộ dữ liệu, điểm số EC của ACOGNA luôn luôn
tốt hơn MAGNA++.
Bảng 3.5. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn EC
Datasets ACOGNA MAGNA++
α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 EC ICS S3
ce-dm 0.6116 0.6136 0.6065 0.6070 0.6126 0.5217 0.0700 0.2983
ce-hs 0.6708 0.6677 0.6706 0.6747 0.6635 0.3061 0.1288 0.3065
ce-sc 0.6458 0.6529 0.6469 0.6448 0.6553 0.6002 0.1449 0.2901
dm-hs 0.3144 0.3136 0.3144 0.3159 0.3138 0.1921 0.0885 0.1464
dm-sc 0.2242 0.2245 0.2249 0.2239 0.2240 0.1575 0.0569 0.1357
hs-sc 0.2582 0.2600 0.2608 0.2608 0.2601 0.1680 0.0390 0.1439
Với tiêu chuẩn S3 khi chạy với các bộ dữ liệu dm-hs, dm-sc, hs-sc với tất cả các giá trị của tham số α,
thuật toán ACOGNA cho kết quả tốt hơn so với MAGNA++ khi chạy thuật toán này theo cả 3 tùy chọn tiêu
chuẩn tối ưu là EC, ICS và S3. Tuy nhiên đối với 3 bộ dữ liệu ce-dm, ce-sc, ce-hs MAGNA++ lại cho kết quả
tốt hơn ACOGNA.
Bảng 3.6. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3
Datasets
ACOGNA MAGNA++
α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 EC ICS S3
ce-dm 0.1344 0.1123 0.1068 0.1338 0.1061 0.1580 0.0700 0.2597
ce-hs 0.1265 0.0993 0.0953 0.0939 0.0909 0.2621 0.1284 0.2639
ce-sc 0.1063 0.0953 0.0925 0.0911 0.0922 0.1198 0.1446 0.2573
dm-hs 0.1593 0.1559 0.156 0.1567 0.1555 0.0988 0.0785 0.1088
dm-sc 0.1446 0.1417 0.1415 0.1407 0.1406 0.1030 0.0554 0.1081
hs-sc 0.1501 0.1452 0.1484 0.1446 0.1433 0.1043 0.0387 0.1166
22
3.5.4. So sánh thuật toán ACOGNA++ với các thuật toán ACOGNA, MAGNA++ và ModuleAlign
Luận án tiến hành so sánh chất lượng lời giải của các thuật toán theo các tiêu chuẩn S3, GNAS, EC và
Điểm mới của thuật toán ACOGNA++ so với ACOGNA là có thể tối ưu theo các hàm mục tiêu khác nhau
(tương tự như MAGNA++). Khi so sánh theo hàm mục tiêu GNAS và EC, thì 2 thuật toán ACOGNA và
ACOGNA++ có chất lượng chênh lệch không nhiều (vì cả 2 thuật toán đều sử dụng hàm mục tiêu là GNAS).
Bảng 3.7 thể hiện kết quả so sánh chất lượng lời giải của các thuật toán theo tiêu chuẩn S3. Chất lượng lời
giải tốt nhất được định dạng chữ in đậm.
Bảng 3.7. So sánh theo tiêu chuẩn S3
Datasets
ACOGNA
MAGNA++ ModuleAlign ACOGNA++
α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7
ce-dm 0.1344 0.1123 0.1068 0.1338 0.1061 0.2597 0.1538 0.3655
ce-hs 0.1265 0.0993 0.0953 0.0939 0.0909 0.2639 0.1354 0.4165
ce-sc 0.1063 0.0953 0.0925 0.0911 0.0922 0.2573 0.1192 0.2795
dm-hs 0.1593 0.1559 0.156 0.1567 0.1555 0.1088 0.1117 0.1910
sc-dm 0.1446 0.1417 0.1415 0.1407 0.1406 0.1081 0.1059 0.1767
sc-hs 0.1501 0.1452 0.1484 0.1446 0.1433 0.1166 0.1174 0.2096
Kết quả so sánh thời gian chạy của 2 thuật toán ACOGNA++ và MAGNA++ thể hiện trên hình 3.2:
Hình 3.2. So sánh thời gian chạy của 2 thuật toán ACOGNA++ và MAGNA++
Qua biểu đồ so sánh ta thấy trong 6 bộ test thì có 5 bộ test là thời gian chạy của ACOGNA++ nhanh
hơn so với MAGNA++, chỉ có 1 bộ test dm-hs là thời gian chạy của MAGNA++ nhanh hơn so với
ACOGNA++.
3.6. Kết luận chương
Trong chương này chúng tôi đã trình bày về bài toán dóng hàng toàn cục mạng tương tác protein và đề
xuất các thuật toán mới để giải quyết bài toán này. Các thuật toán đề xuất dựa trên 2 hướng tiếp cận. Hướng
tiếp cận heuristic và hướng tiếp cận metaheuristic dựa trên phương pháp tối ưu đàn kiến. Với hướng tiếp cận
heuristic, thuật toán FASTAN có ưu điểm là cho lời giải nhanh và kết quả tốt hơn so với các thuật toán trước
đó. Tuy nhiên nhược điểm của phương pháp FASTAN là khi tăng thời gian chạy thì chất lượng lời giải được
cải thiện không đáng kể. Để khắc phục nhược điểm trên của FASTAN, chúng tôi đề xuất các thuật toán mới
ACOGNA và ACOGNA++ dựa trên phương pháp tối ưu đàn kiến để xây dựng các dóng hàng.
Thuật toán ACOGNA bao gồm nhiều vòng lặp, trong mỗi vòng lặp của thuật toán, tất cả các kiến xây dựng
lời giải, sau đó kiến có chất lượng lời giải tốt nhất được lựa chọn để cập nhật vết mùi và áp dụng tìm kiếm cục
bộ để tăng chất lượng lời giải. Các thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra rằng thuật toán chúng tôi đề
xuất cho kết quả tốt hơn các thuật toán gần đây đối với 2 tiêu chuẩn GNAS và EC đối với tất cả các trường
hợp. Mặc dù không sử dụng tiêu chuẩn S3 làm hàm mục tiêu, nhưng trong các trường hợp mà đồ thị nguồn là
đồ thị dày thuật toán ACOGNA cho kết quả S3 tốt hơn so với thuật toán MAGNA++ (Là thuật toán tốt nhất
tới thời điểm đó tối ưu theo tiêu chuẩn S3).
0
5000
10000
15000
20000
25000
30000
ce-dm ce-hs ce-sc sc-dm dm-hs sc-hs
T
h
ờ
i
g
ia
n
(
s)
Bộ dữ liệu
MAGNA++
ACOGNA++
23
Thuật toán ACOGNA++ sử dụng sơ đồ cấu trúc giống với thuật toán ACOGNA nhưng có nhiều điểm cải
tiến trong cách xác định thông tin heuristic, cách lưu trữ và cập nhật thông tin vết mùi và sử dụng kiến trong
cả 2 giai đoạn xác định đỉnh tiếp theo của đồ thị nguồn được dóng hàng và tìm ảnh của nó trên đồ thị đích.
Thuật toán ACOGNA++ cho phép thay đổi các tiêu chuẩn tối ưu để tối ưu theo các hàm mục tiêu GNAS, EC
và S3. Các thực nghiệm đã cho thấy thuật toán ACOGNA++ cho chất lượng lời giải tốt hơn so với các thuật
toán được so sánh theo các tiêu chuẩn này.
KẾT LUẬN
Luận án đã trình bày các kiến thức chung về lĩnh vực tin sinh học và về 2 bài toán có ý nghĩa quan trọng
trong lĩnh vực tin sinh học là bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết protein và là bài toán
dóng hàng mạng tương tác protein-protein. Bên cạnh đó luận án cũng đã trình bày về các kỹ thuật tính toán
mềm, trong đó tập trung trình bày chi tiết về phương pháp tối ưu hóa đàn kiến và các phương pháp tính toán
mềm khác được sử dụng để giải quyết 2 bài toán dóng hàng mạng protein. Với việc phân tích đặc điểm của
các thuật toán mới nhất giải quyết các bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết ptotein và
bài toán dóng hàng toàn cục 2 mạng tương tác protein-protein chúng tôi đã đề xuất các thuật toán mới giải
quyết hiệu quả 2 bài toán này.
Với bài toán dóng hàng nhiều mạng các vị trí hoạt tính protein, luận án đề xuất 3 thuật toán để giải bài
toán này là thuật toán ACO-MGA, ACO-MGA2 và ACOTS-MGA. Thuật toán ACO-MGA dựa trên phương
pháp tối ưu hóa đàn kiến thuần túy để giải bài toán dóng hàng nhiều mạng. Các kết quả thực nghiệm dựa trên
các bộ dữ liệu mô phỏng đã chứng minh hiệu quả nổi trội của thuật toán này so với các thuật toán GAVEO và
thuật toán heuristic để giải bài toán này. Nghiên cứu đặc tính biến thiên vết mùi của các thuật toán ACO, trong
thuật toán ACO-MGA2, chúng tôi áp dụng lược đồ memetic cho thuật toán, trong đó vết mùi của thuật toán
ACO được cập nhật theo 2 giai đoạn khác nhau. Giai đoạn đầu tham số bay hơi được thiết lập nhỏ để khai thác
thông tin học tăng cường và không áp dụng tìm kiếm cục bộ. Giai đoạn 2 có sử dụng tìm kiếm cục bộ nên tham
số bay hơi được thiết lập lớn hơn để tăng tính khám phá của thuật toán. Các kết quả thực nghiệm trên các bộ
dữ liệu thực đã cho thấy những ưu điểm của thuật toán mới đề xuất này so với các thuật toán trước đó.
Thuật toán ACO-MGA2 có nhược điểm là khi áp dụng tìm kiếm cục bộ, việc hoán đổi vị trí giữa các đỉnh
bị lặp lại trong các lần gọi khác nhau, vì vậy luận án đề xuất thuật toán ACOTS-MGA sử dụng kết hợp phương
pháp ACO và tìm kiếm Tabu theo lược đồ memetic. Thuật toán Tabu search sử dụng để thay thế cho thuật toán
tìm kiếm cục bộ trong ACO-MGA2 sử dụng danh sách cấm để tránh xét lại các bước chuyển đã xét trước đó.
Ngoài ra trong ACOTS-MGA, còn có sự cải tiến trong cách xác định thông tin heuristic và thủ tục bước ngẫu
nhiên xây dựng một dóng hàng. Các thực nghiệm trên bộ dữ liệu thực đã chứng minh những ưu điểm nổi trội
của phương pháp này so với các phương pháp đề xuất trước đó.
Với bài toán dóng hàng hai mạng tương tác protein, chúng tôi đề xuất các thuật toán mới theo hướng tiếp
cận dóng hàng toàn cục. Thuật toán thứ nhất là thuật toán FASTAN cho phép dóng hàng nhanh và cho chất
lượng lời giải tốt so với các thuật toán trước đó. Thuật toán này phù hợp với các mạng tương tác protein-protein
có kích thước lớn và yêu cầu thời gian giải bài toán nhanh. Tuy nhiên khi tăng thời gian chạy thuật toán thì
chất lượng của FASTAN được cải thiện không nhiều. Để khắc phục nhược điểm trên của FASTAN, chúng tôi
tiếp tục đề xuất thuật toán giải bài toán dóng hàng toàn cục mạng tương tác protein-protein dựa trên phương
pháp tối ưu hóa đàn kiến có tên là ACOGNA. Các kết quả thực nghiệm trên các bộ dữ liệu sinh học thực đã
chứng minh những hiệu quả của phương pháp ACOGNA tốt hơn so với các thuật toán trước đó theo các tiêu
chuẩn GNAS, EC; tuy nhiên với tiêu chuẩn S3 thuật toán ACOGNA còn cho chất lượng lời giải kém hơn so
với thuật toán MAGNA++. Thuật toán ACOGNA++ được đề xuất sau đó cho phép thay đổi hàm mục tiêu theo
các tiêu chuẩn dóng hàng khác nhau và sử dụng thuật toán kiến trong cả 2 giai đoạn xác định thứ tự các đỉnh
trên đồ thị nguồn và xác định ảnh của nó trên đồ thị đích. Vì vậy ACOGNA++ cho chất lượng lời giải tốt hơn
ACOGNA, ModuleAlign, MAGNA++ đối với tất cả các bộ dữ liệu.
24
Các kết quả nghiên cứu đã được công bố trong 5 bài báo công bố tại các hội nghị quốc tế cũng như trong
nước có phản biện, trong đó có 3 bài được đưa vào danh mục Scopus; một bài báo đăng tại tạp chí VNU Journal
of Science: Computer Science and Communication Engineering.
Các thuật toán đề xuất trong luận án cho thấy hiệu quả tốt hơn hẳn so với các thuật toán đề xuất trước đó
để giải các bài toán dóng hàng nhiều mạng các vị trí liên kết protein và bài toán dóng hàng toàn cục 2 mạng
tương tác protein. Về thời gian chạy, các thuật toán đề xuất cũng nhanh hơn các thuật toán tính toán mềm khác
được đề xuất trước đó trong phần lớn các bộ dữ liệu. Các thuật toán đề xuất đều dựa trên phương pháp tối ưu
đàn kiến, vì vậy có thể cải thiện thời gian chạy theo hướng song song hóa các thuật toán, bên cạnh đó nghiên
cứu sâu hơn về các phương pháp tính toán mềm khác để cải tiến các thuật toán đề xuất nhằm giảm thời gian
chạy.
Đối với bài toán dóng hàng các mạng các vị trí liên kết protein. Thời gian gần đây, người ta tập trung
nghiên cứu việc ứng dụng bài toán này vào việc nghiên cứu thuốc [Borrel, 2016; Jukič, Konc, Gobec, &
Janežič, 2017; Yuan et al., 2018]. Chúng tôi dự kiến sẽ liên hệ với các cơ sở nghiên cứu y-sinh để cùng phát
triển các nghiên cứu mang tính ứng dụng.
Đối với bài toán dóng hàng mạng tương tác protein, thời gian tới chúng tôi sẽ nghiên cứu để mở rộng việc
áp dụng các thuật toán đề xuất cho bài toán dóng hàng đồng thời nhiều mạng tương tác protein-protein, hay
bài toán dóng hàng các mạng động. Bên cạnh đó là việc nghiên cứu ứng dụng các thuật toán đề xuất vào trong
các bài toán thời sự trong lĩnh vực mạng xã hội.
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
1. Trần Ngọc Hà, Đỗ Đức Đông, Hoàng Xuân Huấn (2013), “An Efficient Ant Colony Optimization
Algorithm for Multiple Graph Alignment”, Proceedings of International Conference on Computing,
Management and Telecommunications (ComManTel),Ho Chi Minh City, Vietnam, pp.386-391.
(Scopus)
2. Trần Ngọc Hà, Đỗ Đức Đông, Hoàng Xuân Huấn (2014), “A Novel Ant Based Algorithm for Multiple
Graph Alignment”, Proceedings of the 2014 International Conference on Advanced Technologies for
Communications, pp. 181-186. (Scopus)
3. Đỗ Đức Đông, Trần Ngọc Hà, Đặng Thanh Hải, Đặng Cao Cường, Hoàng Xuân Huấn (2015), “An efficient
algorithm for global alignment of protein-protein interaction networks”, Proceedings of the 2015
International Conference on Advanced Technologies for Communications, pp. 332-336. (Scopus)
4. Trần Ngọc Hà, Hoàng Xuân Huấn (2015), “Một thuật toán tối ưu đàn kiến dóng hàng toàn cục mạng tương
tác protein”, Proceedings of Fundamental and Applied IT Research Conference 2015 (FAIR 2015), Ha
Noi, Viet Nam, pp. 471-477.
5. Ha Tran Ngoc, Huan Hoang Xuan (2016), “ACOGNA: An Efficient Method for Protein-Protein Interaction
Network Alignment”, Proceedings of the The Eighth International Conference on Knowledge and
Systems Engineering (KSE 2016), pp. 7-12.
6. Ha Tran Ngoc, Hien Le Nhu, Huan Hoang Xuan (2018), “A new memetic algorithm for multiple graph
alignment”, VNU Journal of Science: Computer Science and Communication Engineering, vol 34, no
1, pp 1-9.
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_mot_so_thuat_toan_dong_hang_cac_mang_protein.pdf