Thiết kế của các bộ tối ưu hoá chia thành ba thành phần:
- Không gian thực thi là tập hợp tất cả các kế hoạch thực thi
- Mô hình chi phí dự đoán chi phí của một kế hoạch thực thi
- Chiến lược tìm kiếm để đạt được kế hoạch có chi phí tối thiểu
Chi phí cho phép nối được tính theo thuật toán nối với bộ lọc Bloom. Chiến lược tìm kiếm sử
dụng trong bài báo này là kỹ thuật lập trình động.
27 trang |
Chia sẻ: tueminh09 | Lượt xem: 565 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Xử lý và tối ưu hóa truy vấn trong cơ sở dữ liệu hướng đối tượng phân tán, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ề liên quan đến tối ưu hóa truy vấn. Luận án đề xuất thuật
toán tối ưu biểu thức đường dẫn trong CSDL HĐT PT sử dụng phương pháp liệt kê cây con cảm
sinh trong một đồ thị và cơ chế của bộ lọc Bloom để giảm chi phí truyền dữ liệu giữa hai trạm.
Phần kết luận cuối cùng nêu những đóng góp của luận án, các hướng nghiên cứu tiếp theo
được đặt ra từ kết quả của luận án.
3
CHƯƠNG 1 - CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG PHÂN TÁN
1.1. Cơ sở dữ liệu hướng đối tượng
Các ứng dụng phức tạp như thiết kế và sản xuất công nghiệp (CAD/CAM và CIM), các thí
nghiệm khoa học, viễn thông, hệ bản đồ và CSDL đa phương tiện, ... đòi hỏi cấu trúc dữ liệu phải
mềm dẻo và linh hoạt. Mô hình CSDL hướng đối tượng (CSDL HĐT) được đề xuất để giải quyết
các vấn đề này. CSDL HĐT có một số đặc điểm cơ bản sau:
- Cung cấp khả năng lưu trữ và thao tác với các kiểu dữ liệu trừu tượng hơn (như hình ảnh,
bản đồ) và khả năng cho phép người dùng định nghĩa các kiểu cho từng ứng dụng.
- Cung cấp khả năng biểu diễn quan hệ giữa các đối tượng dữ liệu theo quan hệ tự nhiên
của thế giới thực. Ví dụ trong đối tượng tài liệu có chứa một đối tượng video và một đối
tượng văn bản có đề mục.
- Có khả năng tích hợp trực tiếp với các ngôn ngữ lập trình hướng đối tượng, ngôn ngữ mà
ngày nay được sử dụng trong phần lớn các ứng dụng.
1.1.1. Đối tượng
Khái niệm cơ bản nhất trong CSDL hướng đối tượng là đối tượng (object). Đối tượng biểu
diễn một thực thể có thực trong hệ thống được mô hình hóa. Mỗi đối tượng biểu diễn bằng một bộ
(OID, trạng thái, giao diện), trong đó OID (Object Identifier) là một định danh của đối tượng và
trạng thái (state) tương ứng là một biểu diễn trạng thái nào đó cho trạng thái hiện tại của đối tượng,
giao diện (interface) định nghĩa các hành vi của đối tượng.
Trạng thái của đối tượng là một giá trị nguyên tử hoặc một giá trị được xây dựng. Gọi D là
tập các miền do hệ thống định nghĩa và miền các kiểu dữ liệu trừu tượng do người dùng định nghĩa,
gọi I là miền định danh được dùng để đặt tên đối tượng, A là miền các tên thuộc tính. Một giá trị
được định nghĩa như sau:
1. Một phần tử của D là một giá trị và được gọi là giá trị nguyên tử (atomic value)
2. [a1: v1,, an: vn] được gọi là một giá trị bộ (tuple value), trong đó ai là một phần tử của
A và vi là một giá trị hoặc một phần tử của I. [ ] được gọi là toán tử tạo lập bộ (tuple
constructor)
3. {v1,, vn} được gọi là giá trị tập hợp hoặc trị tập (set value), với vi là một giá trị hoặc là
một phần tử của I. { } được gọi là toán tử tạo lập tập (set constructor)
Ví dụ 1.1: Xem xét các đối tượng sau
(i1, 230)
(i2,”Sinh viên”)
(i3, {i6, i11})
(i4, {1, 6, 9})
(i5, [LF: i7, RF: i8, LR: i9, RR: i10])
1.1.2. Lớp
Một lớp là một mẫu cho một nhóm các đối tượng, định nghĩa một kiểu chung cho các đối
tượng có thể được tạo nên từ mẫu này. Một lớp mô tả kiểu của dữ liệu bằng cách cung cấp một
miền của dữ liệu với cùng cấu trúc, cùng với các phương thức có thể áp dụng lên các phần tử của
4
miền đó. Khả năng trừu tượng hóa của các lớp, được đề cập bằng tính đóng gói, dấu các cài đặt chi
tiết của các phương thức, tương tác với bên ngoài thông qua một giao diện.
Ví dụ 1.2: Mô hình hóa một chiếc ô tô với nhiều bộ phận (động cơ, giảm sóc, bánh xe) và sẽ
lưu các thông tin khác như hãng sản xuất, số seri,
type XeHoi
attributes
dongCo: DongCo
cacGiamSoc: {GiamSoc}
cacBanhXe: [traiTruoc: BanhXe, phaiTruoc: BanhXe,
traiSau: BanhXe, phaiSau: BanhXe]
hangSanXuat: HangSanXuat
methods
tuoi: Real()
thayBanh(diaDiem,banhXe)
Cấu trúc dữ liệu giao diện của một lớp có thể phức tạp và lớn tùy ý. Lớp cung cấp hai ưu điểm
chính: Dễ dàng mở rộng từ kiểu nguyên thủy của hệ thống sang các kiểu do người dùng định nghĩa.
1.1.3. Hợp phần
Trong ví dụ 1.2, một số thuộc tính dựa trên đối tượng, chẳng hạn thuộc tính hangSanXuat với
miền của nó là tập các đối tượng có kiểu HangSanXuat. Trong trường hợp này, kiểu XeHoi là một
kiểu hợp phần (composite type) và các thể hiện của nó được gọi là các đối tượng hợp phần
(composite object). Hợp phần cho phép chia sẻ các đối tượng.
Ví dụ 1.3: Giả sử x1 là một thể hiện của kiểu XeHoi. Nếu những điều sau đúng thì chứng tỏ
Hung và Nam có chung một chiếc xe.
(i2, [ten: Hung, soHuuXe: x1])
(i3, [ten: Nam, soHuuXe: x1])
1.1.4. Phân lớp con và tính kế thừa
Các hệ đối tượng cung cấp khả năng mở rộng các kiểu, lớp từ các kiểu, lớp đã có. Điều này
được thực hiện thông qua định nghĩa các lớp nhờ toán tử tạo lập kiểu hoặc bằng định nghĩa các lớp
dựa vào các lớp đã có sẵn và bổ sung các thành phần để tạo ra các lớp con. Sinh lớp con dựa vào
mối liên hệ chuyên biệt hóa giữa các lớp. Một lớp chuyên biệt (lớp con) được định nghĩa chi tiết
hơn so với lớp mà từ đó nó được chuyên biệt (lớp cha).
Ví dụ 1.4: Xe sẽ định nghĩa những tính chất chung của tất cả các kiểu xe.
type Xe as Object
attributes
dongCo: DongCo
hangSanXuat: HangSanXuat
methods
tuoi(): Real;
5
Định nghĩa XeHoi kế thừa từ kiểu Xe và thêm một số thuộc tính.
type XeHoi as Xe
attributes
cacGiamSoc: {GiamSoc}
cacBanhXe: [traiTruoc: BanhXe, phaiTruoc: BanhXe,
traiSau: BanhXe, phaiSau: BanhXe]
soCho: Integer
Khai báo rằng một kiểu là kiểu con của một kiểu khác tạo ra sự kế thừa (inheritance), kế thừa
cho phép tái sử dụng. Nếu một kiểu kế thừa từ một kiểu khác gọi là đơn kế thừa, nếu một kiểu kế
thừa từ nhiều kiểu khác gọi là đa kế thừa.
1.2. Cơ sở dữ liệu hướng đối tượng phân tán
1.2.1. Mô hình cơ sở dữ liệu hướng đối tượng phân tán
Một Cơ sở dữ liệu (CSDL) phân tán là một tập hợp nhiều CSDL có liên quan logic và được
phân bố trên một mạng máy tính, biểu diễn như Hình 1.1. Có hai đặc điểm quan trọng trong định
nghĩa CSDL phân tán:
Liên quan logic: Dữ liệu trong hệ phân tán có một số thuộc tính ràng buộc chúng với nhau.
Phân tán: Dữ liệu không cư trú trên một vị trí mà được phân bố rộng khắp trên nhiều
máy tính đặt tại nhiều vị trí khác nhau.
Hình 1.1: Môi trường của hệ CSDL phân tán
Với lợi thế về công nghệ mạng truyền thông, mô hình CSDL phân tán phù hợp với sự phân
tán về mặt tổ chức của các công ty, đặc biệt là các công ty toàn cầu.
Sự phân bố của cơ sở dữ liệu hướng đối tượng theo mô hình cơ sở dữ liệu phân tán gọi là cơ sở
dữ liệu hướng đối tượng phân tán (CSDL HĐT PT).
1.2.2. Các ưu điểm của CSDL phân tán
- Quản lý dữ liệu phân tán với các mức trong suốt khác nhau
- Tăng độ tin cậy của các giao dịch phân tán
Trạm 5 Trạm 1 Trạm 2
Mạng truyền
dữ liệu
Trạm 4
Trạm 3
6
- Cải thiện hiệu năng
- Dễ mở rộng
1.2.3. Các vấn đề cần giải quyết trong CSDL phân tán
Các vấn đề cần giải quyết trong CSDL PT và mối quan hệ của chúng biểu diễn trong Hình
1.2. Thiết kế CSDL phân tán là trung tâm và ảnh hưởng đến các vấn đề khác. Chẳng hạn thiết kế
ảnh hưởng đến việc quản lý thư mục bởi vì định nghĩa các mảnh và vị trí chứa chúng sẽ xác định
nội dung thư mục. Những thông tin về mảnh và vị trí cũng được bộ xử lý truy vấn dùng để xác định
chiến lược truy vấn. Ngược lai, các thông tin truy vấn được sử dụng cho các thuật toán phân mảnh.
Hình 1.2: Mối liên hệ giữa các vấn đề trong CSDL PT
1.2.4. Kiến trúc cơ sở dữ liệu hướng đối tượng phân tán
Kiến trúc các hệ CSDL HĐT PT theo kiến trúc client/server. Trong các vấn đề cần nghiên
cứu về CSDL HĐT PT luận án tập trung giải quyết ba vấn đề: Đánh giá hiệu năng, thiết kế phân
tán (phân mảnh và cấp phát), tối ưu hóa truy vấn phân tán.
Thiết kế trong CSDL HĐT PT phức tạp hơn, chẳng hạn:
- Do tính đóng gói, cấu trúc mỗi đối tượng bao gồm các phương thức và trạng thái. Vấn đề
cần đặt ra là có nên phân mảnh trên các thuộc tính và nhân các các phương thức cho mỗi
mảnh hay phân mảnh luôn cả các phương thức.
- Mỗi thuộc tính và phương thức lại có thể có kiểu đơn giản hoặc phức hợp. Khi phân mảnh
các thuộc tính và phương thức phức hợp chúng ta phải xét đến các lớp liên quan bởi các
thuộc tính và phương thức này.
Tối ưu hóa truy vấn phân tán có một số khó khăn nảy sinh như:
- Các hệ đối tượng có các hệ thống kiểu phong phú hơn. Kết quả của các phép toán đại số
đối tượng thường là các tập đối tượng thuộc những kiểu khác nhau.
- Đóng gói các phương thức và dữ liệu trong đối tượng khả năng truy cập các thông tin và
đánh giá chi phi khó hơn.
Quản lý thư mục
Thiết kế CSDL
phân tán
Điều khiển tương tranh
Độ tin cậy
Sao chép
Xử lý truy vấn
Quản lý khóa gài
7
- Các đối tượng thường có cấu trúc phức tạp và có phân cấp kế thừa, do đó việc tối ưu hóa
phức tạp hơn.
1.3. Đánh giá hiệu năng CSDL HĐT với thư viện OO7
1.3.1. Giới thiệu
OO7 là một thư viện được xây dựng để đánh giá hiệu năng các hệ thống CSDL HĐT dựa trên
các tiêu chí chính sau:
- Tốc độ xử lý trong việc duyệt (traversal) các đối tượng, kể cả sử dụng bộ nhớ đệm hay
duyệt trực tiếp trên ổ đĩa.
- Mức độ hiệu quả trong việc thay đổi đối tượng (tạo, xóa và cập nhật), kể cả đối tượng sử
dụng index và không sử dụng index, dữ liệu lặp và dữ liệu dư thừa.
- Hiệu năng của việc xử lý các loại câu truy vấn đối tượng.
1.3.2. Thiết kế CSDL của OO7
Hai thành phần chính của bản thiết kế dữ liệu OO7 tập “Đối tượng nguyên tố” (atomic
object) và “Đối tượng phức hợp” (composite object). Tập hợp các đối tượng nguyên tố theo một số
kết nối nào đó theo mô hình đồ thị sẽ cấu thành một đối tượng phức hợp, mỗi thành phần phức hợp
tương ứng với một thiết kế cơ bản nào đó của ứng dụng thực tế. Đồ thị kết nối giữa các đối tượng
Atomic trong một đối tượng Comp như Hình 1.5.
Mỗi thiết kế CSDL gồm nhiều module và mỗi module bao gồm nhiều assembly mà ở đó
một assembly là sự đóng gói của nhiều đối tượng phức hợp và nguyên thủy với nhau và có thể đóng
gói ngay cả các assembly. Các assembly lại có thể được đóng gói để hình thành các assemply phức
hợp và các assembly này được liên kết theo hình cây. Mỗi module được thiết kế gồm một đối tượng
dữ liệu kích thước lớn để mô phỏng trong việc đánh giá hiệu năng với các đối tượng cực lớn. Mô
hình hóa bản thiết kế CSDL của OO7 được minh họa như Hình 1.6.
Các tham số cho phép cấu hình CSDL ở các mức nhỏ, vừa và lớn. Ví dụ về cấu hình các tham
số như trong Bảng 1.1.
Mọi đối tượng và các thuộc tính của bản thiết kế OO7 đưa ra đều nhằm mục đích mô phỏng
tốt nhất các bài toán hướng đối tượng trong thực tế. Kể cả với dạng hướng đối tượng phân tán, thiết
8
kế trên cũng có thể mô phỏng được các đối tượng tại các địa điểm cục bộ hoặc phân tán khác nhau
mà ở đó mỗi module được minh họa như một trạm xử lý của hệ phân tán.
Bảng 1.1: Các tham số CSDL chính của OO7
Tham số Mô tả Small Medium Large
NumModule Số lượng module 1 1 10
NumCompPerModule Số lượng đối tượng phức hợp của
một module
500 500 500
NumAtomicPerComp Số lượng đối tượng nguyên thủy
trong một đối tượng phức hợp
200 200 200
1.3.3. Kịch bản đánh giá hiệu năng
Kịch bản đánh giá gồm mười kịch bản duyệt đối tượng và tám kịch bản truy vấn. Kịch bản
duyệt sẽ thực hiện ở hai dạng là Hot và Cold. Dạng Cold sẽ hoàn toàn không sử dụng bộ nhớ cache,
với dạng duyệt Hot thì bước chuẩn bị chạy giống như Cold nhưng sau đó chạy lại ba lần cùng thao
tác duyệt như Cold và sử dụng lại cache đã có từ lần chạy đầu tiên.
1.3.4. Kết quả thực nghiệm
Một số tham số của CSDL được thay đổi để kiểm tra dưới nhiều góc độ:
- Sử dụng cấu hình CSDL dạng nhỏ (small) với cấu hình client/server và dạng tệp trực tiếp trên
ổ đĩa (embedded file)
- Sử dụng index (index on) và không sử dụng index (index off)
- Tải dữ liệu dạng đầy đủ (eager load) và dạng không đầy đủ (lazy load)
- Chương trình bổ sung dạng CSDL vừa (medium) thiết lập sẵn index on và eager load.
1.3.4.1 Kết quả duyệt dạng COLD
Hình 1.7: Biểu đồ thao tác duyệt dạng COLD
- Khi sử dụng index kết quả có tốt hơn khoảng 5% thời gian xử lý, kết quả này không thực sự
phản ánh tốt tính năng index do phần lớn các thao tác duyệt có xử lý update dữ liệu (index phù
hợp cho việc đọc hơn là update dữ liệu).
9
- Với thao tác duyệt đầy đủ dữ liệu như Trav1/Trav2x/Trav3x thì kết quả tải dữ liệu không đầy
đủ không tốt hơn so với dạng tải dữ liệu đầy đủ. Tuy nhiên với dạng duyệt không toàn bộ như
Trav6 thì kết quả tải dữ liệu không đầy đủ tốt hơn nhiều so với dạng tải dữ liệu đầy đủ, đây
chính là ưu điểm của việc sử dụng tính năng tải dữ liệu không đầy đủ khi duyệt dữ liệu rút gọn.
- Với dạng CSDL dạng tệp dữ liệu trực tiếp trên ổ đĩa, kết quả tốt hơn nhiều. Với CSDL dạng
vừa, thời gian tăng đột biến từ 8-10 lần do phải xử lý số lượng dữ liệu rất lớn.
1.3.4.2 Kết quả duyệt dạng HOT
Hình 1.8: Biểu đồ thao tác duyệt dạng HOT
- Duyệt dạng HOT cho kết quả tốt hơn rất nhiều so với dạng COLD do dữ liệu được tái sử dụng
và cache trong bộ nhớ. Phần lớn các thao tác duyệt chỉ đọc không quá một giây và các thao tác
duyệt có cập nhật dữ liệu cũng không quá một giây đối với CSDL dạng nhỏ.
- Khác với dạng COLD, kết quả của tải dữ liệu không đầy đủ với các thao tác duyệt đầy đủ có
cập nhật Trav1/Trav2x/Trav3x kém hơn nhiều so với dạng tải dữ liệu đầy đủ (thời gian cao gấp
khoảng 3 lần). Với các thao tác duyệt không đầy đủ Trav6/Trav8/Trav9 thì kết quả là tương
đương giữa tải đữ liệu không đầy đủ và tải dữ liệu đầy đủ.
1.3.4.3 Kết quả truy vấn dạng COLD
Hình 1.9: Biểu đồ truy vấn dạng COLD
10
- Kết quả nạp dữ liệu không đầy đủ thể hiện ưu điểm với các thao tác truy vấn dữ liệu, kết quả
tốt hơn nhiều so với nạp dữ liệu đầy đủ. Ví dụ với Query1, nạp dữ liệu không đầy đủ chỉ mất
dưới một giây, còn nạp dữ liệu đầy đủ cần tới hơn 7 giây.
- Với truy vấn liệt kê toàn bộ đối tượng Query7 và truy vấn tìm kiếm có quan hệ liên kết Query8,
kết quả sử dụng tải dữ liệu không đầy đủ còn tốt hơn rất nhiều. Với CSDL dạng vừa thì Query7
mất tới vài ngày và Query8 mất tới cả tháng.
1.3.4.4 Kết quả truy vấn dạng HOT
- Truy vấn dạng HOT cho kết quả rất tốt so với dạng COLD với các dạng tìm kiếm theo giá trị
như các truy vấn từ Query1 đến Query5.
- Còn với dạng truy vấn liệt kê toàn bộ Query7 và truy vấn tìm kiếm quan hệ liên kết như Query8
thì kết quả không khác nhiều so với dạng HOT.
Hình 1.10: Biểu đồ truy vấn dạng HOT
1.4. Kết luận chương 1
CSDL quan hệ có những hạn chế khi áp dụng với các hệ thống lớn, phức tạp. Mô hình CSDL
HĐT được đề xuất để giải quyết các vấn đề phức tạp trong các hệ thống ứng dụng. Đặc trưng chính
của CSDL HĐT là cung cấp khả năng đặc tả cấu trúc của các đối tượng phức và quản lý hoạt động
của các đối tượng.
CSDL HĐT phát triển trong môi trường mạng hình thành mô hình CSDL hướng đối tượng
phân tán. Kiến trúc của hệ CSDL HĐT PT chủ yếu là kiến trúc clien/server. Trong các vấn đề của
CSDL HĐT PT, xử lý truy vấn là một hướng nghiên cứu quan trọng. Xử lý truy vấn phân tán liên
quan đến việc đánh giá hiệu năng, phân mảnh và cấp phát lớp các đối tượng, tối ưu hóa truy vấn.
Chương một của luận án đã trình bày các khái niệm và các vấn đề trong CSDL HĐT và
CSDL HĐT PT, đồng thời chương này cũng đã đề cập đến việc đánh giá hiệu năng các CSDL HĐT
bằng thư viện OO7.
Trong chương tiếp theo luận án sẽ trình bày những kiến thức và đề xuất các thuật toán để thực
hiện việc phân mảnh và cấp phát lớp các đối tượng.
CHƯƠNG 2 - THIẾT KẾ TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG PHÂN TÁN
Bài toán thiết kế dữ liệu phân tán chia thành hai bài toán chính: phân mảnh và cấp phát. Phân
mảnh là chia nhỏ dữ liệu thành các phần nhỏ hơn. Cấp phát là định vị các mảnh vào các trạm. Với
mô hình đối tượng việc phân mảnh nảy sinh các vấn đề phức tạp mới do các đặc tính của hướng
đối tượng, đó là tính đóng gói, kế thừa, phân cấp lớp. Chương 2 của luận án sẽ trình bày các thuật
toán phân mảnh và cấp phát cho CSDL HĐT PT. Những kết quả đã được đăng ở các bài báo (1),
(3), và (4).
2.1. Các thông tin đầu vào bài toán phân mảnh dọc và cấp phát lớp
2.1.1. Thông tin về CSDL
Dữ liệu trong CSDL HĐT bao gồm tập các đối tượng được đóng gói, mỗi đối tượng bao
gồm các thuộc tính và phương thức.
Định nghĩa 2.1 [24]: Một lớp thứ i trong CSDL HĐT được biểu diễn bởi Ci = (Ki, Ai, Mi,
Ii) trong đó: Ki là tập các định danh, Ai là tập các thuộc tính, Mi là tập các phương thức và Ii là tập
các đối tượng được định nghĩa bởi Ai và Mi.
Thuộc tính trong một lớp chia thành hai kiểu đơn giản và phức tạp: Thuộc tính đơn giản là
thuộc tính có miền giá trị là các lớp nguyên thủy. Thuộc tính phức tạp là thuộc tính có miền giá trị
không phải là các lớp nguyên thủy, khi đó giá trị thuộc tính có thể là định danh của các đối tượng
khác. Phương thức trong một lớp cũng chia thành hai kiểu đơn giản và phức tạp: Phương thức đơn
giản là phương thức khi thực hiện không gọi các phương thức khác. Phương thức phức tạp là
phương thức khi thực hiện gọi phức thức khác trong cùng lớp đó hoặc các phương thức của lớp
khác
Định nghĩa 2.2: Một phương án phân mảnh dọc của một lớp Ci là một cách là chia Ci thành
tập các mảnh {𝑓1
𝑖 , 𝑓2
𝑖 ,..., 𝑓𝑛
𝑖}, mỗi mảnh 𝑓𝑣
𝑖 = {Ki, 𝐴𝑣
𝑖 , 𝑀𝑣
𝑖 , Ii}, (v = 1, ... , n) , trong đó 𝐴𝑣
𝑖 là tập con
của Ai, 𝑀𝑣
𝑖 là tập con của Mi.
Cũng như CSDL quan hệ, phân mảnh dọc phải đảm bảo ba luật phân mảnh, cụ thể trong
CSDL HĐT ba luật này thể hiện như sau:
- Tính đầy đủ (completeness): Mỗi thuộc tính hoặc phương thức trong lớp Ci phải được tìm
thấy trong ít nhất một mảnh 𝑓𝑗
𝑖 .
- Tính tái cấu trúc được (reconstruction): Có khả năng tái cấu trúc lại lớp Ci từ các mảnh tương
ứng đã được phân chia.
- Tính tách biệt (disjointness): Chỉ định danh và các phương thức truy cập định danh mới
được lặp lại trong các mảnh, các thuộc tính và phương thức khác của một lớp Ci chỉ thuộc
duy nhất một mảnh 𝑓j
𝑖.
Định nghĩa 2.3: Một phương án cấp phát cho lớp Ci là định vị tập các mảnh {𝑓1
𝑖 , 𝑓2
𝑖 ,..., 𝑓𝑛
𝑖}
của lớp Ci vào một tập các trạm S = {s1, s2, , sk} trong mạng liên kết sao cho tổng kích thước các
12
mảnh tại mỗi trạm không vượt quá kích thước của trạm. Nếu khả năng lưu trữ các trạm không hạn
chế thì có thể bỏ qua tham số kích thước các trạm.
Định nghĩa 2.4: Với mỗi phương thức 𝑚𝑗
𝑖 và một thuộc tính 𝑎𝑙
𝑖 của một lớp Ci, giá trị
MAU(𝑚𝑗
𝑖 , 𝑎𝑙
𝑖) được định nghĩa như sau:
MAU(𝑚𝑗
𝑖, 𝑎𝑙
𝑖) = {
1 nếu 𝑚𝑗
𝑖 sử dụng 𝑎𝑙
𝑖
0 nếu ngược lại
Thiết lập tất cả các giá trị MAU(𝑚𝑗
𝑖 , 𝑎𝑙
𝑖) cho tất cả các phương thức và thuộc tính của lớp Ci
nhận được ma trận phương thức sử dụng thuộc tính MAUi.
Định nghĩa 2.5: Với mỗi phương thức 𝑚𝑗
𝑖 của của một lớp Ci và một phương thức 𝑚𝑙
ℎ của
một lớp Ch, giá trị MMU(𝑚𝑗
𝑖 , 𝑚𝑙
ℎ ) được định nghĩa như sau:
MMU(𝑚𝑗
𝑖, 𝑚𝑙
ℎ ) = {
1 nếu 𝑚𝑗
𝑖 sử dụng 𝑚𝑙
ℎ
0 nếu ngược lại
2.1.2. Thông tin về ứng dụng
Với tính đóng gói của các đối tượng, các truy vấn ứng dụng chỉ truy cập được các đối tượng
thông qua các phương thức.
Định nghĩa 2.6: Với mỗi truy vấn 𝑞𝑗
𝑖 truy cập vào lớp Ci và một phương thức 𝑚𝑙
𝑖 của lớp Ci,
giá trị 𝑄𝑀𝑈(𝑞𝑗
𝑖 , 𝑚𝑙
𝑖 ) được định nghĩa như sau:
𝑄𝑀𝑈(𝑞𝑗
𝑖 , 𝑚𝑙
𝑖 ) = {
1 nếu 𝑞𝑗
𝑖 sử dụng 𝑚𝑙
𝑖
0 nếu ngược lại
Thiết lập tất cả các giá trị 𝑄𝑀𝑈(𝑞𝑗
𝑖 , 𝑚𝑙
𝑖 ) cho tất cả các truy vấn vào lớp Ci với các phương
thức của lớp Ci nhận được ma trận truy vấn sử dụng phương thức QMUi.
Định nghĩa 2.7: Với mỗi truy vấn 𝑞𝑗
𝑖 truy cập vào lớp Ci và một trạm sk trong mạng kết nối,
giá trị tần suất truy cập của truy vấn vào các trạm 𝑄𝑆𝐹(𝑞𝑗
𝑖 , 𝑠𝑘) là số lần truy cập của truy vấn 𝑞𝑗
𝑖
vào trạm sk.
Thiết lập tất cả các giá trị 𝑄𝑆𝐹(𝑞𝑗
𝑖 , 𝑠𝑘) cho tất cả các truy vấn vào lớp C
i với tất cả các trạm
sk nhận được ma trận tần suất truy cập các truy vấn vào các trạm QSFi.
2.1.3. Thông tin về mạng
Ma trận chi phí giao tiếp giữa các trạm kí hiệu là SSC (Site Site Cost) biểu diễn chi phí giao
tiếp giữa các trạm.
2.1.4. Bảng tóm tắt các kí hiệu đầu vào
Bảng 2.1: Tóm tắt các kí hiệu sử dụng
Kí hiệu Mô tả ý nghĩa
Ci Lớp thứ i trong CSDL HĐT PT.
Ai Tập các thuộc tính của lớp Ci.
13
i
ja Thuộc tính thứ j của lớp Ci.
Mi Tập các phương thức của lớp Ci.
i
jm Phương thức thứ j của lớp Ci.
Qi Tập các truy vấn vào lớp Ci.
i
jq Truy vấn thứ j vào lớp Ci.
S Tập các trạm
sk Trạm thứ k
MAUi Ma trận biểu diễn sự sử dụng thuộc tính của phương thức của lớp Ci.
QMUi Ma trận biểu diễn sự sử dụng phương thức của truy vấn của lớp Ci.
QSFi Ma trận biểu diễn tần suất truy cập vào trạm của các truy vấn của lớp Ci.
SSC Ma trận chi phí giao tiếp giữa các trạm
Fi Tập các mảnh của lớp Ci
i
jf Mảnh thứ j của lớp Ci
MSizei Mảng kích thước các phương thức của lớp Ci
MSitei Mảng chứa thông tin trạm của các phương thức (sau khi phân mảnh và
cấp phát)
2.2. Hàm mục tiêu của phân mảnh và cấp phát
Mục tiêu của phân phân mảnh và cấp phát là tối thiểu hóa chi phí xử lý các truy vấn, chi phí
này bao gồm chi phí lưu trữ dữ liệu, chi phí truyền dữ liệu, chi phí đọc dữ liệu. Trong môi trường
phân tán, chi phí truyền dữ liệu là chi phí quan trọng nhất, vì vậy các thuật toán đề xuất trong luận
án tập trung vào việc giảm chi phí truyền dữ liệu. Tổng chi phí truyền dữ liệu được xác định như
sau:
𝑇𝐶 = ∑ ∑ ∑ 𝑄𝑀𝑈𝑖(𝑞𝑙
𝑖, 𝑚𝑗
𝑖) ∗ 𝑆𝑆𝐶(𝑀𝑆𝑖𝑡𝑒(𝑚𝑗
𝑖), 𝑠𝑘) ∗ 𝑀𝑆ize(𝑚𝑗
𝑖) ∗ 𝑄𝑆𝐹𝑖(𝑞𝑙
𝑖, 𝑠𝑘)
𝑚𝑗
𝑖𝑀𝑖𝑠𝑘S
ii
l Qq
(2.1)
Trong công thức 2.1 chi phí được tính là tổng chi phí thức hiện tất cả các truy vấn. Với mỗi
truy vấn tính chi phí thực hiện truy vấn đó trên từng trạm, nếu truy vấn có sử dụng một phương
thức của lớp mà phương thức đó không cùng trạm với truy vấn thì phải tính chi phí chuyển phương
thức từ trạm đang định vị sang trạm mà truy vấn đang thực hiện.
2.3. Biến đổi sự sử dụng phương thức và tần suất truy cập
Trước hết phải biến đổi ma trận sử dụng phương thức và ma trận tần suất truy cập trạm theo
các quan hệ trong CSDL HĐT vì các quan hệ này ảnh hưởng đến sự phân mảnh và cấp phát. Các
mối quan hệ được xem xét theo ba kiểu: quan hệ kế thừa, quan hệ bao gồm (thuộc tính phức),
14
phương thức phức. Các thông tin các truy vấn theo các quan hệ được bổ sung vào các ma trận QMU
và QSF
Thuật toán 2.1 - Modify_1(Ci)
//Biến đổi QMUi và QSFi theo quan hệ kế thừa
Đầu vào:
- CSDL gồm tập C các lớp trong đó có lớp Ci cần phân mảnh
- Các ma trận QMU and QSF của các lớp
Đầu ra:
- QMUi và QSFi sau khi biến đổi
Các bước thực hiện:
for (each Ch C) do
if (Ch inherited from class Ci) then//C
h kế thừa Ci
for (each
h
kq Qh) do //mỗi truy vấn trên lớp Ch
if (
h
kq uses methods
i
jm of class Ci) then
begin
//Thêm 1 dòng tương ứng
h
kq vào QMUi và QSFi;
AddRow(
h
kq , QMUi, QSFi);
end {if
h
kq }
end {for
h
kq }
end {for Ch}
end {Thuật toán 2.1}
Thuật toán 2.2: Biến đổi QMUi và QSFi theo quan hệ bao gồm
Thuật toán 2.3: Biến đổi QMUi và QSFi theo phương thức phức tạp
2.4. Thuật toán AttrFrag phân mảnh dựa trên thuộc tính
Phân mảnh đựa trên tương quan thuộc tính là một phương pháp kinh điển trong CSDL phân
tán quan hệ. Trong CSDL HĐT PT Ezeife đã đề nghị các thuật toán phân mảnh dựa trên tương
quan phương thức. Theo thuật toán của Ezeife có những trường hơp dữ liệu sử dụng cho các phương
thức này và các phương thức không cùng một mảnh. Điều này dẫn đến việc thực hiện phương thức
phải có chi phí truyền dữ liệu. Do đó chúng tôi đề nghị một thuật toán phân mảnh dựa trên thuộc
tính, sau khi phân mảnh xong thuộc tính sẽ nhóm các phương thức sử dụng thuộc tính về cùng
nhóm với nhau, các phương thức có thể được nhân bản ở vài mảnh nếu các thuộc tính trong các
mảnh này cùng được sử dụng bởi phương thức.
2.4.1. Xây dựng ma trận truy vấn sử dụng thuộc tính
Định nghĩa 2.8: Với mỗi truy vấn 𝑞𝑗
𝑖 truy cập vào lớp Ci và một thuộc tính 𝑎𝑙
𝑖 của lớp Ci, giá
trị 𝑄𝐴𝑈(𝑞𝑗
𝑖 , 𝑎𝑙
𝑖 ) được định nghĩa như sau:
𝑄𝐴𝑈(𝑞𝑗
𝑖 , 𝑎𝑙
𝑖 ) = {
1 nếu 𝑞𝑗
𝑖 sử dụng 𝑎𝑙
𝑖
0 nếu ngược lại
15
Giá trị 𝑄𝐴𝑈 được tính thông qua QMU và MAU: Sau khi biến đổi các ma trận truy vấn sử
dụng phương thức (QMU) và ma trận tần suất truy câp của truy vấn vào các trạm (QSF), nhân ma
trận QMU với ma trận MAU sẽ được ma trận truy vấn sử dụng thuộc tính QAU.
2.4.2. Xây dựng ma trận tương quan thuộc tính
Tương quan thuộc tính (Attribute Affinity) giữa hai thuộc tính 𝑎𝑗
𝑖
và 𝑎𝑙
𝑖 trong một lớp Ci là
tổng số tần suất truy cập của tất cả các truy vấn vào cùng cả hai thuộc tính ở mọi site:
𝐴𝐴(𝑎𝑗
𝑖 , 𝑎𝑙
𝑖) = ∑ ∑ 𝑟𝑒𝑓(𝑞𝑚
𝑖 , 𝑠𝑘)𝑄𝑆𝐹(𝑞𝑚
𝑖 , 𝑠𝑘)
𝑘𝑚|𝑄𝐴𝑈(𝑞𝑚
𝑖 ,𝑎𝑗
𝑖 )=1&𝑄𝐴𝑈(𝑞𝑚
𝑖 ,𝑎𝑙
𝑖)=1
Trong đó:
𝑟𝑒𝑓(𝑞𝑚
𝑖 , 𝑠𝑘) là số truy cập thuộc tính 𝑎𝑗
𝑖 và 𝑎𝑙
𝑖 cho mỗi truy vấn 𝑞𝑚
𝑖 ở site sk.
𝑄𝑆𝐹(𝑞𝑚
𝑖 , 𝑠𝑘) là tần suất truy cập của 𝑞𝑚
𝑖 ở site sk
Xây dựng tương quan thuộc tính giữa tất cả các cặp thuộc tính trong lớp Ci cho ta một ma trận
tương quan thuộc tính AA (Attributes Affinity matrix). Ma trận tương quan thuộc tính sẽ được
dùng cho các thuật toán phân mảnh nói chung và các thuật toán phân mảnh dọc nói riêng.
2.4.3. Sử dụng thuật toán BEA để phân mảnh
Thuật toán BEA (Bond Energy Algorithm) được sử dụng trong các thuật toán phân mảnh
dọc theo tương quan thuộc tính. Thuật toán nhận đầu vào là ma trận tương quan thuộc tính, hoán
vị các hàng và các cột rồi sinh ra ma trận tương quan thuộc tính được phân nhóm CA (Clustered
Affinity matrix). Hoán vị được thực hiện sao cho số đo tương quan chung AM (global affinity
measure) là lớn nhất. Mục đích của việc phân nhóm là kết hợp các giá trị gần nhau lại với nhau. Sự
phân đoạn các thuộc tính được ra dọc theo đường chéo chính của ma trận CA.
2.4.4. Bổ sung các phương thức vào các mảnh
Sau khi thực hiện phân hoạch các thuộc tính theo thuật toán BEA, bổ sung thuộc tính định
danh vào tất cả các mảnh. Tiếp theo dựa vào ma trận phương thức sử dụng thuộc tính MAU, bổ
sung các phương thức vào cùng mảnh với thuộc tính mà nó sử dụng. Như vậy các phương thức có
thể được nhân bản ở nhiều mảnh, điều này có thể làm chi phí lưu trữ tăng lên nhưng sẽ giúp cho
chi phí xử lý truy vấn giảm đi.
2.5. Thuật toán FragAlloS phân mảnh đồng thời cấp phát
Trong đa số các hướng tiếp cận về phân mảnh và cấp phát lớp các đối tượng, việc phân mảnh
và cấp phát được thực hiện ở hai giai đoạn riêng biệt, phân mảnh được thực hiện trước, sau đó sẽ
định vị các mảnh vào các trạm. Thông tin về mạng chỉ dùng trong cấp phát mà không dùng trong
phân mảnh. Luận án đề nghị hướng tiếp cận phân mảnh và cấp phát đồng thời, sử dụng thông tin
mạng cho cả phân mảnh và cấp phát để tăng tính hiệu quả của việc phân mảnh và cấp phát trong
CSDL HĐT.
(2.2)
16
2.5.1. Mô hình chi phí
Chi phí truy cập một phương thức
i
jm ở một trạm sk là tổng tần suất truy cập của các truy vấn
có sử dụng phương thức
i
jm trên trạm sk, chi phí này được kí hiệu request và thiết lập như sau:
Để thiết lập chi phí truy cập mỗi phương thức của một lớp Ci từ các trạm chúng ta sẽ xây
dựng ma trận requesti, ma trận này chính là tích của hai ma trận SQFi (là ma trận chuyển vị của
SQFi) và QMUi.
Chi phí khi định vị một phương thức
i
jm vào một trạm sk là chi phí truy cập vào phương thức i
jm từ tất cả các trạm sl ≠ sk, chi phí này được kí hiệu là pay và được thiết lập như sau:
Để thiết lập chi phí định vị mỗi phương thức của một lớp Ci vào các trạm chúng ta sẽ xây
dựng ma trận payi, ma trận này chính là tích của 2 ma trận requesti và SSC.
Dựa vào ma trận payi để xác định phương án cấp phát các phương thức của một Ci. Thuật
toán đề nghị là một thuật toán heuristic, mục tiêu của thuật toán là định vị
i
jm vào trạm sk mà giá
trị
)m ,(spay ijk
i
là bé nhất.
2.5.2. Xây dựng thuật toán
Thuật toán phân mảnh và cấp phát đề xuất theo hướng tiếp cận heuristic như sau: Dựa vào ma
trận payi, định vị phương thức
i
jm vào trạm sk mà chi phí giao tiếp là bé nhất. Thiết lập một phương
án định vị, sau đó gom cụm các phương thức ở cùng một trạm vào một mảnh. Trong mỗi mảnh,
với từng phương thức xác định các thuộc tính mà các phương thức này sử dụng để đưa vào mảnh
này.
Thuật toán 2.6 - FragAlloS(Ci): Phân mảnh và cấp phát
Đầu vào:
- CSDL gồm tập các lớp C trong đó có lớp Ci cần phân mảnh
- Các ma trận QMU and QSF, MAU của các lớp.
- Ma trận chi phí giữa các trạm SSC
Đầu ra:
- Phương án phân mảnh và cấp phát cho lớp Ci
Các bước của thuật toán:
//Bước 1: Biến đổi QMU và QSF theo các thuật toán biến đổi
Modify_1(Ci); Modify_2(Ci); Modify_3(Ci);
//Bước 2: Xây dựng ma trận requesti
requesti = Nhan2matran(SQFi, QMUi);
//Bước 3: Xây dựng ma trận payi
payi = Nhan2matran(requesti, SSC);
//Bước 4: Xác định phương án cấp phát dựa vào ma trận payi
for (each 𝑚𝑗
𝑖
) do
begin
(2.7)
(2.8)
ii
l
i
l
i
k
i
l
ii
jk
i
Qq
)m ,(q QMU * )s ,(q QSF )m ,(s request ij
Sl
lk
i
jk
ii
jk
i
s
)s ,(s SSC*)m ,(s request )m ,(spay
17
Chọn sk mà giá trị 𝑝𝑎𝑦𝑖(𝑠𝑘, 𝑚𝑗
𝑖) bé nhất;
Cấp phát 𝑚𝑗
𝑖
vào trạm sk;
Thêm 𝑚𝑗
𝑖 vào Fk;
end {for 𝑚𝑗
𝑖
}
Thêm vào mỗi mảnh phương thức truy cập định danh
//Bước 5: Dựa vào MAU thêm các thuộc tính vào các mảnh
for (each 𝑚𝑗
𝑖
) do
for (each 𝑎𝑙
𝑖) do
if (MAU(𝑚𝑗
𝑖
,𝑎𝑙
𝑖)=1) then
begin
Thêm 𝑎𝑙
𝑖 vào mảnh có 𝑚𝑗
𝑖
;
Định vị 𝑎𝑙
𝑖 vào trạm mà 𝑚𝑗
𝑖
định vị;
end; {if}
end; {for 𝑎𝑙
𝑖}
end; {for 𝑚𝑗
𝑖
}
end; {Thuật toán 2.6}
2.5.3. Đánh giá thuật toán
Thuật toán phân mảnh là chính xác vì nó thoả mãn ba nguyên tắc cơ bản của phân mảnh.
Nếu một lớp cần phân mảnh có tập các thuộc tính là A, tập các phương thức là M, tập các truy vấn
là Q, mạng kết nối gồm tâp các trạm S thì độ phức tạp của thuật toán được xác định là
(|C|*|M|*|Q|+|M|*|Q|*|S|). Hơn nữa, hiện nay độ phức tạp của thuật toán nhân hai ma trận N*N đã
được cải tiến đạt đến độ phức tạp N2.38 , vì vậy độ phức tạp của bước 3 trong thuật toán 2.6 chỉ còn
là N2.38 với N là giá trị lớn nhất trong ba giá trị |M|, |Q| và |S|.
Có thể liệt kê các ưu điểm của hướng tiếp cận heuristic trong thuật toán này:
- Chỉ các phương thức truy cập định danh mới lặp lại trong tất cả các mảnh.
- Các thông tin về mạng được sử dụng trong cả hai giai đoạn phân mảnh và cấp phát.
- Độ phức tạp của thuật toán là thấp
- Số lượng tối đa các mảnh chỉ bằng số lượng các trạm.
2.5.4. Thực nghiệm thuật toán FragAlloS trên OO7
Thuật toán sinh ngẫu nhiên các bộ dữ liệu gồm có mã trận dữ liệu SSC, QMU, QSF. Mô phỏng
dữ liệu chạy thử với OO7 được thực hiện như sau:
- Sử dụng đối tượng Module như là các trạm
- Lớp cần đánh giá sẽ được mở rộng từ đối tượng AtomicPart sẵn có của OO7 bằng cách bổ
sung các phương thức như thiết lập ở các ma trận trên.
Với cách thiết kế lược đồ CSDL nói trên, bài toán đánh giá được thực hiện theo 3 phương án
phân mảnh như sau:
- Phương án 1: Phương án phân mảnh và cấp phát được sinh ra theo thuật toán FragAlloS
- Phương án 2: Cấp phát tất cả các phương thức mi vào một trạm s1 (hoặc s2, s3, s4)
- Phương án 3: Cấp phát ngẫu nhiên.
18
Chi phí của các phương án được biểu diễn theo biểu đồ như Hình 2.1, kết quả thử nghiệm cho
thấy phương án sinh ra do thuật toán FragAlloS (phương án 1) có chi phí thấp nhất.
Hình 2.1: Biểu đồ so sánh chi phí các phương án
2.6. So sánh các thuật toán
So sánh về độ phức tạp: Thuật toán FragAlloS thực hiện cả cấp phát và phân mảnh với độ
phức tạp chỉ tương đương thuật toán Ezeife mà Ezeife chỉ thực hiện một giai đoạn là phân mảnh.
Cài đặt thử nghiệm:
- Cài đặt 3 thuật toán đầu. Lấy kết quả phân mảnh của AttrFrag và thuật toán của Ezeife
kiểm tra tất cả các phương án cấp phát và so sánh với phương án của FragAlloS
- Sinh ngẫu nhiên các bộ dữ liệu QSF, QMU, MAU, SSC, kích thước các phương thức và
thuộc tính.
Kết quả:
o AttrFrag và Ezeife: 20% bộ dữ liệu cho kết quả thuật toán AttrFrag có chi phí nhỏ
hơn Ezeife. 80% bộ dữ liệu cho kết quả thuật toán AttrFrag có chi phí bằng Ezeife.
o FragAlloS và Ezeife: 70% bộ dữ liệu cho kết quả thuật toán FragAlloS có chi phí
nhỏ hơn Ezeife. 30% bộ dữ liệu cho kết quả thuật toán FragAlloS có chi phí bằng
Ezeife.
2.7. Kết luận chương 2
Phân mảnh và cấp phát là các kỹ thuật thiết kế CSDL mức logic nhằm giảm bớt các truy xuất
không cần thiết đến dữ liệu, cho phép thực hiện song song các truy vấn trên các mảnh, nhờ đó hiệu
năng của hệ thống sẽ được cải thiện. Trong CSDL HĐT PT cũng có hai kiểu phân mảnh là phân
mảnh ngang và phân mảnh dọc. Tuy nhiên, do mô hình CSDL hướng đối tượng có các đặc trưng
riêng nên để áp dụng những phương pháp phân mảnh từ mô hình quan hệ sang mô hình đối tượng
phải biến đổi các tham số đầu vào theo cấu trúc lớp và mối quan hệ giữa các lớp trong CSDL HĐT.
Luận án đề xuất một thuật toán AttrFrag phân mảnh dựa trên tương quan thuộc tính, thuật
toán này có hiệu quả tương đương thuật toán phân mảnh dựa trên tương quan phương thức của
Ezeife. Thuật toán tiếp theo được đề xuất trong chương 2 là thuật toán heuristic FragAlloS, thuật
toán FragAlloS thực hiện phân mảnh và cấp phát đồng thời, thuật toán FragAlloS đã được đánh giá
tốt cả về độ phức tạp và kết quả thực nghiệm.
,0
1000000,0
2000000,0
3000000,0
4000000,0
5000000,0
6000000,0
7000000,0
8000000,0
9000000,0
10000000,0
Phương án
1
Phương án
2/s1
Phương án
2/s2
Phương án
2/s3
Phương án
2/s4
Phương án
3
19
CHƯƠNG 3 - TỐI ƯU HÓA BIỂU THỨC ĐƯỜNG DẪN TRONG CSDL HĐT PT
Để hạn chế việc truyền dữ liệu chúng tôi đề xuất thuật toán BloomOpt để lọc các dữ liệu
không cần thiết. Tiếp đến là đề xuất thuật toán quy hoạch động ExpPathOpt để tối ưu hóa truy vấn
có các biểu thức truy vấn kết hợp với nhau qua toán tử AND. Thuật toán ExpPathOpt xây dựng
phương án tối ưu từ các phương án tối ưu của các truy vấn con, tương ứng với việc tách đồ thị truy
vấn thành các đồ thị con. Các kết quả được trình bày trong các bài báo (2) và (5).
3.1. Tối ưu hóa truyền dữ liệu trong biểu thức đường dẫn - Thuật toán BloomOpt
3.1.1. Truy vấn có biểu thức đường dẫn
Khi thực hiện truy vấn trong CSDL HĐT, nếu các lớp có các thuộc tính phức tạp sẽ dẫn dắt
truy vấn tới các đối tượng lồng nhau theo một biểu thức đường dẫn.
Giả sử truy vấn ở đây là liệt kê họ tên các cán bộ nghiên cứu trong thành phố Hà nội và có
thể viết dưới dạng:
SELECT c.ten
FROM CanBoNghienCuu as c
WHERE c.coQuan.diaChi.thanhPho =”Hà nội”
c.coQuan.diaChi.thanhPho là một biểu thức đường dẫn hay còn gọi là kết nối ẩn. Mỗi đối tượng
của lớp có một định danh duy nhất (OID) được hệ thống khởi tạo, các kết nối ẩn được thực hiện
thông qua các định danh này.
3.1.2. Bộ lọc Bloom
Bộ lọc Bloom là một cấu trúc dữ liệu xác suất để kiểm tra xem một phần tử có nằm trong
một tập hợp hay không. Cấu trúc của một bộ lọc Bloom bao gồm:
- Một dãy gồm n bit, được khởi tạo tất cả các giá trị là 0
- Một tập các hàm băm h1, h2, ..hk. Mỗi hàm băm sẽ ánh xạ các giá trị khóa vào một giá trị
trong khoảng từ 1 đến n, tương ứng bit của bộ lọc
- Một tập S gồm m giá trị khóa
Với mỗi giá trị khóa k trong S: băm nó theo các hàm băm, hàm băm thứ i có giá trị hi(k),
thiết lập bit thứ hi(k) của bộ lọc Bloom thành giá trị 1. Chức năng của bô ̣loc̣ Bloom là xác điṇh
môṭ phần tử x có thuôc̣ tâp̣ S hay không. Nó đươc̣ dùng là bước tiền xử lý của quá trình tìm kiếm.
Nếu sau khi loc̣ qua bô ̣loc̣ Bloom trả về kết quả “không” thì không cần thưc̣ hiêṇ viêc̣ tìm kiếm
nữa, nếu trả về kết quả “có thể có” thì thưc̣ hiêṇ tìm kiếm.
Với bộ lọc Bloom sẽ không có khả năng xảy ra lỗi false negative mà chỉ có thể gặp phải lỗi
false positive với xác suất rất nhỏ. Xác xuất false positive có thể giảm xuống nếu chọn giá trị n, k,
và m thích hợp. Trong trường hợp tốt nhất, giá trị k tối ưu là 𝑘 =
𝑛
𝑚
𝑙𝑛2 , khi đó xác suất false
positive được cực tiểu hóa theo k và sẽ là 𝑝 = 2−𝑘 = 2−𝑛𝑙𝑛2/𝑚 => 𝑛 = −
𝑚𝑙𝑛𝑝
(𝑙𝑛2)2
.
20
3.1.3. Thuật toán tối ưu hóa biểu thức đường dẫn
3.1.3.1 Sử dụng bộ lọc Bloom để giảm chi phí giao tiếp
Giả sử lớp Ci có một thuộc tính ak là một đối tượng của lớp Cj, lớp Ci đặt tại trạm S, lớp Cj
đặt tại trạm R. Giả sử có truy vấn chứa biểu thức đường dẫn từ lớp Ci sang lớp Cj. Ý tưởng chính
ở đây là thay vì truyền toàn bộ các đối tượng của Cj từ S đến R đề kết hợp với Ci (hoặc ngược lại),
chúng ta sẽ lọc một số đối tượng của Cj mà cần thiết cho việc kết nối với Ci. Cơ chế lọc sẽ được
thực hiện bởi bộ lọc Bloom.
Trường hợp 1: Truy vấn tại trạm S
- Xây dựng bộ lọc Bloom cho tất cả các đối tượng thuộc lớp Ci theo giá trị thuộc tính ak, gọi là
BF(Ci).
- Gửi BF(Ci) đến R (trạm chứa Cj), BF(Ci) được sử dụng để lọc các đối tượng của Cj.
- Gửi các đối tượng của Cj mà thỏa mãn điều kiện lọc ở trên đến S
- Thực hiện việc truy vấn từ các đối tượng của Ci và Cj tại S
Trường hợp 2: Truy vấn tại trạm R
- Xây dựng bộ lọc Bloom cho tất cả các đối tượng thuộc lớp Cj theo giá trị thuộc tính định danh,
gọi là BF(Cj).
- Gửi BF(Cj) đến S (trạm chứa Ci), BF(Cj) được sử dụng để lọc các đối tượng của Ci.
- Gửi các đối tượng của Ci mà thỏa mãn điều kiện lọc ở trên đến R
- Thực hiện việc truy vấn từ các đối tượng của Ci và Cj tại R
Trường hợp 3: Truy vấn tại trạm không chứa cả Ci và Cj, giả sử là trạm P (P ≠ S, P ≠ R)
- So sánh chi phí để truyền dữ liệu giữa 3 trạm và chọn trường hợp tốt nhất để thực hiện, cũng sử
dụng bộ lọc Bloom để giảm truyền dữ liệu.
3.1.3.2 Thảo luận về các tham số
Trong phần trước chúng ta đã phân tích sai số và có công thức 𝑛 = −
𝑚𝑙𝑛𝑝
(𝑙𝑛2)2
. Khi chọn p là một
sai số cố định có giá trị đủ bé thì kích thước bộ lọc Bloom n tuyến tính với số lượng các giá trị
khóa, trong trường hợp này là số lượng đối tượng của lớp cần xây dựng bộ lọc Bloom (Ci hoặc Cj).
Bộ lọc Bloom có thể xây dựng một lần cho mỗi lớp và sử dụng nhiều lần khi có nhiều kết nối với
các lớp khác nhau.
3.2. Tối ưu hóa biểu thức đường dẫn – Thuật toán PathExpOt
3.2.1. Đồ thị biểu diễn truy vấn dạng các biểu thức đường dẫn
Giả sử truy vấn ở đây là liệt kê mã số và tên các đề tài mà chủ nhiệm đề tài là các cán bộ
của các cơ quan thuộc thành phố Hà nội và có viết sách thuộc thể loại CNTT. Truy vấn có thể viết
dưới dạng:
SELECT d.maSo, d.ten
FROM DeTai as d
WHERE d.chuNhiem.coQuan.diaChi.thanhPho=”Hà nội”
AND d.chuNhiem.tacGiaSach.theLoai.ten=”CNTT”
21
Truy vấn được biểu diễn bởi dưới dạng của một đồ thị có hướng gọi là đồ thị truy vấn. Ví dụ
về một đồ thị trong Hình 3.5.
Hình 3.5. Đồ thị truy vấn
3.2.2. Thuật toán tối ưu hóa
3.2.2.1 Mô hình tối ưu hoá truy vấn
Thiết kế của các bộ tối ưu hoá chia thành ba thành phần:
- Không gian thực thi là tập hợp tất cả các kế hoạch thực thi
- Mô hình chi phí dự đoán chi phí của một kế hoạch thực thi
- Chiến lược tìm kiếm để đạt được kế hoạch có chi phí tối thiểu
Chi phí cho phép nối được tính theo thuật toán nối với bộ lọc Bloom. Chiến lược tìm kiếm sử
dụng trong bài báo này là kỹ thuật lập trình động.
3.2.2.2 Tách cây truy vấn thành các cây con cảm sinh
Nguyên lí tối ưu hóa đặt vấn đề rằng một kế hoạch thực thi tối ưu cho một truy vấn được tạo
ra từ các kế hoạch thưc thi tối ưu con cho các truy vấn con. Gọi truy vấn ban đầu là truy vấn n-lớp,
truy vấn i-lớp là một truy vấn con của truy vấn ban đầu. Để tạo ra một kế hoạch tối ưu cho truy vấn
i-lớp bởi lập trình động, kế hoạch tối ưu hóa cho truy vấn con của nó từ 1-lớp đến (i-1)-lớp phải
được tạo ra trước.
Một truy vấn i-lớp có thể được tách thành một cặp truy vấn con r-lớp và (i-r)-lớp. Đồ thị
tương ứng với truy vấn i-lớp bị chia thành hai đồ thị con liên thông lần lượt có r đỉnh và (i-r) đỉnh.
Trong một cây, việc loại bỏ một cạnh sinh hai đồ thị con cũng là các cây, hai cây con này là các
cây con cảm sinh của cây ban đầu. Cạnh được loại bỏ bao hàm một phép nối ẩn bởi vì một cạnh
của đồ thị truy vấn mang nghĩa các tham chiếu đối tượng. Kết quả của truy vấn i-lớp được sinh ra
bởi sự thực hiện phép nối ẩn giữa các kết quả của các truy vấn con r-lớp và (i-r)-lớp. Trước khi
thực hiện phép nối ẩn, việc truyền dữ liệu phải được thực hiện nếu các kết quả của các truy vấn con
không ở cùng trạm. Do đó, chi phí của môt truy vấn i-lớp có thể được tính bởi tổng các chi phí của
truy vấn con r-lớp và (i-r)-lớp, chi phí thực hiện phép nối ẩn giữa các kết quả của các truy vấn con,
và chi phí cho việc truyền dữ liệu nếu cần.
Thuật toán tối ưu hoá sử dụng các cây con cảm sinh của cây truy vấn làm đầu vào. Do vậy
việc đầu tiên là liệt kê các cây con cảm sinh. Các cây con cảm sinh được sinh được kí hiệu là Ti, j
trong đó i là số đỉnh của cây, j là số thứ tự của cây cảm sinh i đỉnh.
3.2.2.3 Thuật toán tối ưu hóa
Thuật toán bao gồm ba bước
diaChi
coQuan
theLoai
CanBo (2)
tacGiaSach
chuNhiem
DeTai (1)
LoaiSach (4) DiaChi (1)
ToChuc (3) Sach (4)
22
- Khởi tạo: Rút gọn các lớp (hoặc mảnh lớp) bằng các phép chiếu trên các thuộc tính cần
để lại (OID, thuộc tính nối, thuôc tính cần hiển thị sau truy vấn)
- Tìm phương án tối ưu cho các cây con cảm sinh, lần lượt từ các cây có một đỉnh đến cây
có n đỉnh
- Thực thi phương án tối ưu đã tìm được
Thuật toán tìm phương án tối ưu
- Bước 1: Khởi tạo chi phí các cây có một đỉnh, chi phí của cây một đỉnh tại mỗi trạm
chính là chi phí truyền cây từ trạm của nó đến trạm này.
- Bước 2: Xây dựng các phương án tối ưu cho các cây từ 2 đỉnh.
o Bước 2.1: Tìm phương án tối ưu thực hiện Ti,j qua các phép nối (Find_JoinPlan).
Với mỗi cây Ti, j duyệt tất cả các cách tách cây thành 2 cây con cảm sinh Tr ,p và
Ti-r, q, tìm cách tách mà chi phí Ti, j là nhỏ nhất. Chi phí Ti, j tại trạm t được tính
bằng tổng chi phí Tr ,p và Ti-r, q tại trạm t và chi phí nối 2 cây này tại trạm t. Lưu
lại phương án thực hiện tối ưu.
o Bước 2.2: Tìm phương án tối ưu thực hiện Ti, j qua các phép truyền
(Find_TransPlan). Chi phí Ti, j tại trạm t sẽ được tính lại nếu chi phí này lớn hơn
tổng chi phí của Ti, j tại trạm x và chi phí truyền Ti, j từ trạm x tới trạm t. Lưu lại
phương án thực hiện tối ưu.
Thuật toán 3.5 PathExpOpt
Đầu vào:
- G =(V, E); V={F1, F2,, Fn};
- fragSize: Mảng lưu kích thước của các mảnh
- fragSite: Mảng lưu trạm mà các mảnh định vị
- transCost: Mảng lưu chi phí giữa các trạm
- T: Các cây con cảm sinh của cây truy vấn ban đầu
- treeSize: Mảng kích thước các cây con, được tính khi sinh cây
Đầu ra: Optimal Solution (result)
Các bước của thuật toán:
//Bước 1: Khởi tạo chi phí các cây con 1 đỉnh
for (u=1; u<=n; u++) //n là số các mảnh
begin
x = fragSiteu;
for (t = 1; t<=s; t++) //s là số các trạm
Cost_Transt(T1,u)= fragSizeu * transCostx,t;
end; {for u}
//Bước 2: Xây dựng các phương án tối ưu cho các cây từ 2 đỉnh
for (i=2; i<=n; i++)
//Bước 2.1: Tìm phương án tối ưu thực hiện Ti,j qua các phép nối
for (j=1; j<mi; j++) //mi là số cây con cảm sinh có i đỉnh
for (t = 1; t<=s; t++)
JoinPlant(Ti,j)= Find_JoinPlan(Ti,j);
end; {for t}
23
end; {for j}
//Bước 2.2: Tìm phương án tối ưu thực hiện Ti,j qua phép truyền
for (t = 1; t<=s; t++)
for (j=1; j<mi; j++)
TransPlant(Ti,j)= Find_TransPlant(Ti,j);
end; {for j}
end; {for t}
end; {for i}
result = TransPlank(Tn,1); //k là trạm phát sinh truy vấn
end; {Thuật toán 3.5}
3.2.2.4 Đánh giá độ phức tạp
Trường hợp tốt nhất đồ thị truy vấn là đồ thị chuỗi (tương ứng với truy vấn chuỗi) thì số cây con
cảm sinh có i đỉnh là n-i+1, khi đó độ phức tạp của thuật toán là O(sn3). Trong trường hợp xấu
nhất đồ thị truy vấn là đồ thị sao (tương ứng với truy vấn hình sao) thì số cây con cảm sinh có i
đỉnh là 𝐶𝑖−1
𝑛−1, độ phức tạp của thuật toán trong trường hợp này là O(s2n-1).
3.2.3. So sánh các thuật toán khác
Hình 3.1: Biểu đồ so sánh chi phí PathExpOpt với các thuật toán khác
3.3. Kết luận chương 3
Với bộ lọc Bloom thay vì gửi toàn bộ dữ liệu chúng ta chỉ gửi đại diện của nó đến nơi cần
kiểm tra, như vậy chi phí truyền sẽ giảm đi. Đặc biệt với các mảnh dữ liệu chỉ làm nhiệm vụ thực
hiện phép kết nối ẩn trung gian mà không cần lấy ra thông tin gì thì bộ lọc Bloom thực sự hiệu quả
vì chỉ cần gửi bộ lọc để lọc dữ liệu, không cần lấy các bộ dữ liệu đã lọc gửi trả lại để thực hiện
phép kết nối dữ liệu. Luận án đề xuất thuật toán BloomOpt thực hiện việc tối ưu hóa kết nối hai
lớp trong biểu thức đường dẫn bằng cách sử dụng bộ lọc Bloom.
Truy vấn với biểu thức đường dẫn qua nhiều lớp có thể biểu diễn bởi một đồ thị truy vấn. Đồ
thị này có thể tách thành các đồ thị con cảm sinh, các đồ thị con cảm sinh này tương ứng với các
truy vấn con. Luận án đề xuất thuật toán PathExpOpt theo hướng tiếp cận quy hoạch động tách bài
toán thành nhiều bài toán nhỏ hơn, tương đương với việc tách đồ thị thành các đồ thị con. Mô hình
chi phí được xây dựng giúp cho việc lựa chọn các bài toán con tối ưu.
,0
50000,0
100000,0
150000,0
200000,0
250000,0
Bộ dữ liệu 1 Bộ dữ liệu 2 Bộ dữ liệu 3 Bộ dữ liệu 4
PathExpOpt Sun et al Kim and Lee
So sánh chi phí thực hiện phương án
tối ưu của thuật toán PathExpOpt và hai
thuật toán của Sun và các cộng sự, và
Kim và Lee trên một số bộ dữ liệu. Thuật
toán chúng tôi đề xuất có chi phí tốt nhất
vì đã kết hợp các biểu thức đường dẫn để
thực hiện cũng như dùng bộ lọc Bloom để
hạn chế việc truyền dữ liệu.
24
KẾT LUẬN
Mục đích của luận án là nghiên cứu các vấn của bài toán đánh giá hiệu năng, thiết kế và tối
ưu hóa truy vấn trong môi trường CSDL HĐT PT. Các đóng góp chính của luận án bao gồm:
Đánh giá hiệu năng một số CSDL HĐT phổ biến như Db4o thông qua thư viện OO7 trên
các tiêu chí chính: Tốc độ xử lí trong việc duyệt đối tượng, mức độ hiệu quả trong việc thay
đổi đối tượng (tạo, xóa và cập nhật), hiệu quả của việc xử lý các loại câu truy vấn đối tượng.
Đề xuất các thuật toán cho phân mảnh và cấp phát các lớp đối tượng: Thuật toán AttrFrag
phân mảnh dựa trên tương quan thuộc tính và thuật toán FragAlloS phân mảnh và cấp phát
đồng thời. Thuật toán FragAlloS là một thuật toán heuristic thực hiện cả phân mảnh và cấp
phát với độ phức tạp chỉ tương đương các thuật toán phân mảnh và chưa thực hiện cấp phát.
Đề xuất thuật toán BloomOpt truyền dữ liệu bằng bộ lọc Bloom để thực hiện truy vấn có
chưa biểu thức đường dẫn và thuật toán PathExpOpt tối ưu hóa biểu thức đường dẫn trong
CSDL HĐT PT. Thuật toán PathExpOpt là thuật toán quy hoạch động sử dụng cơ chế sinh
cây con cảm sinh để tối ưu hóa biểu thức đường dẫn trong CSDL HĐT PT.
Các kết quả nghiên cứu của luận án đã được công bố trong các công trình (1), (2), (3), (4), và (5).
Nhìn vào xu hướng phát triển hiện nay, điện toán đám mây là một môi trường phân tán nổi
trội, môi trường này sử dụng các máy chủ trung tâm từ xa và mạng internet để duy trì dữ liệu và
các ứng dụng. Các hệ thống CSDL PT nói chung và CSDL HĐT PT nói riêng khi phát triển trong
môi trường điện toán đám mây sẽ đòi hỏi các kỹ thuật nâng cao về phân mảnh, cấp phát và sao
chép. Những kỹ thuật này là một trong những hướng nghiên cứu tiếp theo của luận án.
Hơn nữa, một trong những xu hướng lớn nhất của khoa học dữ liệu là dữ liệu lớn (big data)
với các loại dữ liệu có cấu trúc và dữ liệu không cấu trúc. NoSQL (Not Only SQL) là loại cơ sở dữ
liệu hỗ trợ lưu trữ dữ liệu không cấu trúc. Trong danh sách các cơ sở dữ liệu NoSQL có sự góp mặt
của các CSDL HĐT PT như Versant, Db4o, GemStone, Như vậy CSDL HĐT PT trong môi
trường dữ liệu lớn với các vấn đề như thiết kế phân tán, tối ưu hóa truy vấn cần được quan tâm
nghiên cứu.
Tóm lại, từ các xu thế phát triển của khoa học dữ liệu và từ kết quả của luận án đặt ra các
hướng nghiên cứu tiếp theo như sau:
Thiết kế các thuật toán phân mảnh, cấp phát, tối ưu hóa truy vấn trong CSDL HĐT PT để
thử nghiệm trên Hadoop nhằm nâng cao hiệu quả của thuật toán trong môi trường dữ liệu lớn
trên điện toán đám mây.
Nghiên cứu cách kết hợp giữa hai hướng tiếp cận dựa trên tương quan và heuristic dựa trên chi phí
trong phân mảnh và cấp phát CSDL HĐT PT để đạt hiệu quả tốt hơn.
Xây dựng các thuật toán heuristic dựa trên chi phí để tối ưu hóa biểu thức đường dẫn trong
CSDL HĐT PT hiệu quả hơn, cải thiện độ phức tạp thuật toán hiện tại trong trường hợp xấu
nhất (truy vấn hình sao).
Nghiên cứu về tối ưu hóa biểu thức đường dẫn trong các trường hợp tổng quát hơn và nghiên
cứu các dạng khác của truy vấn trong CSDL HĐT PT.
25
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ
(1.) Mai Thúy Nga, Đoàn Văn Ban, Nguyễn Mạnh Hùng (2015), “Thuật toán phân mảnh dọc
và cấp phát đồng thời trong Cơ sở dữ liệu hướng đối tượng phân tán”, Tạp chí Khoa học và
công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, 53(3), tr. 265-276.
(2.) Mai Thúy Nga, Đoàn Văn Ban, Nguyễn Mạnh Hùng (2015), “Xử lý truy vấn trong Cơ sở
dữ liệu hướng đối tượng phân tán sử dụng bộ lọc Bloom”, Tạp chí Khoa học, Trường Đại
học Sư phạm Hà nội, 60(7A), tr. 196-203.
(3.) Mai Thuy Nga, Doan Van Ban (2016), “ Heuristic algorithm for fragmentation and
allocation in distributed object-oriented database”, Journal of Computer Science and
Cybernertics, Vietnam Academy of Science and Technology, 32(1), pp. 45-58.
(4.) Mai Thúy Nga, Đoàn Văn Ban (2014), “Thuật toán Heuristic để phân mảnh và cấp phát
đồng thời trong Cơ sở dữ liệu hướng đối tượng phân tán”, Kỷ yếu Hội thảo Khoa học Quốc
gia lần thứ XVII Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông, Nhà xuất
bản Khoa học và Kỹ thuật, Hà nội, tr. 318–323.
(5.) Mai Thúy Nga, Đoàn Văn Ban, Nguyễn Mạnh Hùng (2015), “Tối ưu hóa truy vấn trong Cơ
sở dữ liệu hướng đối tượng phân tán”, Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ XVIII
Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông, Nhà xuất bản Khoa học và
Kỹ thuật, Hà nội, tr. 318–323.
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_xu_ly_va_toi_uu_hoa_truy_van_trong_co_so_du.pdf