Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan nhà nước Lào
Nghiên cứu của đềtài góp phần giải quyết được vấn đề
rất lớn trong việc quản lý nhân sựcủa Quốc hội Cộng hòa Dân
chủNhân dân Lào. Do hệthống được thiết kếphân tán dựa vào
tần suất sửdụng và khai thác dữliệu nên làm tăng được tốc độ
xửlý và giảm nghẽn mạng khi có nhiều đối tượng khai thác hệ
thống.
27 trang |
Chia sẻ: lylyngoc | Lượt xem: 3215 | Lượt tải: 6
Bạn đang xem trước 20 trang tài liệu Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan nhà nước Lào, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------------------
KHOUANETHEVA PHOLSENA
NGHIÊN CỨU CÁC GIẢI PHÁP CÔNG NGHỆ
PHÂN TÁN DỮ LIỆU VÀ ỨNG DỤNG QUẢN LÝ
NHÂN SỰ PHÂN TÁN TRONG CƠ QUAN NHÀ NƯỚC LÀO
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ
HÀ NỘI – 2013
1
MỞ ĐẦU
Ở Lào, sự liên kết xã hội ngày càng trở nên chặt chẽ
hơn, sự phát triển của mỗi ngành không thể thiếu thông tin về
các ngành khác. Hơn nữa sự phát triển của các tổ chức xã hội
không còn tập trung trong phạm vi thành phố, hoặc một số tỉnh
thành, mà phân bố trên diện rộng, về mặt địa lý trải dài trên
nhiều quốc gia trên thế giới. Thực tế các hệ thống tập trung đã
bộc lộ những nhược điểm như việc tăng khả năng lưu trữ thông
tin là khó khăn và bị giới hạn bởi khả năng tối đa của một máy
cụ thể, khả năng phục vụ không đảm bảo khi số lượng người
dùng tăng lên đáng kể. Cơ sở dữ liệu bị ngưng trệ phục vụ khi
có sự cố xảy ra, có nghĩa là độ sẵn sàng phục vụ của cơ sở dữ
liệu không còn nữa, khả năng tính toán của các máy tính đơn
lẻ đang triến dần tới giới hạn vật lý, tính đa quốc gia của các tổ
chức kinh tế xã hội làm cho tổ chức dữ liệu tập trung đang gặp
nhiều khó khăn trong lưu trữ cũng như xử lý.
Những nhược điểm này đã được khắc phục trong các hệ cơ
sở dữ liệu phân tán, vì việc quản lý thông tin ở khắp mọi nơi là
một yêu cầu cấp thiết đối với nhà quản lý cơ sở dữ liệu. Ví dụ
như bộ máy quản lý nhà nước sẽ quản lý dữ liệu nằm ở các
tỉnh, trong ngân hàng khi gửi tiền một nơi sẽ rút tiền ở các nơi
khác, trong kinh doanh có thể áp dụng vào việc quản lý các
doanh nghiệp về doanh số và doanh thu. Những sản phẩm của
các hệ thống phân tán đã xuất hiện nhiều trên thị trường và
từng bước chứng minh tính ưu việt của nó hơn hẳn các hệ
2
thống tập trung truyền thống. Trên thực tế, các hệ thống phân
tán đã thay thế dần các hệ thống tập trung.
Nhu cầu thu thập, lưu trữ, xử lý và trao đổi thông tin
của các hoạt động xã hội và kinh tế ngày càng cao. Yêu cầu tổ
chức các hệ xử lý phân tán là yêu cầu bức thiết. Vậy, để hiểu
thêm về vấn đề này em chọn đề tài “Nghiên cứu các giải pháp
công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự
phân tán trong cơ quan Nhà nước Lào”.
Cấu trúc của luận văn được tổ chức thành 3 chương:
• Chương 1, tôi trình bày các vấn đề liên quan đến cơ sở
dữ liệu phân tán, đặc biệt làm rõ ưu và nhược điểm của
cơ sở dữ liệu phân tán, các mô hình có thể triển khai hệ
thống phân tán, các loại truy xuất, các mức trong suốt
của cơ sở dữ liệu phân tán.
• Chương 2, trình bày các chiến lược phân tán, các
phương pháp thiết kế, các vấn đề thiết kế, các phương
pháp phân mảnh, phân bố cho các mảnh.
• Chương 3, trình bày về bài toán, các mô hình và các
yêu cầu quản lý của hệ thống quản lý nhân sự trong
Quốc Hội nước Cộng hòa Dân chủ Nhân dân Lào ; trình
bày quy trình thiết kế cơ sở dữ liệu phân tán và triển
khai thử nghiệm.
3
CHƯƠNG 1
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN
1.1 Khái niệm và định nghĩa cơ sở dữ liệu phân tán
1.1.1 Mở đầu
Hệ cơ sở dữ liệu phân tán được xây dựng dựa trên sự
hợp nhất của hai hướng tiếp cận quá trình xử lý dữ liệu, là lý
thuyết các hệ CSDL và công nghệ mạng máy tính.
Cung cấp đa dạng các loại hình dịch vụ và các dịch vụ
đa phương tiện cho người sử dụng. Kết nối các máy tính thành
mạng với mục tiêu chia sẻ tài nguyên thông tin chung cho
nhiều người cùng sử dụng, có hiệu quả tài nguyên thông tin,
nâng cao khả năng tích hợp và trao đổi các loại dữ liệu giữa
các thành phần trên mạng.
1.1.2 Khái niệm xử lý phân tán
Có hai khái niệm xử lý phân tán liên quan với nhau.
• Khái niệm việc tính toán trên Client/Server. Ứng dụng
được chia ra thành hai phần, Server và Client và được
vận hành ở hai nơi. Dữ liệu được phép truy nhập trực
tiếp và xử lý dữ liệu trên Server và Client.
• Khái niệm việc thực hiện các giao dịch được xử lý phức
tạp trên nhiều hệ thống. Không gian nhớ và bộ xử lý
của nhiều máy cùng chia nhau giao dịch xử lý. Máy
trung tâm sẽ giám sát và quản lý các tiến trình. Hàng
nghìn máy cùng xử lý một giao dịch trên mạng Internet.
4
1.2.2 Giảm chi phí truyền thông
1.2.3 Hiệu quả công việc
Sự tồn tại một số hệ thống xử lý điạ phương đạt được
thông quan việc xử lý song song. Có thuận lợi trong việc phân
tích dữ liệu phản ánh điều kiện phụ thuộc của các ứng dụng,
cực đại hoá tính địa phương của ứng dụng.
Trao đổi thông tin qua lại giữa các bộ xử lý có chi phí
cức tiểu. Công việc xử lý được phân chia cho các bộ xử lý khác
nhau và tránh được các tắc nghẽn thông tin trên mạng hoặc các
dịch vụ chung của toàn hệ thống.
1.2.4 Độ tin cậy và tính sẵn sàng
Cho phép truy nhập có độ tin cậy và tính sẵn sàng cao
hơn so với truy nhập tập trung. Đòi hỏi kỹ thuật phức tạp. Lỗi
xuất hiện trong một cơ sở dữ liệu phân tán có thể xảy ra nhiều
hơn, vì số các thành phần cấu thành lớn hơn, nhưng ảnh hưởng
của lỗi chỉ ảnh hưởng tới các ứng dụng sử dụng các vị trí-site
lỗi. Sự hỏng hóc của toàn hệ thống ít khi xảy ra.
Công nghệ cơ sở dữ liệu phân tán là sự kết hợp giữa
hai vấn đề phân tán và hợp nhất:
• Phân tán: phân tán dữ liệu trên các site của mạng
• Hợp nhất: hợp nhất về mặt logic các dữ liệu phân tán
sao cho chúng xuất hiện với người sử dụng giống như
với cơ sở dữ liệu đơn lẻ duy nhất.
Công nghệ cơ sở dữ liệu phân tán được phát triển dủa
trên sự phát triển của kỹ thuật tính toán, kỹ thuật truyền thông
và mạng máy tính.
5
1.3 Đặc trưng cơ bản của cơ sở dữ liệu phân tán
Phần này so sánh cơ sở dữ liệu phân tán với cơ sở dữ
liệu tập trung ở một số đặc điểm: điều khiển tập trung, sự độc
lập dữ liệu, sự giảm dư thừa dữ liệu, các cấu trúc vật lý phức
tạp để truy xuất hiệu quả.
1.3.1 Điểu khiển tập trung
Toàn bộ dữ liệu được tập trung lại nhằm để tránh sự dư
thừa dữ liệu, đảm bảo được tính độc lập của dữ liệu.
Dữ liệu được quản lý tập trung bởi người quản trị cơ sở
dữ liệu. Chức năng cơ bản là bảo đảm sự an toàn của dữ liệu.
Vấn đề điều khiển tập trung không được nhấn mạnh. Sự điều
khiển được thực hiện theo một cấu trúc điều khiển phân cấp
bao gồm hai loại người quản trị cơ sở dữ liệu:
• Người quản trị cơ sở dữ liệu toàn cục.
• Người quản trị cơ sở dữ liệu địa phương-cục bộ.
Người quản trị cơ sở dữ liệu cục bộ cần phải có những
quyền độc lập riêng về cơ sở dữ liệu cục bộ của mình mà người
quản trị cơ sở dữ liệu toàn cục hoàn toàn không có những
quyền này. Đặc điểm này được gọi là sự độc lập vị trí. Từ sự
độc lập vị trí hoàn toàn đến sự điều khiển tập trung hoàn toàn.
1.3.2 Độc lập dữ liệu
Là tổ chức lưu trữ dữ liệu là trong suốt đối với người
lập trình ứng dụng. Ưu điểm là các chương trình không bị ảnh
hưởng bởi những thay đổi về tổ chức lưu trữ vật lý của dữ liệu.
Tính đúng đắn của các chương trình ứng dụng không bị
ảnh hưởng bởi sự di chuyển dữ liệu từ một vị trí này đến một vị
trí khác.
6
1.3.3 Giảm dư thừa dữ liệu
Các cơ sở dữ liệu phân tán được dư thừa dữ liệu vì:
• Làm tăng tính cục bộ của các ứng dụng. Các ứng
dụng cục bộ được thực hiện nhanh hơn, không cần
phải truy xuất dữ liệu từ xa.
• Làm tăng tính sẵn sàng của hệ thống ứng dụng, nếu
dữ liệu tại vị trí bị hỏng được nhân bản tại các vị trí
khác.
1.3.4 Độ tin cậy qua các giao dịch phân tán
Hệ quản trị cơ sở dữ liệu phân tán cải thiện độ tin cậy
qua các giao dịch phân tán, vì các thành phần được nhân bản
hạn chế được các vị trí lỗi riêng lẻ. Lỗi của trạm riêng, hoặc lỗi
của truyền thông làm cho một hoặc nhiều trạm mất liên lạc,
không đủ để phá vỡ toàn bộ hệ thống.
Nếu biết cách hỗ trợ cho các giao dịch phân tán và các
giao thức ứng dụng, thì người sử dụng vẫn có thể truy nhập
được tới phần khác trong cơ sở dữ liệu phân tán.
1.3.5 Cải tiến hiệu năng
Được cải tiến dựa vào hai điểm:
a) Hệ quản trị cơ sở dữ liệu phân tán có khả năng phân
mảnh cơ sở dữ liệu khái niệm và cho phép cục bộ hoá dữ liệu.
b) Tính song song của các hệ thống phân tán có thể được
khai thác để thực hiện song song liên truy vấn và nội bộ.
1.3.6 Dễ dàng mở rộng hệ thống
Thực hiện bằng cách tăng khả năng lưu trữ và xử lý của
mạng. Khả năng mở rộng hệ thống dễ dàng mang tính kinh tế,
chi phí giảm.
7
1.3.7 Tính toàn vẹn, phục hồi và điều khiển tương tranh
Các phương pháp cung cấp các giao tác. Mỗi một giao
tác là một nguyên tố. Giao tác nguyên tố là phương tiện để đạt
được tính toàn vẹn dữ liệu.
Sự phục hồi liên quan đến vấn đề đảm bảo tính nguyên
tố của giao tác khi có sự sự cố về mặt kỹ thuật.
Điều khiển tương tranh nhằm đảm bảo tính nguyên tố
của giao tác khi xuất hiện sự tương tranh giao tác.
1.4 Các mô hình cơ sở dữ liệu phân tán
Mọi ứng dụng CSDL gồm 3 phần:
Thành phần xử lý ứng dụng
Thành phần phần mềm CSDL
CSDL (database)
1.4.1 Mô hình CSDL Client/Server
Cơ sở dữ liệu được cài đặt trên Server, phần mềm cơ
sở dữ liệu trên Server sẽ truy nhập vào cơ sở dữ liệu và xử lý
theo yêu cầu và gửi trả kết quả cho máy Client.
Hình 1.1 Mô hình Client-Server
Databas
Tower System
Application
Network
Application
Application
8
Server – điều khiển, lưu trữ CSDL, xử lý các truy
vấn và quản lý việc khai thác tài nguyên trên mạng
của các Clients.
Client – Khai thác tài nguyên qua Server
Mô hình CSDL client/server giống với mô hình CSDL
file-server nhưng trên thực tề mô hình CSDL Client/Server có
nhiều thuận lợi hơn mô hình file-server.
1.4.2 Mô hình CSDL phân tán
-Hai mô hình CSDL File-Server và Client/Server:dữ liệu và
chương trình ứng dụng truy nhập dữ liệu nằm trên 2 bộ xử lý
khác nhau.
-Mô hình CSDL phân tán:CSDL ở trên nhiều máy khác nhau.
Hình 1.3 Distributed database model
9
CHƯƠNG II
KỸ THUẬT PHÂN TÁN DỮ LIỆU
2.1 Khái niệm và sự cần thiết phân mảnh dữ liêụ
Phân mảnh là chia CSDL thành các mảnh dữ liệu nhỏ
hơn và xử lý mỗi mảnh nhận được như một CSDL độc lập, chỉ
được thực hiện khi nó tăng hiệu quả, và có độ tin cậy.
Có 2 kiểu phân mảnh:
- 1. Phân mảnh ngang: CSDL được phân hoạch thành các
CSDL con, mỗi CSDL con là một tập hợp các bộ thỏa mãn
một số tính chất nào đó.
- 2. Phân mảnh dọc: chia CSDL thành các CSDL con
gồm một tập hợp con các thuộc tính cùng với các giá trị
của chúng có trong tập các thuộc tính của CSDL đã cho.
Khi CSDL được phân mảnh, phải dịch câu truy vấn
toàn cục thành nhiều câu truy vấn theo các mảnh.
2.2 Các quy tắc phân mảnh
Các nguyên tắc để đảm bảo cơ sở dữ liệu khi phân
mảnh sẽ đảm bảo tính không thay đổi về ngữ nghĩa, toàn vẹn
dữ liệu và đảm bảo tính độc lập dữ liệu.
Có 3 qui tắc phải tuân thủ phân mảnh cơ sở dữ liệu
quan hệ:
2.2.1 Tính đầy đủ
2.2.2 Tính phục hồi
2.2.3 Tính tách biệt
10
2.3 Kỹ thuật phân mảnh ngang dữ liệu
2.3.1 Khái niệm
Là việc chia quan hệ thành nhiều mảnh quan hệ khả
hợp. Mỗi mảnh quan hệ bao gồm nhóm bộ dữ liệu thỏa một
điều kiện logic. Là thực hiện các phép chọn quan hệ thỏa mãn
một biểu thức điều kiên cho trước.
Có 2 loại phương pháp phân mảnh ngang:
• Phân mảnh ngang nguyên thủy.
• Phân mảnh ngang dẫn xuất.
2.3.2 Thông tin cần thiết của phân mảnh ngang
a) Thông tin về cơ sở dữ liệu: Là các thông tin về lược
đồ khái niệm toàn cục của hệ cơ sở dữ liệu.
b) Thông tin về ứng dụng: Để thực hiện việc phân
mảnh một quan hệ, cần phải có thông tin định tính và thông tin
định lượng.
c) Thông tin định tính về các ứng dụng cần phải có:
• Độ tuyển hội sơ cấp (Minterm Selectivity): là số bộ của
quan hệ sẽ được chọn theo vị từ hội sơ cấp cho trước.
• Tần số ứng dụng người sử dụng truy xuất dữ liệu. Nếu
Q = {q1, q2, … , qq} là tập truy vấn, ký hiệu acc(qi) là
tần số truy xuất của truy vấn qi trong một khoảng thời
gian đã cho.
• Tần số truy xuất hội sơ cấp là tần số truy xuất của hội
sơ cấp m, ký hiệu là acc(m).
11
2.3.3 Phân mảnh ngang nguyên thủy
Phân mảnh ngang nguyên thủy được định nghĩa bằng
một phép chọn trên quan hệ chủ của lược đồ cơ sở dữ liệu.
)(RR
iFi
σ= , i=1 ...n
Fi là biểu thức đại số quan hệ hội sơ cấp có dạng chuẩn
hội. Nếu Fi có dạng chuẩn hội, thì nó là vị từ hội sơ cấp (mi).
Thuật toán sẽ thảo luận khẳng định Fi là vị từ hội sơ cấp. Một
mảnh ngang Ri của quan hệ R gồm tất cả các bộ của R thoả
một vị từ hội sơ cấp mi.
Trong các thuật toán phân mảnh ngang , trước tiên cần
phải xác định các vị từ đơn giản sẽ tạo ra vị từ hội sơ cấp.
2.3.4 Tính đầy đủ và tính cực tiểu của vị từ đơn giản
a) Tính đầy đủ: Tập các vị từ đơn giản Pr được gọi là
đầy đủ khi và chỉ khi xác suất truy xuất bởi mỗi ứng dụng tới
bộ bất kỳ của một mảnh hội sơ cấp bất kỳ được định nghĩa theo
Pr là như nhau. Vị từ đầy đủ sẽ đảm bảo cho các mảnh thoả
mãn các vị từ sơ cấp, nhất quán về mặt logic. Sử dụng một tập
vị từ đầy đủ làm cơ sở cho việc phân mảnh ngang cơ sở.
b) Tính tính cực tiểu: Đặc tính thứ 2 của tập các vị từ
có tính cực tiểu. Đây là một đặc tính cảm tính.Nếu một vị từ
đơn giản có liên đới đến việc phân mảnh , phải có tính liên đới
(relevant) trong việc xác định một phân mảnh.
Gọi mi và mj là hai vị từ hội sơ cấp. Gọi fi và fj là hai
mảnh tương ứng được định nghĩa theo mi và mj.
Khi đó pi là có liên đới khi và chỉ khi: )(
)(
)(
)(
ji fcard
macc
fcard
macc
≠
12
2.3.5 Phân mảnh ngang dẫn xuất
Là phân chia quan hệ thành viên thành các mảnh quan
hệ theo phân mảnh của quan hệ chủ, các mảnh thu được chỉ
được định nghĩa trên các thuộc tính của quan hệ thành viên. Có
thể tồn tại một số kết nối rỗng khi phân tán dữ liệu và các thuộc
tính kết nối tách rời nhau. Kết nối phân tán được biểu diễn
bằng hai dạng đồ thị rút gọn:Đồ thị rút gọn là tách (Partitioned)
và Đồ thị nối rút gọn là đơn giản (Simple).
Hình 2.2 Đồ thị kết nối
2.4 Kỹ thuật phân mảnh dọc dữ liệu
2.4.1 Khái niệm phân mảnh dọc
Là phân chia quan hệ R thành tập các quan hệ nhỏ hơn
để có nhiều ứng dụng có thể chỉ cần thực hiện trên một mảnh.
Mảnh tối ưu sinh ra một lược đồ phân mảnh cho phép giảm tối
thiểu thời gian thực hiện của ứng dụng trên mảnh đó. Sử dụng
hai phương pháp Heuristic: Nhóm thuộc tính và Tách mảnh.
R
R2
R
R
S1
S2
S3
a) Đồ thị kết nối
hoàn toàn
R
R2
R
R
S1
S2
S3
S3
R
R
R2
R
R
S1
S2
S3
S4
a) Đồ thị
kết nối tách
c) Đồ thị kết nối
Đơn giản
13
2.4.2 Thông tin cần thiết của phân mảnh dọc
a) Ma trận giá trị sử dụng thuộc tính: Ký hiệu ma trận
giá trị sử dụng thuộc tính là use(qi, Aj), Q={q1, q2,.., qq} là tập
các câu truy vấn của người sử dụng. Các câu truy vấn Q sẽ
chạy trên quan hệ R(A1, A2,…, An).
Các vector Use(qi,*) được hiểu là câu truy vấn qi được chạy
trên cơ sở dữ liệu.
b) Ma trận lực hút AA( Attribute Affinity Matrix) của
thuộc tính: R(A1,A2,…,An) là một quan hệ trên tập các thuộc
tính Ω={A1,A2,…,An}. K là số mảnh của quan hệ R cần phải
được phân tán trên mạng máy tính, tức là: R = R1∪R2∪…∪Rk.
∑∑
∀∧
=
ljkik Sl
klkl
AquseAqusek
ji qaccqrefAAaff )()(),(
),(),([(
refl (qk) là số lần truy xuất các thuộc tính(Ai,Aj) cho qk tại vị trí
Sl và accl (qk) là số đo tần số truy xuất ứng dụng qk tại vị trí Sl.
2.4.3 Thuật toán tụ nhóm
Thuật toán thực hiện bằng cách nhóm các thuộc tính
của một quan hệ dựa trên các giá trị lực hút thuộc tính trong ma
trận AA đầu vào. Số đo lực hút chung lớn nhất là AM (Global
Affinity Measure). Ma trận lực hút tụ CA (Cluster Affinity) là
Kết quả, gồm có 3 bước :
Use(qi,Aj) =
i=1..q và j=1..n
1 Nếu thuộc tính Aj được vấn tin
qi
tham chiếu
0 Ngược lại
14
2.4.4 Thuật toán phân mảnh
Là xác định các tập thuộc tính được truy xuất bởi các
tập ứng dụng. Trong ma trận tụ lực hút CA của quan hệ, trong
hình 2.4 nếu một điểm trên đường chéo chính được chọn, hai
tập thuộc tính sẽ được xác định. Một tập {A1,A2,.....,Ai} ở góc
trái cao nhất, gọi là tập đỉnh TA (Top) và tập thứ hai
{Ai+1,...,An} ở góc phải thấp nhất, gọi là tập đáy BA (Bottom).
Hình 2.4 Cấp phát điểm tách
2.5 Bài toán phân bố dữ liệu
2.5.1 Khái niệm
Là bài toán để giải quyết các vấn đề không thuận lợi
nhu là: các mảnh được mô hình hóa không thích hợp hoàn toàn
như các tệp riêng, số mảnh nhiều hơn so với các quan hệ toàn
cục... Những vấn đề đặt ra này là phân bố dữ liệu sao cho tối
ưu đối với các ứng dụng.
A1
A2
.Ai
Ai+1
.
A1 A2 .... Ai Ai+1 ...... An
....
....
TA
BA
15
2.5.2 Bài toán phân bố
Ký hiệu xj là biến quyết định (Decisio Variable) chọn
vị trí để đặt sao lưu:
Khi đó đặc tả chính xác như sau:
++ ∑∑ ∑
∈=
∈
∈ ISj
jjij
m
i ISj
j
ISj
ijjj
j
j
j
dxctcux )min(min
1
'
Trong đó xj bằng 0 hoặc 1.
2.5.3 Thông tin cần thiết cho bài toán phân bố
Các thông tin cần cho bài toán phân bố có thể phân chia
thành bốn loại: thông tin CSDL, thông tin ứng dụng, thông tin
về vị trí và thông tin về mạng.
2.5.4 Mô hình phân bố dữ liệu
Là mô hình để giảm tối thiểu tổng chi phí xử lý và lưu
trữ, đáp ứng được các đòi hỏi về thời gian đáp ứng.
2.6 Xử lý truy vấn phân tán dữ liệu
Xử lý truy vấn phân tán là quá trình chuyển đổi câu truy
vấn ngôn ngữ bậc cao trên cơ sở dữ liệu phân tán thành một
chuỗi các thao tác của đại số quan hệ trên các mảnh phân tán.
Bao gồm nhiều bước thực hiện cụ thể như sau:
• Câu truy vấn phân tán phải được phân rã thành một
chuỗi các thao tác dựa trên các phép tính đại số
quan hệ.
1 Nếu mảnh Fk được đặt tại vị trí Sj
0 Trong trường hợp ngược lại.
xj =
16
• Dữ liệu được truy nhập bởi truy vấn là những mảnh
dữ liệu được phân rã, được gọi là dữ liệu cục bộ.
• Phép truy vấn đại số trên các mảnh phải được mở
rộng với các thao tác truyền thông và tối ưu hoá
chức năng tham chiếu các nguồn tài nguyên.
2.6.1 Vấn đề xử lý truy vấn
Vì có nhiều giải pháp biến đổi, mỗi giải pháp khác nhau
có thể tiêu thụ tài nguyên của mạng máy tính khác nhau. Vậy,
cần phải lựa chọn một giải pháp khi thực hiện, nó tiêu thụ tài
nguyên của mạng là tối thiểu. Có hai phương pháp tối ưu hóa
truy vấn cơ bản: phương pháp biến đổi một câu truy vấn phép
tính đại số quan hệ thành câu truy vấn tương đương ở mức thấp
hơn dưới dạng một biểu thức đại số quan hệ và phương pháp
chọn lựa trong số các câu truy vấn dạng biểu thức đại số quan
hệ tương đương, một biểu thức có chi phí thời gian thực hiện
và chi phí sử dụng tài nguyên là ít nhất.
2.6.2 Mục đích của việc xử lý truy vấn
Là biến đổi một câu truy vấn ở mức cao trên một cơ sở
dữ liệu phân tán thành một giải pháp thực hiện hiệu quả được
xác định dưới dạng ngôn ngữ mức thấp trên các cơ sở dữ liệu
cục bộ. Ngôn ngữ mức cao có thể hiểu là các phép tính quan
hệ, các ngôn ngữ mức thấp là sự mở rộng của đại số quan hệ
và các thao tác truyền dữ liệu giữa các vị trí dữ liệu.
2.6.3 Phân rã truy vấn
Có chức năng ánh xạ câu truy vấn phân tán ở dạng phép
tính quan hệ thành câu truy vấn đại số trên quan hệ toàn cục.
Thông tin cần thiết cho việc biến đổi phân rã truy vấn phân tán
17
được tìm thấy trong mô tả lược đồ khái niệm toàn cục và trong
mô tả các quan hệ toàn cục. Vậy các kỹ thuật phân rã được áp
dụng trong tầng này là những kỹ thuật của các hệ quản trị cơ sở
dữ liệu quan hệ tập trung.
2.6.4 Xây dựng câu truy vấn phân tán
Câu truy vấn phép tính quan hệ được xây dựng lại dưới
dạng truy vấn đại số quan hệ bằng các quy tắc biến đổi, là bước
cuối cùng của việc phân rã truy vấn là viết lại truy vấn dưới
dạng đại số quan hệ. Chia thành các bước nhỏ sau:
1. Chuyển đổi câu truy vấn từ phép tính quan hệ sang đại
số quan hệ.
2. Xây dựng lại truy vấn đại số quan hệ để cải thiện khả
năng thực hiện.
CHƯƠNG III
XÂY DỰNG MÔ HÌNH DỮ LIỆU PHÂN TÁN CHO
BÀI TOÁN QUẢN LÝ NHÂN SỰ Ở LÀO
3.1 Bài toán quản lý nhân sự của Quốc hội nước Cộng hòa
Dân chủ Nhân dân Lào
Để áp dụng những lý thuyết đã nghiên cứu và áp dụng
vào việc Tin học hoá quản lý nhân sự của Quốc hội Lào, tôi
chọn hướng phát triển quản lý nhân sự. Hệ thống quản lý nhân
sự trong Văn phòng Quốc hội Lào sẽ giúp người quản lý có
chức năng xem, tìm kiếm, tra cứu những thông tin của các nhân
viên và báo cáo lại cho ông trưởng ban một cách nhanh chóng
18
và thuận lợi. Ở bên phía Quốc hội địa phương cũng có chức
năng quản lý nhân viên ở trong tỉnh, có các chức năng xem, tìm
kiếm, tra cứu những thông tin của các nhân viên trong tỉnh và
báo cáo lại cho Văn phòng Quốc hội ở trung tâm.
3.1.1 Mô hình Quốc hội Cộng hòa Dân chủ Nhân dân Lào
Nước Cộng hòa Dân chủ Nhân dân Lào bao gồm 17
tỉnh và mỗi tỉnh đều có Quốc hội địa phương riêng nhưng tất cả
đều thuộc vào trung tâm Văn phòng Quốc hội ở Viêng Chăn.
Trung tâm văn phòng Quốc hội Lào ở Viêng Chăn có nhiều Ủy
Ban như:Ủy ban Pháp luật, Ủy ban Kinh tế, Ủy ban Xã hội...
Hinh 3.1 bản đồ nước Cộng hòa Dân chủ Nhân dân Lào
19
3.1.2 Yêu cầu quản lý
Hình 3.2 Biểu đồ phân cấp chức năng của hệ quản lý nhân sự
3.1.3 Mẫu dữ liệu
Bao gồm các bảng mẫu dữ liệu như:
- tbWORK (Bảng đại biểu Quốc hội)
- tbSTAFF (Bảng Nhân Viên)
- tbTITLE (Bảng Chức Vụ)
- tbEDUCATE (Bảng Trình độ học tập của Nhân Viên)
- bFAMILY (Bảng gia đình của Nhân Viên)
- tbPROVINCE (Bảng Tỉnh)
20
3.1.4 Mẫu quan hệ giữa các bảng
Hình 3.3 Quan hệ các bảng trong cơ sở dữ liệu
3.2 Thiết kế phân tán dữ liệu bài toán Quản Lý Nhân Sự
của Quốc hội Cộng hòa Dân chủ Nhân dân Lào
3.2.1 Kỹ thuật thiết kế
Việc thiết kế các hệ cơ sở dữ liệu phân tán có hai chiến
lược thiết kế:
• Thiết kế phân tán dữ liệu theo mô hình từ trên xuống
(Top-Down)
• Thiết kế phân tán dữ liệu theo mô hình từ dưới lên
(Bottom – Up).
Luận văn đã chọn việc thiết kế phân tán dữ liệu từ trên
xuống vì nó bắt đầu việc thiết kế sơ đồ tổng thể, thiết kế phân
mảnh cơ sở dữ liệu, cấp phát phân tán các mảnh cho các địa
phương , xác định các yêu cầu ứng dụng của người sử dụng.
Người sử dụng khác nhau có khung nhìn dữ liệu khác nhau.
21
3.2.2 Quy trình thiết kế dữ liệu phân tán
Hình 3.4 Quá trình thiết dữ liệu phân tán Quản Lý Nhân Sự của
Quốc hội Cộng hòa Dân chủ Nhân dân Lào
3.2.3 Phân bố dữ liệu phân tán
Luận văn đã chọn nhân bản đầy đủ vì việc xử lý truy
vấn dễ dàng, không cần phải quản lý các thư mục và có độ tin
cậy rất cao. Quốc hội địa phương nằm ở các tỉnh có thể có mẫu
dữ liệu giống nhau làm cho dễ dàng về việc quản lý.
22
3.3.1 Cấu hình mạng
Hình 3.5 Hệ thống xử lý phân tán giữa các Quốc hội Cộng hòa
Dân chủ Nhân dân Lào
Khi ở bên Văn phòng Quốc hội làm một câu truy vấn,
tất cả Quốc hội địa phương nằm ở các Tỉnh sẽ cũng làm câu
truy vấn đồng thời như ở bên Văn phòng Quốc hội.
23
3.3.2 Quy trinh xử lý dữ liệu phân tán
Quá trình xử lý hệ thống quản lý nhân sự Quốc hội Cộng hòa
Dân chủ Nhân dân Lào được chia thành nhiều vấn đề nhỏ
tương ứng với các tầng khác nhau, trong đó mỗi tầng xử lý một
số vấn đề cụ thể. Chức năng các tầng bao gồm: phân rã truy
vấn, tập trung hoá dữ liệu, tối ưu hoá truy vấn toàn cục và tối
ưu hoá truy vấn cục bộ.
VD: Văn phòng Quốc hội có yêu cầu tính tất cả tổng số đại
biểu quốc hội là dân tộc "Lao Xung" có trình độ đại học và có
tuổi trên 40 tuổi.
Hinh 3.7 Mô hình xử lý phân tán hệ thông quản lý nhân sự của
Quốc hội Cộng hòa Dân chủ Nhân dân Lào
24
KẾT LUẬN
Với sự phát triển mạnh mẽ của hệ thống phân tán và
internet thì việc nghiên cứu cơ sở dữ liệu phân tán và thiết kế
hệ thống phân tán cho hệ thống lớn có phạm vi sử dụng rộng là
vấn đề cần được nghiên cứu và triển khai. Hệ thống quản lý
nhân sự trong Quốc hội là hệ thống phục vụ việc quản lý tất cả
các nhân viên trong Văn phòng Quốc hội và các Quốc hội địa
phương của nước Cộng hòa Dân chủ Nhân dân Lào, vì đây là
hệ thống có tần suất sử dụng cao và có phạm vi sử dụng rộng
do vậy việc đề xuất thiết kế hệ thống phân tán là một vấn đề
khả thi. Do vậy, sau một thời gian tiếp cận và tìm hiểu về hệ cơ
sở dữ liệu phân tán. Luận văn đã đạt được một số kết quả sau:
Về mặt nghiên cứu lý thuyết: việc thiết kế cơ sở dữ liệu
phân tán và quá trình tối ưu hóa câu truy vấn được phát triển từ
hệ tập trung, việc phân tán các quan hệ thường chia chúng ra
thành nhiều mảnh nhỏ hơn để đặt tại các vị trí thường xuyên sử
dụng mảnh đó, các mảnh sau khi được chia ra sẽ cấp phát về
những vị trí khác nhau. Vấn đề là làm sao để chúng ta có thể
giảm thấp nhất được chi phí truy xuất, chi phí truyền thông, chi
phí bộ xử lý đến mức thấp nhất mà vẫn đảm bảo được kết quả
tương đương. Đây là công cụ được các hệ thống thông tin lớn
chọn làm môi trường cài đặt cơ sở dữ liệu và phát triển ứng
dụng với khả năng quản trị cơ sở dữ liệu phân tán rất tốt phù
hợp với các hệ thống phân cấp, phân tán về vị trí địa lý cũng
như khả năng về an toàn dữ liệu cho hệ thống. Luận văn là cơ
sở lý thuyết vững chắc để người sử dụng muốn tìm hiểu và
nghiên cứu về cơ sở dữ liệu phân tán. Đặc biệt là lý thuyết thiết
25
kế cơ sở dữ liệu phân tán giúp người sử dụng có thể áp dụng để
phát triển các hệ thống lớn trong môi trường phân tán và phạm
vi sử dụng rộng.
Về mặt ứng dụng: áp dụng kỹ thuật tối ưu hóa phân tán
vào thiết kế hệ thống quản lý nhân viên tại văn phòng Quốc hội
Cộng hòa Dân chủ Nhân dân Lào. Hệ thống được thiết kế theo
hướng phân tán dữ liệu, làm cho người sử dụng cảm giác như
hệ thống dữ liệu tập trung, đã ứng dụng được khả năng quản trị
dữ liệu phân tán của Microsoft SQL Server. Microsoft SQL
Server là hệ quản trị có khả năng quản trị cơ sở dữ liệu tốt và
dễ dùng, có nhiều chức năng hỗ trợ trong phân tán như đồng bộ
dữ liệu tại các Server.
Nghiên cứu của đề tài góp phần giải quyết được vấn đề
rất lớn trong việc quản lý nhân sự của Quốc hội Cộng hòa Dân
chủ Nhân dân Lào. Do hệ thống được thiết kế phân tán dựa vào
tần suất sử dụng và khai thác dữ liệu nên làm tăng được tốc độ
xử lý và giảm nghẽn mạng khi có nhiều đối tượng khai thác hệ
thống.
Để hoàn thành đề tài thì luận văn phát triển theo hướng
sau, về mặt lý thuyết cần nghiên cứu thêm ủy thác phân tán,
điều khiển đồng thời phân tán theo nhãn thời gian, tối ưu hóa
vấn tin trong cơ sở dữ liệu phân tán tán, điều khiển tương tranh
trong cơ sở dữ liệu phân tán. Nghiên cứu sâu hơn về Microsoft
SQL Server để khai thác triệt để khả năng quản trị cơ sở dữ
liệu phân tán của Microsoft SQL Server đảm bảo cho dữ liệu
được bảo mật, an toàn và tính đồng bộ dữ liệu của hệ thống
giải quyết được tranh chấp dữ liệu. Về mặt ứng dụng thì hệ
26
thống triển khai được trên phạm vi rộng hơn, có thể phát triển
hệ thống sang hệ thống Điện toán đám mây để làm bớt sử dụng
các server ở bên các địa phương. Kết hợp được các thuật toán
điều khiển tương tranh, tối ưu hoá vấn tin vào hệ thống để hệ
thống hoạt động tốt đáp ứng được nhu cầu khai khác thông tin
của người sử dụng và triển khai được diện rộng cho kết quả
như mong đợi.
Các file đính kèm theo tài liệu này:
- ttlv_pholsena_k__2733.pdf