Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan nhà nước Lào

Nghiên cứu của đềtài góp phần giải quyết được vấn đề rất lớn trong việc quản lý nhân sựcủa Quốc hội Cộng hòa Dân chủNhân dân Lào. Do hệthống được thiết kếphân tán dựa vào tần suất sửdụng và khai thác dữliệu nên làm tăng được tốc độ xửlý và giảm nghẽn mạng khi có nhiều đối tượng khai thác hệ thống.

pdf27 trang | Chia sẻ: lylyngoc | Lượt xem: 3231 | Lượt tải: 6download
Bạn đang xem trước 20 trang tài liệu Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan nhà nước Lào, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------------- KHOUANETHEVA PHOLSENA NGHIÊN CỨU CÁC GIẢI PHÁP CÔNG NGHỆ PHÂN TÁN DỮ LIỆU VÀ ỨNG DỤNG QUẢN LÝ NHÂN SỰ PHÂN TÁN TRONG CƠ QUAN NHÀ NƯỚC LÀO Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ HÀ NỘI – 2013 1 MỞ ĐẦU Ở Lào, sự liên kết xã hội ngày càng trở nên chặt chẽ hơn, sự phát triển của mỗi ngành không thể thiếu thông tin về các ngành khác. Hơn nữa sự phát triển của các tổ chức xã hội không còn tập trung trong phạm vi thành phố, hoặc một số tỉnh thành, mà phân bố trên diện rộng, về mặt địa lý trải dài trên nhiều quốc gia trên thế giới. Thực tế các hệ thống tập trung đã bộc lộ những nhược điểm như việc tăng khả năng lưu trữ thông tin là khó khăn và bị giới hạn bởi khả năng tối đa của một máy cụ thể, khả năng phục vụ không đảm bảo khi số lượng người dùng tăng lên đáng kể. Cơ sở dữ liệu bị ngưng trệ phục vụ khi có sự cố xảy ra, có nghĩa là độ sẵn sàng phục vụ của cơ sở dữ liệu không còn nữa, khả năng tính toán của các máy tính đơn lẻ đang triến dần tới giới hạn vật lý, tính đa quốc gia của các tổ chức kinh tế xã hội làm cho tổ chức dữ liệu tập trung đang gặp nhiều khó khăn trong lưu trữ cũng như xử lý. Những nhược điểm này đã được khắc phục trong các hệ cơ sở dữ liệu phân tán, vì việc quản lý thông tin ở khắp mọi nơi là một yêu cầu cấp thiết đối với nhà quản lý cơ sở dữ liệu. Ví dụ như bộ máy quản lý nhà nước sẽ quản lý dữ liệu nằm ở các tỉnh, trong ngân hàng khi gửi tiền một nơi sẽ rút tiền ở các nơi khác, trong kinh doanh có thể áp dụng vào việc quản lý các doanh nghiệp về doanh số và doanh thu. Những sản phẩm của các hệ thống phân tán đã xuất hiện nhiều trên thị trường và từng bước chứng minh tính ưu việt của nó hơn hẳn các hệ 2 thống tập trung truyền thống. Trên thực tế, các hệ thống phân tán đã thay thế dần các hệ thống tập trung. Nhu cầu thu thập, lưu trữ, xử lý và trao đổi thông tin của các hoạt động xã hội và kinh tế ngày càng cao. Yêu cầu tổ chức các hệ xử lý phân tán là yêu cầu bức thiết. Vậy, để hiểu thêm về vấn đề này em chọn đề tài “Nghiên cứu các giải pháp công nghệ phân tán dữ liệu và ứng dụng quản lý nhân sự phân tán trong cơ quan Nhà nước Lào”. Cấu trúc của luận văn được tổ chức thành 3 chương: • Chương 1, tôi trình bày các vấn đề liên quan đến cơ sở dữ liệu phân tán, đặc biệt làm rõ ưu và nhược điểm của cơ sở dữ liệu phân tán, các mô hình có thể triển khai hệ thống phân tán, các loại truy xuất, các mức trong suốt của cơ sở dữ liệu phân tán. • Chương 2, trình bày các chiến lược phân tán, các phương pháp thiết kế, các vấn đề thiết kế, các phương pháp phân mảnh, phân bố cho các mảnh. • Chương 3, trình bày về bài toán, các mô hình và các yêu cầu quản lý của hệ thống quản lý nhân sự trong Quốc Hội nước Cộng hòa Dân chủ Nhân dân Lào ; trình bày quy trình thiết kế cơ sở dữ liệu phân tán và triển khai thử nghiệm. 3 CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm và định nghĩa cơ sở dữ liệu phân tán 1.1.1 Mở đầu Hệ cơ sở dữ liệu phân tán được xây dựng dựa trên sự hợp nhất của hai hướng tiếp cận quá trình xử lý dữ liệu, là lý thuyết các hệ CSDL và công nghệ mạng máy tính. Cung cấp đa dạng các loại hình dịch vụ và các dịch vụ đa phương tiện cho người sử dụng. Kết nối các máy tính thành mạng với mục tiêu chia sẻ tài nguyên thông tin chung cho nhiều người cùng sử dụng, có hiệu quả tài nguyên thông tin, nâng cao khả năng tích hợp và trao đổi các loại dữ liệu giữa các thành phần trên mạng. 1.1.2 Khái niệm xử lý phân tán Có hai khái niệm xử lý phân tán liên quan với nhau. • Khái niệm việc tính toán trên Client/Server. Ứng dụng được chia ra thành hai phần, Server và Client và được vận hành ở hai nơi. Dữ liệu được phép truy nhập trực tiếp và xử lý dữ liệu trên Server và Client. • Khái niệm việc thực hiện các giao dịch được xử lý phức tạp trên nhiều hệ thống. Không gian nhớ và bộ xử lý của nhiều máy cùng chia nhau giao dịch xử lý. Máy trung tâm sẽ giám sát và quản lý các tiến trình. Hàng nghìn máy cùng xử lý một giao dịch trên mạng Internet. 4 1.2.2 Giảm chi phí truyền thông 1.2.3 Hiệu quả công việc Sự tồn tại một số hệ thống xử lý điạ phương đạt được thông quan việc xử lý song song. Có thuận lợi trong việc phân tích dữ liệu phản ánh điều kiện phụ thuộc của các ứng dụng, cực đại hoá tính địa phương của ứng dụng. Trao đổi thông tin qua lại giữa các bộ xử lý có chi phí cức tiểu. Công việc xử lý được phân chia cho các bộ xử lý khác nhau và tránh được các tắc nghẽn thông tin trên mạng hoặc các dịch vụ chung của toàn hệ thống. 1.2.4 Độ tin cậy và tính sẵn sàng Cho phép truy nhập có độ tin cậy và tính sẵn sàng cao hơn so với truy nhập tập trung. Đòi hỏi kỹ thuật phức tạp. Lỗi xuất hiện trong một cơ sở dữ liệu phân tán có thể xảy ra nhiều hơn, vì số các thành phần cấu thành lớn hơn, nhưng ảnh hưởng của lỗi chỉ ảnh hưởng tới các ứng dụng sử dụng các vị trí-site lỗi. Sự hỏng hóc của toàn hệ thống ít khi xảy ra. Công nghệ cơ sở dữ liệu phân tán là sự kết hợp giữa hai vấn đề phân tán và hợp nhất: • Phân tán: phân tán dữ liệu trên các site của mạng • Hợp nhất: hợp nhất về mặt logic các dữ liệu phân tán sao cho chúng xuất hiện với người sử dụng giống như với cơ sở dữ liệu đơn lẻ duy nhất. Công nghệ cơ sở dữ liệu phân tán được phát triển dủa trên sự phát triển của kỹ thuật tính toán, kỹ thuật truyền thông và mạng máy tính. 5 1.3 Đặc trưng cơ bản của cơ sở dữ liệu phân tán Phần này so sánh cơ sở dữ liệu phân tán với cơ sở dữ liệu tập trung ở một số đặc điểm: điều khiển tập trung, sự độc lập dữ liệu, sự giảm dư thừa dữ liệu, các cấu trúc vật lý phức tạp để truy xuất hiệu quả. 1.3.1 Điểu khiển tập trung Toàn bộ dữ liệu được tập trung lại nhằm để tránh sự dư thừa dữ liệu, đảm bảo được tính độc lập của dữ liệu. Dữ liệu được quản lý tập trung bởi người quản trị cơ sở dữ liệu. Chức năng cơ bản là bảo đảm sự an toàn của dữ liệu. Vấn đề điều khiển tập trung không được nhấn mạnh. Sự điều khiển được thực hiện theo một cấu trúc điều khiển phân cấp bao gồm hai loại người quản trị cơ sở dữ liệu: • Người quản trị cơ sở dữ liệu toàn cục. • Người quản trị cơ sở dữ liệu địa phương-cục bộ. Người quản trị cơ sở dữ liệu cục bộ cần phải có những quyền độc lập riêng về cơ sở dữ liệu cục bộ của mình mà người quản trị cơ sở dữ liệu toàn cục hoàn toàn không có những quyền này. Đặc điểm này được gọi là sự độc lập vị trí. Từ sự độc lập vị trí hoàn toàn đến sự điều khiển tập trung hoàn toàn. 1.3.2 Độc lập dữ liệu Là tổ chức lưu trữ dữ liệu là trong suốt đối với người lập trình ứng dụng. Ưu điểm là các chương trình không bị ảnh hưởng bởi những thay đổi về tổ chức lưu trữ vật lý của dữ liệu. Tính đúng đắn của các chương trình ứng dụng không bị ảnh hưởng bởi sự di chuyển dữ liệu từ một vị trí này đến một vị trí khác. 6 1.3.3 Giảm dư thừa dữ liệu Các cơ sở dữ liệu phân tán được dư thừa dữ liệu vì: • Làm tăng tính cục bộ của các ứng dụng. Các ứng dụng cục bộ được thực hiện nhanh hơn, không cần phải truy xuất dữ liệu từ xa. • Làm tăng tính sẵn sàng của hệ thống ứng dụng, nếu dữ liệu tại vị trí bị hỏng được nhân bản tại các vị trí khác. 1.3.4 Độ tin cậy qua các giao dịch phân tán Hệ quản trị cơ sở dữ liệu phân tán cải thiện độ tin cậy qua các giao dịch phân tán, vì các thành phần được nhân bản hạn chế được các vị trí lỗi riêng lẻ. Lỗi của trạm riêng, hoặc lỗi của truyền thông làm cho một hoặc nhiều trạm mất liên lạc, không đủ để phá vỡ toàn bộ hệ thống. Nếu biết cách hỗ trợ cho các giao dịch phân tán và các giao thức ứng dụng, thì người sử dụng vẫn có thể truy nhập được tới phần khác trong cơ sở dữ liệu phân tán. 1.3.5 Cải tiến hiệu năng Được cải tiến dựa vào hai điểm: a) Hệ quản trị cơ sở dữ liệu phân tán có khả năng phân mảnh cơ sở dữ liệu khái niệm và cho phép cục bộ hoá dữ liệu. b) Tính song song của các hệ thống phân tán có thể được khai thác để thực hiện song song liên truy vấn và nội bộ. 1.3.6 Dễ dàng mở rộng hệ thống Thực hiện bằng cách tăng khả năng lưu trữ và xử lý của mạng. Khả năng mở rộng hệ thống dễ dàng mang tính kinh tế, chi phí giảm. 7 1.3.7 Tính toàn vẹn, phục hồi và điều khiển tương tranh Các phương pháp cung cấp các giao tác. Mỗi một giao tác là một nguyên tố. Giao tác nguyên tố là phương tiện để đạt được tính toàn vẹn dữ liệu. Sự phục hồi liên quan đến vấn đề đảm bảo tính nguyên tố của giao tác khi có sự sự cố về mặt kỹ thuật. Điều khiển tương tranh nhằm đảm bảo tính nguyên tố của giao tác khi xuất hiện sự tương tranh giao tác. 1.4 Các mô hình cơ sở dữ liệu phân tán Mọi ứng dụng CSDL gồm 3 phần:  Thành phần xử lý ứng dụng  Thành phần phần mềm CSDL  CSDL (database) 1.4.1 Mô hình CSDL Client/Server Cơ sở dữ liệu được cài đặt trên Server, phần mềm cơ sở dữ liệu trên Server sẽ truy nhập vào cơ sở dữ liệu và xử lý theo yêu cầu và gửi trả kết quả cho máy Client. Hình 1.1 Mô hình Client-Server Databas Tower System Application Network Application Application 8  Server – điều khiển, lưu trữ CSDL, xử lý các truy vấn và quản lý việc khai thác tài nguyên trên mạng của các Clients.  Client – Khai thác tài nguyên qua Server Mô hình CSDL client/server giống với mô hình CSDL file-server nhưng trên thực tề mô hình CSDL Client/Server có nhiều thuận lợi hơn mô hình file-server. 1.4.2 Mô hình CSDL phân tán -Hai mô hình CSDL File-Server và Client/Server:dữ liệu và chương trình ứng dụng truy nhập dữ liệu nằm trên 2 bộ xử lý khác nhau. -Mô hình CSDL phân tán:CSDL ở trên nhiều máy khác nhau. Hình 1.3 Distributed database model 9 CHƯƠNG II KỸ THUẬT PHÂN TÁN DỮ LIỆU 2.1 Khái niệm và sự cần thiết phân mảnh dữ liêụ Phân mảnh là chia CSDL thành các mảnh dữ liệu nhỏ hơn và xử lý mỗi mảnh nhận được như một CSDL độc lập, chỉ được thực hiện khi nó tăng hiệu quả, và có độ tin cậy. Có 2 kiểu phân mảnh: - 1. Phân mảnh ngang: CSDL được phân hoạch thành các CSDL con, mỗi CSDL con là một tập hợp các bộ thỏa mãn một số tính chất nào đó. - 2. Phân mảnh dọc: chia CSDL thành các CSDL con gồm một tập hợp con các thuộc tính cùng với các giá trị của chúng có trong tập các thuộc tính của CSDL đã cho. Khi CSDL được phân mảnh, phải dịch câu truy vấn toàn cục thành nhiều câu truy vấn theo các mảnh. 2.2 Các quy tắc phân mảnh Các nguyên tắc để đảm bảo cơ sở dữ liệu khi phân mảnh sẽ đảm bảo tính không thay đổi về ngữ nghĩa, toàn vẹn dữ liệu và đảm bảo tính độc lập dữ liệu. Có 3 qui tắc phải tuân thủ phân mảnh cơ sở dữ liệu quan hệ: 2.2.1 Tính đầy đủ 2.2.2 Tính phục hồi 2.2.3 Tính tách biệt 10 2.3 Kỹ thuật phân mảnh ngang dữ liệu 2.3.1 Khái niệm Là việc chia quan hệ thành nhiều mảnh quan hệ khả hợp. Mỗi mảnh quan hệ bao gồm nhóm bộ dữ liệu thỏa một điều kiện logic. Là thực hiện các phép chọn quan hệ thỏa mãn một biểu thức điều kiên cho trước. Có 2 loại phương pháp phân mảnh ngang: • Phân mảnh ngang nguyên thủy. • Phân mảnh ngang dẫn xuất. 2.3.2 Thông tin cần thiết của phân mảnh ngang a) Thông tin về cơ sở dữ liệu: Là các thông tin về lược đồ khái niệm toàn cục của hệ cơ sở dữ liệu. b) Thông tin về ứng dụng: Để thực hiện việc phân mảnh một quan hệ, cần phải có thông tin định tính và thông tin định lượng. c) Thông tin định tính về các ứng dụng cần phải có: • Độ tuyển hội sơ cấp (Minterm Selectivity): là số bộ của quan hệ sẽ được chọn theo vị từ hội sơ cấp cho trước. • Tần số ứng dụng người sử dụng truy xuất dữ liệu. Nếu Q = {q1, q2, … , qq} là tập truy vấn, ký hiệu acc(qi) là tần số truy xuất của truy vấn qi trong một khoảng thời gian đã cho. • Tần số truy xuất hội sơ cấp là tần số truy xuất của hội sơ cấp m, ký hiệu là acc(m). 11 2.3.3 Phân mảnh ngang nguyên thủy Phân mảnh ngang nguyên thủy được định nghĩa bằng một phép chọn trên quan hệ chủ của lược đồ cơ sở dữ liệu. )(RR iFi σ= , i=1 ...n Fi là biểu thức đại số quan hệ hội sơ cấp có dạng chuẩn hội. Nếu Fi có dạng chuẩn hội, thì nó là vị từ hội sơ cấp (mi). Thuật toán sẽ thảo luận khẳng định Fi là vị từ hội sơ cấp. Một mảnh ngang Ri của quan hệ R gồm tất cả các bộ của R thoả một vị từ hội sơ cấp mi. Trong các thuật toán phân mảnh ngang , trước tiên cần phải xác định các vị từ đơn giản sẽ tạo ra vị từ hội sơ cấp. 2.3.4 Tính đầy đủ và tính cực tiểu của vị từ đơn giản a) Tính đầy đủ: Tập các vị từ đơn giản Pr được gọi là đầy đủ khi và chỉ khi xác suất truy xuất bởi mỗi ứng dụng tới bộ bất kỳ của một mảnh hội sơ cấp bất kỳ được định nghĩa theo Pr là như nhau. Vị từ đầy đủ sẽ đảm bảo cho các mảnh thoả mãn các vị từ sơ cấp, nhất quán về mặt logic. Sử dụng một tập vị từ đầy đủ làm cơ sở cho việc phân mảnh ngang cơ sở. b) Tính tính cực tiểu: Đặc tính thứ 2 của tập các vị từ có tính cực tiểu. Đây là một đặc tính cảm tính.Nếu một vị từ đơn giản có liên đới đến việc phân mảnh , phải có tính liên đới (relevant) trong việc xác định một phân mảnh. Gọi mi và mj là hai vị từ hội sơ cấp. Gọi fi và fj là hai mảnh tương ứng được định nghĩa theo mi và mj. Khi đó pi là có liên đới khi và chỉ khi: )( )( )( )( ji fcard macc fcard macc ≠ 12 2.3.5 Phân mảnh ngang dẫn xuất Là phân chia quan hệ thành viên thành các mảnh quan hệ theo phân mảnh của quan hệ chủ, các mảnh thu được chỉ được định nghĩa trên các thuộc tính của quan hệ thành viên. Có thể tồn tại một số kết nối rỗng khi phân tán dữ liệu và các thuộc tính kết nối tách rời nhau. Kết nối phân tán được biểu diễn bằng hai dạng đồ thị rút gọn:Đồ thị rút gọn là tách (Partitioned) và Đồ thị nối rút gọn là đơn giản (Simple). Hình 2.2 Đồ thị kết nối 2.4 Kỹ thuật phân mảnh dọc dữ liệu 2.4.1 Khái niệm phân mảnh dọc Là phân chia quan hệ R thành tập các quan hệ nhỏ hơn để có nhiều ứng dụng có thể chỉ cần thực hiện trên một mảnh. Mảnh tối ưu sinh ra một lược đồ phân mảnh cho phép giảm tối thiểu thời gian thực hiện của ứng dụng trên mảnh đó. Sử dụng hai phương pháp Heuristic: Nhóm thuộc tính và Tách mảnh. R R2 R R S1 S2 S3 a) Đồ thị kết nối hoàn toàn R R2 R R S1 S2 S3 S3 R R R2 R R S1 S2 S3 S4 a) Đồ thị kết nối tách c) Đồ thị kết nối Đơn giản 13 2.4.2 Thông tin cần thiết của phân mảnh dọc a) Ma trận giá trị sử dụng thuộc tính: Ký hiệu ma trận giá trị sử dụng thuộc tính là use(qi, Aj), Q={q1, q2,.., qq} là tập các câu truy vấn của người sử dụng. Các câu truy vấn Q sẽ chạy trên quan hệ R(A1, A2,…, An). Các vector Use(qi,*) được hiểu là câu truy vấn qi được chạy trên cơ sở dữ liệu. b) Ma trận lực hút AA( Attribute Affinity Matrix) của thuộc tính: R(A1,A2,…,An) là một quan hệ trên tập các thuộc tính Ω={A1,A2,…,An}. K là số mảnh của quan hệ R cần phải được phân tán trên mạng máy tính, tức là: R = R1∪R2∪…∪Rk. ∑∑ ∀∧ = ljkik Sl klkl AquseAqusek ji qaccqrefAAaff )()(),( ),(),([( refl (qk) là số lần truy xuất các thuộc tính(Ai,Aj) cho qk tại vị trí Sl và accl (qk) là số đo tần số truy xuất ứng dụng qk tại vị trí Sl. 2.4.3 Thuật toán tụ nhóm Thuật toán thực hiện bằng cách nhóm các thuộc tính của một quan hệ dựa trên các giá trị lực hút thuộc tính trong ma trận AA đầu vào. Số đo lực hút chung lớn nhất là AM (Global Affinity Measure). Ma trận lực hút tụ CA (Cluster Affinity) là Kết quả, gồm có 3 bước : Use(qi,Aj) = i=1..q và j=1..n 1 Nếu thuộc tính Aj được vấn tin qi tham chiếu 0 Ngược lại 14 2.4.4 Thuật toán phân mảnh Là xác định các tập thuộc tính được truy xuất bởi các tập ứng dụng. Trong ma trận tụ lực hút CA của quan hệ, trong hình 2.4 nếu một điểm trên đường chéo chính được chọn, hai tập thuộc tính sẽ được xác định. Một tập {A1,A2,.....,Ai} ở góc trái cao nhất, gọi là tập đỉnh TA (Top) và tập thứ hai {Ai+1,...,An} ở góc phải thấp nhất, gọi là tập đáy BA (Bottom). Hình 2.4 Cấp phát điểm tách 2.5 Bài toán phân bố dữ liệu 2.5.1 Khái niệm Là bài toán để giải quyết các vấn đề không thuận lợi nhu là: các mảnh được mô hình hóa không thích hợp hoàn toàn như các tệp riêng, số mảnh nhiều hơn so với các quan hệ toàn cục... Những vấn đề đặt ra này là phân bố dữ liệu sao cho tối ưu đối với các ứng dụng. A1 A2 .Ai Ai+1 . A1 A2 .... Ai Ai+1 ...... An .... .... TA BA 15 2.5.2 Bài toán phân bố Ký hiệu xj là biến quyết định (Decisio Variable) chọn vị trí để đặt sao lưu: Khi đó đặc tả chính xác như sau:         ++ ∑∑ ∑ ∈= ∈ ∈ ISj jjij m i ISj j ISj ijjj j j j dxctcux )min(min 1 ' Trong đó xj bằng 0 hoặc 1. 2.5.3 Thông tin cần thiết cho bài toán phân bố Các thông tin cần cho bài toán phân bố có thể phân chia thành bốn loại: thông tin CSDL, thông tin ứng dụng, thông tin về vị trí và thông tin về mạng. 2.5.4 Mô hình phân bố dữ liệu Là mô hình để giảm tối thiểu tổng chi phí xử lý và lưu trữ, đáp ứng được các đòi hỏi về thời gian đáp ứng. 2.6 Xử lý truy vấn phân tán dữ liệu Xử lý truy vấn phân tán là quá trình chuyển đổi câu truy vấn ngôn ngữ bậc cao trên cơ sở dữ liệu phân tán thành một chuỗi các thao tác của đại số quan hệ trên các mảnh phân tán. Bao gồm nhiều bước thực hiện cụ thể như sau: • Câu truy vấn phân tán phải được phân rã thành một chuỗi các thao tác dựa trên các phép tính đại số quan hệ. 1 Nếu mảnh Fk được đặt tại vị trí Sj 0 Trong trường hợp ngược lại. xj = 16 • Dữ liệu được truy nhập bởi truy vấn là những mảnh dữ liệu được phân rã, được gọi là dữ liệu cục bộ. • Phép truy vấn đại số trên các mảnh phải được mở rộng với các thao tác truyền thông và tối ưu hoá chức năng tham chiếu các nguồn tài nguyên. 2.6.1 Vấn đề xử lý truy vấn Vì có nhiều giải pháp biến đổi, mỗi giải pháp khác nhau có thể tiêu thụ tài nguyên của mạng máy tính khác nhau. Vậy, cần phải lựa chọn một giải pháp khi thực hiện, nó tiêu thụ tài nguyên của mạng là tối thiểu. Có hai phương pháp tối ưu hóa truy vấn cơ bản: phương pháp biến đổi một câu truy vấn phép tính đại số quan hệ thành câu truy vấn tương đương ở mức thấp hơn dưới dạng một biểu thức đại số quan hệ và phương pháp chọn lựa trong số các câu truy vấn dạng biểu thức đại số quan hệ tương đương, một biểu thức có chi phí thời gian thực hiện và chi phí sử dụng tài nguyên là ít nhất. 2.6.2 Mục đích của việc xử lý truy vấn Là biến đổi một câu truy vấn ở mức cao trên một cơ sở dữ liệu phân tán thành một giải pháp thực hiện hiệu quả được xác định dưới dạng ngôn ngữ mức thấp trên các cơ sở dữ liệu cục bộ. Ngôn ngữ mức cao có thể hiểu là các phép tính quan hệ, các ngôn ngữ mức thấp là sự mở rộng của đại số quan hệ và các thao tác truyền dữ liệu giữa các vị trí dữ liệu. 2.6.3 Phân rã truy vấn Có chức năng ánh xạ câu truy vấn phân tán ở dạng phép tính quan hệ thành câu truy vấn đại số trên quan hệ toàn cục. Thông tin cần thiết cho việc biến đổi phân rã truy vấn phân tán 17 được tìm thấy trong mô tả lược đồ khái niệm toàn cục và trong mô tả các quan hệ toàn cục. Vậy các kỹ thuật phân rã được áp dụng trong tầng này là những kỹ thuật của các hệ quản trị cơ sở dữ liệu quan hệ tập trung. 2.6.4 Xây dựng câu truy vấn phân tán Câu truy vấn phép tính quan hệ được xây dựng lại dưới dạng truy vấn đại số quan hệ bằng các quy tắc biến đổi, là bước cuối cùng của việc phân rã truy vấn là viết lại truy vấn dưới dạng đại số quan hệ. Chia thành các bước nhỏ sau: 1. Chuyển đổi câu truy vấn từ phép tính quan hệ sang đại số quan hệ. 2. Xây dựng lại truy vấn đại số quan hệ để cải thiện khả năng thực hiện. CHƯƠNG III XÂY DỰNG MÔ HÌNH DỮ LIỆU PHÂN TÁN CHO BÀI TOÁN QUẢN LÝ NHÂN SỰ Ở LÀO 3.1 Bài toán quản lý nhân sự của Quốc hội nước Cộng hòa Dân chủ Nhân dân Lào Để áp dụng những lý thuyết đã nghiên cứu và áp dụng vào việc Tin học hoá quản lý nhân sự của Quốc hội Lào, tôi chọn hướng phát triển quản lý nhân sự. Hệ thống quản lý nhân sự trong Văn phòng Quốc hội Lào sẽ giúp người quản lý có chức năng xem, tìm kiếm, tra cứu những thông tin của các nhân viên và báo cáo lại cho ông trưởng ban một cách nhanh chóng 18 và thuận lợi. Ở bên phía Quốc hội địa phương cũng có chức năng quản lý nhân viên ở trong tỉnh, có các chức năng xem, tìm kiếm, tra cứu những thông tin của các nhân viên trong tỉnh và báo cáo lại cho Văn phòng Quốc hội ở trung tâm. 3.1.1 Mô hình Quốc hội Cộng hòa Dân chủ Nhân dân Lào Nước Cộng hòa Dân chủ Nhân dân Lào bao gồm 17 tỉnh và mỗi tỉnh đều có Quốc hội địa phương riêng nhưng tất cả đều thuộc vào trung tâm Văn phòng Quốc hội ở Viêng Chăn. Trung tâm văn phòng Quốc hội Lào ở Viêng Chăn có nhiều Ủy Ban như:Ủy ban Pháp luật, Ủy ban Kinh tế, Ủy ban Xã hội... Hinh 3.1 bản đồ nước Cộng hòa Dân chủ Nhân dân Lào 19 3.1.2 Yêu cầu quản lý Hình 3.2 Biểu đồ phân cấp chức năng của hệ quản lý nhân sự 3.1.3 Mẫu dữ liệu Bao gồm các bảng mẫu dữ liệu như: - tbWORK (Bảng đại biểu Quốc hội) - tbSTAFF (Bảng Nhân Viên) - tbTITLE (Bảng Chức Vụ) - tbEDUCATE (Bảng Trình độ học tập của Nhân Viên) - bFAMILY (Bảng gia đình của Nhân Viên) - tbPROVINCE (Bảng Tỉnh) 20 3.1.4 Mẫu quan hệ giữa các bảng Hình 3.3 Quan hệ các bảng trong cơ sở dữ liệu 3.2 Thiết kế phân tán dữ liệu bài toán Quản Lý Nhân Sự của Quốc hội Cộng hòa Dân chủ Nhân dân Lào 3.2.1 Kỹ thuật thiết kế Việc thiết kế các hệ cơ sở dữ liệu phân tán có hai chiến lược thiết kế: • Thiết kế phân tán dữ liệu theo mô hình từ trên xuống (Top-Down) • Thiết kế phân tán dữ liệu theo mô hình từ dưới lên (Bottom – Up). Luận văn đã chọn việc thiết kế phân tán dữ liệu từ trên xuống vì nó bắt đầu việc thiết kế sơ đồ tổng thể, thiết kế phân mảnh cơ sở dữ liệu, cấp phát phân tán các mảnh cho các địa phương , xác định các yêu cầu ứng dụng của người sử dụng. Người sử dụng khác nhau có khung nhìn dữ liệu khác nhau. 21 3.2.2 Quy trình thiết kế dữ liệu phân tán Hình 3.4 Quá trình thiết dữ liệu phân tán Quản Lý Nhân Sự của Quốc hội Cộng hòa Dân chủ Nhân dân Lào 3.2.3 Phân bố dữ liệu phân tán Luận văn đã chọn nhân bản đầy đủ vì việc xử lý truy vấn dễ dàng, không cần phải quản lý các thư mục và có độ tin cậy rất cao. Quốc hội địa phương nằm ở các tỉnh có thể có mẫu dữ liệu giống nhau làm cho dễ dàng về việc quản lý. 22 3.3.1 Cấu hình mạng Hình 3.5 Hệ thống xử lý phân tán giữa các Quốc hội Cộng hòa Dân chủ Nhân dân Lào Khi ở bên Văn phòng Quốc hội làm một câu truy vấn, tất cả Quốc hội địa phương nằm ở các Tỉnh sẽ cũng làm câu truy vấn đồng thời như ở bên Văn phòng Quốc hội. 23 3.3.2 Quy trinh xử lý dữ liệu phân tán Quá trình xử lý hệ thống quản lý nhân sự Quốc hội Cộng hòa Dân chủ Nhân dân Lào được chia thành nhiều vấn đề nhỏ tương ứng với các tầng khác nhau, trong đó mỗi tầng xử lý một số vấn đề cụ thể. Chức năng các tầng bao gồm: phân rã truy vấn, tập trung hoá dữ liệu, tối ưu hoá truy vấn toàn cục và tối ưu hoá truy vấn cục bộ. VD: Văn phòng Quốc hội có yêu cầu tính tất cả tổng số đại biểu quốc hội là dân tộc "Lao Xung" có trình độ đại học và có tuổi trên 40 tuổi. Hinh 3.7 Mô hình xử lý phân tán hệ thông quản lý nhân sự của Quốc hội Cộng hòa Dân chủ Nhân dân Lào 24 KẾT LUẬN Với sự phát triển mạnh mẽ của hệ thống phân tán và internet thì việc nghiên cứu cơ sở dữ liệu phân tán và thiết kế hệ thống phân tán cho hệ thống lớn có phạm vi sử dụng rộng là vấn đề cần được nghiên cứu và triển khai. Hệ thống quản lý nhân sự trong Quốc hội là hệ thống phục vụ việc quản lý tất cả các nhân viên trong Văn phòng Quốc hội và các Quốc hội địa phương của nước Cộng hòa Dân chủ Nhân dân Lào, vì đây là hệ thống có tần suất sử dụng cao và có phạm vi sử dụng rộng do vậy việc đề xuất thiết kế hệ thống phân tán là một vấn đề khả thi. Do vậy, sau một thời gian tiếp cận và tìm hiểu về hệ cơ sở dữ liệu phân tán. Luận văn đã đạt được một số kết quả sau: Về mặt nghiên cứu lý thuyết: việc thiết kế cơ sở dữ liệu phân tán và quá trình tối ưu hóa câu truy vấn được phát triển từ hệ tập trung, việc phân tán các quan hệ thường chia chúng ra thành nhiều mảnh nhỏ hơn để đặt tại các vị trí thường xuyên sử dụng mảnh đó, các mảnh sau khi được chia ra sẽ cấp phát về những vị trí khác nhau. Vấn đề là làm sao để chúng ta có thể giảm thấp nhất được chi phí truy xuất, chi phí truyền thông, chi phí bộ xử lý đến mức thấp nhất mà vẫn đảm bảo được kết quả tương đương. Đây là công cụ được các hệ thống thông tin lớn chọn làm môi trường cài đặt cơ sở dữ liệu và phát triển ứng dụng với khả năng quản trị cơ sở dữ liệu phân tán rất tốt phù hợp với các hệ thống phân cấp, phân tán về vị trí địa lý cũng như khả năng về an toàn dữ liệu cho hệ thống. Luận văn là cơ sở lý thuyết vững chắc để người sử dụng muốn tìm hiểu và nghiên cứu về cơ sở dữ liệu phân tán. Đặc biệt là lý thuyết thiết 25 kế cơ sở dữ liệu phân tán giúp người sử dụng có thể áp dụng để phát triển các hệ thống lớn trong môi trường phân tán và phạm vi sử dụng rộng. Về mặt ứng dụng: áp dụng kỹ thuật tối ưu hóa phân tán vào thiết kế hệ thống quản lý nhân viên tại văn phòng Quốc hội Cộng hòa Dân chủ Nhân dân Lào. Hệ thống được thiết kế theo hướng phân tán dữ liệu, làm cho người sử dụng cảm giác như hệ thống dữ liệu tập trung, đã ứng dụng được khả năng quản trị dữ liệu phân tán của Microsoft SQL Server. Microsoft SQL Server là hệ quản trị có khả năng quản trị cơ sở dữ liệu tốt và dễ dùng, có nhiều chức năng hỗ trợ trong phân tán như đồng bộ dữ liệu tại các Server. Nghiên cứu của đề tài góp phần giải quyết được vấn đề rất lớn trong việc quản lý nhân sự của Quốc hội Cộng hòa Dân chủ Nhân dân Lào. Do hệ thống được thiết kế phân tán dựa vào tần suất sử dụng và khai thác dữ liệu nên làm tăng được tốc độ xử lý và giảm nghẽn mạng khi có nhiều đối tượng khai thác hệ thống. Để hoàn thành đề tài thì luận văn phát triển theo hướng sau, về mặt lý thuyết cần nghiên cứu thêm ủy thác phân tán, điều khiển đồng thời phân tán theo nhãn thời gian, tối ưu hóa vấn tin trong cơ sở dữ liệu phân tán tán, điều khiển tương tranh trong cơ sở dữ liệu phân tán. Nghiên cứu sâu hơn về Microsoft SQL Server để khai thác triệt để khả năng quản trị cơ sở dữ liệu phân tán của Microsoft SQL Server đảm bảo cho dữ liệu được bảo mật, an toàn và tính đồng bộ dữ liệu của hệ thống giải quyết được tranh chấp dữ liệu. Về mặt ứng dụng thì hệ 26 thống triển khai được trên phạm vi rộng hơn, có thể phát triển hệ thống sang hệ thống Điện toán đám mây để làm bớt sử dụng các server ở bên các địa phương. Kết hợp được các thuật toán điều khiển tương tranh, tối ưu hoá vấn tin vào hệ thống để hệ thống hoạt động tốt đáp ứng được nhu cầu khai khác thông tin của người sử dụng và triển khai được diện rộng cho kết quả như mong đợi.

Các file đính kèm theo tài liệu này:

  • pdfttlv_pholsena_k__2733.pdf
Luận văn liên quan