GIỚI THIỆU
Chúng ta đang sống trong thời đại của nền kinh tế trí thức. Mọi hoạt động của ta muốn đạt hiệu quả cao thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác.
Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của thực tế nghiên cứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công vượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ giải quyết những xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn. Các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Những hệ thống thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin.
Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống thông tin hiện thời.
Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhiều lĩnh vực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó được?
Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệu cần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau. Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Không thể sử dụng được dữ liệu tìm thấy
Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau là không đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rất khó khăn.
Duy trì những chương trình này gặp rất nhiều vấn đề. Một thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ. Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ ràng hoặc là không xác định được. Do sự phức tạp của công việc chuyển đổi cũng như toàn bộ quá trình bảo trì dẫn đến mã nguồn của các chương trình trở nên hết sức phức tạp. Khối lượng dữ liệu lưu trữ tăng rất nhanh. Không kiểm soát được khả năng chồng chéo dữ liệu trong các môi trường thông tin dẫn đến khối lượng dữ liệu tăng nhanh. Quản trị dữ liệu phức tạp. Thiếu những định nghĩa chuẩn, thống nhất về dữ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin. Một thành phần dữ liệu tồn tại ở nhiều nguồn khác nhau
Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa dữ liệu
65 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 4858 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Tiểu luận Kho dữ liệu và hệ hỗ trợ quyết định, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
truy vấn và tạo báo cáo. Trong trường hợp này các tổ chức thường phải dựa vào một biện pháp đã được chứng minh là đúng đắn: xây dựng các ứng dụng sử dụng môi trường đồ hoạ được thiết kế theo mô hình Client/Server.
d/ Công cụ là các phần mềm ứng dụng
Là các công cụ dễ sử dụng, là những công cụ chỉ phải chọn và nhấn chuột. Chúng hoặc dùng các câu lệnh SQL hoặc tạo ra các lệnh SQL để truy vấn những dữ liệu quan hệ được lưu trữ trong kho dữ liệu DW. Một số các công cụ và ứng dụng phần mềm đó có thể định dạng cho các dữ liệu đã được biến đổi thành những báo cáo dễ đọc trong khi những công cụ khác thì tập trung vào việc biểu diễn dữ liệu trên màn hình. Người sử dụng thường lựa chọn những công cụ loại này. Nhưng khi sự phức tạp của những câu hỏi tăng lên thì những công cụ này không còn đáp ứng được nhu cầu sử dụng nữa.
7.2 khai phá dữ liệu
Khai phá dữ liệu (Data mining) là kĩ thuật khai thác kho dữ liệu theo chiều sâu. Nó có thể hiểu là quá trình tìm kiếm, khám phá, xem xét dữ liệu dưới nhiều mức độ nhằm tìm ra mối liên hệ giữa các thành phần dữ liệu và phát hiện ra những xu hướng, hình mẫu và những kinh nghiệm quá khứ tiềm ẩn trong kho dữ liệu vì vậy rất phù hợp với mục đích phân tích dữ liệu hỗ trợ cho công việc điều hành và ra quyết định. Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm được những mẫu thông tin chưa biết và bất ngờ trong từ kho dữ liệu lớn, phức hợp.
Để thực hiện khai phá hiệu quả thì phải biểu diễn dữ liệu dưới dạng trực quan (Data Visualization). Khi phân tích dữ liệu người ta không những muốn dữ liệu là những con số mà còn muốn thấy hình ảnh của dữ liệu để phát hiện ra những thông tin mới, những xu hướng phát triển của đối tượng mà dữ liệu mô tả.
7.2.1 Các ứng dụng của khai phá dữ liệu
Các kỹ thuật khai phá dữ liệu có thể ứng dụng vào nhiều tình huống thực hiện ra quyết định đa dạng và trong nhiều phạm vi rộng của các hoạt động nghiệp vụ.
Marketing: phân tích các nhu cầu của khách hàng dựa trên các mẫu dữ liệu mua bán hàng, phân loại khách hàng, phân loại các mặt hàng trong thời gian dài để xác định chiến lược kinh doanh, xây dựng các kế hoạch sản xuất theo các thời kỳ.
Tài chính, ngân hàng, thị trường chứng khoán: phân tích các khả năng vay, trả nợ của khác hàng, đánh tính hiệu quả của các hoạt động kinh doanh tiền tệ của ngân hàng, phân tích thị trường đầu tư chứng khoán, các hợp đồng, công trái.
Sản xuất, chế tạo, công nghệ: thực hiện phân tích dữ liệu về sản xuất, chế tạo để đề xuất tối ưu hoá về tài nguyên, vật liệu trong các qui trình sản xuất mới.
Chăm sóc sức khoẻ cộng đồng: phân tích các kết quả phòng chống và điều trị các loại bệnh, công tác chăm sóc và bảo vệ sức khoẻ của cộng đồng.
Purchasing
Marketing
Order Processing
Bill
Accounts
Receivable
Production Schelduling
Manu-
facturing
Inventory
Management
Shipping
Receiving
Business Reporting
Account
Payroll
Stategic Planning
Recruiting
Training
Payroll
Performance
Appraisal
Benefits
Decision Support
Research
Product
Development
Engineering
Sale
Một số lĩnh vực ứng dụng DW và qui trình khai thác thông tin
Quá trình sử dụng dữ liệu trong kho được mô tả qua những bước như sau:
Xác định mục tiêu,
những vấn đề cần giải quyết
Kiểm tra chất lượng và tính chất dữ liệu
Xây dựng cách truy cập vào kho
Truy nhập và tìm kiếm thông tin
Phân tích và xử lý dữ liệu
Quyết định và thực thi công việc
Các bước thực hiện để sử dụng dữ liệu trong kho
7.2.2 Xử lý phân tích trực tuyến - OLAP
Xử lý phân tích trực tuyến (On-Line Analysis Processing - OLAP) là công cụ phân tích trực tuyến. Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ DW hoặc DM sau đó được chuyển thành mô hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều. Các công cụ OLAP lấy dữ liệu trong kho dữ liệu để thực hiện các công việc phân tích đặc biệt theo nhiều chiều và phức tạp hỗ trợ cho việc ra quyết định. Sơ đồ hình sao được dùng để thiết kế mô hình dữ liệu trong DW hoặc DM là mô hình dữ liệu quan hệ nhưng lại mang những thuộc tính nhiều chiều rất có nhiều thuận lợi cho việc cài đặt OLAP.
OLAP là một chức năng thông minh trong nghiệp vụ, làm cho các thông tin trong xí nghiệp có thể hiểu được. OLAP khiến cho người sử dụng đầu cuối có thể hiểu được bản chất bên trong thông qua việc truy nhập nhanh, tương tác tới các khung nhìn nhiều dạng của thông tin được chuyển đổi từ các dữ liệu thô để phản ánh sự đa dạng nhiều chiều thực tế của công ty.
-Phân tích đa chiều (multi_dimensional analyis): được thực hiện thông qua việc tạo ra các khung nhìn theo nhiều chiều khác nhau cùng một lúc. Các chiều về bản chất là các nguyên tố xuất hiện trong nghiệp vụ. Các chiều có thể là các giá trị của trục x và trục y giống như trong một bảng tính, và cũng có thể cả trục Z.
-Hệ thống thông tin tác nghiệp (Executive Information Systems - EIS). Giao diện của EIS điển hình là một kiểu giao diện theo hướng nhấn nút (push-button). Tất cả các đối tượng trong EIS đều được lập trình từ trước nhằm mục đích đáp ứng các thực thi không truy vấn hoặc thể hiện các truy vấn khó viết. Chúng cung cấp một phương thức nhanh, dễ hiểu để truy nhập vào các thông tin mức cao.
-Phân tích “Điều gì sẽ xảy ra nếu” (What-if): Liên quan tới các suy nghĩ nằm bên ngoài phạm vi khép kín của một tổ chức. Phân tích liên quan tới việc dựng một viễn cảnh không tồn tại trong công ty tại thời điểm hiện nay.
7.3 Quản trị kho dữ liệu
DW có độ lớn gấp khoảng 4 lần một kho dữ liệu tác nghiệp tổng thể (ODS). Nó không được đồng bộ với dữ liệu tác nghiệp liên quan trong thời gian thực nhưng có thể được cập nhật thường xuyên một lần trong một ngày nếu như ứng dụng yêu cầu đến nó.
Hầu hết các sản phẩm của DW bao gồm các cổng để truy nhập tới các nguồn dữ liệu phức tạp của công ty mà không phải viết lại các phần mềm chuyển đổi, dịch và sử dụng dữ liệu. Trong một môi trường DW hỗn tạp, rất nhiều các cơ sở dữ liệu khác nhau nằm trên những hệ thống riêng rẽ vì thế đòi hỏi các công cụ làm việc trao đổi giữa các mạng. Mặc dù không có một công nghệ mạng trong DW, một cài đặt DW có thể dựa trên những phần mềm truyền thông cũng như đối với các hệ thống xử lí các giao dịch hay gửi thông báo khác. Điều đó dẫn đến sự cần thiết phải quản lí các thành phần hạ tầng. Quản lí DW bao gồm:
-Quản lí về an toàn, bảo mật và độ ưu tiên
-Quản lí sự cập nhật từ nhiều nguồn khác nhau
-Kiểm tra chất lượng dữ liệu
-Quản lí và cập nhật Metadata
-Kiểm toán và lập báo cáo về việc sử dụng và trạng thái của DW (quản lí thời gian sử dụng và việc sử dụng các tài nguyên, cung cấp các thông tin về giá tiền phải trả..)
-Làm sạch dữ liệu
-Tái tạo dữ liệu, chia nhỏ dữ liệu thành những tập con và phân tán dữ liệu
-Lưu trữ các bản sao và phục hồi dữ liệu
-Quản lí các kho DW
7.4 Hệ thống phân phối thông tin
Hệ thống này được sử dụng để thực hiện các xử lí dành cho những người đăng kí dùng thông tin trong DW và phân phối chúng tới nhiều địa chỉ khác nhau theo thuật toán phụ thuộc vào lịch của người sử dụng cụ thể. Nói một cách khác, hệ thống này phân phối dữ liệu được lưu trữ trong DW và các đối tượng thông tin khác tới những DW khác và tới các sản phẩm của người sử dụng như các bảng tính hay các cơ sở dữ liệu địa phương. Hệ thống này phụ thuộc vào thời gian theo ngày hay vào thời gian hoàn thiện một sự kiện bên ngoài. Lí do căn bản có hệ thống này là mỗi lần một DW được cài đặt và hoạt động, người sử dụng không phải quan tâm tới nó đang được đặt ở vị trí nào và việc duy trì nó ra sao. Tất cả những gì họ có thể cần là các báo cáo và các khung nhìn dữ liệu được phân tích tại một thời điểm cụ thể trong ngày hoặc sự kiện cụ thể liên quan.
Giải pháp tốt nhất để phân tán dữ liệu là dựa vào nơi dữ liệu sẽ chuyển tới và ở đó bao nhiêu dữ liệu được chuyển. Các phần mềm trung gian được sử dụng để chuyển dữ liệu từ một hệ thống này sang một hệ thống khác nếu chúng có phần cứng khác nhau.
7.5 Công nghệ csdl sử dụng trong khai thác Kho dữ liệu
So sánh giữa CSDL tác nghiệp với DW: có một vài sự khác nhau cơ bản giữa CSDL thiết kế cho nhu cầu tác nghiệp và kho dữ liệu. Sự khác nhau đó được thể hiện ở bảng dưới đây:
Đặc điểm
Thông tin tác nghiệp
Thông tin hỗ trợ quyết định
Chức năng hoạt động
Ghi chép các sự kiện, tính toán theo các công thức
Phục vụ tác nghiệp
Phân tích dữ liệu, khám phá thông tin.
Hỗ trợ điều hành, ra quyết định
Nguồn dữ liệu
Nội bộ
Bên trong lẫn bên ngoài
Phương pháp chỉ số
B_tree
Bitmap
Cập nhật
Thường xuyên với các giao dịch nhỏ
Không sửa đổi dữ liệu
Tần suất thấp, khối lượng lớn
Độ lớn cơ sở dữ liệu
Cỡ GigaByte
Cỡ GigaByte đến TeraByte
Thời gian lưu trữ
Ngắn, chủ yếu theo năm
Mang tính lịch sử, lâu dài
Khai thác
Dự báo được, định kì
Theo các khuôn mẫu
Không xác định
Tính tổng hợp, phân tích cao
Mặc dù CSDL tác nghiệp là nguồn cung cấp dữ liệu cho DW nhưng chúng vẫn còn thiếu những kiến trúc và chức năng cần thiết để phân tích dữ liệu hỗ trợ quyết định một cách dễ dàng và hiệu quả. Dữ liệu trong DW được hình thành từ dữ liệu đã ổn định của CSDL tác nghiệp trong khi đó dữ liệu của CSDL tác nghiệp sẽ được cập nhật mỗi khi có một giao dịch mới.
Một số phương pháp và công cụ phục vụ tốt cho việc tạo ra các hệ thống tác nghiệp nhưng lại không phù hợp với những yêu cầu khác nhau của DW. Hệ thống cơ sở dữ liệu xử lí các giao dịch trực tuyến truyền thống được thiết kế một cách đơn giản không phù hợp với những yêu cầu của phương pháp DW. Những dự án dùng phương pháp DW buộc phải lựa chọn giữa một mô hình dữ liệu và một sơ đồ dữ liệu liên quan trực quan cho việc phân tích nhưng nghèo nàn về thể hiện. Một sơ đồ-mô hình là cách thực hiện tốt hơn nhưng không phù hợp lắm cho việc phân tích. Khi phương pháp DW được tiếp tục phát triển thì những cách tiếp cận mới cho việc thiết kế sơ đồ dữ liệu phù hợp hơn với việc phân tích được hình thành và đó là điều cốt yếu dẫn đến thành công của phương pháp DW. Một sơ đồ được chấp nhận sử dụng rộng rãi cho phương pháp DW là sơ đồ hình sao (sẽ được trình bày dưới đây).
Cách bố trí dữ liệu để truy nhập được tốt nhất
Mô hình dữ liệu thường được sử dụng cho hệ thông tin tác nghiệp là mô hình dữ liệu quan hệ. Mô hình này dựa trên các nguyên lí toán học và logic vị từ nên các hệ thống quản trị cơ sở dữ liệu quan hệ cung cấp những giải pháp mạnh cho một khối lượng phong phú các ứng dụng khoa học và thương mại. Xuất phát từ quan điểm này, một yếu tố quan trọng của vấn đề thiết kế cơ sở dữ liệu là dựa trên phát triển mô hình dữ liệu và sơ đồ cơ sở dữ liệu quan hệ để hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) liên quan đạt được hiệu quả hoạt động lớn nhất.
Yêu cầu điển hình cho RDBMS hỗ trợ cho hệ thống tác nghiệp là trợ giúp có hiệu quả một số lượng lớn những yêu cầu đọc và ghi có thể xảy ra đồng thời. Việc định nghĩa sơ đồ dữ liệu thường tối đa dựa trên sự đồng thời và tối ưu những thao tác xoá, thay đổi, chèn thêm thông qua việc xác định các bảng quan hệ tương ứng với những yêu cầu tác nghiệp và nội dung lưu trữ được tối thiểu nhất cho việc truy nhập tới từng bản ghi riêng.
Một RDBMS cho DW điển hình cần xử lí những truy vấn lớn, phức tạp, đặc biệt và cần nhiều dữ liệu. Không chỉ có sự khác nhau đáng lưu ý về công nghệ trong việc những hệ thống này dùng các tài nguyên tính toán mà bản chất của những công việc được thực hiện đòi hỏi một cách tiếp cận khác tới việc xác định sơ đồ cơ sở dữ liệu.
Như vậy công nghệ cơ sở dữ liệu chính của DW là RDBMS, ta sẽ xem xét việc thiết kế sơ đồ dữ liệu khi gắn liền nó với công nghệ cơ sở dữ liệu quan hệ.
Trong kiến trúc tổng thể của kho dữ liệu, kho dữ liệu tác nghiệp và các chức năng quản lý, xử lý phân tích dữ liệu có thể tổ chức như sau:
Management Platform
ODS
Data Warehouse
Data Extract,
Clearning
Data Load
Information Delivery
System
Metadata
Data Mart
Update
Process
Legacy & External Data
Data Mining Tools
OLAP Tools
Report,
Query, EIS Tools
Application
& Tools
Admin
Platform
Repository
Transform
Load
DBMS
MRDB
MDDB
Hình 7.5 Kho dữ liệu và các kho dữ liệu thao tác
Quá trình phát hiện tri thức
Data
Selection
Pre-
processing
Trans-
formation
Interpretation
Evaluation
Data mining
Target Data
Preprocessed Data
Transformed Data
Pattern
Knowledge
Quá trình khám phá tri thức
-Trích chọn dữ liệu: chọn lọc dữ liệu từ các nguồn dữ liệu nhằm phục vụ mục đích khai phá tri thức theo những tiêu chí xác định.
-Tiền xử lý: làm sạch và làm giàu dữ liệu. Làm đầy đủ dữ liệu, xử lý nhiễu, những vấn đề không nhất quán, v.v. Những dữ liệu khác nhau về định dạng, đơn vị đo lường, phải có những qui định thống nhất và cách chuyển về một dạng chung.
-Biến đổi dữ liệu: thực hiện bước mã hoá dữ liệu và chạy các chương trình tiện ích nhằm tự động hoá việc kết xuất, biến đổi và di chuyển dữ liệu để khai phá dữ liệu .
-Khai phá dữ liệu: thực hiện phân tích và ra quyết định. Đây là bước áp dụng các kỹ thuật khai thác để khai phá, trích chọn ra các mẫu tin, những mối quan hệ đặc biệt trong kho.
-Biểu diễn tri thức và đánh giá: các kết quả khai thác được có thể tổng hợp dưới dạng các báo cáo nhằm hỗ trợ cho trợ giúp quyết định. Các dạng biểu diễn thường là phải trực quan, dưới dạng đồ hoạ, cây, bảng biểu, hay các luật, v.v.
Các bài toán trong khai phá dữ liệu
-Phát hiện sự phụ thuộc dữ liệu: Các mối quan hệ phụ thuộc hàm rất quan trọng trong việc thiết kế, cài đặt và duy trì CSDL.
-Phát hiện các luật kết hợp: Cho một tập các giao dịch, trong đó mỗi giao dịch là một tập các mục, một luật kết hợp là một mệnh đề suy diễn X Þ Y, X, Y là tập các mục.
-Mô hình hoá sự phụ thuộc: tìm ra mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến, các thành phần, phát hiện sự phụ thuộc giữa các thuộc tính.
-Phân lớp: xác định các ánh xạ phân loại các mục vào một trong các lớp xác định trước. Ví dụ, phân lớp khách hàng theo lứa tuổi, giới tính, trình độ học vấn, v.v.
VIII. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
8.1 Tại sao lại phải xử lý phân tích trực tuyến
Ngày nay các nhà quản lý đang phải đối mặt với hai thách thức lớn đó là: Điều hành công việc sao cho có hiệu quả nhất để có được những lợi nhuận tối đa và lập kế hoạch hành động cho các hoạt động của tổ chức mà họ quản lý.
Xử lý thông tin và xử lý phân tích là hai cách cơ bản để có được những thông tin có giá trị từ các kho dữ liệu nhằm giải quyết hai vấn đề trên. Xử lý phân tích nhằm trả lời cho những câu hỏi như “Cái gì đang diễn ra?” và “Cái gì sẽ xảy ra tiếp theo?”
Trong các kho dữ liệu lớn, đa chiều thường chứa nhiều thông tin (tri thức) ẩn kín mà các công cụ truyền thống như kỹ thuật truy vấn SQL rất khó và nhiều khi không phát hiện được. Hơn thế nữa, do yêu cầu của người sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải được xử lý theo thứ tự khác nhau: lúc theo vùng, khi thì theo thời gian, khi khác lại theo nhóm tuổi, v.v... Do vậy đòi hỏi xử lý phân tích trực tuyến trên những tập dữ liệu lớn và hỗn hợp. Có hai cách thường được sử dụng để truy nhập trực tiếp vào kho dữ liệu.
-Cách thứ nhất thông qua các khung nhìn (view) đa chiều và thể hiện nó như là cấu trúc đa chiều phục vụ cho việc phân tích và lập báo cáo ở các trạm làm việc. Để thực hiện hiệu quả OLAP trên các khung nhìn dữ liệu, người ta thường tập trung xây dựng các thuật toán để chọn tự động các bảng tổng hợp và chỉ số hóa các khung nhìn.
-Cách thứ hai là phân tích trực tiếp các khối dữ liệu đa chiều được tạo lập từ các kho dữ liệu và tạo ra khả năng tổng hợp, gộp chung, hỗ trợ cho việc ra quyết định về dự báo, phân tích xu thế phát triển và phân tích thống kê.
Trên thực tế dữ liệu trong nghiệp vụ là đa chiều. Nó có quan hệ lẫn nhau và có sự phân cấp. Mỗi chiều là một yếu tố liên quan tới công việc cần phân tích. Do vậy dữ liệu trước khi đem phân tích cần được chuyển sang dạng đa chiều.
8.1.1 Phân tích dữ liệu đa chiều
Trong phân tích đa chiều, dữ liệu được miêu tả thành các chiều. Các chiều thường liên quan tới những sự phân cấp. Chiều thời gian là một chiều chuẩn với sự phân cấp của riêng nó là ngày, tuần, tháng, quí, năm .
Để giải quyết sự phân tích phức tạp, phân tích đa chiều thể hiện một khung nhìn dữ liệu gần gũi với người sử dụng. Một người sử dụng có thể truy nhập tới ngân khố theo từng phòng ban và lưu trữ 4 quí cuối cho một tập các sản phẩm. Kết quả có thể được xoay để thay đổi vị trí các trục và khung nhìn. Thêm nữa, người sử dụng có thể xem các chiều bằng cách drilldown hay rollup theo các thành phần của mỗi chiều. Việc drilldown/rollup trên các chiều có thể tạo ra các khung nhìn khác. Phạm vi của xử lí thông tin thường đơn giản hơn (chỉ gồm 2 hoặc 3 chiều). Phân tích những dữ liệu lịch sử để hiểu được quá khứ là sự phân tích tĩnh. Xử lí phân tích có thể được dùng cho những phân tích lịch sử phức tạp với thao tác mở rộng-hay gọi là sự phân tích động: lên kế hoạch và dự báo tiếp quá khứ như là phần mở đầu cho tương lai.
8.1.2 Định nghĩa OLAP
OLAP là một công nghệ xử lí trực tuyến các thông tin mới được tạo ra từ những dữ liệu đang tồn tại, thông qua một tập những chuyển đổi và các tính toán số. Về bản chất, một hệ OLAP là hệ thống lưu giữ những thông tin tổng hợp và cho phép thể hiện thông tin tổng hợp đó dưới dạng bảng 2 chiều.
OLAP là một công nghệ phân tích dữ liệu nhằm thực hiện những công việc như: Đưa ra một khung nhìn logic, đa chiều của dữ liệu trong DW, khung nhìn này hoàn toàn không phụ thuộc vào việc dữ liệu được lưu trữ như thế nào. Cung cấp khả năng thiết lập mô hình phân tích bao gồm một mô tơ tính toán cho việc tính tỉ lệ, những biến đổi, ..., liên quan tới những đại lượng số hoặc dữ liệu là con số qua các chiều dữ liệu khác nhau. Tạo ra sự tổng hợp và kết hợp, phân cấp và dùng những mức tổng hợp, kết hợp đó cho mỗi phép giao của các bảng theo mỗi chiều. Hỗ trợ những mô hình chức năng cho việc dự báo, phân tích các xu hướng và phân tích thống kê. Lấy và hiển thị dữ liệu theo những bảng 2 chiều hay 3 chiều, theo biểu đồ hay đồ thị, dễ dàng xoay đổi các trục cho nhau. Khả năng xoay là quan trọng bởi vì những người sử dụng cần phân tích dữ liệu từ những cách nhìn khác nhau và sự phân tích theo mỗi cách nhìn sẽ dẫn đến một câu hỏi khác, câu hỏi này sẽ được kiểm tra tính đúng đắn dựa trên một cách nhìn khác về dữ liệu đó. Đáp ứng những câu trả lời nhanh, vì vậy quá trình phân tích không bị cắt ngang và thông tin không bị cũ. Sử dụng một mô tơ kho dữ liệu đa chiều, lưu trữ dữ liệu theo các mảng. Những mảng này là sự biểu diễn logic của các chiều của công việc.
8.1.3 Kiến trúc OLAP
OLAP là một khả năng báo cáo và phân tích dữ liệu. Đây là một thành phần quan trọng trong khối truy nhập và sử dụng trong kiến trúc một DW. Thành phần OLAP thể hiện khả năng báo cáo và phân tích của các dịch vụ OLAP cần thiết khi chuyển đổi sang cấu trúc đa chiều cũng như khi truy nhập tới kho dữ liệu hay DM. Kiến trúc tham chiếu của DW đưa ra những lựa chọn sau đây:
-Truy nhập dữ liệu trực tiếp từ DW hoặc DM sau đó biến nó thành cấu trúc đa chiều và lưu trữ trên một kho dữ liệu địa phương tại một máy trạm.
-Truy nhập trực tiếp dữ liệu từ DW rồi chuyển đổi chúng thành dạng cấu trúc đa chiều và lưu trữ nó tại DM nhưng trong một kho dữ liệu đa chiều, sẵn sàng phục vụ cho việc phân tích và lấy dữ liệu ra tại máy trạm.
-Truy nhập dữ liệu trực tiếp từ DW hoặc DM sau đó biến chúng thành một khung nhìn đa chiều và thể hiện chúng như một cấu trúc đa chiều đối với người sử dụng cho việc phân tích và lập báo cáo tại máy trạm.
a/ Kiến trúc Logic: Bao gồm 2 phần:
-Khung nhìn của OLAP: là sự biểu thị logic và đa chiều của dữ liệu trong DW hoặc DM đối với người sử dụng, không liên quan tới việc dữ liệu được lưu trữ như thế nào và ở đâu.
-Kĩ thuật lưu trữ dữ liệu: là cách lựa chọn lưu trữ dữ liệu như thế nào và lưu trữ ở đâu. Có 2 cách thông dụng nhất là kho dữ liệu đa chiều và kho dữ liệu quan hệ (CSDL quan hệ).
b/ Kiến trúc chức năng: Bao gồm 3 thành phần: các dịch vụ lưu trữ dữ liệu, dịch vụ OLAP, và các dịch vụ biểu thị đối với người sử dụng. Như vậy kiến trúc chức năng của OLAP là một kiến trúc khách-chủ 3 tầng. Kiến trúc này cung cấp nhiều khả năng lựa chọn cấu hình vật lí cho 3 dịch vụ chức năng này.
c/ Kiến trúc vật lí: Bao gồm làm 2 loại cơ bản dựa trên kĩ thuật lưu trữ dữ liệu: kho dữ liệu đa chiều và kho dữ liệu quan hệ.
- Kho dữ liệu đa chiều: kho dữ liệu nằm trên Server OLAP. Loại này được chia thành 2 loại nhỏ là:
+Loại thứ 1: kho dữ liệu đa chiều được lưu trữ trên máy trạm Client. Do đó thường xảy ra hiện tượng tắc nghẽn trên mạng khi dữ liệu được tải vào các máy trạm. Một ảnh hưởng không tốt nữa là vấn đề hiệu suất hoạt động và an toàn dữ liệu.
+Loại thứ 2: kho dữ liệu đa chiều và các dịch vụ của OLAP được kết hợp với nhau. Dữ liệu được trích lọc ra từ DW sau đó được chuyển đổi thành cấu trúc đa chiều và được lưu trữ trong Server chứa DM. Đó là cấu hình DM cổ điển tại đó nhiều DM được tải dữ liệu đã được làm sạch và được sắp đặt lại từ một DW tổng thể vào. Những chức năng này đặc biệt ở chỗ lọc, kết hợp tạo ra những tập con chức năng và được áp dụng với dữ liệu lấy ra từ DW để tạo ra những DM chức năng. Với loại thứ 2 này ta còn có thể tách riêng kho dữ liệu đa chiều sẽ lưu trữ trên server DM với các dịch vụ của OLAP nằm trên server OLAP khi kho dữ liệu đa chiều có kích thước khá lớn, số lượng người sử dụng nhiều hay dữ liệu cần được chia sẻ. Trong trường hợp này DM có thể lấy dữ liệu hoặc từ DW như trên hoặc trực tiếp từ các nguồn dữ liệu.
-Kho dữ liệu quan hệ: được lưu trữ trên Server chứa kho dữ liệu DW hay DM, OLAP Server nằm riêng và khung nhìn OLAP cũng nằm trên máy trạm riêng rẽ.
Data
Meta
Data
Meta
Sales/Marketing
Datamart
Meta
Financial
Datamart
Meta
Data Warehouse
OLTP
Curent data
OLTP
Curent data
Tape
Definitions of all data, source mapping, calculations, v.v.
Extraction, transformation, loading
Subseting, summarizing, indexing, merge/joining, categorizing
Data
OLAP
Information
Individually Structures
Public Structures
Normalized
History
Indexed,
Customized
More
Less
More
Less
Metadata
OLAP trong kiến trúc của kho dữ liệu
Các loại kiến trúc trên làm nổi lên 2 vấn đề cần quan tâm là: dữ liệu được lưu trữ như thế nào và các dịch vụ OLAP được cung cấp như thế nào và ở đâu.
Vấn đề thứ nhất: Dữ liệu được lưu trữ như thế nào?
Kho dữ liệu quan hệ tuân theo mô hình dữ liệu quan hệ. Nhưng kho dữ liệu theo mô hình quan hệ đều được xây dựng dựa trên sơ đồ hình sao mang thuộc tính đa chiều nên tuy là kho dữ liệu quan hệ nhưng chuyển đổi sang khung nhìn đa chiều tại máy trạm dễ dàng hơn. Kho dữ liệu quan hệ lưu trữ dữ liệu như những bản ghi có khoá trong các bảng và dữ liệu được truy nhập bởi một ngôn ngữ chung là SQL. Mặt khác, kho dữ liệu đa chiều lại lưu dữ liệu trong các mảng. Vì vậy không có mô hình đa chiều chung, không có một phương pháp chuẩn để truy nhập dữ liệu. Một vài sản phẩm có sẵn một mô tơ với giao diện ứng dụng lập trình được (API) hoặc với một thiết bị bảng tính đầu cuối.
Kho dữ liệu quan hệ có thể có kích cỡ rất lớn. Kích cỡ của kho dữ liệu bị tăng lên rất nhiều bởi việc sử dụng những tệp chỉ số và những kĩ thuật không chuẩn hoá để đạt được hiệu suất chấp nhận được của những truy vấn đa chiều. Với kho dữ liệu đa chiều thì kích thước của kho nói chung là bị hạn chế nhưng có thể sử dụng công nghệ nén (nén ma trận thưa) để lưu trữ được nhiều dữ liệu hơn trong một không gian nhỏ hơn.
Vấn đề thứ 2: Các dịch vụ của OLAP được cung cấp như thế nào và ở đâu?
Câu hỏi đặt ra là: “Kho dữ liệu đa chiều và các dịch vụ của OLAP có thể kết hợp được với nhau không hay nói cách khác có thể kết hợp kho dữ liệu quan hệ với server OLAP để đạt được những yêu cầu đa chiều của người sử dụng không?”. Đó là 2 cách tiếp cận khác nhau, thường được gọi là OLAP đa chiều (MOLAP) và OLAP quan hệ (ROLAP). MOLAP và ROLAP là trong suốt đối với người sử dụng đầu cuối. Những mặt trước (front_end) của những công cụ này là giống nhau và dạng thức hỗ trợ quyết định là như nhau. Tuy nhiên có những khác biệt quan trọng giữa ROLAP và MOLAP ở mức độ chi tiết tác nghiệp, khác biệt thứ hai liên quan đến vấn đề kinh tế: MOLAP thường rẻ hơn ROLAP.
MOLAP (Multidimensional OLAP)
Cách tiếp cận này kết hợp kho dữ liệu đa chiều và các dịch vụ của OLAP trên cùng một Server. MOLAP thường được coi là cơ sở dữ liệu đa chiều (MultiDimension DB-MDDB). MDDB là một cấu trúc tối ưu cho việc lưu trữ các sự kiện đã phân loại và cùng với nó là các chiều. Dữ liệu được tổ chức theo khung nhìn dữ liệu và được lưu trữ trong một biểu mẫu được kết hợp và tổng hợp. Tệp index nhỏ hơn khiến cho trả lời những truy vấn phức tạp rất nhanh. Vì dữ liệu được lưu trữ trong các mảng, việc cập nhật các giá trị không ảnh hưởng nhiều tới tệp chỉ số. Điều này khiến cho việc cài đặt những ứng dụng cập nhật hoặc đọc-ghi như dự báo và điều chỉnh ngân sách trở nên dễ dàng.
Database Server
RDBMS
MOLAP Server
Metadata, Request Processing
Front-end Tools
Load
Result Set
Infor
Request
Result
Set
Các công cụ của MOLAP cho phép truy cập vào dữ liệu chi tiết trong hệ quản trị RDBMS như sau:
SQL
Kiến trúc của MOLAP
MOLAP là sự lựa chọn tốt nhất cho những ứng dụng có đặc điểm: Yêu cầu tốc độ truy vấn cao. Có khả năng phân tích dữ liệu phức hợp. MOLAP cung cấp môi trường phân tích mạnh hơn ROLAP. Dễ sử dụng, vì dữ liệu đã được tổng hợp từ trước và được lưu trong kho dữ liệu đa chiều. Người sử dụng chỉ cần xác định các chiều và các nhóm nằm trong các chiều đó.
Thiết kế MOLAP bao gồm những bước cơ bản như sau:
-Chọn chức năng công việc
-Xác định những giá trị số, những đại lượng đo để lưu trữ
-Xác định các chiều (thời gian, vị trí, sản phẩm) và đơn vị của mỗi chiều
-Định nghĩa mô hình logic và tải vào kho dữ liệu đa chiều hoặc trực tiếp từ các nguồn dữ liệu hoặc thông qua việc lọc và kết hợp những nội dung được lựa chọn của DW hoặc DM.
Những chức năng chính đưa ra với người sử dụng bao gồm:
-Trả lời nhanh những câu truy vấn mở rộng. Những câu trả lời nhanh không làm ngắt quãng sự phân tích và quá trình suy nghĩ khác.
-Những cập nhật tương tác (như đọc-ghi) của cơ sở dữ liệu đa chiều đáp ứng được các ứng dụng dự báo, hướng kế hoạch...
-Phát hiện được những mối quan hệ giữa những yếu tố hoặc những giá trị của các chiều để phát hiện ra những mối quan hệ không ngờ tới.
-Có một mô tơ tính toán đủ mạnh và khả năng phân tích mang tính so sánh: phân hạng, so sánh, tỉ lệ % dẫn tới phân lớp, tính giá trị lớn nhất, nhỏ nhất, giá trị trung bình, dịch chuyển giá trị trung bình...
-Tính toán theo những chiều chéo nhau
-Mở rộng những chức năng cơ bản với những hàm do người sử dụng định nghĩa hoặc phát hiện ra những chức năng mô hình nhúng được.
-Những chức năng tài chính và thống kê tiềm ẩn: chuyển đổi tiền tệ, sự giảm giá, tỉ lệ tiền lãi trong nước, những xu hướng, phân tích những chuỗi thời gian.
-Khoan tới những dữ liệu chi tiết trong DW
-Xoay, khoan sâu, dịch chuyển chiều theo một hoặc nhiều chiều, và những chức năng biểu diễn hiển thị dữ liệu mạnh khác.
Quản trị và quản lí hệ thống với cách thức này đòi hỏi:
Mô hình dữ liệu khởi tạo phải chọn đúng các chiều và đơn vị của chúng, thấy trước được dữ liệu sẽ được truy nhập như thế nào và việc lựa chọn những phép lọc thích đáng để tải dữ liệu vào từ DW là những vấn đề quan trọng đáng quan tâm.
Truyền dữ liệu định kì và cập nhật nhiều dữ liệu cùng lúc bởi vì trong khi cơ sở dữ liệu đang được sử dụng thì số lần cập nhật cần phải hạn chế.
Sự kết hợp, tổng kết và tính toán trước trong quá trình tải dữ liệu vào.
Đào tạo một công nghệ khác và cách sử dụng những kĩ năng mới này.
Viết những ứng dụng mới với một ngôn ngữ độc quyền để mở rộng và cải thiện chuẩn đầu cuối (giao diện với người sử dụng đầu cuối) của cơ sở dữ liệu.
Một số vấn đề cần quan tâm khi sử dụng cách tiếp cận này:
-Kích cỡ của cơ sở dữ liệu đa chiều được hỗ trợ nhỏ hơn so với một cơ sở dữ liệu quan hệ. Công nghệ sử dụng ma trận thưa - tìm kiếm những phần tử không sử dụng trong ma trận đa chiều, loại bỏ chúng và nén các mảng - được sử dụng để tiết kiệm không gian nhớ. Năng suất được cải thiện, những thông tin tổng, kết hợp cũng được lưu trữ vì vậy nhu cầu lưu trữ là nhỏ hơn.
-Ảnh hưởng phụ của việc lưu trữ dữ liệu ở mức thô (như những dữ liệu tổng, những dữ liệu được tính toán trước và những dữ liệu kết xuất từ những dữ liệu khác) là không thể khoan sâu dữ liệu tới mức chi tiết.
-Truy nhập và an toàn là có sẵn cho các mức cao; không có những ưu tiên dựa trên việc sử dụng hoặc những kiểm soát truy nhập ở các mức con.
-Những thay đổi trong cấu trúc đa chiều đòi hỏi cơ sở dữ liệu đa chiều được tổ chức lại; những phương tiện lưu trữ và sao lưu có sẵn bị hạn chế.
-Cần những ứng dụng đầu cuối đặc biệt hạn chế những khả năng lựa chọn. Các mở rộng ở những ứng dụng đầu cuối của một cơ sở dữ liệu đa chiều không thể được dùng cho một cơ sở dữ liệu đa chiều khác.
Cần điều chỉnh phù hợp cho cơ sở dữ liệu đa chiều và các dịch vụ của OLAP trong các công việc sau:
-Tính toán của những ứng dụng mở rộng với những mô hình và ngữ cảnh What-if.
-Các chiều tĩnh và bình đẳng.
-Năng lực đọc-ghi.
-Một mối quan hệ giữa các chiều rất phức tạp.
-Tính toán liên quan tới nhiều chiều và nhiều hàng.
-Những chức năng tài chính, thống kê và tính toán mạnh.
-Kích cỡ cơ sở dữ liệu chấp nhận được cho các chức năng của công việc.
OLAP quan hệ (Relational OLAP)
Phương pháp tiếp cận này bao gồm các dịch vụ của OLAP và cơ sở dữ liệu quan hệ. Các dữ liệu được lưu trữ trong những bảng quan hệ và có thể có kích thước hàng trăm Gigabyte. Những hệ ROLAP cung cấp các mô tơ truy vấn cực kỳ linh động bằng việc “chuẩn bị sẵn sàng” tất cả dữ liệu tác nghiệp cho người sử dụng đầu cuối, dễ dàng trích và tổng hợp dữ liệu theo yêu cầu. Những công cụ ROLAP có thể trích dữ liệu từ rất nhiều nguồn CSDL quan hệ khác nhau.
Database Server
RDBMS
ROLAP Server
Metadata, Request Processing
Front-end Tools
SQL
Result Set
Infor
Request
Result
Set
Kiến trúc của ROLAP
Theo cách tiếp cận này, các khối dữ liệu con (Subcube) sẽ được tính toán trước khi đưa vào bảng tổng hợp. Đối với những khối dữ liệu lớn thì không thể xử lý mọi thứ trước được mà chỉ xử lý trước những dữ liệu nào có liên quan chặt chẽ đến các câu truy vấn.
Công việc tiền xử lý trong ROLAP được thực hiện theo hai bước:
-Xây dựng các khối dữ liệu con cụ thể hoá từ các bảng tổng hợp.
-Thiết lập các chỉ mục (Index) trong các bảng đó. Việc phân chia không gian giữa hai bước này là rất khó. Nếu chia ra quá nhiều không gian nhỏ cho mỗi chỉ mục thì dẫn đến rất ít các khối con được xử lý trước và ngược lại, nếu để không gian nhớ lớn cho các khối con thì các chỉ mục sẽ giảm hiệu quả.
Câu truy vấn: được sử dụng để lựa chọn (trong SQL), chiều là thuộc tính trong mệnh đề gộp nhóm hoặc mệnh đề điều kiện Where.
Chỉ số hoá (chỉ mục): để tăng tốc độ xử lý các câu hỏi, chúng ta có thể sử dụng cấu trúc B-Tree.
ROLAP có những đặc điểm sau:
-Dữ liệu thường xuyên thay đổi: trong một kho chứa nếu dữ liệu hay biến động và người sử dụng lại đòi hỏi những tổng hợp gần như tức thời, ROLAP sẽ là sự lựa chọn duy nhất. MOLAP phải trích lấy và tổng hợp dữ liệu off_line để nạp vào MDDB, hơn nữa hầu hết các cơ sở dữ liệu đa chiều đều yêu cầu tính toán lại toàn bộ CSDL khi một chiều được thêm vào hoặc một lược đồ tổng hợp thay đổi hoặc dữ liệu mới được thêm vào.
-Khối lượng dữ liệu lớn: Đối với những DW có độ lớn cỡ terabyte, cái giá phải trả cho MOLAP là quá lớn.
-Các dạng truy vấn không được biết trước: ROLAP cho phép truy vấn và tổng hợp từ bất kỳ nguồn dữ liệu tác nghiệp nào.
Mặc dù các dữ liệu được lưu trữ dưới dạng quan hệ nhưng dữ liệu vẫn được thể hiện đối với người sử dụng dưới dạng các chiều của công việc. Để che giấu dạng lưu trữ của dữ liệu, một lớp Metadata ngữ nghĩa được tạo ra. Nhiệm vụ của tầng này là ánh xạ tất cả các chiều tới các bảng quan hệ. Bất kì một sự tổng kết hay kết hợp nào cũng cần tạo ra thêm siêu dữ liệu để cải thiện thời gian trả lời.
Thiết kế OLAP quan hệ bao gồm những bước cơ bản sau:
-Xây dựng một “mô hình đa chiều” sử dụng những kĩ thuật như phi chuẩn, sơ đồ hình sao, sơ đồ hình tuyết rơi hoặc sơ đồ lai giữa 2 loại trên.
-Thêm vào những dữ liệu tổng kết và những dữ liệu kết hợp.
-Phân chia những tập dữ liệu lớn thành những phần nhỏ hơn có khả năng quản lí được để cải thiện năng suất thực hiện.
-Thêm vào những tệp chỉ số mới có tính sáng tạo hoặc dạng bitmap để cải thiện năng suất thực hiện.
-Tạo ra và lưu trữ siêu dữ liệu. Các siêu dữ liệu bao gồm những định nghĩa các chiều, ánh xạ các chiều với các bảng dữ liệu quan hệ tương ứng, những quan hệ phân cấp giữa các chiều, nhóm thông tin, định nghĩa và mô tả những dữ liệu tổng và dữ liệu kết hợp lại, những công thức và những tính toán, quản lí việc sử dụng và nhiều thứ khác nữa.
Các bước để thực hiện một câu truy vấn như sau:
-Khởi tạo công cụ Client sử dụng một khung nhìn đa chiều của dữ liệu.
-Gọi OLAP Server từ công cụ của Client và kiểm tra siêu dữ liệu trong thời gian thực.
-Tạo ra những câu lệnh SELECT từ nhiều bảng, những truy vấn liên quan và đưa tới cơ sơ dữ liệu quan hệ.
-Thực hiện những chức năng đa chiều ví dụ như tính toán và lập công thức, dịch từ các bit sang các mô tả công việc, .... trong kết quả của câu truy vấn cơ sở dữ liệu.
-Trả lại kết quả tới công cụ của Client cho những quá trình xử lí xa hơn và hiển thị hoặc hiển thị ngay lập tức.
Những chức năng được cung cấp cho những người quản trị hệ thống bao gồm:
-Khung nhìn công việc của dữ liệu quan hệ.
-Hỗ trợ sự phân cấp theo chiều.
-Những chức năng tính toán, tài chính và thống kê đối với sự mở rộng của người sử dụng
-Khoan sâu dữ liệu tới mức chi tiết
-Lựa chọn những công cụ đầu cuối.
-Việc quản trị cơ sở dữ liệu thúc đẩy sự đầu tư vào việc sao lưu, lưu trữ và thiết lập những cơ sở dữ liệu cho những phân tích riêng cụ thể.
-Định hướng dữ liệu sử dụng siêu dữ liệu
-Phân quyền người sử dụng theo nhiều mức để đảm bảo an toàn.
Với công việc quản lí và quản trị hệ thống cần phải thỏa những điều sau :
-OLAP Server không có những thay đổi theo định kì và không cần tải dữ liệu khởi tạo ban đầu vào.
-Dùng chuẩn sao lưu, lưu trữ và các xử lí bảo mật đang tồn tại.
-Quản lí, đồng bộ và duy trì tất cả các siêu dữ liệu mới trong DW.
-Quản lí việc sử dụng cho phù hợp với năng suất thực hiện. Việc này có thể ảnh hưởng lớn tới mô hình dữ liệu, những sự phân chia hoặc các mức kết hợp và tính tổng. Công việc điều chỉnh rất phức tạp. Cải thiện năng suất nhờ phi chuẩn các bảng và đánh chỉ số có thể làm tăng thêm kích cỡ và khó tìm kiếm trong cơ sở dữ liệu, vì đòi hỏi công việc duyệt dữ liệu nhiều hơn, tốn nhiều đĩa hơn và nhiều vùng đệm dữ liệu hơn.
Một số vấn đề cần quan tâm khi áp dụng phương pháp này:
-Việc sử dụng sơ đồ hình sao hay sơ đồ hình tuyết rơi, phân chia ra các phần, và sự phi chuẩn của các bảng để cải thiện năng suất ảnh hưởng rất lớn tới tính linh hoạt và khả năng mở rộng của cơ sở dữ liệu quan hệ. Điều này khiến cho việc cập nhật dữ liệu gặp nhiều khó khăn và cần phải cập nhật một khối dữ liệu lớn cùng một lúc.
-Sơ đồ hình sao với sự biến đổi đa dạng, sự kết hợp và sự tổng hợp được thiết kế với giả thiết dữ liệu là tĩnh ngoại trừ khi một khối lớn được tải vào.
-Việc tính toán theo mức hàng đòi hỏi chuyển vị hàng và cột. Thao tác này khó thực hiện thậm chí với những câu lệnh SELECT liên quan tới nhiều bảng.
-Quản lí và duy trì siêu dữ liệu là khó khăn và tốn kém.
Kết hợp cơ sở dữ liệu quan hệ và các dịch vụ của OLAP là cần thiết khi có các yêu cầu sau:
-Những ứng dụng tập trung vào dữ liệu với những nhu cầu hiển thị dữ liệu chi tiết.
-Biểu diễn theo chiều động và thay đổi cốt lõi.
-Có khả năng chỉ đọc với yêu cầu ghi là ít nhất.
-Sự tính toán ở mức hàng và giữa các chiều là ít nhất.
-Kích thước cơ sở dữ liệu lớn, mối quan hệ giữa các chiều là đơn giản và khung nhìn theo chiều on-the-fly
Những vấn đề bàn luận ở trên đều với mục tiêu đảm bảo hiệu quả công việc cho người sử dụng, khối lượng dữ liệu ổn định, được quản lý và phù hợp với mục đích. Một số yếu tố khác cần quan tâm bao gồm:
-Giao diện theo mong muốn của người sử dụng
-Những chức năng và đặc tính của các công cụ client
-Sự nhận thức về các kiến trúc mở và độc quyền.
-Xác định sự lựa chọn nào là tốt nhất để có kế hoạch đầu tư vào Client, Server, cơ sở dữ liệu, các công nghệ đầu cuối, các kĩ năng của người quản trị cơ sở dữ liệu và của người sử dụng đầu cuối.
8.2 Các nguyên tắc của OLAP
Sau đây là 12 luật cung cấp một cách nhìn thống nhất trong việc đánh giá và hiểu rõ những yêu cầu và các công cụ OLAP.
-Khung nhìn khái niệm đa chiều (Multiple Dimension): Đối với một người thực hiện các công việc của công ty thì cách nhìn của họ với công việc thực chất là nhiều chiều. Vì vậy, mô hình OLAP phải là đa chiều về bản chất. Những người sử dụng có thể thao tác dễ dàng trên những mô hình dữ liệu đa chiều như vậy.
-Sự trong suốt (Transparency): Vị trí của công cụ phân tích cần phải trong suốt với người sử dụng. OLAP nên tồn tại trong một kiến trúc hệ thống mở, cho phép các công cụ phân tích có thể được nhúng vào bất kì nơi nào mà người sử dụng mong muốn mà không có một sự tác động ngược lại nào với các chức năng của công cụ trên máy chủ.
-Khả năng truy nhập được (Accessibility): Công cụ OLAP phải ánh xạ được sơ đồ logic của chính nó tới kho dữ liệu vật lí hỗn tạp, truy nhập tới dữ liệu và thực hiện mọi chuyển đổi cần thiết để đưa ra một khung nhìn đơn giản, mạch lạc và đồng nhất cho người sử dụng. Dữ liệu vật lí của hệ thống thuộc kiểu này trở nên trong suốt với người sử dụng và chỉ là mối quan tâm của công cụ.
-Thực hiện công việc tạo báo cáo nhất quán: Khi số lượng các chiều tăng thì năng suất báo lập báo cáo giảm đi. Tuy nhiên, khi số chiều của kho dữ liệu thay đổi cũng không ảnh hưởng đến việc lập báo cáo.
-Kiến trúc khách-chủ (Client/Server): Thành phần Server của các công cụ OLAP cần phải đủ thông minh đến mức mà nhiều client có thể được truy nhập tới một cách dễ dàng và có thể lập trình tích hợp. Server thông minh phải có đủ khả năng để ánh xạ và xây dựng dữ liệu từ những cơ sở dữ liệu vật lí và logic khác hẳn nhau. Điều đó rất cần thiết để đảm bảo tính trong suốt và xây dựng một lược đồ mức khái niệm, logic, vật lí chung.
-Khả năng thứ nguyên hoá tổng quát (Generic Dimensionality): Mỗi chiều của dữ liệu phải cân bằng giữa cấu trúc và khả năng thực hiện của nó. Thường chỉ tồn tại một cấu trúc chung cho tất cả các chiều. Mọi chức năng được áp dụng cho một chiều cũng có thể áp dụng cho các chiều khác.
-Làm chủ ma trận động và thưa (Sparse Matrix): Cấu trúc vật lí của server OLAP cần phải biến đổi cho phù hợp với mô hình phân tích cụ thể được tạo ra và tải vào để việc quản lí các ma trận thưa là tối ưu nhất. Khi làm việc với các ma trận thưa thì Server OLAP có khả năng suy luận ra và tìm ra cách lưu trữ dữ liệu hiệu quả nhất.
-Hỗ trợ nhiều người sử dụng (Multi-user support): Những công cụ của OLAP phải cung cấp truy nhập đồng thời, tính toàn vẹn và an toàn để hỗ trợ cho những người sử dụng làm việc đồng thời với cùng một mô hình phân tích hoặc tạo ra những mô hình khác nhau từ cùng một dữ liệu.
-Những phép toán chéo giữa các chiều không hạn chế (Unrestricted Cross Diimension Operation): Trong phân tích dữ liệu đa chiều, tất cả các chiều được tạo ra và có vai trò như nhau. Các công cụ OLAP quản lí những tính toán liên quan tới các chiều và không yêu cầu người sử dụng phải định nghĩa những phép toán đó. Việc tính toán đòi hỏi phải định nghĩa các công thức tùy thuộc vào một ngôn ngữ, ngôn ngữ này phải cho phép tính và thao tác với một số lượng chiều bất kì, mà không bị hạn chế bởi mối quan hệ giữa các phần tử, không liên quan tới số thuộc tính chung của dữ liệu của mỗi phần tử.
- Thao tác tập trung vào dữ liệu trực quan (Intuitive Data Manipulation): Những thao tác như định hướng lại đường dẫn xây dựng dữ liệu hoặc khoan sâu xuống theo các chiều hoặc các hàng được thực hiện bằng hành động trực tiếp trên những phần tử của mô hình phân tích mà không đòi hỏi phải sử dụng những menu hay ngắt cho giao diện với người sử dụng. Những chiều được định nghĩa trong mô hình phân tích chứa tất cả thông tin mà người sử dụng cần để thực hiện những hành động cố hữu.
- Tạo báo cáo linh hoạt (Flexible Reporting): Với việc sử dụng OLAP Server và các công cụ của nó, một người sử dụng đầu cuối có thể thao tác, phân tích, đồng bộ hoá và xem xét dữ liệu theo bất kì cách nào mà người đó mong muốn, bao gồm cả việc tạo ra những nhóm logic hoặc bố trí những hàng, cột, phần tử cạnh những phần tử khác mà người đó mong muốn. Những phương tiện tạo báo cáo cũng phải cung cấp tính linh hoạt và đưa ra những thông tin đã được đồng bộ theo bất kì cách nào mà người sử dụng muốn hiển thị chúng.
-Không hạn chế số chiều và các mức kết hợp dữ liệu (Unlimited Dimension and Aggregation Levels): Một server OLAP có thể chứa được ít nhất là 15 chiều trong một mô hình phân tích thông thường nhất. Mỗi một trong số các chiều đó cho phép một số lượng không giới hạn các mức tổng kết và kết hợp dữ liệu do người sử dụng định nghĩa và đưa ra cách xây dựng các mức đó.
8.3 Các server OLAP và các công cụ
1/ Đặc điểm và các chức năng: OLAP là công nghệ xử lí phân tích trực tuyến tạo ra và đưa ra những thông tin mới từ những dữ liệu đang tồn tại thông qua những công thức tính toán và những luật chuyển đổi. Các công cụ và OLAP Server thực hiện các công việc sau:
-Hỗ trợ nhiều chiều và sự phân cấp của mỗi một trong những chiều đó.
-Kết hợp, tổng kết, tính toán trước và kết xuất ra những dữ liệu theo một chiều hoặc một tập các chiều đã được lựa chọn.
-Áp dụng những tính toán logic, công thức và những thủ tục phân tích đối với một hoặc một tập các chiều đã được lựa chọn.
-Hỗ trợ khái niệm về mô hình phân tích tập các chiều và những nguyên tố cấu thành, logic tính toán, các công thức, các thủ tục phân tích và những dữ liệu kết xuất, tổng kết, kết hợp.
-Cung cấp một thư viện chức năng.
-Cung cấp khả năng tính toán và so sánh phân tích mạnh
-Thực hiện những tính toán chéo giữa các chiều
-Cung cấp những dịch vụ thông minh về thời gian
-Chuyển đổi một chiều thành một chiều khác, cụ thể rất có ích sau khi hoà hợp hay thu nhận.
-Định hướng xem xét và phân tích sử dụng quay, xem chéo, khoan sâu, kéo lên theo một hay nhiều chiều.
-Những xử lí phân tích là nhu cầu rất cần thiết của ngưới sử dụng vì vậy những xử lí phân tích cần phải trơn tru không bị ngắt quãng.
2/ Truy nhập tới những đặc tính và chức năng: Giao diện và truy nhập tới các dịch vụ của OLAP của người sử dụng phải cung cấp nhiều lựa chọn và phải thúc đẩy sự hiểu biết của người sử dụng và khả năng nhúng tri thức vào mô hình phân tích OLAP. Những khả năng lựa chọn bao gồm:
Bảng tính: ít nhất người sử dụng phải có thể tải dữ liệu OLAP vào công cụ bảng tính của họ cho việc tạo báo cáo và phân tích thêm.
Các công cụ Client độc quyền: Tuỳ thuộc vào một ứng dụng cụ thể
Các công cụ thuộc nhóm thứ 3: Hỗ trợ API (Application Programming Interface) của Server OLAP (nếu API là độc quyền thì cần có một cơ chế khoá cho OLAP server đó).
Môi trường 4 GL (môi trường dùng ngôn ngữ lập trình thế hệ thứ 4): phải hỗ trợ cho tất cả các chức năng và đặc điểm của OLAP Server.
Giao tiếp với chuẩn defacto: là những môi trường ứng dụng ví dụ như VB, Power Builder và những giao diện như OLE, DDE...
Client định hướng khối: Những công cụ thuộc nhóm thứ 3 mà giao tiếp được với các dịch vụ của OLAP.
Để tạo khả năng nhúng tri thức vào mô hình phân tích, giao diện truy nhập phải thực hiện các công việc sau:
Truy nhập và lọc ra những tập con dữ liệu dựa vào sự phân cấp, mô hình, thời gian và những chiều được lựa chọn khác.
Truy nhập tới nhiều mức của sự phân cấp với một yêu cầu chiết lọc đơn.
Nhận thức được những dữ liệu tổng kết và kết hợp, phân chia và những tệp chỉ số để tạo ra những truy vấn đúng.
Tối ưu một cơ sở dữ liệu quan hệ cụ thể bao gồm những mở rộng SQL của nó khi truy nhập vào một kho dữ liệu quan hệ.
Mô tơ dịch vụ OLAP: Mô tơ của các dịch vụ OLAP trong kiến trúc với một kho dữ liệu quan hệ hay một kho dữ liệu đa chiều đều phải thoả những đặc điểm về công nghệ, tính ổn định và năng suất của mô hình và ứng dụng phân tích đã được lập. Vấn đề năng suất và tính ổn định đã được bàn tới trong những phần trên. Còn những đặc điểm về công nghệ phụ thuộc vào mô hình phân tích và việc sử dụng đã được dự định từ trước. Một số những đặc điểm đó là:
Khả năng ghi-đọc: liên quan tới các ứng dụng tương tác giữa dự báo và điều chỉnh ngân sách.
Nhiều người cùng ghi: để hỗ trợ cho sự cùng phân tích đa chiều của một nhóm người. Giải quyết điều này khó khăn hơn là đối với cơ sở dữ liệu quan hệ. Thay vì công việc chỉ liên quan tới một hàng hay một bảng, một yêu cầu cập nhật hay yêu cầu ghi của OLAP đòi hỏi việc tính toán lại những giá trị đã được kết xuất và tính toán, ảnh hưởng nhiều tới các chiều và sự phân cấp trong các chiều đó. Phạm vi của khoá ghi có thể rất rông và việc tính toán lại có thể tập trung vào các phép toán nên thời gian khoá rất dài khiến cho công suất thực hiện thấp.
Nhiều cơ sở dữ liệu: Nếu chỉ có một cơ sở dữ liệu cho mỗi ứng dụng OLAP thì đòi hỏi một cơ chế tương tác bởi vì dữ liệu được kết xuất từ một cơ sở dữ liệu cho ứng dụng này có thể là đầu vào của một ứng dụng khác.
Phạm vi của kiểu dữ liệu: xuất phát từ số, tới thời gian, tới những mô tả (cho những mục đích báo cáo và hiển thị) tới BLOB. Hơn nữa là các kiểu hình ảnh có thể cải thiện sự giao tiếp của những phân tích phức tạp.
Khả năng quản trị: Những chức năng quản trị cần cho việc chuẩn bị, cài đặt và các mục đích thực hiện sẽ diễn ra sau đó bao gồm:
Định nghĩa mô hình phân tích theo chiều.
Tạo ra và duy trì kho siêu dữ liệu
Kiểm soát truy nhập và mức ưu tiên sử dụng. Vấn đề cần quan tâm ở đây là người sử dụng muốn làm gì và những ai có thể truy nhập vào mô hình phân tích và dữ liệu của nó.
Tải mô hình phân tích từ DW hoặc DM.
Điều chỉnh công suất tới mức chấp nhận được cho phép những quá trình phân tích không bị ngắt quãng.
Tổ chức lại cơ sở dữ liệu để cải thiện công suất, thay đổi mô hình theo chiều hoặc cập nhật dữ liệu.
Quản lí tất cả các phần của hệ thống bao gồm cả phần cứng trung gian. Kiến trúc tham chiếu cung cấp một phương thức để hiểu được phạm vi của nhiệm vụ quản lí các hệ thống một cách có trật tự.
Phân tán dữ liệu tới các client để dùng cho những phân tích thêm ở địa phương (Client đó)
Kiến trúc tổng thể: Từ khung nhìn kiến trúc tổng thể, không thể có một sự lựa chọn đơn giản giữa một kho dữ liệu đa chiều với kho dữ liệu quan hệ. Người sử dụng cần cung cấp những tiêu chí để có thể tạo ra một sự lựa chọn đúng đắn.
Xu hướng hiện nay là cung cấp những dịch vụ OLAP kết hợp với Server OLAP ở một đầu và một kho dữ liệu quan hệ ở đầu kia (với những dữ liệu chi tiết đã được làm sạch). Trong thực tế đã có một số công ty bắt đầu với một kho dữ liệu quan hệ sau đó tạo thêm một kho dữ liệu đa chiều khi cần thiết.
Trong cấu hình kiến trúc này, thông tin được truy nhập và những câu truy vấn một cách thường xuyên được tính toán trước, được tổng kết và kết hợp sau đó được lưu trữ trong kho dữ liệu đa chiều của OLAP Server. Nó có thể được thực hiện trong lần tải mô hình phân tích đầu tiên từ kho dữ liệu quan hệ DW hoặc DM. Những truy vấn phức tạp và tập trung nhiều vào tính toán hoặc những dữ liệu phức tạp được tính toán tạo ra từ những dữ liệu khác cũng được xử lí truớc và lưu trữ. Điều này làm cho tốc độ thực hiện rất nhanh.
Còn những dữ liệu được truy nhập không thường xuyên hoặc những giá trị được tính toán từ một số ít thành phần các chiều chỉ được tính khi nhận được một truy vấn. Những dữ liệu không được truy nhập thường xuyên thì không được lưu trong kho dữ liệu đa chiều và có thể được OLAP server lấy ra từ kho dữ liệu quan hệ chỉ khi cần thiết.
Chức năng giám sát có thể lưu trữ dữ liệu (được truy nhập không thường xuyên trước đó) hoặc những kết quả của một câu truy vấn không truy nhập thường xuyên trong kho dữ liệu đa chiều cho những yêu cầu sau đó. Điều này làm tăng đáng kể công suất thực hiện. Cấu hình kết hợp 2 loại này cũng cho phép khoan sâu dữ liệu tới mức chi tiết nhất, những dữ liệu chi tiết không có sẵn trong kho dữ liệu đa chiều, bằng cách tạo ra một yêu cầu và lấy những dữ liệu chi tiết trong kho dữ liệu quan hệ.
Các thuật ngữ
BDW Bussiness Data Warehouse Kho dữ liệu nghiệp vụ
DW Data Warehouse Kho dữ liệu
DM Datamart Kho dữ liệu cục bộ
OLTP On_line Transaction Processing Xử lý giao dịch trực tuyến
OLAP On_line Analytical Processing Xử lý phân tích trực tuyến
SA Subject Area Vùng chủ đề
DSS Decision Suport System Hệ hỗ trợ quyết định
Data Warehousing Phương pháp kho dữ liệu
ODS Operational Data Store Kho dữ liệu tác nghiệp
ACID
BD Business Data Dữ liệu nghiệp vụ
MD Metadata Siêu dữ liệu
OM Operational Metadata Siêu dữ liệu tác nghiệp
LS Legacy System Hệ thống có trước, kế thừa
RDBMS Relational DB Management Sys. Hệ CSDL quan hệ
MDDB MultiDimensional Database CSDL đa chiều
EID Executive Information Database CSDL thông tin thực thi
MOLAP Multidimensional OLAP OLAP đa chiều
ROLAP Relational OLAP OLAP quan hệ
Bảng Fact Fact table Bảng sự kiện
Bảng Dimension Dimension table Bảng chiều
TÀI LIỆU THAM KHẢO
[1] A. Berson, S J. Smith, Data Warehousing, Data Ming, & OLAP, McGraw Hill, 1997
[2] B. Devlin: Data Warehouse From Architecture To Implementation. Addison Wesley Longman.1997
[3] Informix Software: An Intrduction do Data Warehousing, 1996
[4] Informix Software: Using Metadata with Data Warehouses Training Manual. 1996
[5] J. Bischoff & T. Alexander, Data Warehouse: Practical Advice from the Experts, Prentice Hall, 2002
[6] L. John, “Operational Data Stores: Building an Effective Strategy”, Data Warehouse: Practical Advive from the Experts, Prentice Hall, NJ, 1997,
[7] U. M. Fayyad, et all, Advances In Knowledge Discovery And Data Mining, The MIT Press, 1996.
[8] V. Poe, Building a Data Warehouse for Decision Support, Prentice Hall, 1996
[9] W.H. Immon & R. D. Hackathorn, Using the Data Warehouse, Jhon Wiley & Sons, 1994
[10] Phòng CSDL & LT, Hệ trợ giúp quyết định dựa vào dữ liệu, đề tài cấp TT KHTN & CNQG (Đoàn Văn Ban chủ nhiệm), Hà Nội 1996
[11] Đoàn Văn Ban, Phương pháp thiết kế và khai thác kho dữ liệu, đề tài nghiên cứu cấp Trung tâm KHTN & CNQG, 1997
[12] Đoàn Văn Ban, Cơ sở dữ liệu hướng đối tượng và hệ ObjectStore, Giáo trình cao học, Hà Nội, 2003 .
Các file đính kèm theo tài liệu này:
- Download- Tiểu luận cao học- Kho dữ liệu và hệ hỗ trợ quyết định.doc