Luận văn Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ bi của hệ quản trị csdl sql server 2008

 Xây dựng được kho dữ liệu về điểm của sinh viên.  Thiết kế báo cáo nhiều dạng phục vụ cho công tác báo cáo nghiệp vụ.  Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mô hình dự đoán.  Xây dựng mô hình khai phá dữ liệu để khám phá các dữ liệu tiềm ẩn.  Sử dụng các mô hình để tạo các dự đoán đơn giản, mà có thể sử dụng sau đó để tạo ra các quyết định nghiệp vụ đào tạo của trường.  So sánh được độ chính xác khi sử dụng 3 thuật toán khai phá: Microsoft Decision Tree, MicrosoftNeural Network, Microsoft Naïve Bayes trên một mô hình khai phá.

pdf65 trang | Chia sẻ: lylyngoc | Lượt xem: 2589 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ bi của hệ quản trị csdl sql server 2008, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ự đốn, để so sánh với dữ liệu đầu vào. Nếu một thuộc tính đầu vào đựơc coi là nguyên nhân của thuộc tính dự đốn, một nút mới sẽ thêm vào mơ hình. Mơ hình tiếp tục phát triển cho đến lúc khơng cịn thuộc tính nào, tạo thành một sự phân tách để cung cấp một dự báo hồn chỉnh thơng qua các nút đã tồn tại. Mơ hình địi hỏi tìm kiếm một sự kết hợp giữa các thuộc tính và trường của nĩ, nhằm thiết lập một sự phân phối khơng cân xứng giữa các trường trong thuộc tính dự đốn. Vì thế cho phép dự đốn kết quả của thuộc tính dự đốn một cách tốt nhất. [10], [17] a.1.1.Tạo Cây Cây quyết định được tạo thành bằng cách lần lượt chia một tập dữ liệu thành các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp. Các nút khơng phải là nút lá là các điểm phân nhánh của cây. Việc phân nhánh -32- tại các nút cĩ thể dựa trên việc kiểm tra một hay nhiều thuộc tính để xác định việc phân chia dữ liệu. Chúng ta chỉ xét việc phân nhánh nhị phân vì cho cây chính xác hơn. a.1.2. Entropy và Information Gain Đây là các cơng thức để tính tốn cho việc chọn thuộc tính để phân nhánh cây quyết định. Việc chọn thuộc tính nào tại một nút để phân nhánh cĩ thể dựa trên các chỉ số như Index hay Entropy. Giả sử thuộc tính dự đốn cĩ m giá trị phân biệt (tức là cĩ m lớp Ci, i=1, …, m), S cĩ s mẩu tin, si là số các mẩu tin trong S thuộc lớp Ci. Index được tính như sau: 1.1 Entropy được tính như sau: 1.2 Giả sử thuộc tính A cĩ n giá trị phân biệt {a1, a2,…, an}. Gọi Sj là tập con của S cĩ giá trị của thuộc tính A là aj, sij là số các mẩu tin thuộc lớp Ci trong tập Sj. Nếu phân nhánh theo thuộc tính A thì. 1.3 Lúc đĩ ta cĩ được chỉ số Gain, và ứng với thuộc tính A là: Gain(A)=I(s1,s2,…,sm) - G(A) Dựa vào chỉ số Gain ta chọn thuộc tính để phân nhánh cho cây quyết định. G(A) càng nhỏ thì các tập con càng đồng nhất hơn. Bởi vậy chúng ta chọn thuộc tính cho Gain(A) lớn nhất để phân nhánh. Sau khi đã chọn được thuộc tính tốt nhất, chúng ta tạo thêm một nút phân nhánh cho cây, gán nhãn cho nút là thuộc tính được chọn và tiến hành phân chia tập S. [9] a.1.3. Ví dụ: TT Quê quán Điểm vào Kinh tế Giới tính Học lực 1 Hà nội Trung bình Khơng tốt Nữ TB 2 Hà nội Cao Bình thường Na Khá -33- m 3 Hưng Yên Thấp Bình thường Na m Khá 4 Hà nội Thấp Bình thường Nữ TB 5 Hải phịng Trung bình Tốt Nữ TB 6 Hưng Yên Cao Tốt Nữ Khá 7 Hưng Yên Trung bình Tốt Nữ Khá 8 Hà nội Thấp Khơng tốt Na m Khá Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật tốn Cây quyết định Bước 1: Các thuộc tính và miền giá trị tương ứng baogồm:  Thuộc tính Quê quán cĩ miền giá trị {Hà nội, Hưng Yên, Hải phịng}  Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}  Thuộc tính Kinh tế cĩ miền giá trị {Tốt, Bình thường, Khơng tốt}  Thuộc tính Giới tính cĩ miền giá trị {Nam, Nữ}  Thuộc tính Lớp cĩ miền giá trị {P, N} (P ứng với Khá và N là ngược lại - TB) Khối lượng thơng tin cần thiết để quyết định một mẫu tùy ý cĩ thuộc về lớp P hay N hay khơng là: I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n)) I(5,3) = -(5/8)* log2(5/8)-(3/8)* log2(3/8) = 0,954 Tính Entropy cho thuộc tính Quê quán Quê quán pi ni I(pi,ni) Hà nội 2 2 1 Hưng yên 3 0 0 Hải phịng 0 1 0 Hình 2.10 – Entrophy cho thuộc tính “Quê quán” Ta cĩ: E(Quê quán) = (4/8)*I(2,2) + (3/8)*I(3,0) + (1/8)*I(0,1) = 0,5 Do đĩ: Gain(Quê quán) = I(5,3) – E(Quê quán) = 0,954 – 0,5 = 0,454 Tương tự: Tính Entropy cho thuộc tính Điểm vào Điểm vào pi ni I(pi,ni) Cao 2 0 0 Trung bình 1 2 0,918 -34- Hình 2.14 - Chọn nút phân nhánh của cây Thấp 2 1 0,918 Hình 2.11 – Entrophy cho thuộc tính “Điểm vào” E(Điểm vào) = (2/8)*I(2,0) + (3/8)*I(1,2) + (3/8)*I(2,1) = 0,689 Gain(Điểm vào) = 0,954 – 0,689 = 0,265 Tính Entropy cho thuộc tính Kinh tế Kinh tế pi ni I(pi,ni) Tốt 2 1 0,918 Bình thường 2 1 0,918 Khơng tốt 1 1 1 Hình 2.12 – Entrophy cho thuộc tính “Kinh tế” E(Kinh tế) = (3/8)*I(2,1) + (3/8)*I(2,1) + (2/8)*I(1,1) = 0,939 Gain(Kinh tế) = 0,954 – 0,939 = 0,015 Tính Entropy cho thuộc tính giới tính Giới tính pi ni I(pi,ni) Nam 3 0 0 Nữ 2 3 0,970 Hình 2.13 – Entrophy cho thuộc tính “Giới tính” E(giới tính) = (3/8)*I(3,0) + (5/8)*I(2,3) = 0,607 Gain(giới tính) = 0,954 – 0,607 = 0,347 Chọn thuộc tính cĩ độ lợi thơng tin lớn nhất là thuộc tính “Quê quán”, ta cĩ cây cĩ dạng: Bước 2: Trong cây này ta thấy ứng với quê ở Hà nội cịn 2 phần tử cĩ trị P và 2 phần tử cĩ trị N. Tiếp tục áp dụng thuật tốn cho nút con này cho đến khi đạt đến nút lá hoặc nút cĩ entropy=0. Ta cĩ tập dữ liệu (con) ứng với quê Hà nội như sau: Điểm vào Kinh tế Giới tính Học lực Trung bình Khơng tốt Nữ TB Cao Bình thường Nam Khá Thấp Bình thường Nữ TB Quê quán Hà nội Hưng yên Hải phịng -35- Thấp Khơng tốt Nam Khá Hình 2.15 – Bảng dữ liệu đầu vào con Các thuộc tính và miền giá trị tương ứng baogồm:  Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}  Thuộc tính Kinh tế cĩ miền giá trị {Bình thường, Khơng tốt}  Thuộc tính giới tính cĩ miền giá trị {Nam, Nữ}  Thuộc tính Lớp cĩ miền giá trị {P, N} (P ứng với Khá và N là ngược lại - TB) Khối lượng thơng tin cần thiết để quyết định một mẫu tùy ý cĩ thuộc về lớp P hay N hay khơng là: I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n)) I(2,2) = 1 Tính Entropy cho thuộc tính Điểm vào Điểm vào pi ni I(pi,ni) Cao 1 0 0 Trung bình 0 1 0 Thấp 1 1 1 Hình 2.16 – Entrophy cho thuộc tính “Điểm vào” E(Điểm vào) = (1/4)*I(1,0) + (1/4)*I(0,1) + (2/4)*I(1,1) = 0,5 Gain(Điểm vào) = 1 – 0,5 = 0,5 Tính Entropy cho thuộc tính Kinh tế Kinh tế pi ni I(pi,ni) Bình thường 1 1 1 Khơng tốt 1 1 1 Hình 2.17 – Entrophy cho thuộc tính “Kinh tế” E(Kinh tế) = (2/4)*I(1,1) + (2/4)*I(1,1) = 1 Gain(Kinh tế) = 0,954 – 1 = -0,046 Tính Entropy cho thuộc tính Giới tính Giới tính pi ni I(pi,ni) Nam 2 0 0 Nữ 0 2 0 Hình 2.18 – Entrophy cho thuộc tính “giới tính” Quê quán Hà nội Hưng yên Hải phịng Nam Nữ -36- Hình 2.19 - Cây quyết định kết quả E(Giới tính) = (2/4)*I(2,0) + (2/8)*I(0,2) = 0 Gain(Giới tính) = 0,954 – 0 = 0,954 Như vậy thuộc tính “Giới tính” cĩ độ lợi thơng tin lớn nhất được dùng để phân lớp, ta cĩ cây quyết định tạo ra như hình 2.19. Như vậy các luật được tạo ra như sau: IF (Quê quán = ‘Hưng Yên’) OR (Quê quán = ‘Hà nội’ AND giới tính = ‘Nam’) THEN ‘Khá’ ELSE ‘TB’ a.2. Thuật tốn Nạve Bayes: Thuật tốn này xây dựng mơ hình khai thác nhanh hơn các thuật tốn khác, phuc vụ việc phân loại và dự đốn. Nĩ tính tốn khả năng cĩ thể xảy ra trong mỗi trường hợp lệ của thuộc tính đầu vào, gán cho mỗi trường một thuộc tính cĩ thể dự đốn. Mỗi trường này cĩ thể sau đĩ được sử dụng để dự đốn kết quả của thuộc tính dự đốn dựa vào những thuộc tính đầu vào đã biết. Các khả năng sử dụng để sinh ra các mơ hình được tính tốn và lưu trữ trong suốt quá trình xử lý của khối lập phương. Thuật tốn này chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên tục, và nĩ xem xét tất cả các thuộc tính đầu vào độc lập. Thuật tốn này cho ta một mơ hình khai thác đơn giản (cĩ thể được coi là điểm xuất phát của khai phá dữ liệu), bởi vì hầu như tất cả các tính tốn sử dụng trong khi thiết lập mơ hình, được sinh ra trong xử lí của khối, kết quả được trả về nhanh chĩng. Điều này tạo cho mơ hình một lựa chọn tốt để khai phá dữ liệu khám phá các thuộc tính đầu vào được phân bố trong các trường khác nhau của thuộc tính dự đốn như thế nào? Bài tốn: Gọi X là đối tượng chưa biết lớp. H là giả thuyết sao cho X thuộc về lớp C. Ta cần tính xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X).  Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1, A2,…, An.  Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. Phân lớp Nạve Bayesian gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 ≤ j≤ m, j ≠ i.  Do 1.4 P(X) Ci)P(Ci)|P(XX)|P(Ci  -37- nên P(Ci|X) > P(Cj|X)  P(X|Ci).P(Ci) > P(X|Cj).P(Cj)  Giả thiết các thuộc tính là độc lập tức là 1.5  Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci. Sau đĩ mẫu X được gán vào Ci nếu P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i . Nĩi cách khác, Nạve Bayesian gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại. Ví dụ: Dựa vào bảng dữ liệu cho trong hình 2.9, ta cĩ thể tính các xác suất sau: - Xác suất lớp dương (Khá): P(p) = 5/8 - Xác suất lớp âm (TB): P(n) = 3/8 Quê quán P(Hà nội | p) = 2/5 P(Hà nội | n) = 2/3 P(Hưng yên | p) = 3/5 P(Hưng yên | n) = 0 P(Hải phịng | p) = 0 P(Hải phịng | n) = 1/3 Điểm vào P(Cao | p) = 2/5 P(Cao | n) = 0 P(Trung bình | p) = 1/5 P(Trung bình | n) = 2/3 P(Thấp | p) = 2/5 P(Thấp | n) = 1/3 Kinh tế P(Tốt | p) = 2/5 P(Tốt | n) = 1/3 P(Bình thường | p) = 2/5 P(Bình thường | n) = 1/3 P(Khơng tốt | p) = 1/5 P(Khơng tốt | n) = 1/3 Giới tính P(Nam | p) = 3/5 P(Nam | n) = 0 P(nữ | p) = 2/5 P(Nữ | n) = 3/3 Hình 2.20 – Tính xác suất cho các thuộc tính Xét một mẫu X cĩ Quê quán (khơng quan tâm các thuộc tính khác)  P(Hưng Yên | n) = 0 => P(X|n)*P(n) = 0  P(xi | p) > 0 => P(X | p) > 0 Suy ra mẫu X thuộc lớp P (Khá) - Xét một mẫu X cĩ quê Hà nội và cĩ giới tính Nam (khơng quan tâm các thuộc tính cịn lại)  P(Nam | n) = 0 => P(X|n)*P(n) = 0  P(xi | p) > 0 => P(X | p) > 0 Suy ra mẫu X thuộc lớp P (Khá) Hai phân lớp trên phù hợp với luật được suy ra từ giải thuật ID3. Tuy nhiên, xét mẫu X = , ta cĩ: )C| n 1k k P(x)C|kx,...,1P(x)C|P(X jjj    -38-  P(Hải phịng | p) = 0 => P(X|p)*P(p) = 0  P(Cao | n) = 0 => P(X|n)*P(n) = 0 => Khơng thể xác định X thuộc lớp nào! Các bước của khai phá dữ liệu: Khai phá dữ liệu là quá trình khám phá các thơng tin hữu dụng từ bộ dữ liệu lớn. Khai phá dữ liệu sử dụng phân tích tốn học để lấy mẫu và các xu hướng tồn tại trong dữ liệu. Xây dựng một mơ hình khai phá dữ liệu là một phần của một quá trình lớn hơn bao gồm đủ mọi thứ từ đặt câu hỏi về dữ liệu và tạo ra một mơ hình để trả lời những câu hỏi, đến triển khai các mơ hình thành một mơi trường làm việc. Quá trình này cĩ thể được xác định bằng cách sử dụng sau 6 bước cơ bản:  Xác định vấn đề  Chuẩn bị dữ liệu  Khám phá dữ liệu  Xây dựng mơ hình  Khám phá và kiểm tra mơ hình  Triển khai và cập nhật mơ hình Mặc dù quá trình minh họa trong biểu đồ là vịng trịn, mỗi bước khơng nhất thiết dẫn trực tiếp đến bước tiếp theo. Mỗi bước trong tiến trình cĩ thể cần phải được lặp lại nhiều lần để tạo ra một mơ hình tốt. Xác định vấn đề: Bước đầu tiên trong quá trình khai phá dữ liệu, như nêu bật trong sơ đồ sau đây, là để xác định rõ các vấn đề kinh doanh, dịch vụ, và cân nhắc các cách để cung cấp một câu trả lời cho vấn đề. Chuẩn bị dữ liệu: Bước thứ hai trong quá trình khai phá dữ liệu, là để củng cố và làm sạch dữ liệu đã được xác định ở bước xác định các vấn đề. Cĩ thể tiến hành khai phá dữ liệu sử dụng bất kỳ nguồn dữ liệu đã được định nghĩa như là một nguồn dữ liệu dịch vụ phân tích. Cĩ thể bao gồm các tập tin văn bản, bảng tính Excel, hoặc dữ liệu từ các nhà cung cấp khác bên ngồi. Thăm dị dữ liệu: Bước thứ ba trong quá trình khai phá dữ liệu, là để khám phá những dữ liệu đã chuẩn bị sẵn sàng. Phải hiểu được dữ liệu để đưa ra quyết định thích hợp khi tạo các mơ hình khai phá dữ liệu. Kỹ thuật khám phá bao gồm các tính tốn giá trị tối thiểu và tối đa, tính trung bình và độ lệch chuẩn, và nhìn vào sự phân bố của dữ liệu. Xây dựng mơ hình: Bước thứ tư trong quá trình khai phá dữ liệu, là xây dựng mơ hình khai phá hoặc các mơ hình khai phá. -39- Xác định dữ liệu mà bạn muốn sử dụng bằng cách tạo ra một cấu trúc khai phá. Cấu trúc khai phá xác định nguồn dữ liệu, nhưng khơng chứa bất kỳ dữ liệu cho đến khi bạn xử lý nĩ. Khi xử lý cấu trúc khai phá, dịch vụ phân tích tạo ra tập hợp và thơng tin thống kê khác cĩ thể được sử dụng để phân tích. Thơng tin này cĩ thể được sử dụng bởi bất kỳ mơ hình khai phá nào dựa trên cấu trúc. Kiểm chứng mơ hình: Bước thứ năm trong quá trình khai phá dữ liệu, là để khám phá các mơ hình khai phá đã xây dựng và kiểm tra hiệu quả của chúng. Khi xây dựng một mơ hình, chúng ta thường tạo ra các mơ hình với nhiều cấu hình khác nhau và kiểm thử tất cả các mơ hình để cĩ kết quả tốt nhất cho vấn đề và dữ liệu đã xác định. Dịch vụ phân tích cung cấp các cơng cụ giúp chúng ta tách biệt dữ liệu của thành tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm để cĩ thể đánh giá chính xác hiệu suất của tất cả các mơ hình trên cùng dữ liệu. Sử dụng tập dữ liệu học để xây dựng mơ hình, và dữ liệu thử nghiệm để kiểm tra tính chính xác của mơ hình bằng cách tạo ra các truy vấn dự báo. Trong dịch vụ phân tích của BI, phân vùng này cĩ thể được thực hiện tự động khi xây dựng mơ hình khai phá. Triển khai và cập nhật mơ hình: Bước cuối cùng trong quá trình khai phá dữ liệu, là để triển khai các mơ hình cĩ hiệu suất tốt nhất đến mơi trường sản xuất. Sau khi các mơ hình khai phá dữ liệu tại trong mơi trường sản xuất, cĩ thể thực hiện nhiều tác vụ, tùy thuộc vào nhu cầu, như: truy vấn để lấy dữ liệu thống kê, tạo báo cáo,… Dữ liệu đa chiều: Dữ liệu đa chiều cho phép chúng ta thiết kế, tạo, quản lý cấu trúc nhiều chiều chứa dữ liệu chi tiết và kết hợp từ nhiều nguồn dữ liệu trong một mơ hình logic thống nhất hỗ trợ các tính tốn nội tại. Dịch vụ phân tích dữ liệu đa chiều cung cấp phân tích nhanh, trực giác, từ trên xuống, trên số lượng lớn dữ liệu xây dựng trên mơ hình dữ liệu thống nhất, và chuyển giao đến người dùng bằng nhiều ngơn ngữ. Dịch vụ phân tích dữ liệu đa chiều làm việc với các kho dữ liệu, các siêu dữ liệu,... hỗ trợ phân tích dữ liệu lịch sử và thời gian thực. 2.3.3. Dịch vụ báo cáo [16] Với hệ quản trị cơ sở dữ liệu SQL Server 2008, xây dựng dịch vụ báo cáo tiếp tục là một lĩnh vực tập trung chính và một lĩnh vực đầu tư cho hãng Microsoft. Đĩ là một trong những thành phần chính của Microsoft Bussiness Intelligence (BI). Cơng nghệ xây dựng dịch vụ báo cáo cho phép thiết kế những báo cáo phong phú từ nhiều nguồn dữ liệu, hiển thị dữ liệu từ nhiều nguồn dữ liệu đĩ một cách phong phú bằng cách sử dụng các bảng (table), ma trận (matrix), danh sách (list), gauge, và biểu đồ (chart); và cho phép xuất các báo cáo sang các định dạng Word, Excel, PDF, XML, -40- HTML mà khơng cần viết mã. Xây dựng dịch vụ báo cáo cung cấp một mơ hình mở rộng cho phép mở rộng thiết kế, xuất các định dạng, nguồn dữ liệu và các cơ cấu phân phối cho các báo cáo. Sự tích hợp của nĩ với Microsoft Office SharePoint Server tiếp tục phát triển và cải thiện. Sau cùng xây dựng dịch vụ báo cáo cung cấp một giao diện lập trình ứng dụng mà cĩ thể gọi bằng cách sử dụng dịch vụ Web do đĩ cĩ thể tự động hĩa hầu như bất kỳ phần nào của báo cáo thơng qua các kịch bản hoặc chương trình. 2.4. Kết luận chương 2 Chương này trình bày các vấn đề sau:  Cơ sở lý thuyết về kho dữ liệu: Một số khái niệm về kho dữ liệu, mơ hình dữ liệu sử dụng trong kho, kiến trúc kho dữ liệu, các bước xây dựng kho dữ liệu.  Khai phá dữ liệu: Khái niệm về khai phá dữ liệu, khuynh hướng phát triển của lĩnh vực khai phá dữ liệu.  Giới thiệu bộ cơng cụ BI trong hệ quản trị cơ sở dữ liệu SQL Server 2008: Dịch vụ phân tích, dịch vụ báo cáo. -41- Chương 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN 3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu Trong thế giới hiện đại, mọi hoạt động của con người đều cần đến thơng tin:  Thơng tin về giá cả và thị trường, khách hàng và đối tác,...Trong hoạt động sản xuất kinh doanh, thương mại, tài chính.  Thơng tin về chính sách và pháp luật, thuế và tiền tệ, dân số và lao động, đất đai và mơi trường trong quản lý kinh tế, quản lý nhà nước.  Thơng tin về văn hố, khoa học, giáo dục, đặc biệt trong lĩnh vực hoạt động Thơng tin - Thư viện.  Thơng tin liên quan đến các vấn đề của đơn vị, các cơng ty, các doanh nghiệp, các bộ ngành. Để cĩ được các thơng tin cần thiết và cập nhật về nội dung, phải xây dựng các kho dữ liệu. Đĩ là quy trình phức tạp và tốn nhiều chi phí, bao gồm nhiều cơng đoạn khác nhau từ thu thập, xử lý, phân tích, tổ chức lưu trữ thơng tin theo một số tiêu chuẩn nào đĩ. Giải pháp CNTT thường được ứng dụng là sử dụng các hệ quản trị cơ sở dữ liệu và các phần mềm giao tiếp để quản lý và truy tìm các thơng tin cần thiết một cách nhanh chĩng. Trong thời đại cách mạng cơng nghệ thơng tin, các kho thơng tin cần được liên kết với nhau để giúp chia sẻ tài nguyên, cung cấp dịch vụ. Tuy nhiên khơng phải hệ quản trị CSDL nào cũng cĩ thể đáp ứng tốt nhu cầu tích hợp, chia sẻ thơng tin từ các nguồn phân tán, đơi khi khơng thật chuẩn mực! Lựa chọn giải pháp khả thi để trao đổi, liên thơng các cơ sở dữ liệu là điều rất khĩ thực hiện. Trên thực tế đã cĩ hai xu hướng giải quyết vấn đề như sau:  Thống nhất sử dụng chung một phần mềm hay một cơ sở dữ liệu.  Xây dựng Trung tâm tích hợp dữ liệu để thống nhất dữ liệu từ nhiều nguồn. Giải pháp dùng chung phần mềm và cơ sở dữ liệu tuy cĩ làm giảm được chi phí phải chuyển đổi và nhập lại dữ liệu, nhưng rất khĩ thực hiện ở quy mơ rộng, tại nhiều địa điểm khác nhau, bởi vì nĩ địi hỏi mơi trường và trình độ ggười sử dụng phải tương đối thống nhất. Mặt khác khĩ cĩ thể đầu tư và triển khai trên diện rộng một phần mềm dùng chung cĩ chất lượng cao. Xây dựng các trung tâm tích hợp thơng tin dữ liệu cũng địi hỏi thời gian và chi phí khá lớn, và trên thực tế cũng khĩ lịng giải quyết được các vấn đề nêu trên. Thực tế áp dụng CNTT của ngành GD- ĐT trong tuyển sinh đại học năm 2002 cho thấy giải pháp tích hợp dữ liệu từ các trường và các địa phương để cĩ được kết quả xét tuyển chung đã khơng thành cơng. Trường Đại học SPKT Hưng Yên đã bước đầu triển khai sử dụng các phần mềm chung của Bộ Giáo dục, như bộ phần mềm Edusoft,…Và bước đầu đã thu được nhiều kết quả: thống nhất được các mẫu biểu, tìm kiếm thơng tin nhanh chĩng,…Tuy -42- nhiên, cơ sở dữ liệu bị hạn chế về kích thước, hạn chế hỗ trợ được tính năng sinh báo cáo, ra quyết định, dự đốn xu hướng một cách nhanh nhất. Đáp ứng đơng đảo của các cá nhân, xuất phát từ thực tế trên, chúng tơi đề xuất xây dựng một kho dữ liệu về điểm của sinh viên một khoa làm thử nghiệp và để khắc phục nhược điểm trên. Các kho dữ liệu thống kê, khi được xây dựng và áp dụng thành cơng sẽ giúp cải tiến chất lượng số liệu và hài hồ các quá trình thu thập số liệu thống kê, cung cấp cơng cụ phục vụ quản lý và bảo vệ lưu trữ số liệu, cung cấp cơng cụ tiếp cận, xử lý, sản xuất và phổ biến các đầu ra thống kê cĩ chất lượng. Như ta đã đề cập, xu thế chủ đạo của kho dữ liệu: Trào lưu trong các cơng ty (viễn thơng-ngân hành - lương hưu trí  dịch vụ tài chính, chăm sĩc sức khỏe, bảo hiểm, sản xuất, dược phẩm, giao thơng…) và Xu thế theo nhu cầu. Trong phạm vi luận văn thì thuộc xu thế theo yêu cầu. 3.2. Xây dựng kho dữ liệu điểm của sinh viên Xuất phát từ yêu cầu của luận văn, chúng tơi lấy dữ liệu kết quả của sinh viên hệ cao đẳng thuộc khoa CNTT của trường các năm 1998, 1999, 2000, 2001, 2002, 2003, 2005, 2004, 2006, 2007 tại trường Đại học SPKT Hưng Yên để làm dữ liệu demo trong kho dữ liệu và khai thác dữ liệu trong kho để giải quyết một số câu hỏi mang tính chiến lược: Tìm ra mối quan hệ giữa các mơn học, điểm đầu vào của sinh viên đến kết quả học tập, Xu hướng về học lực của sinh viên trong năm tới... Mơi trường thực hiện:  Window 7.  Hệ quản trị CSDL SQL Server 2008. 3.2.1. Thơng tin về dữ liệu điểm  Kết quả học tập của sinh viên Kết quả học tập của sinh viên là điểm tổng kết các mơn học. Trường Đại học SPKT Hưng Yên cĩ nhiều ngành học, tất cả các ngành học đều phải học các mơn cơ bản và các mơn thuộc kiến thức chung bắt buộc; các mơn cơ bản: Tốn cao cấp 1, Tốn cao cấp 2, Vật lý, Hĩa học,… khối kiến thức chung bắt buộc: Triết học, Kinh tế chính trị, …; tuỳ theo từng ngành học mà cĩ các mơn học thuộc các khối kiến thức cơ sở ngành, chuyên ngành: do mỗi chuyên ngành quy định, chẳng hạn chuyên ngành CNTT cĩ các mơn cơ sở ngành: Cơ sở dữ liệu quan hệ, Hệ quản trị CSDL,… Các mơn chuyên ngành,... Mỗi năm, các mơn chuyên ngành lựa chọn cĩ sự thay đổi để giúp sinh viên phù hợp với thị trường lao động, cĩ nghĩa là chương trình đào tạo của mỗi chuyên ngành sẽ được cập nhật hàng năm đối với các chuyên ngành cĩ nhiều cơng nghệ mới ra đời. Chẳng hạn, trước kia mơn Cơ sở kỹ thuật lập trình dùng ngơn ngữ Pasal, qua các năm chuyển thành dùng ngơn ngữ C++, và hiện tại là C#. Trường đã sử dụng phần mềm Microsoft Office Excel để tổng hợp và quản lý điểm, kết quả của sinh viên của mỗi lớp sẽ được tổng hợp trong tồn khĩa như sau: -43- Hình 3.1 - Bảng tổng hợp kết quả học tập của một lớp Bảng điểm của mỗi sinh viên như sau:  Từ điển dữ liệu Thơng qua việc khảo sát, nghiên cứu, tìm hiểu về dữ liệu liên quan, từ những số liệu và bảng biểu đã thu được với các cấu khơng đồng nhất, để khắc phục sự thất lạc của dữ liệu và khai thác dữ liệu cĩ hiệu quả, chúng tơi đề xuất việc tổ chức lại các dữ liệu nguồn dưới dạng cơ sở dữ liệu quan hệ. Do dữ liệu chúng tơi đang xét liên quan đến điểm của sinh viên của một hệ đào tạo (cao đẳng chính qui) của một khoa, sau này sẽ mở rộng ra tất cả các hệ của tất cả các khoa trong trường nên trong cơ sơ sở dữ liệu dưới dạng thực thể kết hợp, sẽ cĩ các kiểu thực thể sau:  Khoahoc: Lưu trữ thơng tin về các khĩa học, bao gồm các thuộc tính: makhoahoc, namvao, namra  Lop: Lưu trữ thơng tin về các lớp thuộc mỗi khĩa học, bao gồm các thuộc tính: malop, tenlop, HtgiaovienCN  Sinhvien: Lưu trữ thơng tin về các sinh viên, gồm các thuộc tính: Masv, hoten, ngaysinh, gioitinh, quequan  Monhoc: Lưu trữ thơng tin của các mơn học, gồm các thuộc tính: Mamon, tenmon, dvht. Lược đồ cơ sở dữ liệu quan hệ thực thể tổng quát như sau: Hình 3.2 - Lược đồ thực thể - mối quan hệ của CSDL điểm sinh viên Lược đồ này, được chuyển sang mơ hình quan hệ như sau: Khoahoc MonHoc Lop SinhVien cĩ (1,n) (1,1) Gồm Học (1,n) (1,n) (1,1) (1,n) DiemL1 DiemL2 Học kỳ -44- Hình 3.3 - Lược đồ CSDL điểm sinh viên dưới dạng quan hệ Tuy nhiên, nếu thiết kế cơ sở dữ liệu như trên chỉ đáp bảo yêu cầu tác nghiệp của hệ thống, khơng thể hiện được việc lưu trữ dữ liệu ở quá khứ, khơng tận dụng được các kết quả đã cĩ sẵn, như điểm các kỳ của sinh viên, điểm tổng kết tồn khĩa,…Hơn nữa, dữ liệu về điểm ngày càng tăng dẫn đến việc lưu trữ theo dạng này hạn chế về kích thước, quan trọng hơn, với cơ sở dữ liệu dưới dạng quan hệ này chỉ trả lời được các truy vấn dưới dạng đơn dạng, khơng xử lý được các truy vấn dưới dạng nhiều chiều. Để khắc phục những nhiểm điểm này, giải pháp duy nhất là tổ chức dữ liệu về điểm này dưới dạng kho dữ liệu. Việc xây dựng một kho dữ liệu khơng phải đơn giản và nĩ gồm nhiều bước như đã trình bày trong phần cơ sở lý thuyết nên trong phạm vi luận văn này, chúng tơi chỉ đưa ra cách xây dựng một kho dữ liệu trong cơng cụ hộ trợ của hệ quản trị cơ sở dữ liệu SQL Server. Với lược đồ quan hệ được chỉ ra trong hình 3.4, chúng tơi đưa ra các dữ liệu liên quan để xây dựng kho dữ liệu về điểm của sinh viên như sau: Tên bảng STT Thuộc tính Ý nghĩa 1 Tenlop Tên lớp của sinh viên 2 Masv Mã sinh viên 3 Hoten Họ tên của sinh viên 4 Ngaysinh Ngày sinh của sinh viên 5 Gioitinh Giới tính của sinh viên 6 Quequan Quê quán của sinh viên 7 Diemky1 Điểm kỳ 1 8 Diemky2 Điểm kỳ 2 9 Diemky3 Điểm kỳ 3 10 Diemky4 Điểm kỳ 4 11 Diemky5 Điểm kỳ 5 Dim_Sinhvien: Lưa trữ thơng tin về sinh viên 12 Diemky6 Điểm kỳ 6 1 Mamon Mã mơn học Dim_Monhoc: Lưa trữ thơng tin về các mơn học 2 Tenmon Tên mơn học -45- 1 Masv Mã sinh viên 2 Mamon Mã mơn học 3 Datekey Mã chiều thời gian 4 Sodvht Số đơn vị học trình 5 DiemmonL1 Điểm L1 của mơn học 6 DiemmonL2 Điểm L2 của mơn học Fact_Diemmon: Lưa trữ thơng tin về điểm mơn học của mỗi sinh viên thuộc một kỳ học nào đĩ. 7 Diemmon Điểm cao nhất của lần thi 1 và lần thi 2 1 Datekey Mã chiều thời gian 2 Makhoahoc Mã khĩa hoc 3 namhoc Năm học Dim_Time: Lưu trữ thơng tin về thời gian 4 Hocki Học kì 1 Makhoahoc Mã khĩa hoc 2 Namvao Năm sinh viên vào trường Dim_Khoahoc: Lưu trữ về khĩa học của sinh viên 3 Namra Năm sinh viên ra trường 1 MaSV Mã sinh viên 2 Datekey Mã chiều thời gian 3 Makhoahoc Mã khĩa hoc 4 DTBtheoky Điểm trung bình theo kỳ KQHTtheoky: Lưu trữ điểm theo kỳ của sinh viên Hocluctheoky Học lực theo kỳ 1 MaSV Mã sinh viên 2 Makhoahoc Mã khĩa hoc 3 Diemvao Điểm đầu vào của sinh viên 4 DTBkhoahoc Điểm trung bình tồn khĩa KQHT_toankhoa: Lưu trữ điểm tồn khĩa của sinh viên 5 HLkhoahoc Học lực tồn khĩa Hình 3.4 - Bảng các dữ liệu liên quan đến kho dữ liệu về điểm Khi đĩ CSDL nguồn của kho được thiết kế dựa trên mơ hình quan hệ trong hệ quản trị CSDL SQL Server 2008 như sau: -46- Hình 3.5 - Chuẩn hĩa, tối ưu dữ liệu làm nguồn cho kho dữ liệu điểm  Đưa dữ liệu vào CSDL tác nghiệp Chúng tơi đưa kết quả học tập của sinh viên từ phần mềm Microsoft Office Excel sang, export dữ liệu sang hệ quản trị cơ sở dữ liệu SQL Server 2008, bằng các dùng một số câu truy vấn của ngơn ngữ T- SQL để đưa dữ liệu vào cơ sở tác nghiệp làm nguồn cho kho dữ liệu. 3.2.2 Kiến trúc của kho dữ liệu Việc thiết kế và tổ chức một kho dữ liệu là rất quan trọng vì nĩ ảnh hưởng đến việc tổ chức và khai thác báo cáo sau này. Do vậy quá trình này địi hỏi những người thiết kế phải rất hiểu về các kiến trúc, các thành phần và các lược đồ của kho dữ liệu cũng như các ưu nhược điểm của mỗi loại. Việc chọn kiến trúc, lược đồ để xây dựng Kho dữ liệu phải dựa trên những yêu cầu và đặc thù của bài tốn nghiệp vụ và tận dụng những cở sở sẵn cĩ. Từ yêu cầu của việc khai thác các báo cáo như mơ tả ở trên, chúng tơi chọn xây dựng một kho dữ liệu, khơng cĩ các kho dữ liệu chủ đề. Sở dĩ cĩ quyết định này vì trong hệ thống chỉ cĩ duy nhất một chủ đề. Để phù hợp với thực tế, chúng tơi xây dựng một kho dữ liệuvới một bảng sự kiện và các bảng chiều.  Kiến trúc kho dữ liệu đầy đủ gồm các lớp sau:  Data Source: các tệp và CSDL DiemSV. -47- Hình 3.6 – Nguồn của kho dữ liệu về điểm  Vùng dữ liệu tạm (Staging area): lưu dữ liệu tạm thời chưa kiểm tra tính hợp lệ trước khi đưa vào kho dữ liệu, phục vụ cho quá trình làm sạch dữ liệu.  Kho dữ liệu: chứa tồn bộ dữ liệu DiemSV bao gồm các bảng chiều, bảng sự kiện, các bảng tham chiếu.  Các cơng cụ trích lọc, chuyển đổi và nạp dữ liệu: Sử dụng dịch vụ tích hợp cuả hệ quản trị cơ sở dữ liêu SQL Server hoặc ngơn ngữ T- SQL. Trong phạm vi luận văn, chúng tơi sử dụng ngơn ngữ T- SQL để làm nhiệm vụ này.  Hệ quản trị cơ sở dữ liệu SQL Server 2008 Ở đây, chúng ta sử dụng lược đồ hình sao mà khơng sử dụng lược đồ bơng tuyết giúp cho việc xử lý các truy vấn được nhanh hơn, vì thế cần sử dụng các chiều phân cấp. Bảng sự kiện sẽ được nối với nhiều chiều và các độ đo đều là số và dùng chung chiều thời gian cho tất cả các sự kiện. Việc nghiên cứu thiết kế bảng sự kiện được căn cứ vào các yêu cầu thống kê điểm của sinh viên. 3.2.3. Các chiều dữ liệu Các bảng chiều: các bảng đại diện cho các chiều, chính là các điều kiện dùng khi Query. Kho dữ liệu cĩ các bảng chiều như: Dim_Monhoc, Dim_SinhVien. Các sự kiện: các bảng chứa dữ liệu độ đo theo các chiều kể trên, cĩ tên: Fact_Diemmon Chiều thời gian: Dim_time Các thành phần của khối: -48- Hình 3.7 – Các chiều của khối DiemSV-20-4 3.2.4. Các bước cài đặt vật lý kho dữ liệu [15] - Tạo các bảng: tạo các bảng sự kiện, bảng chiều và thiết lập các khĩa chính, khĩa ngồi và các ràng buộc giữa các bảng. - Tạo phân vùng cho các bảng cần thiết. - Tạo các đối tượng chiều. - Tạo các chỉ mục (nếu cần). a. Tạo bảng − Thiết kế cấu trúc vật lý − Sinh ra các kịch bản − Chỉnh sửa tên các ràng buộc như khố chính, ngồi − Tạo các bảng từ các kịch bản b. Tạo phân vùng - Việc tạo phân vùng chỉ áp dụng trên các bảng cĩ số liệu lớn (như bảng sự kiện), cĩ 3 phân vùng cho Fact_diemmon, KQHTtheoky, KQHTToankhoa. - Chiều: dữ liệu ít nên khơng phân vùng c. Tạo các đối tượng chiều Các chiều mà phi chuẩn (kết hợp nhiều bảng danh mục với nhau) thì ta phải tạo phân cấp. d. Tạo các chỉ mục − Sự kiện :  Khố chính: Cluster Index  Mỗi trường trong khố chính tạo 01 Bitmap Index − Bảng đặc biệt : -49-  Khố chính: Cluster Index  Mỗi trường trong khố chính tạo 1 Bitmap Index ngoại trừ các trường mà là giá trị phát sinh khơng cĩ tra cứu (lookup). Sau khi thực hiện các bước trên, ta cĩ kho dữ liệu như mơ tả trong hình 3.8. Hình 3.8 – Kho dữ liệu về điểm của sinh viên 3.3. Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý 3.3.1. Yêu cầu báo cáo Hệ thống được xây dựng cần:  Hỗ trợ tổ chức và khai thác dữ liệu hướng đối tượng, từ đĩ cung cấp khả năng khai thác dữ liệu theo nhiều mức khác nhau: tổng thể hoặc chi tiết; biến động theo thời gian; so sánh giữa các đối tượng báo cáo và theo nhiều chiều khác nhau như theo chiều thời gian, theo các đơn vị báo cáo, …  Cung cấp giao diện đơn giản, hỗ trợ khai thác hiệu quả báo cáo đã cĩ trong CSDL với yêu cầu kiến thức CNTT của người sử dụng ở mức thơng thường. a. Báo cáo chi tiết  Thường liệt kê số liệu theo một hoặc nhiều mã số thống kê như: thơng tin của các sinh viên phải thi lại các mơn ở một kỳ nào đĩ của mỗi lớp...  Cách thức lấy báo cáo đơn giản, ít câu lệnh truy vấn, khơng phải tính tốn cho từng ơ.  Thường cĩ tổng theo các nhĩm và tổng tất cả cuối báo cáo. b. Báo cáo tổng hợp  Cách thức lấy dữ liệu phức tạp, phải tính tốn dữ liệu cho từng ơ trong báo cáo.  Thứ tự sắp xếp theo hàng và cột khơng theo thứ tự sắp xếp của các bảng mã số thống kê.  Dữ liệu cho các ơ cĩ thể là kết quả tính tốn từ các ơ khác. 3.3.2. Lợi ích của báo cáo trong BI -50- Các tổ chức, đơn vị sử dụng báo cáo từ nhiều nguồn nên báo cáo là cốt lõi và được khai thác đầu tiên trong kinh doanh, quản lý. Dịch vụ báo cáo của BI trong hệ quản trị cơ sở dữ liệu SQL Server cho phép các đơn vị truy cập, định dạng và phân phối thơng tin dễ dàng đến nhân viên và các đối tác.  Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web tích hợp trong kinh doanh, quản lý của đơn vị.  Hiển thị kết qủa: Table (bảng), matrix, list, chart,…  Xuất dữ liệu linh hoạt ra PDF, HTML, Microsoft Excel, Rich Text Format, hay văn bản thuần túy.  Tự động hỗ trợ thiết kế báo cáo dễ dàng và nhanh chĩng.  Tích hợp với SharePoint 2007. [17] 3.3.3. Xây dựng báo cáo và đưa ra kết quả a. Thiết kế báo cáo [16] Để thực hiện tạo ra một báo cáo, ta làm như sau: Bước 1: Chọn cơng cụ BI: Bước 2: Đặt tên báo cáo: Hình 3.9 - Cửa sổ tạo Report Server Project Bước 3: Thiết lập kết nối: -51- Hình 3.10- Cửa sổ thiết lập kết nối Bước 4: Thiết lập nguồn: Hình 3.11- Cửa sổ tạo Report Server Project Bước 5: Chọn dữ liệu để hiện thị Sau khi chọn kiểu báo cáo, hình sau là bước hồn thiện và đặt tên cho cáo, căn chỉnh các điều khiển Textbox để hiển thị dữ liệu, chuyển sang tab Preview, kết quả của báo cáo như sau: -52- Hình 3.12 – Hiển thị kết quả của báo cáo thơng thường dạng bảng Thiết kế báo cáo như trên chỉ là một báo cáo thơng thường, chưa cĩ tính trực quan, chưa thể hiện được nhiều ưu thế của báo cáo đa chiều. Báo cáo mới chỉ gộp nhĩm phân trang dữ liệu thành từng khối và việc hiển thị chỉ là thống kê ra số liệu. Báo cáo đa chiều thể hiện tính trực quan, sinh động và linh hoạt hơn, hỗ trợ tốt nhất cĩ thể cho người quản lý cĩ thể nhanh chĩng nắm bắt, cĩ cái nhìn tổng. Dịch vụ báo cáo của BI cho phép tạo ra các báo cáo từ nhiều nguồn khác nhau, chẳng hạn lấy dữ liệu từ cơ sở dữ liệu quan hệ hoặc kho dữ liệu. Tuy nhiêu, nguồn cho báo cáo tốt hơn vẫn là kho dữ liệu. Kho dữ liệu kế thừa các dữ liệu cĩ sẵn giúp tiết kiệm thời gian và chi phí cho việc tạo báo cáo. Dưới đây là một dạng báo cáo lấy nguồn từ kho dữ liệu thể hiện kết quả học tập của sinh viên và những phân tích để thấy được tính ưu việt của việc dùng nguồn cho báo cáo là kho dữ liệu so với những nguồn khác. b. Các ví dụ về thiết kế báo cáo Ví dụ 1: Báo cáo thống kê học lực của sinh viên qua các khĩa học Hình 3.13- Báo cáo lực học của sinh viên thuộc mỗi khĩa học dạng cột Nhìn vào biểu đồ về học lực của sinh viên qua các khĩa học ở hình 3.13. Ta nhận thấy: Ở những khĩa đầu số lượng sinh viên cĩ học lực khá tương đối cao. Sau đĩ, -53- ở các khĩa tiếp theo, số lượng sinh viên cĩ học lực khá cĩ xu hướng giảm. Điều đĩ, cĩ thể cho ta một nhận định là lực học của sinh viên đi xuống. Dữ liệu đầu vào của kỹ thuật thiết kế báo báo này được đặt vào một nguồn ổn định, dữ liệu đã được làm sạch vào chuẩn hĩa - đĩ là kho dữ liệu. Bản chất dữ liệu trong kho nằm ở bảng sự kiện, dữ liệu trực tiếp lấy ra xử lý, giúp loại bỏ nhiều lỗi sinh ra do phải thu thập và biểu diễn thơng tin từ nhiều nguồn khác nhau đồng thời giảm bớt sự chậm trễ do phải lấy dữ liệu từ những phân đoạn khác nhau, tránh cho người dùng phải viết những truy vấn SQL quá phức tạp. Chẳng hạn, khi thiết kế báo báo ở hình 3.14, nếu dùng nguồn là CSDL thơng thường, truy vấn phải thực hiện các cơng đoạn: Gom nhĩm và tính tốn cho nhĩm, chuyển đổi dữ liệu dịng thành cột,...Và việc viết truy vấn dạng này địi hỏi sự hiểu biết sâu về ngơn ngữ SQL. Báo cáo lấy nguồn từ CSDL thơng thường, truy vấn thực hiện mỗi khi chạy và phải tính tốn lại các kết quả trung gian do đĩ tốc độ thực hiện báo cáo cĩ nguồn là kho dữ liệu sẽ nhanh hơn so với CSDL thơng thường. Để tạo lập một báo cáo phức tạp phục vụ cho mục đích ra quyết định của doanh nghiệp, trong tab Design thêm vào các báo cáo cần thiết như chart, gause, image,… và thiết lập các tham số, các trường dữ liệu cho các mục. Ví dụ 2: Theo dõi tỉ lệ giới tính của sinh viên theo khĩa học Hình 3.14 – Báo cáo thống kê số lượng về giới tính dạng thanh Hình 3.14, cho chúng ta biết thơng tin chi tiết về tỉ lệ nam, nữ qua các khĩa học, ta cĩ thể nhận xét: Số lượng sinh viên chuyên ngành cơng nghệ thơng tin của trường cĩ xu hướng nữ nhiều hơn nam. Ví dụ 3: Báo cáo về điểm vào trung bình, điểm tổng kết trung bình của sinh viên thuộc mỗi khĩa học: -54- Hình 3.15 – Báo cáo điểm vào trung bình của sinh viên dạng hình dáng. Hình 3.15, tuy một số khĩa đầu khơng cĩ dữ liệu về điểm tuyển sinh của sinh viên, nhưng ta vẫn nhận thấy rằng: điểm đầu vào của sinh viên ngày càng thấp, điểm tổng kết của sinh viên cũng tỉ lệ thuận với vào điểm vào của sinh viên đĩ. Ví dụ 4: Theo dõi sự phụ thuộc giữa điểm tổng kết của sinh viên với điểm mơn tốn của sinh viên đĩ: Hình 3.16 – Theo dõi điểm tốn của sinh viên khĩa k03 dạng Line Hình 3.17 – Theo dõi điểm tổng kết của sinh viên khĩa k03 dạng Line Với ví dụ 4, hình 3.16 và 3.17, cho ta dự đốn rằng, đại đa số những sinh viên cĩ điểm tốn cao (học giỏi tốn) thì điểm tổng kết cũng sẽ cao. Tuy nhiêu, điểm tổng kết của sinh viên cịn phụ thuộc vào nhiều yếu tố khác. Ví dụ 5: Báo cáo về lực học của sinh viên theo học kì: -55- Hình 3.18 – Học lực của sinh viên theo kỳ học Với ví dụ 5, hình 3.18, đây là kết quả tồn khĩa học của mỗi sinh viên, nhìn vào hình vẽ người xem cĩ thể nhận kết quả của sinh viên qua các kì học, đại đa số càng những kì cuối kết quả cao hơn những kì đầu. Nguyên nhân gây ra vấn đề này cĩ thể do tâm lý, mơi trường thay đổi, ngành học…Điều đĩ, giúp những tân sinh viên khĩa mới xác định tâm lý ngay từ đầu bước vào giảng đường đại học. Thơng qua các báo cáo đã thiết kế ở các ví dụ trên, những người lãnh đạo cĩ thể lợi dụng các kết quả này để điều chỉnh chương trình học đào tạo phù hợp, điều chỉnh các mơn học cho phù hợp với từng kỳ học, của mỗi hệ đào tạo khác nhau, quyết định dự kiến điểm đầu vào để thu hút nhân tài và nâng cao chất lượng đào tạo. 3.3.4. Tính ưu việt của báo cáo xây dựng từ kho dữ liệu [16] Hệ quản trị cơ sở dữ liệu SQL Server 2008 xây dựng dịch vụ báo cáo là sự nâng cấp của bản 2000, 2005. Nhĩm tác giả của cuốn sách “Wrox - Professional Microsoft SQL Server 2008 Report Services (2008)” đã khẳng định được tính ưu việt vượt trội hơn hẳn so với một số cơng cụ tạo báo cáo truyền thống như Crystal Reports… Báo cáo thiết kế đã được sử dụng các cơng cụ Crystal Reports, ví dụ, sẽ thường là một chút đe dọa bởi các cơng cụ báo cáo thiết kế dịch vụ này, họ cĩ thể khơng quen thuộc và với các tính năng nghèo nàn hơn. Dịch vụ báo cáo là giải pháp báo cáo mở cho phép tạo, xuất bản và phân phối các báo cáo doanh nghiệp chi tiết một cách dễ dàng cả bên trong và bên ngồi tổ chức. Các báo cáo cĩ thể xuất ra nhiều dạng file và truy cập bằng cách gửi địa chỉ tới một trạm internet hoặc mạng cục bộ một cách thích hợp thành lập để máy chủ, do đĩ, nĩ khá linh hoạt. Dịch vụ báo cáo đáp ứng các nhu cầu của dân cơng nghệ thơng tin nĩi chung và các chuyên gia nĩi riêng. Người thiết kế báo cáo khơng quá tốn nhiều thời gian để hồn thành một báo cáo; tùy biến các dạng hiển thị biểu đồ theo ý muốn. -56- Hơn thế nữa, dịch vụ báo cáo ngồi việc tạo ra các báo cáo thơng thường, dịch vụ cịn tạo ra các báo cáo cho phép dự đốn được sự thay đổi về dữ liệu, ra quyết định trong tương lai mà một báo cáo truyền thống khĩ làm được điều đĩ. 3.4. Kết luận chương 3 Chương này trình bày các vấn đề:  Hiện trạng dữ liệu và nhu cầu xây dựng kho.  Xây dựng kho dữ liệu về điểm của sinh viên: Thơng tin về dữ liệu điểm, kiến trúc của kho dữ liệu, các chiều dữ liệu, các bước cài đặt kho dữ liệu.  Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý: Yêu cầu về xây dựng báo cáo, lợi ích của báo cáo trong BI, xây dựng báo cáo và kết quả, tính ưu việt của báo cáo được xây dựng từ kho dữ liệu. -57- Chương 4 - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU 4.1. Ứng dụng kỹ thuật KPDL để dự báo, dự đốn 4.1.1. Yêu cầu dự báo, dự đốn xu thế a. Yêu cầu chung Trong cơng tác giáo dục - đào tạo. Bài tốn hoạch định chiến lược đào đạo của đơn vị nĩi chung, của một trường học nĩi riêng là yêu cầu trọng điểm và nâng cao hiệu quả đào tạo, thu hút sinh viên. Trong việc hoạch định chiến lược đào tạo cĩ nhiều vấn đề phải giải quyết: nguồn nhân lực, trang thiết bị, đội ngũ cán bộ giáo viên cĩ kinh nghiệm, xây dựng và quản lý chương trình đạo tạo, chỉ tiêu đào tạo... Ngồi những vấn đề này; việc quản lý, theo dõi tình hình học tập của sinh viên theo các ngành nghề khác nhau là một vấn đề quan trọng để đưa ra chỉ tiêu tuyển sinh của trường một cách nhanh và chính xác nhất. Cung cấp các báo cáo, thơng tin cho ban lãnh đạo đầy đủ và nhanh chĩng nhất, một loạt câu hỏi hĩc búa cần phải giải quyết như:  Làm thế nào để trường dự đốn đúng được chỉ tiêu tuyển sinh vào các ngành nghề?  Làm thế nào để thu hút, bồi dưỡng được nguồn lực tại trường mình?  Làm thế nào để lập kế hoạch cơng việc và đánh giá hiệu quả làm việc của cán bộ một cách chính xác và khách quan nhất?  Làm thế nào để đưa ra các báo cáo một cách nhanh và trực quan nhất? b. Yêu cầu cụ thể: Từ các yêu cầu chung hình thành các yêu cầu cụ thể bước đầu:  Hồn chỉnh bước đầu, lưu trữ đầy đủ thơng tin cơ bản của hồ sơ liên quan đến cán bộ: Thơng tin cơ bản, thơng tin cá nhân, thơng tin cơng việc;  Lưu trữ đầy đủ thơng tin cơ bản của hồ sơ liên quan đến học sinh - sinh viên: Thơng tin cá nhân, thơng tin về điểm của nhiều khĩa học liên tiếp nhau.  Quản lý được nguồn lực: Đáp ứng được việc hỗ trợ xây dựng quy trình nhân sự như: tuyển dụng, quy trình đánh giá nguồn nhân lực, đào tạo, giám sát bổ sung biên chế…;  Quản lý và xây dựng chương trình đào tạo cho phù hợp với từng chuyên ngành, từng loại hình đào tạo.  Giải pháp lưu trữ dữ liệu: Cơ sở dữ liệu thiết kế cĩ cấu trúc mở, dễ liên lạc với các hệ thống cơ sở dữ liệu khác liên quan hoặc thiết kế kho dữ liệu để lưu trữ. Tuy nhiên với 2 giải pháp này, nếu thiết kế cơ sở dữ liệu bằng phương pháp truyền thống thì bị hạn chế bởi kích thước về dữ liệu, tốc độ xử lý các truy vấn bị hạn chế nên giải pháp về kho dữ liệu là khả thi.  Dựa trên kho dữ liệu mà chúng tơi đã trình bày ở chương 3. Chúng tơi muốn khai thác dữ liệu tiền ẩn từ kho dữ liệu về điểm mà mình đã xây dựng. Với việc -58- khai thác nguồn ngữ liệu phong phú này sẽ giúp lãnh đạo của trường theo dõi được thơng tin về tình hình học tập, mối quan hệ giữa các mơn học…Từ đĩ, Dự đốn sinh viên học giỏi mơn tốn cĩ kết quả học tập cao khơng? Dự đốn kết quả của sinh viên trong năm học tiếp theo? quyết định chỉ tiêu tuyển sinh vào các ngành nghề một cách phù hợp nhất, điều chỉnh chương trình đào tạo cho phù hợp, đưa ra các chiến lược tuyển sinh phù hợp ở các năm sau. 4.1.2. Ưu điểm của một số thuật tốn khai phá trong BI a. Ưu điểm của phương pháp Decision Tree:  Dễ dàng xây dựng.  Phân lớp mẫu mới nhanh  Dễ dàng diễn giải cho những cây cĩ kích thước nhỏ.  Độ chính xác chấp nhận được so với các kỹ thuật phân lớp khác trên nhiều tập dữ liệu lớn. b. Ưu điểm của phương pháp Nạve Bayes:  Dễ cài đặt  Thời gian thi hành tương tự như cây quyết định.  Đạt kết quả tốt trong phần lớn các trường hợp. Nhược điểm:  Giả thiết về tính độc lập điều kiện của các thuộc tính làm giảm độ chính xác. 4.2. Xây dựng mơ hình dự báo dựa trên Data Mining Tool Trong phạm vi luận văn, chúng tơi sử dụng 3 thuật tốn: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes. [13], [15], [17] 4.2.1. Khảo sát dự đốn kết quả học tập của sinh viên  Xây dựng mơ hình khai phá dữ liệu: Hình 4.1 – Cấu trúc mơ hình dùng cho các thuật tốn: Decision Tree, Nạve Bayes, Neural Network  Mơ hình khai phá: Trong một mơ hình khai phá bao gồm các thuộc tính đầu vào, thuộc tính khĩa và thuộc tính dự đốn. -59- Hình 4.2 – Mơ hình khai phá cho 3 thuật tốn  Kết quả khi dùng 3 thuật tốn: a. Thuật tốn cây quyết định: Hình 4.3 – Cây phân nhánh khi dùng thuật tốn Decision Tree Mỗi nút trong cây quyết định trên thể hiện 3 phần thơng tin sau:  Điều kiện địi hỏi để đạt tới nút của nút trước nĩ. Ta cĩ thể thấy đường dẫn đầy đủ của nút từ cây trên.  Một biểu đồ miêu tả sự phân bổ trạng thái của các cột cĩ khả năng dự đốn theo sự phổ biến.  Sự tập trung các trường hợp, nếu trạng thái các thuộc tính cĩ thể dự đốn được chỉ ra. Nếu các dữ liệu đầu vào khơng ảnh hưởng tới thuộc tính dự báo thì cây quyết định sẽ khơng phân nhánh: Hình 4.4 – Cây khơng phân nhánh khi dùng thuật tốn cây quyết định Mạng phụ thuộc: Nút trung tâm là Xeploai thể hiện thuộc tính dự đốn trong mơ hình dữ liệu cịn các nút xung quanh thể hiện thuộc tính bị tác động bởi thuộc tính dự đốn. Hình 4.5 – Mạng phụ thuộc khi dùng thuật tốn Decision Tree -60- b. Thuật tốn Nạve Bayes: Hình 4.6 – Mạng phụ thuộc khi dùng thuật tốn Nạve Bayes Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật tốn Nạve Bayes Chúng ta cĩ thể thấy những đặc điểm thuộc tính của mơ hình . Nĩi cách khác, chúng ta cĩ thể nhìn thấy xác suất của một giá trị thuộc tính cụ thể được trình bày cùng với giá trị dự đốn trong hình 4.8. Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật tốn Nạve Bayes Thơng qua kết quả hình 4.8, chúng ta nhận thấy xác suất những sinh viên là nữ cĩ học lực khá cao hơn sinh viên là nam.  Biểu đồ của mơ hình: -61- Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật tốn  Ở đồ thị trên, đường màu xanh da trời thể hiện ngưỡng giá.  Đường màu xanh lá cây thể hiện giá trị lý tưởng của học lực trung bình.  Các đường màu đỏ, tím, vàng thể hiện giá trị dự báo thực tế của học lực trung bình khi sử dụng các thuật tốn tương ứng: Nạve Bayes, Decision Tree, Neural Network.  Đưởng thẳng đứng màu đen hiển thị phần trăm dữ liệu được huấn luyện cho mơ hình khai phá này.  Trong 3 đường màu đỏ, tím, vàng; đường nào càng đi dọc theo biên trái và rồi đi dọc theo biên phía trên, thì chứng tỏ kết quả kiểm tra càng chính xác cong đường nào càng tiến tới thành đường chéo màu xanh da trời, thì độ chính xác của kiểm tra càng kém.  Ma trận phân lớp: Hình 4.10 – Ma trận phân lớp khi dùng ba thuật tốn -62- Từ bảng dữ liệu trên ta cĩ thể biết được số lượng dự báo của từng loại học lực so với dữ liệu thực tế. Với kết quả cho ở hình 4.10, khi thuật tốn Nạve Bayes, số lượng học sinh thực tế đạt kết quả giỏi là 1 nhưng thực tế dự đốn là 15 (1+3+4+7), số lượng học sinh thực tế đạt kết quả khá là 7 nhưng thực tế dự đốn là 15 (7+7+1), số lượng học sinh thực tế đạt kết quả trung bình - khá là 24 nhưng thực tế dự đốn là 38 (5+24+9), số lượng học sinh thực tế đạt kết quả trung bình là 46 nhưng thực tế dự đốn là 53 (1+6+46). Tương tự, tính tốn số lượng thực và dự đốn với 2 thuật tốn cịn lại.  Mơ hình dự đốn: Hình 4.11 – Xây dựng mơ hình dự đốn cho thuật tốn Nạve Bayes Kết quả dự đốn: Hình 4.12 – Kết quả dự đốn khi dùng thuật tốn Nạve Bayes Ba cột MaSv, Hocluc và Expression thể hiện khả năng dự đốn đúng về học lực của sinh viên. Chẳng hạn, với sinh viên cĩ mã Tin98-17 khả năng dự đốn học lực trung bình khá là 98%, so với kết quả thực tế ta thấy đúng với kết quả thực tế. Ta sẽ sử dụng kết quả này để kiểm sốt tình hình học tập của sinh viên. -63- 4.2.2. Phân tích kết quả đạt được Sau khi thử nghiệm với 3 thuật tốn: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes, chúng tơi đưa ra các nhận xét sau: Sở dĩ, chúng tơi đưa ra 3 thuật tốn này, vì cả ba thuật tốn đều dùng để phân lớp dữ liệu nên người đọc dễ theo dõi và dễ so sánh các kết quả. Với cấu trúc mơ hình khai phá mục 4.2.1, khi sử dụng thuật tốn Dicision Tree thì học lực (Hocluc) của sinh viên được quyết định chủ yếu dựa vào thuộc tính: (diemky3, gioitinh); khi dùng thuật tốn Nạve Bayes học lực (Hocluc) của sinh viên phụ thuộc vào 3 thuộc tính (diemky3, diem ky1, gioitinh); cịn khi dùng thuật tốn Neural Network thì học lực của sinh viên cĩ phần phụ thuộc nhiều vào yếu tố giới tính(gioitinh) của sinh viên. Từ mơ hình khai phá được thực nghiệm trong mục 4.2.1để so sánh về độ chính xác khi sử dụng 3 thuật tốn: Decision Tree, Neural Network, Nạve Bayes. Căn cứ biểu đồ hình 4.9, chúng ta thấy rằng, khi dùng thuật tốn Nạve Bayes thì khả năng dự đốn là cĩ phần chính xác hơn 2 thuật tốn cịn lại. 4.3. Kết luận chương 4 Chương này trình bày các vấn đề:  Ứng dụng kỹ thuật KPDL để dự báo, dự đốn: Yêu cầu dự báo, dự đốn xu thế, một số thuật tốn KPDL của BI.  Xây dựng mơ hình dự báo trên Data mining Tool: Khảo sát dự đốn kết quả học tập của sinh viên, phân tích kết quả đạt được. -64- KẾT LUẬN – HƯỚNG PHÁT TRIỂN Các mục tiêu đã thực hiện trong luận văn Sau 1 thời gian thực hiện nghiên cứu và thực nghiệm, chúng tơi cĩ thể đáp ứng các mục tiêu mà luận văn đặt ra:  Nghiên cứu và hiểu được các vấn đề của kho dữ liệu, KPDL, bộ cơng cụ BI của hệ quản trị cơ sở dữ liệu SQL Server 2008, ngơn ngữ T- SQL.  Xây dựng được kho dữ liệu về điểm của sinh viên.  Thiết kế báo cáo nhiều dạng phục vụ cho cơng tác báo cáo nghiệp vụ.  Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mơ hình dự đốn.  Xây dựng mơ hình khai phá dữ liệu để khám phá các dữ liệu tiềm ẩn.  Sử dụng các mơ hình để tạo các dự đốn đơn giản, mà cĩ thể sử dụng sau đĩ để tạo ra các quyết định nghiệp vụ đào tạo của trường.  So sánh được độ chính xác khi sử dụng 3 thuật tốn khai phá: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes trên một mơ hình khai phá. Hướng phát triển Dựa trên kết quả đã thực hiện, luận văn cĩ các hướng phát triển như sau:  Triển khai kho dữ liệu với nguồn dữ liệu lớn.  Tích hợp tự động dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu.  Xây dựng hệ thống hoạt động hồn chỉnh. -65- TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (2010), Bài giảng “kho dữ liệu và khai phá dữ liệu”. [2] Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2010) , Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, tr 35. [3] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và Olap”, mơn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13. [4] T.S Nguyễn Trí Thành (2009), chương 1, bài giảng Web mining, slide 12. [5] Trường Đại học SPKT Hưng Yên (2010), Báo cáo kế hoạch 2011 và 5 năm 2011-2015. [6] liu/1095-tng-quan-v-data-warehouse?lang= [7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70. [8] Phạm Thị Thu, nghiên cứu KPDL trong Microsoft Server 2005 với thuật tốn MICROSOFT ASSOCIATION RULES và MICROSOFT DECISION TREE, , khĩa luận tốt nghiệp, nguồn: , tr 47 – 51. [9] SQL Server tutorials, SQL Server 2008 Books Online [10] Hồng Đình Thắng (2010), tiểu luận mơn học “Các vấn đề hiện đại về hệ thống thơng tin”,lớp k15HTTT, giáo viên hướng dẫn Nguyễn Ngọc Hĩa, tr 3- 16. [11] 205b3& showtopic=25068&st=20 [12] cong-data-warehouse-voi-giai-phap-oracle-exadata.htm Tiếng anh: [13] McGraw-Hill (2008), Delivering Business Intelligence with Microsoft SQL Server 2008. [14] Wiley.Data.Mining.with.SQL.Server.2005.Sep.2005.eBook-DDU [15] Apress (2008) - Building a Data Warehouse, With Examples In Sql Server. [16] Wrox (2008) - Professional Microsoft SQL Server 2008 Reporting Services. [17] Wiley (2008) – Data mining with Microsoft SQL Server 2008. [18] [19] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp. 29-51.

Các file đính kèm theo tài liệu này:

  • pdfLUẬN VĂN-NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008.pdf
Luận văn liên quan