Xây dựng được kho dữ liệu về điểm của sinh viên.
Thiết kế báo cáo nhiều dạng phục vụ cho công tác báo cáo nghiệp vụ.
Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mô hình dự đoán.
Xây dựng mô hình khai phá dữ liệu để khám phá các dữ liệu tiềm ẩn.
Sử dụng các mô hình để tạo các dự đoán đơn giản, mà có thể sử dụng
sau đó để tạo ra các quyết định nghiệp vụ đào tạo của trường.
So sánh được độ chính xác khi sử dụng 3 thuật toán khai phá: Microsoft
Decision Tree, MicrosoftNeural Network, Microsoft Naïve Bayes trên một
mô hình khai phá.
65 trang |
Chia sẻ: lylyngoc | Lượt xem: 2693 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ bi của hệ quản trị csdl sql server 2008, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ự
đốn, để so sánh với dữ liệu đầu vào. Nếu một thuộc tính đầu vào đựơc coi là
nguyên nhân của thuộc tính dự đốn, một nút mới sẽ thêm vào mơ hình. Mơ hình
tiếp tục phát triển cho đến lúc khơng cịn thuộc tính nào, tạo thành một sự phân tách
để cung cấp một dự báo hồn chỉnh thơng qua các nút đã tồn tại. Mơ hình địi hỏi
tìm kiếm một sự kết hợp giữa các thuộc tính và trường của nĩ, nhằm thiết lập một
sự phân phối khơng cân xứng giữa các trường trong thuộc tính dự đốn. Vì thế cho
phép dự đốn kết quả của thuộc tính dự đốn một cách tốt nhất. [10], [17]
a.1.1.Tạo Cây
Cây quyết định được tạo thành bằng cách lần lượt chia một tập dữ liệu thành
các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một
lớp. Các nút khơng phải là nút lá là các điểm phân nhánh của cây. Việc phân nhánh
-32-
tại các nút cĩ thể dựa trên việc kiểm tra một hay nhiều thuộc tính để xác định việc
phân chia dữ liệu. Chúng ta chỉ xét việc phân nhánh nhị phân vì cho cây chính xác
hơn.
a.1.2. Entropy và Information Gain
Đây là các cơng thức để tính tốn cho việc chọn thuộc tính để phân nhánh
cây quyết định. Việc chọn thuộc tính nào tại một nút để phân nhánh cĩ thể dựa trên
các chỉ số như Index hay Entropy.
Giả sử thuộc tính dự đốn cĩ m giá trị phân biệt (tức là cĩ m lớp Ci, i=1, …, m), S
cĩ s mẩu tin, si là số các mẩu tin trong S thuộc lớp Ci. Index được tính như sau:
1.1
Entropy được tính như sau:
1.2
Giả sử thuộc tính A cĩ n giá trị phân biệt {a1, a2,…, an}. Gọi Sj là tập con
của S cĩ giá trị của thuộc tính A là aj, sij là số các mẩu tin thuộc lớp Ci trong tập
Sj. Nếu phân nhánh theo thuộc tính A thì.
1.3
Lúc đĩ ta cĩ được chỉ số Gain, và ứng với thuộc tính A là:
Gain(A)=I(s1,s2,…,sm) - G(A)
Dựa vào chỉ số Gain ta chọn thuộc tính để phân nhánh cho cây quyết
định. G(A) càng nhỏ thì các tập con càng đồng nhất hơn. Bởi vậy chúng ta chọn
thuộc tính cho Gain(A) lớn nhất để phân nhánh.
Sau khi đã chọn được thuộc tính tốt nhất, chúng ta tạo thêm một nút phân
nhánh cho cây, gán nhãn cho nút là thuộc tính được chọn và tiến hành phân chia tập
S. [9]
a.1.3. Ví dụ:
TT Quê quán Điểm vào Kinh tế Giới
tính
Học
lực
1 Hà nội Trung bình Khơng tốt Nữ TB
2 Hà nội Cao Bình thường Na Khá
-33-
m
3 Hưng Yên Thấp Bình thường Na
m
Khá
4 Hà nội Thấp Bình thường Nữ TB
5 Hải phịng Trung bình Tốt Nữ TB
6 Hưng Yên Cao Tốt Nữ Khá
7 Hưng Yên Trung bình Tốt Nữ Khá
8 Hà nội Thấp Khơng tốt Na
m
Khá
Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật tốn Cây quyết định
Bước 1:
Các thuộc tính và miền giá trị tương ứng baogồm:
Thuộc tính Quê quán cĩ miền giá trị {Hà nội, Hưng Yên, Hải phịng}
Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}
Thuộc tính Kinh tế cĩ miền giá trị {Tốt, Bình thường, Khơng tốt}
Thuộc tính Giới tính cĩ miền giá trị {Nam, Nữ}
Thuộc tính Lớp cĩ miền giá trị {P, N} (P ứng với Khá và N là ngược lại - TB)
Khối lượng thơng tin cần thiết để quyết định một mẫu tùy ý cĩ thuộc về lớp P hay
N hay khơng là:
I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n))
I(5,3) = -(5/8)* log2(5/8)-(3/8)* log2(3/8) = 0,954
Tính Entropy cho thuộc tính Quê quán
Quê quán pi ni I(pi,ni)
Hà nội 2 2 1
Hưng yên 3 0 0
Hải phịng 0 1 0
Hình 2.10 – Entrophy cho thuộc tính “Quê quán”
Ta cĩ:
E(Quê quán) = (4/8)*I(2,2) + (3/8)*I(3,0) + (1/8)*I(0,1) = 0,5
Do đĩ:
Gain(Quê quán) = I(5,3) – E(Quê quán) = 0,954 – 0,5 = 0,454
Tương tự:
Tính Entropy cho thuộc tính Điểm vào
Điểm vào pi ni I(pi,ni)
Cao 2 0 0
Trung bình 1 2 0,918
-34-
Hình 2.14 - Chọn nút phân nhánh của cây
Thấp 2 1 0,918
Hình 2.11 – Entrophy cho thuộc tính “Điểm vào”
E(Điểm vào) = (2/8)*I(2,0) + (3/8)*I(1,2) + (3/8)*I(2,1) = 0,689
Gain(Điểm vào) = 0,954 – 0,689 = 0,265
Tính Entropy cho thuộc tính Kinh tế
Kinh tế pi ni I(pi,ni)
Tốt 2 1 0,918
Bình thường 2 1 0,918
Khơng tốt 1 1 1
Hình 2.12 – Entrophy cho thuộc tính “Kinh tế”
E(Kinh tế) = (3/8)*I(2,1) + (3/8)*I(2,1) + (2/8)*I(1,1) = 0,939
Gain(Kinh tế) = 0,954 – 0,939 = 0,015
Tính Entropy cho thuộc tính giới tính
Giới tính pi ni I(pi,ni)
Nam 3 0 0
Nữ 2 3 0,970
Hình 2.13 – Entrophy cho thuộc tính “Giới tính”
E(giới tính) = (3/8)*I(3,0) + (5/8)*I(2,3) = 0,607
Gain(giới tính) = 0,954 – 0,607 = 0,347
Chọn thuộc tính cĩ độ lợi thơng tin lớn nhất là thuộc tính “Quê quán”, ta cĩ cây cĩ
dạng:
Bước 2:
Trong cây này ta thấy ứng với quê ở Hà nội cịn 2 phần tử cĩ trị P và 2 phần tử cĩ
trị N. Tiếp tục áp dụng thuật tốn cho nút con này cho đến khi đạt đến nút lá hoặc
nút cĩ entropy=0. Ta cĩ tập dữ liệu (con) ứng với quê Hà nội như sau:
Điểm vào Kinh tế Giới tính Học lực
Trung bình Khơng tốt Nữ TB
Cao Bình thường Nam Khá
Thấp Bình thường Nữ TB
Quê quán
Hà nội Hưng yên Hải phịng
-35-
Thấp Khơng tốt Nam Khá
Hình 2.15 – Bảng dữ liệu đầu vào con
Các thuộc tính và miền giá trị tương ứng baogồm:
Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}
Thuộc tính Kinh tế cĩ miền giá trị {Bình thường, Khơng tốt}
Thuộc tính giới tính cĩ miền giá trị {Nam, Nữ}
Thuộc tính Lớp cĩ miền giá trị {P, N} (P ứng với Khá và N là ngược lại - TB)
Khối lượng thơng tin cần thiết để quyết định một mẫu tùy ý cĩ thuộc về lớp P hay
N hay khơng là:
I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n))
I(2,2) = 1
Tính Entropy cho thuộc tính Điểm vào
Điểm vào pi ni I(pi,ni)
Cao 1 0 0
Trung bình 0 1 0
Thấp 1 1 1
Hình 2.16 – Entrophy cho thuộc tính “Điểm vào”
E(Điểm vào) = (1/4)*I(1,0) + (1/4)*I(0,1) + (2/4)*I(1,1) = 0,5
Gain(Điểm vào) = 1 – 0,5 = 0,5
Tính Entropy cho thuộc tính Kinh tế
Kinh tế pi ni I(pi,ni)
Bình thường 1 1 1
Khơng tốt 1 1 1
Hình 2.17 – Entrophy cho thuộc tính “Kinh tế”
E(Kinh tế) = (2/4)*I(1,1) + (2/4)*I(1,1) = 1
Gain(Kinh tế) = 0,954 – 1 = -0,046
Tính Entropy cho thuộc tính Giới tính
Giới tính pi ni I(pi,ni)
Nam 2 0 0
Nữ 0 2 0
Hình 2.18 – Entrophy cho thuộc tính “giới tính”
Quê quán
Hà nội Hưng yên Hải phịng
Nam Nữ
-36-
Hình 2.19 - Cây quyết định kết quả
E(Giới tính) = (2/4)*I(2,0) + (2/8)*I(0,2) = 0
Gain(Giới tính) = 0,954 – 0 = 0,954
Như vậy thuộc tính “Giới tính” cĩ độ lợi thơng tin lớn nhất được dùng để phân lớp,
ta cĩ cây quyết định tạo ra như hình 2.19.
Như vậy các luật được tạo ra như sau:
IF (Quê quán = ‘Hưng Yên’) OR (Quê quán = ‘Hà nội’ AND giới tính = ‘Nam’)
THEN ‘Khá’
ELSE ‘TB’
a.2. Thuật tốn Nạve Bayes:
Thuật tốn này xây dựng mơ hình khai thác nhanh hơn các thuật tốn
khác, phuc vụ việc phân loại và dự đốn. Nĩ tính tốn khả năng cĩ thể xảy ra
trong mỗi trường hợp lệ của thuộc tính đầu vào, gán cho mỗi trường một thuộc
tính cĩ thể dự đốn. Mỗi trường này cĩ thể sau đĩ được sử dụng để dự đốn kết quả
của thuộc tính dự đốn dựa vào những thuộc tính đầu vào đã biết. Các khả năng sử
dụng để sinh ra các mơ hình được tính tốn và lưu trữ trong suốt quá trình xử lý của
khối lập phương. Thuật tốn này chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên
tục, và nĩ xem xét tất cả các thuộc tính đầu vào độc lập. Thuật tốn này cho ta một
mơ hình khai thác đơn giản (cĩ thể được coi là điểm xuất phát của khai phá dữ
liệu), bởi vì hầu như tất cả các tính tốn sử dụng trong khi thiết lập mơ hình, được
sinh ra trong xử lí của khối, kết quả được trả về nhanh chĩng. Điều này tạo cho mơ
hình một lựa chọn tốt để khai phá dữ liệu khám phá các thuộc tính đầu vào được
phân bố trong các trường khác nhau của thuộc tính dự đốn như thế nào?
Bài tốn:
Gọi X là đối tượng chưa biết lớp. H là giả thuyết sao cho X thuộc về lớp C. Ta
cần tính xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho
trước quan sát X (H conditioned on X).
Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1,
A2,…, An.
Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. Phân lớp Nạve Bayesian
gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 ≤ j≤ m, j ≠ i.
Do
1.4
P(X)
Ci)P(Ci)|P(XX)|P(Ci
-37-
nên P(Ci|X) > P(Cj|X) P(X|Ci).P(Ci) > P(X|Cj).P(Cj)
Giả thiết các thuộc tính là độc lập tức là
1.5
Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci. Sau đĩ mẫu X
được gán vào Ci nếu P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i . Nĩi cách khác,
Nạve Bayesian gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại.
Ví dụ:
Dựa vào bảng dữ liệu cho trong hình 2.9, ta cĩ thể tính các xác suất sau:
- Xác suất lớp dương (Khá): P(p) = 5/8
- Xác suất lớp âm (TB): P(n) = 3/8
Quê quán
P(Hà nội | p) = 2/5 P(Hà nội | n) = 2/3
P(Hưng yên | p) = 3/5 P(Hưng yên | n) = 0
P(Hải phịng | p) = 0 P(Hải phịng | n) = 1/3
Điểm vào
P(Cao | p) = 2/5 P(Cao | n) = 0
P(Trung bình | p) = 1/5 P(Trung bình | n) = 2/3
P(Thấp | p) = 2/5 P(Thấp | n) = 1/3
Kinh tế
P(Tốt | p) = 2/5 P(Tốt | n) = 1/3
P(Bình thường | p) = 2/5 P(Bình thường | n) = 1/3
P(Khơng tốt | p) = 1/5 P(Khơng tốt | n) = 1/3
Giới tính
P(Nam | p) = 3/5 P(Nam | n) = 0
P(nữ | p) = 2/5 P(Nữ | n) = 3/3
Hình 2.20 – Tính xác suất cho các thuộc tính
Xét một mẫu X cĩ Quê quán (khơng quan tâm các thuộc tính khác)
P(Hưng Yên | n) = 0 => P(X|n)*P(n) = 0
P(xi | p) > 0 => P(X | p) > 0
Suy ra mẫu X thuộc lớp P (Khá)
- Xét một mẫu X cĩ quê Hà nội và cĩ giới tính Nam (khơng quan tâm các thuộc
tính cịn lại)
P(Nam | n) = 0 => P(X|n)*P(n) = 0
P(xi | p) > 0 => P(X | p) > 0
Suy ra mẫu X thuộc lớp P (Khá)
Hai phân lớp trên phù hợp với luật được suy ra từ giải thuật ID3. Tuy nhiên, xét
mẫu X = , ta cĩ:
)C|
n
1k k
P(x)C|kx,...,1P(x)C|P(X jjj
-38-
P(Hải phịng | p) = 0 => P(X|p)*P(p) = 0
P(Cao | n) = 0 => P(X|n)*P(n) = 0
=> Khơng thể xác định X thuộc lớp nào!
Các bước của khai phá dữ liệu:
Khai phá dữ liệu là quá trình khám phá các thơng tin hữu dụng từ bộ dữ liệu lớn.
Khai phá dữ liệu sử dụng phân tích tốn học để lấy mẫu và các xu hướng tồn tại trong
dữ liệu. Xây dựng một mơ hình khai phá dữ liệu là một phần của một quá trình lớn
hơn bao gồm đủ mọi thứ từ đặt câu hỏi về dữ liệu và tạo ra một mơ hình để trả lời
những câu hỏi, đến triển khai các mơ hình thành một mơi trường làm việc. Quá trình
này cĩ thể được xác định bằng cách sử dụng sau 6 bước cơ bản:
Xác định vấn đề
Chuẩn bị dữ liệu
Khám phá dữ liệu
Xây dựng mơ hình
Khám phá và kiểm tra mơ hình
Triển khai và cập nhật mơ hình
Mặc dù quá trình minh họa trong biểu đồ là vịng trịn, mỗi bước khơng nhất thiết
dẫn trực tiếp đến bước tiếp theo. Mỗi bước trong tiến trình cĩ thể cần phải được lặp lại
nhiều lần để tạo ra một mơ hình tốt.
Xác định vấn đề:
Bước đầu tiên trong quá trình khai phá dữ liệu, như nêu bật trong sơ đồ sau đây, là
để xác định rõ các vấn đề kinh doanh, dịch vụ, và cân nhắc các cách để cung cấp một
câu trả lời cho vấn đề.
Chuẩn bị dữ liệu:
Bước thứ hai trong quá trình khai phá dữ liệu, là để củng cố và làm sạch dữ liệu đã
được xác định ở bước xác định các vấn đề.
Cĩ thể tiến hành khai phá dữ liệu sử dụng bất kỳ nguồn dữ liệu đã được định nghĩa
như là một nguồn dữ liệu dịch vụ phân tích. Cĩ thể bao gồm các tập tin văn bản, bảng
tính Excel, hoặc dữ liệu từ các nhà cung cấp khác bên ngồi.
Thăm dị dữ liệu:
Bước thứ ba trong quá trình khai phá dữ liệu, là để khám phá những dữ liệu đã
chuẩn bị sẵn sàng.
Phải hiểu được dữ liệu để đưa ra quyết định thích hợp khi tạo các mơ hình khai phá
dữ liệu. Kỹ thuật khám phá bao gồm các tính tốn giá trị tối thiểu và tối đa, tính trung
bình và độ lệch chuẩn, và nhìn vào sự phân bố của dữ liệu.
Xây dựng mơ hình:
Bước thứ tư trong quá trình khai phá dữ liệu, là xây dựng mơ hình khai phá hoặc
các mơ hình khai phá.
-39-
Xác định dữ liệu mà bạn muốn sử dụng bằng cách tạo ra một cấu trúc khai phá.
Cấu trúc khai phá xác định nguồn dữ liệu, nhưng khơng chứa bất kỳ dữ liệu cho đến
khi bạn xử lý nĩ. Khi xử lý cấu trúc khai phá, dịch vụ phân tích tạo ra tập hợp và thơng
tin thống kê khác cĩ thể được sử dụng để phân tích. Thơng tin này cĩ thể được sử dụng
bởi bất kỳ mơ hình khai phá nào dựa trên cấu trúc.
Kiểm chứng mơ hình:
Bước thứ năm trong quá trình khai phá dữ liệu, là để khám phá các mơ hình khai
phá đã xây dựng và kiểm tra hiệu quả của chúng.
Khi xây dựng một mơ hình, chúng ta thường tạo ra các mơ hình với nhiều cấu hình
khác nhau và kiểm thử tất cả các mơ hình để cĩ kết quả tốt nhất cho vấn đề và dữ liệu
đã xác định.
Dịch vụ phân tích cung cấp các cơng cụ giúp chúng ta tách biệt dữ liệu của thành
tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm để cĩ thể đánh giá chính xác hiệu
suất của tất cả các mơ hình trên cùng dữ liệu. Sử dụng tập dữ liệu học để xây dựng mơ
hình, và dữ liệu thử nghiệm để kiểm tra tính chính xác của mơ hình bằng cách tạo ra
các truy vấn dự báo. Trong dịch vụ phân tích của BI, phân vùng này cĩ thể được thực
hiện tự động khi xây dựng mơ hình khai phá.
Triển khai và cập nhật mơ hình:
Bước cuối cùng trong quá trình khai phá dữ liệu, là để triển khai các mơ hình cĩ
hiệu suất tốt nhất đến mơi trường sản xuất.
Sau khi các mơ hình khai phá dữ liệu tại trong mơi trường sản xuất, cĩ thể thực
hiện nhiều tác vụ, tùy thuộc vào nhu cầu, như: truy vấn để lấy dữ liệu thống kê, tạo
báo cáo,…
Dữ liệu đa chiều:
Dữ liệu đa chiều cho phép chúng ta thiết kế, tạo, quản lý cấu trúc nhiều chiều chứa
dữ liệu chi tiết và kết hợp từ nhiều nguồn dữ liệu trong một mơ hình logic thống nhất
hỗ trợ các tính tốn nội tại.
Dịch vụ phân tích dữ liệu đa chiều cung cấp phân tích nhanh, trực giác, từ trên
xuống, trên số lượng lớn dữ liệu xây dựng trên mơ hình dữ liệu thống nhất, và chuyển
giao đến người dùng bằng nhiều ngơn ngữ.
Dịch vụ phân tích dữ liệu đa chiều làm việc với các kho dữ liệu, các siêu dữ liệu,...
hỗ trợ phân tích dữ liệu lịch sử và thời gian thực.
2.3.3. Dịch vụ báo cáo [16]
Với hệ quản trị cơ sở dữ liệu SQL Server 2008, xây dựng dịch vụ báo cáo tiếp tục
là một lĩnh vực tập trung chính và một lĩnh vực đầu tư cho hãng Microsoft. Đĩ là một
trong những thành phần chính của Microsoft Bussiness Intelligence (BI).
Cơng nghệ xây dựng dịch vụ báo cáo cho phép thiết kế những báo cáo phong phú
từ nhiều nguồn dữ liệu, hiển thị dữ liệu từ nhiều nguồn dữ liệu đĩ một cách phong phú
bằng cách sử dụng các bảng (table), ma trận (matrix), danh sách (list), gauge, và biểu
đồ (chart); và cho phép xuất các báo cáo sang các định dạng Word, Excel, PDF, XML,
-40-
HTML mà khơng cần viết mã. Xây dựng dịch vụ báo cáo cung cấp một mơ hình mở
rộng cho phép mở rộng thiết kế, xuất các định dạng, nguồn dữ liệu và các cơ cấu phân
phối cho các báo cáo. Sự tích hợp của nĩ với Microsoft Office SharePoint Server tiếp
tục phát triển và cải thiện. Sau cùng xây dựng dịch vụ báo cáo cung cấp một giao diện
lập trình ứng dụng mà cĩ thể gọi bằng cách sử dụng dịch vụ Web do đĩ cĩ thể tự động
hĩa hầu như bất kỳ phần nào của báo cáo thơng qua các kịch bản hoặc chương trình.
2.4. Kết luận chương 2
Chương này trình bày các vấn đề sau:
Cơ sở lý thuyết về kho dữ liệu: Một số khái niệm về kho dữ liệu, mơ hình dữ
liệu sử dụng trong kho, kiến trúc kho dữ liệu, các bước xây dựng kho dữ liệu.
Khai phá dữ liệu: Khái niệm về khai phá dữ liệu, khuynh hướng phát triển của
lĩnh vực khai phá dữ liệu.
Giới thiệu bộ cơng cụ BI trong hệ quản trị cơ sở dữ liệu SQL Server 2008: Dịch
vụ phân tích, dịch vụ báo cáo.
-41-
Chương 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN
3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu
Trong thế giới hiện đại, mọi hoạt động của con người đều cần đến thơng tin:
Thơng tin về giá cả và thị trường, khách hàng và đối tác,...Trong hoạt động
sản xuất kinh doanh, thương mại, tài chính.
Thơng tin về chính sách và pháp luật, thuế và tiền tệ, dân số và lao động, đất
đai và mơi trường trong quản lý kinh tế, quản lý nhà nước.
Thơng tin về văn hố, khoa học, giáo dục, đặc biệt trong lĩnh vực hoạt động
Thơng tin - Thư viện.
Thơng tin liên quan đến các vấn đề của đơn vị, các cơng ty, các doanh nghiệp,
các bộ ngành.
Để cĩ được các thơng tin cần thiết và cập nhật về nội dung, phải xây dựng các
kho dữ liệu. Đĩ là quy trình phức tạp và tốn nhiều chi phí, bao gồm nhiều cơng
đoạn khác nhau từ thu thập, xử lý, phân tích, tổ chức lưu trữ thơng tin theo một số
tiêu chuẩn nào đĩ. Giải pháp CNTT thường được ứng dụng là sử dụng các hệ quản
trị cơ sở dữ liệu và các phần mềm giao tiếp để quản lý và truy tìm các thơng tin cần
thiết một cách nhanh chĩng.
Trong thời đại cách mạng cơng nghệ thơng tin, các kho thơng tin cần được
liên kết với nhau để giúp chia sẻ tài nguyên, cung cấp dịch vụ. Tuy nhiên khơng
phải hệ quản trị CSDL nào cũng cĩ thể đáp ứng tốt nhu cầu tích hợp, chia sẻ thơng
tin từ các nguồn phân tán, đơi khi khơng thật chuẩn mực! Lựa chọn giải pháp khả
thi để trao đổi, liên thơng các cơ sở dữ liệu là điều rất khĩ thực hiện.
Trên thực tế đã cĩ hai xu hướng giải quyết vấn đề như sau:
Thống nhất sử dụng chung một phần mềm hay một cơ sở dữ liệu.
Xây dựng Trung tâm tích hợp dữ liệu để thống nhất dữ liệu từ nhiều nguồn.
Giải pháp dùng chung phần mềm và cơ sở dữ liệu tuy cĩ làm giảm được chi phí
phải chuyển đổi và nhập lại dữ liệu, nhưng rất khĩ thực hiện ở quy mơ rộng, tại
nhiều địa điểm khác nhau, bởi vì nĩ địi hỏi mơi trường và trình độ ggười sử dụng
phải tương đối thống nhất. Mặt khác khĩ cĩ thể đầu tư và triển khai trên diện rộng
một phần mềm dùng chung cĩ chất lượng cao.
Xây dựng các trung tâm tích hợp thơng tin dữ liệu cũng địi hỏi thời gian và
chi phí khá lớn, và trên thực tế cũng khĩ lịng giải quyết được các vấn đề nêu trên.
Thực tế áp dụng CNTT của ngành GD- ĐT trong tuyển sinh đại học năm 2002 cho
thấy giải pháp tích hợp dữ liệu từ các trường và các địa phương để cĩ được kết quả
xét tuyển chung đã khơng thành cơng.
Trường Đại học SPKT Hưng Yên đã bước đầu triển khai sử dụng các phần
mềm chung của Bộ Giáo dục, như bộ phần mềm Edusoft,…Và bước đầu đã thu được
nhiều kết quả: thống nhất được các mẫu biểu, tìm kiếm thơng tin nhanh chĩng,…Tuy
-42-
nhiên, cơ sở dữ liệu bị hạn chế về kích thước, hạn chế hỗ trợ được tính năng sinh báo
cáo, ra quyết định, dự đốn xu hướng một cách nhanh nhất.
Đáp ứng đơng đảo của các cá nhân, xuất phát từ thực tế trên, chúng tơi đề xuất
xây dựng một kho dữ liệu về điểm của sinh viên một khoa làm thử nghiệp và để khắc
phục nhược điểm trên.
Các kho dữ liệu thống kê, khi được xây dựng và áp dụng thành cơng sẽ giúp cải
tiến chất lượng số liệu và hài hồ các quá trình thu thập số liệu thống kê, cung cấp
cơng cụ phục vụ quản lý và bảo vệ lưu trữ số liệu, cung cấp cơng cụ tiếp cận, xử lý,
sản xuất và phổ biến các đầu ra thống kê cĩ chất lượng.
Như ta đã đề cập, xu thế chủ đạo của kho dữ liệu: Trào lưu trong các cơng ty
(viễn thơng-ngân hành - lương hưu trí dịch vụ tài chính, chăm sĩc sức khỏe, bảo
hiểm, sản xuất, dược phẩm, giao thơng…) và Xu thế theo nhu cầu. Trong phạm vi luận
văn thì thuộc xu thế theo yêu cầu.
3.2. Xây dựng kho dữ liệu điểm của sinh viên
Xuất phát từ yêu cầu của luận văn, chúng tơi lấy dữ liệu kết quả của sinh viên
hệ cao đẳng thuộc khoa CNTT của trường các năm 1998, 1999, 2000, 2001, 2002,
2003, 2005, 2004, 2006, 2007 tại trường Đại học SPKT Hưng Yên để làm dữ liệu
demo trong kho dữ liệu và khai thác dữ liệu trong kho để giải quyết một số câu hỏi
mang tính chiến lược: Tìm ra mối quan hệ giữa các mơn học, điểm đầu vào của sinh
viên đến kết quả học tập, Xu hướng về học lực của sinh viên trong năm tới...
Mơi trường thực hiện:
Window 7.
Hệ quản trị CSDL SQL Server 2008.
3.2.1. Thơng tin về dữ liệu điểm
Kết quả học tập của sinh viên
Kết quả học tập của sinh viên là điểm tổng kết các mơn học. Trường Đại học
SPKT Hưng Yên cĩ nhiều ngành học, tất cả các ngành học đều phải học các mơn cơ
bản và các mơn thuộc kiến thức chung bắt buộc; các mơn cơ bản: Tốn cao cấp 1,
Tốn cao cấp 2, Vật lý, Hĩa học,… khối kiến thức chung bắt buộc: Triết học, Kinh tế
chính trị, …; tuỳ theo từng ngành học mà cĩ các mơn học thuộc các khối kiến thức cơ
sở ngành, chuyên ngành: do mỗi chuyên ngành quy định, chẳng hạn chuyên ngành
CNTT cĩ các mơn cơ sở ngành: Cơ sở dữ liệu quan hệ, Hệ quản trị CSDL,… Các mơn
chuyên ngành,... Mỗi năm, các mơn chuyên ngành lựa chọn cĩ sự thay đổi để giúp sinh
viên phù hợp với thị trường lao động, cĩ nghĩa là chương trình đào tạo của mỗi chuyên
ngành sẽ được cập nhật hàng năm đối với các chuyên ngành cĩ nhiều cơng nghệ mới
ra đời. Chẳng hạn, trước kia mơn Cơ sở kỹ thuật lập trình dùng ngơn ngữ Pasal, qua
các năm chuyển thành dùng ngơn ngữ C++, và hiện tại là C#.
Trường đã sử dụng phần mềm Microsoft Office Excel để tổng hợp và quản lý
điểm, kết quả của sinh viên của mỗi lớp sẽ được tổng hợp trong tồn khĩa như sau:
-43-
Hình 3.1 - Bảng tổng hợp kết quả học tập của một lớp
Bảng điểm của mỗi sinh viên như sau:
Từ điển dữ liệu
Thơng qua việc khảo sát, nghiên cứu, tìm hiểu về dữ liệu liên quan, từ những số liệu
và bảng biểu đã thu được với các cấu khơng đồng nhất, để khắc phục sự thất lạc của
dữ liệu và khai thác dữ liệu cĩ hiệu quả, chúng tơi đề xuất việc tổ chức lại các dữ liệu
nguồn dưới dạng cơ sở dữ liệu quan hệ.
Do dữ liệu chúng tơi đang xét liên quan đến điểm của sinh viên của một hệ đào tạo
(cao đẳng chính qui) của một khoa, sau này sẽ mở rộng ra tất cả các hệ của tất cả các
khoa trong trường nên trong cơ sơ sở dữ liệu dưới dạng thực thể kết hợp, sẽ cĩ các
kiểu thực thể sau:
Khoahoc: Lưu trữ thơng tin về các khĩa học, bao gồm các thuộc tính:
makhoahoc, namvao, namra
Lop: Lưu trữ thơng tin về các lớp thuộc mỗi khĩa học, bao gồm các thuộc tính:
malop, tenlop, HtgiaovienCN
Sinhvien: Lưu trữ thơng tin về các sinh viên, gồm các thuộc tính: Masv, hoten,
ngaysinh, gioitinh, quequan
Monhoc: Lưu trữ thơng tin của các mơn học, gồm các thuộc tính: Mamon,
tenmon, dvht.
Lược đồ cơ sở dữ liệu quan hệ thực thể tổng quát như sau:
Hình 3.2 - Lược đồ thực thể - mối quan hệ của CSDL điểm sinh viên
Lược đồ này, được chuyển sang mơ hình quan hệ như sau:
Khoahoc MonHoc
Lop SinhVien
cĩ
(1,n)
(1,1)
Gồm
Học
(1,n)
(1,n)
(1,1) (1,n)
DiemL1
DiemL2 Học kỳ
-44-
Hình 3.3 - Lược đồ CSDL điểm sinh viên dưới dạng quan hệ
Tuy nhiên, nếu thiết kế cơ sở dữ liệu như trên chỉ đáp bảo yêu cầu tác nghiệp
của hệ thống, khơng thể hiện được việc lưu trữ dữ liệu ở quá khứ, khơng tận dụng
được các kết quả đã cĩ sẵn, như điểm các kỳ của sinh viên, điểm tổng kết tồn
khĩa,…Hơn nữa, dữ liệu về điểm ngày càng tăng dẫn đến việc lưu trữ theo dạng này
hạn chế về kích thước, quan trọng hơn, với cơ sở dữ liệu dưới dạng quan hệ này chỉ trả
lời được các truy vấn dưới dạng đơn dạng, khơng xử lý được các truy vấn dưới dạng
nhiều chiều. Để khắc phục những nhiểm điểm này, giải pháp duy nhất là tổ chức dữ
liệu về điểm này dưới dạng kho dữ liệu.
Việc xây dựng một kho dữ liệu khơng phải đơn giản và nĩ gồm nhiều bước như
đã trình bày trong phần cơ sở lý thuyết nên trong phạm vi luận văn này, chúng tơi chỉ
đưa ra cách xây dựng một kho dữ liệu trong cơng cụ hộ trợ của hệ quản trị cơ sở dữ
liệu SQL Server.
Với lược đồ quan hệ được chỉ ra trong hình 3.4, chúng tơi đưa ra các dữ liệu liên
quan để xây dựng kho dữ liệu về điểm của sinh viên như sau:
Tên bảng STT Thuộc tính Ý nghĩa
1 Tenlop Tên lớp của sinh viên
2 Masv Mã sinh viên
3 Hoten Họ tên của sinh viên
4 Ngaysinh Ngày sinh của sinh viên
5 Gioitinh Giới tính của sinh viên
6 Quequan Quê quán của sinh viên
7 Diemky1 Điểm kỳ 1
8 Diemky2 Điểm kỳ 2
9 Diemky3 Điểm kỳ 3
10 Diemky4 Điểm kỳ 4
11 Diemky5 Điểm kỳ 5
Dim_Sinhvien:
Lưa trữ thơng tin
về sinh viên
12 Diemky6 Điểm kỳ 6
1 Mamon Mã mơn học Dim_Monhoc:
Lưa trữ thơng tin
về các mơn học
2 Tenmon Tên mơn học
-45-
1 Masv Mã sinh viên
2 Mamon Mã mơn học
3 Datekey Mã chiều thời gian
4 Sodvht Số đơn vị học trình
5 DiemmonL1 Điểm L1 của mơn học
6 DiemmonL2 Điểm L2 của mơn học
Fact_Diemmon:
Lưa trữ thơng tin
về điểm mơn học
của mỗi sinh viên
thuộc một kỳ học
nào đĩ.
7 Diemmon Điểm cao nhất của lần thi 1 và lần thi 2
1 Datekey Mã chiều thời gian
2 Makhoahoc Mã khĩa hoc
3 namhoc Năm học
Dim_Time:
Lưu trữ thơng tin
về thời gian
4 Hocki Học kì
1 Makhoahoc Mã khĩa hoc
2 Namvao Năm sinh viên vào trường
Dim_Khoahoc:
Lưu trữ về khĩa
học của sinh viên 3 Namra Năm sinh viên ra trường
1 MaSV Mã sinh viên
2 Datekey Mã chiều thời gian
3 Makhoahoc Mã khĩa hoc
4 DTBtheoky Điểm trung bình theo kỳ
KQHTtheoky:
Lưu trữ điểm theo
kỳ của sinh viên
Hocluctheoky Học lực theo kỳ
1 MaSV Mã sinh viên
2 Makhoahoc Mã khĩa hoc
3 Diemvao Điểm đầu vào của sinh viên
4 DTBkhoahoc Điểm trung bình tồn khĩa
KQHT_toankhoa:
Lưu trữ điểm tồn
khĩa của sinh viên
5 HLkhoahoc Học lực tồn khĩa
Hình 3.4 - Bảng các dữ liệu liên quan đến kho dữ liệu về điểm
Khi đĩ CSDL nguồn của kho được thiết kế dựa trên mơ hình quan hệ trong hệ quản trị
CSDL SQL Server 2008 như sau:
-46-
Hình 3.5 - Chuẩn hĩa, tối ưu dữ liệu làm nguồn cho kho dữ liệu điểm
Đưa dữ liệu vào CSDL tác nghiệp
Chúng tơi đưa kết quả học tập của sinh viên từ phần mềm Microsoft Office Excel
sang, export dữ liệu sang hệ quản trị cơ sở dữ liệu SQL Server 2008, bằng các dùng
một số câu truy vấn của ngơn ngữ T- SQL để đưa dữ liệu vào cơ sở tác nghiệp làm
nguồn cho kho dữ liệu.
3.2.2 Kiến trúc của kho dữ liệu
Việc thiết kế và tổ chức một kho dữ liệu là rất quan trọng vì nĩ ảnh hưởng đến
việc tổ chức và khai thác báo cáo sau này. Do vậy quá trình này địi hỏi những người
thiết kế phải rất hiểu về các kiến trúc, các thành phần và các lược đồ của kho dữ liệu
cũng như các ưu nhược điểm của mỗi loại. Việc chọn kiến trúc, lược đồ để xây dựng
Kho dữ liệu phải dựa trên những yêu cầu và đặc thù của bài tốn nghiệp vụ và tận
dụng những cở sở sẵn cĩ. Từ yêu cầu của việc khai thác các báo cáo như mơ tả ở trên,
chúng tơi chọn xây dựng một kho dữ liệu, khơng cĩ các kho dữ liệu chủ đề. Sở dĩ cĩ
quyết định này vì trong hệ thống chỉ cĩ duy nhất một chủ đề. Để phù hợp với thực tế,
chúng tơi xây dựng một kho dữ liệuvới một bảng sự kiện và các bảng chiều.
Kiến trúc kho dữ liệu đầy đủ gồm các lớp sau:
Data Source: các tệp và CSDL DiemSV.
-47-
Hình 3.6 – Nguồn của kho dữ liệu về điểm
Vùng dữ liệu tạm (Staging area): lưu dữ liệu tạm thời chưa kiểm tra tính hợp
lệ trước khi đưa vào kho dữ liệu, phục vụ cho quá trình làm sạch dữ liệu.
Kho dữ liệu: chứa tồn bộ dữ liệu DiemSV bao gồm các bảng chiều, bảng sự
kiện, các bảng tham chiếu.
Các cơng cụ trích lọc, chuyển đổi và nạp dữ liệu: Sử dụng dịch vụ tích hợp
cuả hệ quản trị cơ sở dữ liêu SQL Server hoặc ngơn ngữ T- SQL. Trong
phạm vi luận văn, chúng tơi sử dụng ngơn ngữ T- SQL để làm nhiệm vụ
này.
Hệ quản trị cơ sở dữ liệu SQL Server 2008
Ở đây, chúng ta sử dụng lược đồ hình sao mà khơng sử dụng lược đồ bơng tuyết
giúp cho việc xử lý các truy vấn được nhanh hơn, vì thế cần sử dụng các chiều phân
cấp. Bảng sự kiện sẽ được nối với nhiều chiều và các độ đo đều là số và dùng chung
chiều thời gian cho tất cả các sự kiện. Việc nghiên cứu thiết kế bảng sự kiện được căn
cứ vào các yêu cầu thống kê điểm của sinh viên.
3.2.3. Các chiều dữ liệu
Các bảng chiều: các bảng đại diện cho các chiều, chính là các điều kiện dùng khi
Query. Kho dữ liệu cĩ các bảng chiều như: Dim_Monhoc, Dim_SinhVien.
Các sự kiện: các bảng chứa dữ liệu độ đo theo các chiều kể trên, cĩ tên:
Fact_Diemmon
Chiều thời gian: Dim_time
Các thành phần của khối:
-48-
Hình 3.7 – Các chiều của khối DiemSV-20-4
3.2.4. Các bước cài đặt vật lý kho dữ liệu [15]
- Tạo các bảng: tạo các bảng sự kiện, bảng chiều và thiết lập các khĩa chính,
khĩa ngồi và các ràng buộc giữa các bảng.
- Tạo phân vùng cho các bảng cần thiết.
- Tạo các đối tượng chiều.
- Tạo các chỉ mục (nếu cần).
a. Tạo bảng
− Thiết kế cấu trúc vật lý
− Sinh ra các kịch bản
− Chỉnh sửa tên các ràng buộc như khố chính, ngồi
− Tạo các bảng từ các kịch bản
b. Tạo phân vùng
- Việc tạo phân vùng chỉ áp dụng trên các bảng cĩ số liệu lớn (như bảng sự kiện),
cĩ 3 phân vùng cho Fact_diemmon, KQHTtheoky, KQHTToankhoa.
- Chiều: dữ liệu ít nên khơng phân vùng
c. Tạo các đối tượng chiều
Các chiều mà phi chuẩn (kết hợp nhiều bảng danh mục với nhau) thì ta phải tạo
phân cấp.
d. Tạo các chỉ mục
− Sự kiện :
Khố chính: Cluster Index
Mỗi trường trong khố chính tạo 01 Bitmap Index
− Bảng đặc biệt :
-49-
Khố chính: Cluster Index
Mỗi trường trong khố chính tạo 1 Bitmap Index ngoại trừ các trường
mà là giá trị phát sinh khơng cĩ tra cứu (lookup).
Sau khi thực hiện các bước trên, ta cĩ kho dữ liệu như mơ tả trong hình 3.8.
Hình 3.8 – Kho dữ liệu về điểm của sinh viên
3.3. Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý
3.3.1. Yêu cầu báo cáo
Hệ thống được xây dựng cần:
Hỗ trợ tổ chức và khai thác dữ liệu hướng đối tượng, từ đĩ cung cấp khả
năng khai thác dữ liệu theo nhiều mức khác nhau: tổng thể hoặc chi tiết;
biến động theo thời gian; so sánh giữa các đối tượng báo cáo và theo nhiều
chiều khác nhau như theo chiều thời gian, theo các đơn vị báo cáo, …
Cung cấp giao diện đơn giản, hỗ trợ khai thác hiệu quả báo cáo đã cĩ trong
CSDL với yêu cầu kiến thức CNTT của người sử dụng ở mức thơng thường.
a. Báo cáo chi tiết
Thường liệt kê số liệu theo một hoặc nhiều mã số thống kê như: thơng tin
của các sinh viên phải thi lại các mơn ở một kỳ nào đĩ của mỗi lớp...
Cách thức lấy báo cáo đơn giản, ít câu lệnh truy vấn, khơng phải tính tốn
cho từng ơ.
Thường cĩ tổng theo các nhĩm và tổng tất cả cuối báo cáo.
b. Báo cáo tổng hợp
Cách thức lấy dữ liệu phức tạp, phải tính tốn dữ liệu cho từng ơ trong báo
cáo.
Thứ tự sắp xếp theo hàng và cột khơng theo thứ tự sắp xếp của các bảng mã
số thống kê.
Dữ liệu cho các ơ cĩ thể là kết quả tính tốn từ các ơ khác.
3.3.2. Lợi ích của báo cáo trong BI
-50-
Các tổ chức, đơn vị sử dụng báo cáo từ nhiều nguồn nên báo cáo là cốt lõi và
được khai thác đầu tiên trong kinh doanh, quản lý. Dịch vụ báo cáo của BI trong hệ
quản trị cơ sở dữ liệu SQL Server cho phép các đơn vị truy cập, định dạng và phân
phối thơng tin dễ dàng đến nhân viên và các đối tác.
Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web
tích hợp trong kinh doanh, quản lý của đơn vị.
Hiển thị kết qủa: Table (bảng), matrix, list, chart,…
Xuất dữ liệu linh hoạt ra PDF, HTML, Microsoft Excel, Rich Text Format,
hay văn bản thuần túy.
Tự động hỗ trợ thiết kế báo cáo dễ dàng và nhanh chĩng.
Tích hợp với SharePoint 2007. [17]
3.3.3. Xây dựng báo cáo và đưa ra kết quả
a. Thiết kế báo cáo [16]
Để thực hiện tạo ra một báo cáo, ta làm như sau:
Bước 1: Chọn cơng cụ BI:
Bước 2: Đặt tên báo cáo:
Hình 3.9 - Cửa sổ tạo Report Server Project
Bước 3: Thiết lập kết nối:
-51-
Hình 3.10- Cửa sổ thiết lập kết nối
Bước 4: Thiết lập nguồn:
Hình 3.11- Cửa sổ tạo Report Server Project
Bước 5: Chọn dữ liệu để hiện thị
Sau khi chọn kiểu báo cáo, hình sau là bước hồn thiện và đặt tên cho cáo, căn chỉnh
các điều khiển Textbox để hiển thị dữ liệu, chuyển sang tab Preview, kết quả của báo
cáo như sau:
-52-
Hình 3.12 – Hiển thị kết quả của báo cáo thơng thường dạng bảng
Thiết kế báo cáo như trên chỉ là một báo cáo thơng thường, chưa cĩ tính trực
quan, chưa thể hiện được nhiều ưu thế của báo cáo đa chiều. Báo cáo mới chỉ gộp
nhĩm phân trang dữ liệu thành từng khối và việc hiển thị chỉ là thống kê ra số liệu.
Báo cáo đa chiều thể hiện tính trực quan, sinh động và linh hoạt hơn, hỗ trợ tốt
nhất cĩ thể cho người quản lý cĩ thể nhanh chĩng nắm bắt, cĩ cái nhìn tổng.
Dịch vụ báo cáo của BI cho phép tạo ra các báo cáo từ nhiều nguồn khác nhau,
chẳng hạn lấy dữ liệu từ cơ sở dữ liệu quan hệ hoặc kho dữ liệu. Tuy nhiêu, nguồn cho
báo cáo tốt hơn vẫn là kho dữ liệu. Kho dữ liệu kế thừa các dữ liệu cĩ sẵn giúp tiết
kiệm thời gian và chi phí cho việc tạo báo cáo. Dưới đây là một dạng báo cáo lấy
nguồn từ kho dữ liệu thể hiện kết quả học tập của sinh viên và những phân tích để thấy
được tính ưu việt của việc dùng nguồn cho báo cáo là kho dữ liệu so với những nguồn
khác.
b. Các ví dụ về thiết kế báo cáo
Ví dụ 1: Báo cáo thống kê học lực của sinh viên qua các khĩa học
Hình 3.13- Báo cáo lực học của sinh viên thuộc mỗi khĩa học dạng cột
Nhìn vào biểu đồ về học lực của sinh viên qua các khĩa học ở hình 3.13. Ta
nhận thấy: Ở những khĩa đầu số lượng sinh viên cĩ học lực khá tương đối cao. Sau đĩ,
-53-
ở các khĩa tiếp theo, số lượng sinh viên cĩ học lực khá cĩ xu hướng giảm. Điều đĩ, cĩ
thể cho ta một nhận định là lực học của sinh viên đi xuống.
Dữ liệu đầu vào của kỹ thuật thiết kế báo báo này được đặt vào một nguồn ổn
định, dữ liệu đã được làm sạch vào chuẩn hĩa - đĩ là kho dữ liệu. Bản chất dữ liệu
trong kho nằm ở bảng sự kiện, dữ liệu trực tiếp lấy ra xử lý, giúp loại bỏ nhiều lỗi sinh
ra do phải thu thập và biểu diễn thơng tin từ nhiều nguồn khác nhau đồng thời giảm
bớt sự chậm trễ do phải lấy dữ liệu từ những phân đoạn khác nhau, tránh cho người
dùng phải viết những truy vấn SQL quá phức tạp. Chẳng hạn, khi thiết kế báo báo ở
hình 3.14, nếu dùng nguồn là CSDL thơng thường, truy vấn phải thực hiện các cơng
đoạn: Gom nhĩm và tính tốn cho nhĩm, chuyển đổi dữ liệu dịng thành cột,...Và việc
viết truy vấn dạng này địi hỏi sự hiểu biết sâu về ngơn ngữ SQL. Báo cáo lấy nguồn
từ CSDL thơng thường, truy vấn thực hiện mỗi khi chạy và phải tính tốn lại các kết
quả trung gian do đĩ tốc độ thực hiện báo cáo cĩ nguồn là kho dữ liệu sẽ nhanh hơn so
với CSDL thơng thường.
Để tạo lập một báo cáo phức tạp phục vụ cho mục đích ra quyết định của doanh
nghiệp, trong tab Design thêm vào các báo cáo cần thiết như chart, gause, image,… và
thiết lập các tham số, các trường dữ liệu cho các mục.
Ví dụ 2: Theo dõi tỉ lệ giới tính của sinh viên theo khĩa học
Hình 3.14 – Báo cáo thống kê số lượng về giới tính dạng thanh
Hình 3.14, cho chúng ta biết thơng tin chi tiết về tỉ lệ nam, nữ qua các khĩa
học, ta cĩ thể nhận xét: Số lượng sinh viên chuyên ngành cơng nghệ thơng tin của
trường cĩ xu hướng nữ nhiều hơn nam.
Ví dụ 3: Báo cáo về điểm vào trung bình, điểm tổng kết trung bình của sinh viên
thuộc mỗi khĩa học:
-54-
Hình 3.15 – Báo cáo điểm vào trung bình của sinh viên dạng hình dáng.
Hình 3.15, tuy một số khĩa đầu khơng cĩ dữ liệu về điểm tuyển sinh của sinh
viên, nhưng ta vẫn nhận thấy rằng: điểm đầu vào của sinh viên ngày càng thấp, điểm
tổng kết của sinh viên cũng tỉ lệ thuận với vào điểm vào của sinh viên đĩ.
Ví dụ 4: Theo dõi sự phụ thuộc giữa điểm tổng kết của sinh viên với điểm mơn
tốn của sinh viên đĩ:
Hình 3.16 – Theo dõi điểm tốn của sinh viên khĩa k03 dạng Line
Hình 3.17 – Theo dõi điểm tổng kết của sinh viên khĩa k03 dạng Line
Với ví dụ 4, hình 3.16 và 3.17, cho ta dự đốn rằng, đại đa số những sinh viên
cĩ điểm tốn cao (học giỏi tốn) thì điểm tổng kết cũng sẽ cao. Tuy nhiêu, điểm tổng
kết của sinh viên cịn phụ thuộc vào nhiều yếu tố khác.
Ví dụ 5: Báo cáo về lực học của sinh viên theo học kì:
-55-
Hình 3.18 – Học lực của sinh viên theo kỳ học
Với ví dụ 5, hình 3.18, đây là kết quả tồn khĩa học của mỗi sinh viên, nhìn
vào hình vẽ người xem cĩ thể nhận kết quả của sinh viên qua các kì học, đại đa số
càng những kì cuối kết quả cao hơn những kì đầu. Nguyên nhân gây ra vấn đề này cĩ
thể do tâm lý, mơi trường thay đổi, ngành học…Điều đĩ, giúp những tân sinh viên
khĩa mới xác định tâm lý ngay từ đầu bước vào giảng đường đại học.
Thơng qua các báo cáo đã thiết kế ở các ví dụ trên, những người lãnh đạo cĩ thể
lợi dụng các kết quả này để điều chỉnh chương trình học đào tạo phù hợp, điều chỉnh
các mơn học cho phù hợp với từng kỳ học, của mỗi hệ đào tạo khác nhau, quyết định
dự kiến điểm đầu vào để thu hút nhân tài và nâng cao chất lượng đào tạo.
3.3.4. Tính ưu việt của báo cáo xây dựng từ kho dữ liệu [16]
Hệ quản trị cơ sở dữ liệu SQL Server 2008 xây dựng dịch vụ báo cáo là sự nâng
cấp của bản 2000, 2005. Nhĩm tác giả của cuốn sách “Wrox - Professional Microsoft
SQL Server 2008 Report Services (2008)” đã khẳng định được tính ưu việt vượt trội
hơn hẳn so với một số cơng cụ tạo báo cáo truyền thống như Crystal Reports…
Báo cáo thiết kế đã được sử dụng các cơng cụ Crystal Reports, ví dụ, sẽ thường
là một chút đe dọa bởi các cơng cụ báo cáo thiết kế dịch vụ này, họ cĩ thể khơng quen
thuộc và với các tính năng nghèo nàn hơn.
Dịch vụ báo cáo là giải pháp báo cáo mở cho phép tạo, xuất bản và phân phối các
báo cáo doanh nghiệp chi tiết một cách dễ dàng cả bên trong và bên ngồi tổ chức. Các
báo cáo cĩ thể xuất ra nhiều dạng file và truy cập bằng cách gửi địa chỉ tới một trạm
internet hoặc mạng cục bộ một cách thích hợp thành lập để máy chủ, do đĩ, nĩ khá
linh hoạt.
Dịch vụ báo cáo đáp ứng các nhu cầu của dân cơng nghệ thơng tin nĩi chung và
các chuyên gia nĩi riêng. Người thiết kế báo cáo khơng quá tốn nhiều thời gian để
hồn thành một báo cáo; tùy biến các dạng hiển thị biểu đồ theo ý muốn.
-56-
Hơn thế nữa, dịch vụ báo cáo ngồi việc tạo ra các báo cáo thơng thường, dịch
vụ cịn tạo ra các báo cáo cho phép dự đốn được sự thay đổi về dữ liệu, ra quyết định
trong tương lai mà một báo cáo truyền thống khĩ làm được điều đĩ.
3.4. Kết luận chương 3
Chương này trình bày các vấn đề:
Hiện trạng dữ liệu và nhu cầu xây dựng kho.
Xây dựng kho dữ liệu về điểm của sinh viên: Thơng tin về dữ liệu điểm, kiến
trúc của kho dữ liệu, các chiều dữ liệu, các bước cài đặt kho dữ liệu.
Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý: Yêu cầu về xây dựng báo
cáo, lợi ích của báo cáo trong BI, xây dựng báo cáo và kết quả, tính ưu việt của
báo cáo được xây dựng từ kho dữ liệu.
-57-
Chương 4 - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU
4.1. Ứng dụng kỹ thuật KPDL để dự báo, dự đốn
4.1.1. Yêu cầu dự báo, dự đốn xu thế
a. Yêu cầu chung
Trong cơng tác giáo dục - đào tạo. Bài tốn hoạch định chiến lược đào đạo của đơn
vị nĩi chung, của một trường học nĩi riêng là yêu cầu trọng điểm và nâng cao hiệu
quả đào tạo, thu hút sinh viên. Trong việc hoạch định chiến lược đào tạo cĩ nhiều vấn
đề phải giải quyết: nguồn nhân lực, trang thiết bị, đội ngũ cán bộ giáo viên cĩ kinh
nghiệm, xây dựng và quản lý chương trình đạo tạo, chỉ tiêu đào tạo... Ngồi những
vấn đề này; việc quản lý, theo dõi tình hình học tập của sinh viên theo các ngành nghề
khác nhau là một vấn đề quan trọng để đưa ra chỉ tiêu tuyển sinh của trường một cách
nhanh và chính xác nhất. Cung cấp các báo cáo, thơng tin cho ban lãnh đạo đầy đủ
và nhanh chĩng nhất, một loạt câu hỏi hĩc búa cần phải giải quyết như:
Làm thế nào để trường dự đốn đúng được chỉ tiêu tuyển sinh vào các ngành
nghề?
Làm thế nào để thu hút, bồi dưỡng được nguồn lực tại trường mình?
Làm thế nào để lập kế hoạch cơng việc và đánh giá hiệu quả làm việc của cán
bộ một cách chính xác và khách quan nhất?
Làm thế nào để đưa ra các báo cáo một cách nhanh và trực quan nhất?
b. Yêu cầu cụ thể:
Từ các yêu cầu chung hình thành các yêu cầu cụ thể bước đầu:
Hồn chỉnh bước đầu, lưu trữ đầy đủ thơng tin cơ bản của hồ sơ liên quan đến
cán bộ: Thơng tin cơ bản, thơng tin cá nhân, thơng tin cơng việc;
Lưu trữ đầy đủ thơng tin cơ bản của hồ sơ liên quan đến học sinh - sinh viên:
Thơng tin cá nhân, thơng tin về điểm của nhiều khĩa học liên tiếp nhau.
Quản lý được nguồn lực: Đáp ứng được việc hỗ trợ xây dựng quy trình
nhân sự như: tuyển dụng, quy trình đánh giá nguồn nhân lực, đào tạo,
giám sát bổ sung biên chế…;
Quản lý và xây dựng chương trình đào tạo cho phù hợp với từng chuyên ngành,
từng loại hình đào tạo.
Giải pháp lưu trữ dữ liệu: Cơ sở dữ liệu thiết kế cĩ cấu trúc mở, dễ liên lạc
với các hệ thống cơ sở dữ liệu khác liên quan hoặc thiết kế kho dữ liệu để lưu
trữ. Tuy nhiên với 2 giải pháp này, nếu thiết kế cơ sở dữ liệu bằng phương pháp
truyền thống thì bị hạn chế bởi kích thước về dữ liệu, tốc độ xử lý các truy vấn
bị hạn chế nên giải pháp về kho dữ liệu là khả thi.
Dựa trên kho dữ liệu mà chúng tơi đã trình bày ở chương 3. Chúng tơi muốn
khai thác dữ liệu tiền ẩn từ kho dữ liệu về điểm mà mình đã xây dựng. Với việc
-58-
khai thác nguồn ngữ liệu phong phú này sẽ giúp lãnh đạo của trường theo dõi
được thơng tin về tình hình học tập, mối quan hệ giữa các mơn học…Từ đĩ, Dự
đốn sinh viên học giỏi mơn tốn cĩ kết quả học tập cao khơng? Dự đốn kết
quả của sinh viên trong năm học tiếp theo? quyết định chỉ tiêu tuyển sinh vào
các ngành nghề một cách phù hợp nhất, điều chỉnh chương trình đào tạo cho
phù hợp, đưa ra các chiến lược tuyển sinh phù hợp ở các năm sau.
4.1.2. Ưu điểm của một số thuật tốn khai phá trong BI
a. Ưu điểm của phương pháp Decision Tree:
Dễ dàng xây dựng.
Phân lớp mẫu mới nhanh
Dễ dàng diễn giải cho những cây cĩ kích thước nhỏ.
Độ chính xác chấp nhận được so với các kỹ thuật phân lớp khác trên nhiều tập
dữ liệu lớn.
b. Ưu điểm của phương pháp Nạve Bayes:
Dễ cài đặt
Thời gian thi hành tương tự như cây quyết định.
Đạt kết quả tốt trong phần lớn các trường hợp.
Nhược điểm:
Giả thiết về tính độc lập điều kiện của các thuộc tính làm giảm độ chính xác.
4.2. Xây dựng mơ hình dự báo dựa trên Data Mining Tool
Trong phạm vi luận văn, chúng tơi sử dụng 3 thuật tốn: Microsoft Decision Tree,
Microsoft Neural Network, Microsoft Nạve Bayes. [13], [15], [17]
4.2.1. Khảo sát dự đốn kết quả học tập của sinh viên
Xây dựng mơ hình khai phá dữ liệu:
Hình 4.1 – Cấu trúc mơ hình dùng cho các thuật tốn: Decision Tree, Nạve Bayes,
Neural Network
Mơ hình khai phá:
Trong một mơ hình khai phá bao gồm các thuộc tính đầu vào, thuộc tính khĩa và
thuộc tính dự đốn.
-59-
Hình 4.2 – Mơ hình khai phá cho 3 thuật tốn
Kết quả khi dùng 3 thuật tốn:
a. Thuật tốn cây quyết định:
Hình 4.3 – Cây phân nhánh khi dùng thuật tốn Decision Tree
Mỗi nút trong cây quyết định trên thể hiện 3 phần thơng tin sau:
Điều kiện địi hỏi để đạt tới nút của nút trước nĩ. Ta cĩ thể thấy đường dẫn đầy
đủ của nút từ cây trên.
Một biểu đồ miêu tả sự phân bổ trạng thái của các cột cĩ khả năng dự đốn theo
sự phổ biến.
Sự tập trung các trường hợp, nếu trạng thái các thuộc tính cĩ thể dự đốn được
chỉ ra.
Nếu các dữ liệu đầu vào khơng ảnh hưởng tới thuộc tính dự báo thì cây quyết định
sẽ khơng phân nhánh:
Hình 4.4 – Cây khơng phân nhánh khi dùng thuật tốn cây quyết định
Mạng phụ thuộc: Nút trung tâm là Xeploai thể hiện thuộc tính dự đốn trong mơ
hình dữ liệu cịn các nút xung quanh thể hiện thuộc tính bị tác động bởi thuộc
tính dự đốn.
Hình 4.5 – Mạng phụ thuộc khi dùng thuật tốn Decision Tree
-60-
b. Thuật tốn Nạve Bayes:
Hình 4.6 – Mạng phụ thuộc khi dùng thuật tốn Nạve Bayes
Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật tốn Nạve Bayes
Chúng ta cĩ thể thấy những đặc điểm thuộc tính của mơ hình . Nĩi cách khác, chúng ta
cĩ thể nhìn thấy xác suất của một giá trị thuộc tính cụ thể được trình bày cùng với giá
trị dự đốn trong hình 4.8.
Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật tốn Nạve Bayes
Thơng qua kết quả hình 4.8, chúng ta nhận thấy xác suất những sinh viên là nữ cĩ
học lực khá cao hơn sinh viên là nam.
Biểu đồ của mơ hình:
-61-
Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật tốn
Ở đồ thị trên, đường màu xanh da trời thể hiện ngưỡng giá.
Đường màu xanh lá cây thể hiện giá trị lý tưởng của học lực trung bình.
Các đường màu đỏ, tím, vàng thể hiện giá trị dự báo thực tế của học lực trung
bình khi sử dụng các thuật tốn tương ứng: Nạve Bayes, Decision Tree,
Neural Network.
Đưởng thẳng đứng màu đen hiển thị phần trăm dữ liệu được huấn luyện cho mơ
hình khai phá này.
Trong 3 đường màu đỏ, tím, vàng; đường nào càng đi dọc theo biên trái và rồi
đi dọc theo biên phía trên, thì chứng tỏ kết quả kiểm tra càng chính xác cong
đường nào càng tiến tới thành đường chéo màu xanh da trời, thì độ chính xác
của kiểm tra càng kém.
Ma trận phân lớp:
Hình 4.10 – Ma trận phân lớp khi dùng ba thuật tốn
-62-
Từ bảng dữ liệu trên ta cĩ thể biết được số lượng dự báo của từng loại học lực so
với dữ liệu thực tế. Với kết quả cho ở hình 4.10, khi thuật tốn Nạve Bayes, số lượng
học sinh thực tế đạt kết quả giỏi là 1 nhưng thực tế dự đốn là 15 (1+3+4+7), số lượng
học sinh thực tế đạt kết quả khá là 7 nhưng thực tế dự đốn là 15 (7+7+1), số lượng
học sinh thực tế đạt kết quả trung bình - khá là 24 nhưng thực tế dự đốn là 38
(5+24+9), số lượng học sinh thực tế đạt kết quả trung bình là 46 nhưng thực tế dự đốn
là 53 (1+6+46). Tương tự, tính tốn số lượng thực và dự đốn với 2 thuật tốn cịn lại.
Mơ hình dự đốn:
Hình 4.11 – Xây dựng mơ hình dự đốn cho thuật tốn Nạve Bayes
Kết quả dự đốn:
Hình 4.12 – Kết quả dự đốn khi dùng thuật tốn Nạve Bayes
Ba cột MaSv, Hocluc và Expression thể hiện khả năng dự đốn đúng về học lực
của sinh viên. Chẳng hạn, với sinh viên cĩ mã Tin98-17 khả năng dự đốn học lực
trung bình khá là 98%, so với kết quả thực tế ta thấy đúng với kết quả thực tế. Ta sẽ sử
dụng kết quả này để kiểm sốt tình hình học tập của sinh viên.
-63-
4.2.2. Phân tích kết quả đạt được
Sau khi thử nghiệm với 3 thuật tốn: Microsoft Decision Tree, Microsoft Neural
Network, Microsoft Nạve Bayes, chúng tơi đưa ra các nhận xét sau:
Sở dĩ, chúng tơi đưa ra 3 thuật tốn này, vì cả ba thuật tốn đều dùng để phân
lớp dữ liệu nên người đọc dễ theo dõi và dễ so sánh các kết quả.
Với cấu trúc mơ hình khai phá mục 4.2.1, khi sử dụng thuật tốn Dicision Tree
thì học lực (Hocluc) của sinh viên được quyết định chủ yếu dựa vào thuộc tính:
(diemky3, gioitinh); khi dùng thuật tốn Nạve Bayes học lực (Hocluc) của sinh viên
phụ thuộc vào 3 thuộc tính (diemky3, diem ky1, gioitinh); cịn khi dùng thuật tốn
Neural Network thì học lực của sinh viên cĩ phần phụ thuộc nhiều vào yếu tố giới
tính(gioitinh) của sinh viên.
Từ mơ hình khai phá được thực nghiệm trong mục 4.2.1để so sánh về độ chính
xác khi sử dụng 3 thuật tốn: Decision Tree, Neural Network, Nạve Bayes. Căn cứ
biểu đồ hình 4.9, chúng ta thấy rằng, khi dùng thuật tốn Nạve Bayes thì khả năng dự
đốn là cĩ phần chính xác hơn 2 thuật tốn cịn lại.
4.3. Kết luận chương 4
Chương này trình bày các vấn đề:
Ứng dụng kỹ thuật KPDL để dự báo, dự đốn: Yêu cầu dự báo, dự đốn
xu thế, một số thuật tốn KPDL của BI.
Xây dựng mơ hình dự báo trên Data mining Tool: Khảo sát dự đốn kết
quả học tập của sinh viên, phân tích kết quả đạt được.
-64-
KẾT LUẬN – HƯỚNG PHÁT TRIỂN
Các mục tiêu đã thực hiện trong luận văn
Sau 1 thời gian thực hiện nghiên cứu và thực nghiệm, chúng tơi cĩ thể đáp ứng
các mục tiêu mà luận văn đặt ra:
Nghiên cứu và hiểu được các vấn đề của kho dữ liệu, KPDL, bộ cơng cụ BI
của hệ quản trị cơ sở dữ liệu SQL Server 2008, ngơn ngữ T- SQL.
Xây dựng được kho dữ liệu về điểm của sinh viên.
Thiết kế báo cáo nhiều dạng phục vụ cho cơng tác báo cáo nghiệp vụ.
Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mơ hình dự đốn.
Xây dựng mơ hình khai phá dữ liệu để khám phá các dữ liệu tiềm ẩn.
Sử dụng các mơ hình để tạo các dự đốn đơn giản, mà cĩ thể sử dụng
sau đĩ để tạo ra các quyết định nghiệp vụ đào tạo của trường.
So sánh được độ chính xác khi sử dụng 3 thuật tốn khai phá: Microsoft
Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes trên một
mơ hình khai phá.
Hướng phát triển
Dựa trên kết quả đã thực hiện, luận văn cĩ các hướng phát triển như sau:
Triển khai kho dữ liệu với nguồn dữ liệu lớn.
Tích hợp tự động dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu.
Xây dựng hệ thống hoạt động hồn chỉnh.
-65-
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Hà Quang Thụy (2010), Bài giảng “kho dữ liệu và khai phá dữ liệu”.
[2] Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành,
Nguyễn Thu Trang, Nguyễn Cẩm Tú (2010) , Giáo trình khai phá dữ liệu Web,
Nhà xuất bản giáo dục, tr 35.
[3] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và
Olap”, mơn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà
Nam, tr10-13.
[4] T.S Nguyễn Trí Thành (2009), chương 1, bài giảng Web mining, slide 12.
[5] Trường Đại học SPKT Hưng Yên (2010), Báo cáo kế hoạch 2011 và 5 năm
2011-2015.
[6]
liu/1095-tng-quan-v-data-warehouse?lang=
[7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70.
[8] Phạm Thị Thu, nghiên cứu KPDL trong Microsoft Server 2005 với thuật tốn
MICROSOFT ASSOCIATION RULES và MICROSOFT DECISION TREE, ,
khĩa luận tốt nghiệp, nguồn: , tr 47 –
51.
[9] SQL Server tutorials, SQL Server 2008 Books Online
[10] Hồng Đình Thắng (2010), tiểu luận mơn học “Các vấn đề hiện đại về hệ thống
thơng tin”,lớp k15HTTT, giáo viên hướng dẫn Nguyễn Ngọc Hĩa, tr 3- 16.
[11]
205b3& showtopic=25068&st=20
[12]
cong-data-warehouse-voi-giai-phap-oracle-exadata.htm
Tiếng anh:
[13] McGraw-Hill (2008), Delivering Business Intelligence with Microsoft SQL
Server 2008.
[14] Wiley.Data.Mining.with.SQL.Server.2005.Sep.2005.eBook-DDU
[15] Apress (2008) - Building a Data Warehouse, With Examples In Sql Server.
[16] Wrox (2008) - Professional Microsoft SQL Server 2008 Reporting Services.
[17] Wiley (2008) – Data mining with Microsoft SQL Server 2008.
[18]
[19] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004,
pp. 29-51.
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008.pdf