Trang nhan đề
Lời cảm ơn
Mục lục
Danh mục bảng
Chương_1: Mở đầu
Chương_2: Tổng quan về bài toán khai khoáng dữ liệu giáo dục đào tạo
Chương_3: Khai khoáng dữ liệu bằng luật kết hợp
Chương_4: Chương trình và kết quả
Chương_5: kết luận và hướng phát triển
Tài liệu tham khảo
24 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2685 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Nghiên cứu và ứng dụng phương pháp khai khoáng luật kết hợp trên dữ liệu giáo dục, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ược xem như
đĩng vai trị quan trọng và hàng ngàn khố học trên web đã được triển khai trong
vài năm qua. Nhưng nhiều trong số các khố học này lại dựa trên các tư liệu học tập
tĩnh, khơng thực sự phù hợp với sự đa dạng trong sinh viên. Hệ thống giáo dục thích
ứng và thơng minh được coi như giải pháp cho mơi trường học tập cá nhân. Hệ
thống này cung cấp cho người học chế độ học tập cá nhân bằng cách xây dựng các
mục tiêu cá nhân, sở thích và kiến thức. Khám phá tri thức trong dữ liệu (KDD) là
tính năng tự động rút các nguy cơ và các mẫu thoả mãn từ tập hợp dữ liệu lớn. KDD
cĩ thể được dùng khơng chỉ để học mơ hình tiến trình học tập hay định hình sinh
viên mà cịn để xác thực và cải thiện hệ thống học tập trực tuyến bằng cách khám
phá các thơng tin học tập hữu ích từ các hồ sơ học tập.
Trong mơi trường giảng dạy tập trung, các giảng viên cĩ thể thu nhận phản
hồi về kinh nghiệm học tập sinh viên trong tương tác mặt đối mặt với sinh viên,
giúp cải thiện chương trình giảng dạy. Quyết định tiến hành theo dõi thái độ của
sinh viên trong lớp, phân tích các dữ liệu trong lịch sử và ước lượng sự ảnh hưởng
của chiến lược sư phạm. Tuy nhiên, khi sinh viên làm việc trong mơi trường điện tử,
việc giám sát này khơng khả thi. Giảng viên cần phải tìm cách khác để thu thập
thơng tin này. Các tổ chức quản trị các website trong lĩnh vực giáo dục, thu thập
khối lượng lớn dữ liệu tự động phát sinh từ web servers và thu thập từ các dữ liệu
ghi vết truy cập. Mơi trường học tập trực tuyến cĩ khả năng ghi nhận lại các thái độ
học tập của sinh viên và cĩ thể cung cấp lượng khổng lồ hồ sơ học tập. Gần đây, cĩ
sự tăng trưởng về quan tâm đến sự phân tích tự động trên dữ liệu về tương tác giữa
người học với mơi trường học trực tuyến. ðể cung cấp một mơi trường học tập hiệu
quả hơn, các kỹ thuật khai khống dữ liệu cần được thực hiện. Khai khống dữ liệu
-5-
là một bước trong tồn bộ tiến trình của KDD bao gồm tiền xử lý, khai khống và
hậu xử lý. Khai khống dữ liệu ứng dụng thành cơng trong thương mại điện tử và
bắt đầu được sử dụng trong lĩnh vực đào tạo trực tuyến với các kết quả triển vọng
mặc dù các phương thức khám phá được sử dụng ở cả hai lĩnh vực (thương mại điện
tử và đào tạo trực tuyến) là tương tự nhau, tuy nhiên cĩ vài điểm khác biệt quan
trọng:
Lĩnh vực: Mục đích của thương mại điện tử là hướng khách hàng đến
mua hàng trong khi đào tạo trực tuyến hướng sinh viên đến học tập.
Dữ liệu: Trong thương mại điện tử, dữ liệu sử dụng chỉ là ghi vết người
dùng truy cập cịn đào tạo trực tuyến cần nhiều thơng tin hơn về tương tác của sinh
viên. Mơ hình người dùng cũng khác biệt trong cả hai hệ thống.
Mục tiêu: mục tiêu của khai khống dữ liệu trong thương mại điện tử là
làm tăng doanh thu, rất hữu hình và cĩ thể hiểu như một lượng tiền, số lượng khách
hàng và sự trung thành của khách hàng. Cịn mục tiêu của khai khống dữ liệu trong
đào tạo trực tuyến là cải thiện học tập. Mục tiêu này chủ quan hơn và tinh vi hơn để
đo lường.
Kỹ thuật: Hệ thống giáo dục cĩ đặc tính yêu cầu xử trí khác nhau đối với
mỗi vấn đề khai khống. Kết quả là nhiều kỹ thuật khai khống đặc biệt cần để chỉ
định tiến trình đào tạo. Vài kỹ thuật truyền thống cĩ thể được thích ứng trong khi
vài kỹ thuật khác thì khơng.
Ứng dụng của kỹ thuật rút trích tri thức đối với hệ thống giáo dục nhằm cải
thiện đào tạo cĩ thể xem như kỹ thuật ước lượng hình thức, đây là sự ước lượng của
chương trình giáo dục trong khi chúng vẫn cịn được phát triển và với mục đích cải
thiện chương trình. Tìm hiểu cách sinh viên sử dụng hệ thống là một trong những
cách ước lượng thiết kế dạy theo lối hình thức và nĩ sẽ giúp người dạy cải thiện các
tư liệu dạy học. Các kỹ thuật khai khống cĩ thể khám phá ra các thơng tin quan
trọng cĩ thể được sử dụng trong ước lượng hình thức để hỗ trợ người dạy kiến lập
cơ sở sư phạm cho quyết định khi thiết kế hay điều chỉnh mội trường để giảng dạy
tiếp cận. Ứng dụng của khai khống dữ liệu trong hệ thống giáo dục là một chu kỳ
-6-
lặp của hình thức cầm thế, kiểm nghiệm và cải tiến (xem hình 2.1)[19]. Tri thức
khai khống được cần tham gia vào quy trình lặp của hệ thống và cĩ định hướng..
Khơng chỉ chuyển dữ liệu thành tri thức mà cịn tinh lọc tri thức khai khống để đưa
ra quyết định.
Như chúng ta cĩ thể thấy ở hình 2.1, người dạy và chịu trách nhiệm hàn lâm
đảm nhiệm cơng việc thiết kế, hoạch định, xây dựng và bảo trì hệ thống giáo dục.
Sinh viên sử dụng và tác động với họ. Bắt đầu từ các thơng tin cĩ sẵn về các khố
học, sinh viên, lưu lượng sử dụng và tương tác, các kỹ thuật khai khống dữ liệu
khác nhau cĩ thể dùng để khám phá tri thức hữu ích để cải thiện tiến trình đào tạo
trực tuyến. Tri thức khám phá khơng chỉ người cung cấp cĩ thể sử dụng mà cả
người sở hữu (sinh viên) cũng cĩ thể dùng. Vì vậy, ứng dụng của khai khống dữ
liệu trong hệ thống giáo dục cĩ thể hướng đến tác nhân khác với các gĩc nhìn đặc
trưng:
Hướng đến sinh viên: Mục tiêu là để khuyến khích người học về các hoạt
động, tài nguyên và các tác vụ học cĩ thể gây hứng thú và cải thiện học vấn, đề xuất
kinh nghiệm học tập tốt cho sinh viên, đề xuất hướng đi và giảm thiểu hay đơn giản
là liên kết để sinh viên theo, dựa trên các tác vụ đã hồn thành và thành cơng của họ
và các tác vụ đã được tạo bởi những người học tương tự, …
Hướng đến người dạy: Mục đích là cĩ được nhiều phản hồi về giảng dạy,
đánh giá cấu trúc nội dung khố học và hiệu quả của nĩ lên tiến trình đào tạo, phân
lớp các học viên thành các nhĩm dựa trên nhu cầu về định hướng và giám sát, tìm ra
các mẫu thường và bất thường về tiến trình học tập của học viên, tìm ra các lỗi
thường mắc, tìm ra các hoạt động hiệu quả hơn, khám phá các thơng tin để cải thiện
tính hiêu quả và tuỳ biến khố học, cấu trúc lại để cá nhân hố chương trình dạy học
tốt hơn, tổ chức lại nội dung hiệu quả hơn cho tiến trình của người học và xây dựng
các kế hoạch thích ứng hơn, …
-7-
Hình 2.1: Chu trình ứng dụng khai khống dữ liệu vào các hệ thống giáo dục
Hướng đến những người quản trị và những người chịu trách nhiệm
chuyên mơn: Mục tiêu là để cĩ các thơng số về cải thiện trang một cách hiệu quả và
thích ứng đối với hành vi của người dùng của họ (tối ưu kích thước server, phân bố
dấu vết mạng, …), tìm cách tổ chức các tài nguyên thành lập (con người và tư liệu)
và các đề nghị giáo dục, đề cao các chương trình giáo dục được cung cấp và quyết
định sự ảnh hưởng lên việc tiếp cận khoảng cách trung gian học tập.
Cĩ nhiều cơng cụ khai khống thơng thường cung cấp thuật tốn khai
khống, kỹ thuật lọc và trực quan hĩa. Vài ví dụ của các cơng cụ thương mại và hàn
lâm như DBMiner, Clementine, Intelligent Miner, Weka, … Tuy nhiên các cơng cụ
này khơng được thiết kế đặc biệt và bảo trì cho mục đích giáo dục và thật là nặng nề
cho người dạy nếu khơng cĩ kiến thức bao quát trong lĩnh vực khai khống dữ liệu
để sử dụng các cơng cụ này. ðể giải quyết vấn đề này vài cơng cụ khai khống dữ
liệu giáo dục, thống kê và trực quan hĩa được phát triển để giúp người dạy phân
tích khía cạnh khác biệt của tiến trình học tập (xem bảng 2.1).
Các hệ thống giáo dục
(Lớp học truyền thống,
hệ thống đào tạo trực
tuyến, hệ thống giáo dục
trực tuyến thích ứng và
thơng minh)
Thiết kế, hoạch
định, xây dựng
và bảo trì
Sử dụng, tương
tác, tham gia
và giao tiếp
Dữ liệu về cách sử dụng
và sự tương tác của sinh
viên, thơng tin khĩa học,
học liệu,…
Khai khống dữ liệu
(gom nhĩm, phân lớp,
tách nhĩm, kết hợp, so
khớp mẫu, khai khống
văn bản)
Thể hiện tri thức
được khám phá
ðưa ra các lời
khuyên
Giáo viênNhà chuyên mơn
Sinh viên
-8-
Bảng 2.1: Một số cơng cụ khai khống giáo dục, thống kê và trực quan hĩa
Cơng cụ Tác giả Tác vụ
Mining Tool Zaiane và Luo (2001) Kết hợp và mẫu
MultiStar Silva và Viera (2002) Kết hợp và phân lớp
Data Analysis
Center Shen et al. (2002) Kết hợp và phân lớp
EPRules Romero et al. (2003) Kết hợp
KAON Tane et al. (2004) Khai khống văn bản và gom
nhĩm
TADA-ED Merceron và Yacef (2005) Phân lớp và kết hợp
O3R Becker et al. (2005) Mẫu tuần tự
Synergo/ColAT Avouris et al. (2005) Thống kê và trực quan hĩa
GISMO/Course Vis Mazza và Milani (2005) Trực quan hĩa
Listen Tool Mostow et al. (2005) Trực quan hĩa
TAFPA Damez et ak. (2005) Phân lớp
iPDF_Analyzer Bari và Benzater (2005) Khai khống văn bản
2.2 Hệ thống giáo dục: dữ liệu và mục tiêu
Khai khống dữ liệu cĩ thể ứng dụng cho dữ liệu đến từ 2 loại hệ thống giáo
dục: lớp học truyền thống và giáo dục từ xa. Cần thiết phải giải quyết vấn đề độc
lập với ứng dụng của kỹ thuật khai khống trong mỗi loại bởi chúng khác biệt về
nguồn dữ liệu và mục tiêu.
2.2.1 Lớp học truyền thống
Mơi trường lớp học truyền thống được sử dụng rộng khắp. Dựa trên phương
thức giao tiếp mặt-đối-mặt giữa người dạy và sinh viên thơng qua các bài giảng. Cĩ
nhiều kiểu phụ khác nhau: giáo dục riêng và cộng đồng, sơ cấp và trung cấp, cao
cấp, cấp 3 và giáo dục hàn lâm, giáo dục đặc biệt. Kiểu lớp học này bị chỉ trích vì
nĩ khuyến khích lối học thụ động, bỏ qua các khác biệt cá thể và nhu cầu của người
học, khơng chú ý đến giải quyết vấn đề, lối suy nghĩ chủ quan, hoặc các kỹ năng
suy nghĩ cao cấp. Trong lớp học truyền thống, người dạy cĩ xu hướng đề cao
phương pháp bằng cách giám sát tiến trình học tập của sinh viên và phân tích thái
độ bằng các ghi nhận trên giấy và quan sát. Họ cũng cĩ thể sử dụng thơng tin về
tình hình tham dự lớp của sinh viên, thơng tin khố học, các mục tiêu cá nhân và
-9-
các dữ liệu kế hoạch cá nhân. Các viện giáo dục cĩ nhiều loại nguồn thơng tin khác
nhau: cơ sở dữ liệu truyền thống (thơng tin sinh viên, thơng tin người dạy, lớp và
thời khố biểu,…), thơng tin trực tuyến (các trang về thơng tin khố học), cơ sở dữ
liệu truyền thơng,… Khai khống dữ liệu giúp các tác nhân này về tiến trình học
tập. Các viện muốn biết sinh viên nào muốn tham gia các khố học đặc thù nào và
sinh viên nào cần sự giúp đỡ để cĩ thể tốt nghiệp. Người quản trị cĩ thể muốn tìm
hiểu các thơng tin như các yêu cầu thu nạp và dự đốn số lượng tham gia để cĩ thể
sắp thời gian. Sinh viên cĩ thể muốn biết chọn lựa khố học tốt nhất dựa trên dự
đốn thành tích trên khố học đã chọn. Người dạy cĩ lẽ muốn biết kỹ năng học nào
đĩng gĩp quan trọng trong tồn bộ tiến trình học, tại sao một lớp tiến triển kém hơn
các lớp khác, các nhĩm sinh viên tương đương,… cĩ vài nghiên cứu về ứng dụng
của khai khống dữ liệu trong giáo dục truyền thống. Một trong những bài viết đầu
tiên về việc sử dụng khai khống dữ liệu trong giáo dục để hiểu về việc tham gia
lớp học của sinh viên được viết bởi Sanjeev và Zytkow năm 1995. Họ ứng dụng tri
thức khám phá vào mệnh đề hình thức dạng “Mẫu P chứa dữ liệu trong khoảng R”
cho cơ sở dữ liệu đại học. Kết quả được trình bày đến một quản trị trường đại học
chuyên để đưa ra các quyết định mang tính chiến lược về qui cách viện. Một nghiên
cứu khác về việc sử dụng KDD để định danh và để hiểu sự xét duyệt lý lịch cĩ ảnh
hưởng đến sinh viên ở một trường ðại học Brazil do Becker và cộng sự đưa ra năm
2000. Họ kiểm chứng chất lượng tác động của xét duyệt và đánh giá sử dụng nhiều
kỹ thuật như tổng hợp, kết hợp, phân lớp. Một nghiên cứu khác liên quan, mục tiêu
là chọn các sinh viên yếu để tham gia các lớp học phụ đạo do Ma và cộng sự nêu ra
năm 2000. Họ sử dụng hàm tính điểm dựa trên luật kết hợp. ðầu tiên, họ xác định
các sinh viên yếu tiềm tàng và sau đĩ chọn các khố học được khuyến khích tham
gia. Cuối cùng, ứng dụng trong giáo dục cao cấp để thực hiện phân tích thấu đáo cá
tính của sinh viên được thực hiện bởi Luan năm 2002 [15]. Ơng đề xuất sử dụng
nhiều phương pháp khơng giám sát (mạng Kohonen) và giám sát (C5.0, các thuật
tốn thơng dụng,…) để gom nhĩm và dự đốn nhằm cho phép các viện giáo dục cấp
-10-
tài nguyên và số liệu, tiên phong quản lý các kết quả của sinh viên và cải thiện tính
hiệu quả của hậu phát triển.
2.2.2 Giáo dục từ xa
Giáo dục từ xa hay đào tạo từ xa bao gồm các kỹ thuật và phương pháp cung
cấp kết nối đến chương trình giáo dục cho những sinh viên bị cách biệt về thời gian
và khơng gian với các bài giảng. Hệ thống đào tạo trực tuyến thiếu hụt mối quan hệ
gần gũi của sinh viên – giảng viên (một đối với một). Cĩ nhiều kiểu phụ của giáo
dục từ xa: đào tạo dựa trên giấy tương đương, đào tạo qua băng video, đào tạo trên
máy vi tính (đào tạo đa truyền thơng, đào tạo trên internet, hoặc đào tạo trực
tuyến),...
Hiện tại, được sử dụng nhiều nhất là hình thức đào tạo trên web cho phép
sinh viên học tập thuận tiện thơng qua internet. ðào tạo trên web là hình thức đào
tạo từ xa phát triển trên internet do Johnson và cộng sự đề xuất năm 2000. Ngày
nay, cĩ nhiều điều liên quan đến giáo dục trên web như học tập trực tuyến, đào tạo
trực tuyến, hướng dẫn trực tuyến, học tập trên web, đào tạo trên web, hướng dẫn
trên web,... và cĩ nhiều loại hệ thống dựa trên web: đồng bộ và bất đồng bộ, cộng
tác và khơng cộng tác, tập văn mở và đĩng,… Các hệ thống giáo dục trên web này
cĩ thể ghi nhận truy cập của sinh viên trên web log cung cấp dấu vết thơ của người
học di chuyển trong site. Srivastava và cộng sự nêu ra nhiều loại log vào năm 2000:
Server log file: Hình thức ủy nhiệm được sử dụng rộng rãi dùng nguồn dữ
liệu để thực hiện khai khống, chứa các chi tiết thật về thời gian, lộ trình và các
phản hồi đầu vào. ða dạng về định dạng như định dạng phổ biến (CLF), định dạng
văn bản mở rộng (ELF),… Thường thì chỉ cĩ dạng file log cho tất cả sinh viên.
Client log file: Bao gồm tập hợp các log files cho mỗi sinh viên, chứa
thơng tin về tương tác của sinh viên với hệ thống. Cĩ thể được cài đặt bằng các tác
nhân từ xa (như Javascripts, Java Applets), định nghĩa mã nguồn của trình duyệt
hiện hành, hoặc dùng cookies.
-11-
Proxy log file: Bao gồm tập các log files lưu trữ đệm giữa trình duyệt và
máy chủ. Thơng tin này bổ sung thơng tin cho server log file. Cần lưu ý khái niệm
log cĩ bao gồm giới hạn của luật pháp. Ngồi ra bất cứ khi nào hệ thống log xác
thực người dùng khơng cần phải liên quan đến hiện diện thực của người dùng
nhưng chủ yếu xem họ như chủ thể cá nhân. Log files cũng cĩ nhiều giới hạn cịn
tồn tại, ghi vết dữ liệu khơng phải người dùng, đơn giản chỉ click và khơng thực sự
tham gia hoạt động, khơng nắm bắt được thơng tin ngữ cảnh, nhận biết các máy tính
đặc biệt chứ khơng phải con người, các vấn đề liên quan đến thơng tin khơng hồn
tất hoặc khơng chính xác và vài khía cạnh kỹ thuật của trình duyệt (như bộ nhớ
đệm) cĩ thể cản trở ghi vết. ðể định các vấn đề, Yu, Own và Lin năm 2001 đề xuất
sử dụng cách khác để ghi nhận hồ sơ học viên bao gồm lộ trình học, chú trọng trên
các khố học, trình độ khố học, thời gian học,… Li và Zayiane năm 2004 sử dụng
nhiều kênh thơng tin hơn để mơ hình hố định hướng người dùng : dấu vết truy cập,
cấu trúc các trang đã xem, thơng tin các trang đã xem. Avouris, Komis, Fiotakis,
Margaritis và Voyiatzaki năm 2005 mở rộng tính năng tự động sinh log files bằng
cách giới thiệu các thơng tin ngữ cảnh như là các sự kiện bổ sung bằng cách liên kết
các bình luận và các files tĩnh. Monk năm 2005 kết hợp dữ liệu trên hoạt động với
nội dung và hồ sơ người dùng trong một mơ hình kết hợp hình thức. Ingram năm
1999 kết hợp dữ liệu với các phương pháp thẩm vấn như trị chuyện với sinh viên,
trong lớp thì phát biểu, khảo sát, hay viết phản hồi về web site. Iksal and Choquet
năm 2005 đề xuất sử dụng ghi vết siêu ngơn ngữ để mơ tả đường đi ngữ nghĩa ghi
nhận bởi hệ thống giáo dục trên web. Markham và cộng sự năm 2003 đề xuất sử
dụng phần mềm rút trích dữ liệu từ mơi trường học trực tuyến và tổ chức chúng
theo nhiều cách thơng minh. Các hệ thống giáo dục được phân thành 3 loại: các
khố học trên web, hệ quản trị thơng tin đào tạo phổ biến và hệ thống giáo dục
thơng minh và dễ thích ứng trên web.
-12-
2.2.2.1 Các khĩa học đặc thù trên web
Các khố học trên web là các chương trình học sử dụng chuẩn HTML
(HyperText Markup Language). Cĩ nhiều khố học, hướng dẫn,… của loại này trên
internet và cũng như các website khác, nĩ cĩ cùng một loại nguồn dữ liệu:
Nội dung: Dữ liệu thực trong trang web, ví dụ dữ liệu được thiết kế để
truyền đạt đến người dùng. Bao gồm vân bản, đồ hoạ, video, âm thanh,…
Cấu trúc: Dữ liệu mơ tả tổ chức của nội dung. Cấu trúc thơng tin nội bao
gồm dãy các thẻ HTML hay XML chứa trong một trang. Cĩ thể được trình bày
thành cấu trúc cây, trong đĩ thẻ HTML thành gốc của cây. Loại chính yếu của cấu
trúc thơng tin trang là liên kết giữa trang này với trang khác.
Thơng tin sử dụng: Dữ liệu mơ tả mẫu sử dụng của các trang. Cĩ hai loại
thơng tin sinh viên: thơng tin về hành động của sinh viên và truyền thơng, thơng tin
về hoạt động của sinh viên trong khố học.
Hồ sơ người dùng: Dữ liệu cung cấp thơng tin nhân khẩu về người dùng
của site. Bao gồm thơng tin đăng ký và hồ sơ khách hàng.
Khai khống dữ liệu cĩ thể dùng để biết sinh viên sử dụng khố học như thế
nào, mức độ tác động của các chiến lược sư phạm lên nhiều loại sinh viên, thứ tự
sinh viên học về các đề tài phụ, các trang/ đề tài nào sinh viên thường bỏ qua, thời
gian sinh viên bỏ ra trên một trang, một chương hay tồn bộ khố học,…
2.2.2.2 Các hệ quản trị nội dung học tập phổ biến
Các hệ quản trị thơng tin nổi tiếng (LCMS) là các nền tảng cung cấp các
kênh thơng tin đa dạng và khơng gian làm việc để chia sẻ thơng tin thuận tiện và
truyền thơng giữa các học viên trong khố, cho phép người dạy chia sẻ thơng tin
đến sinh viên, tạo ra các tư liệu, chuẩn bị các bảng phân cơng và bài kiểm tra, hứa
hẹn vào các cuộc thảo luận, quản lý các lớp học từ xa và cho phép kết hợp học tập
với diễn đàn và chat, khơng gian lưu trữ hồ sơ, dịch vụ tin tức,… Vài ví dụ của
LCMS thương mại Blackboard, Virtual-U, WebCT, TopClass,... và vài ví dụ về
LCMS miễn phí: Moodle, Ilias, Claroline, aTutor,... Các hệ thống này gom lại
lượng lớn dữ liệu vết hoạt động của sinh viên và cĩ tính năng giám sát tích hợp sẵn
-13-
(do Mazza & Milani nêu năm 2005). Cĩ thể ghi nhận bất cứ hoạt động nào cĩ liên
quan, như đọc, viết, tham gia kiểm tra, thực hiện các tác vụ trong mơi trường thực
và ảo, ngay cả khi liên lạc với các máy ngang hàng (do Mostow nêu năm 2004).
ðồng thời cung cấp dữ liệu lưu trữ tồn bộ thơng tin hệ thống: thơng tin cá nhân của
người dùng (hồ sơ), kết quả hàn lâm, dữ liệu tương tác người dùng,…
Mặc dù vài nền cung cấp cơng cụ báo cáo, khi mà cĩ lượng lớn sinh viên, trở
nên khĩ khăn cho quá trình rút trích thơng tin hữu ích. Khai khống dữ liệu cĩ thể
ứng dụng để khám phá , trực quan hĩa và phân tích dữ liệu nhận biết các mẫu hữu
ích và kiểm định các hoạt động trên web để cĩ các phản hồi mang tính mục tiêu cho
giảng dạy và biết nhiều hơn về cách sinh viên học trên LCMS.
2.2.2.3 Các hệ thống giáo dục thích ứng và thơng minh trên web
Brusilovsky & Peylo năm 2003 đề cập đến hệ thống giáo dục dễ thích ứng và
thơng minh (AIWBES) cung cấp lựa chọn cho lối truyền thống đơn giản đưa-chúng-
lên-trang-web tiếp cận định hướng phát triển chương trình học trên web. AIWBES
cĩ khả năng thích ứng dễ dàng hơn bằng cách xây dựng mơ hình các mục tiêu, sở
thích và kiến thức của mỗi sinh viên và sử dụng mơ hình đĩ suốt quá trình giao tiếp
với sinh viên nhằm thích ứng nhu cầu của sinh viên. AIWES là kết quả của sự tiến
hố của hệ thống hướng dẫn thơng minh (ITS) và hệ siêu truyền thơng dễ thích ứng
(AHS). Vài ví dụ của ITS là SQL-Tutor, German Tutor, ActiveMath, VC-Prolog-
Tutor và vài ví dụ của AHS là AHA!, InterBook, KBS-Hyperbook, WebCOBALT.
Dữ liệu từ AIWEBS ngày càng giàu ngữ nghĩa và cĩ thể hướng đến phân tích dự
đốn hơn là dữ liệu từ hệ thống giáo dục trên web truyền thống. Các dữ liệu cĩ sẵn
từ mơ hình miền (Cĩ thể được cấu trúc như bản thể), tập dữ liệu sư phạm (tập các
vấn đề, các giải pháp và các thơng tin phức tạp), các hồ sơ vết tương tác (dữ liệu
liên quan đến sự tương tác của người dùng) và mơ hình sinh viên (danh sách các
ràng buộc thoả mãn và vi phạm). AIWBES sử dụng chuẩn mơ hình sinh viên (vốn
được sử dụng nội trong hệ thống hướng dẫn), nhưng vì mục đích của khai khống
dữ liệu, cần thiết phải cĩ một mơ hình mới về tương tác của sinh viên cùng với các
thơng tin bổ sung với dữ liệu ngữ cảnh. Tương tác của sinh viên cĩ thể được phân
-14-
tích thành nhiều lớp khác nhau của hạt: khố học, phiên, vấn đề, cố gắng và ràng
buộc. Khai khống dữ liệu cĩ thể được dùng để khám phá nguyên nhân gây ra các
vấn đề cho hệ thống, ví dụ các mệnh đề phản hồi sai, để ấn định tiến độ của người
học, đề xuất các kinh nghiệm học cá nhân và hoạt động của sinh viên.
2.3 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu cho phép biến đổi dữ liệu nguyên thuỷ thành các dạng phù
hợp sử dụng trong các thuật tốn khai khống. Vì thế, trước khi thực thi các thuật
tốn khai khống, một lượng lớn các tác vụ tiền xử lý cần được chỉ định:
Làm sạch dữ liệu: Một trong những tác vụ chính yếu, để loại bỏ phần tử
khơng thích hợp và các log khơng cần thiết cho tiến trình xử lý như đồ hoạ, script.
ðịnh danh người dùng: Tiến trình liên kết các tham khảo đến người dùng
đã đăng nhập.
ðịnh danh phiên làm việc: Yêu cầu tồn bộ các tham khảo đến người
dùng và khố học trong log và rã chúng thành các phiên người dùng. Trong một số
trường hợp riêng, chúng tơi giả định ban đầu phiên làm việc mới khi sự thay đổi về
khố học diễn ra hoặc khi khoảng thời gian giữa 2 giao tác thành khơng trong 30
phút.
Tiến độ hồn thành: Chứa tồn bộ các tham khảo cịn thiếu do lưu đệm
của trình duyệt và proxy server.
ðịnh danh giao tác: rã các phiên thành các đơn vị nhỏ hơn, coi như các
giao tác hay các tập.
Biến đổi dữ liệu và làm giàu: Bao gồm tính tốn các thuộc tính mới từ
các thuộc tính cĩ sẵn, chuyển đổi các thuộc tính số học thành các thuộc tính cĩ
nghĩa, cung cấp ý nghĩa để tham khảo các thơng tin trong log,…
Tích hợp dữ liệu: Sự tích hợp và đồng bộ dữ liệu từ các nguồn hỗn hợp.
Giảm dữ liệu: Giảm chiều dữ liệu.
Ngồi ra, tiền xử lý dữ liệu của hệ thống giáo dục trên web cĩ vài đặc thù
đưa ra:
-15-
Hầu hết các hệ thống sử dụng xác thực người dùng (bảo mật mật mã) mà
các log định danh bởi người dùng kể từ lúc người dùng đăng nhập và các phiên đã
được định danh kể từ lúc người dùng thốt.
Hầu hết các hệ thống ghi nhận tương tác của sinh viên khơng chỉ trong
các log mà cịn trực tiếp vào cơ sở dữ liệu. Nếu khơng rơi vào các trường hợp, trong
suốt tiến trình chuẩn bị, dữ liệu của mỗi dinh viên (hồ sơ, log) cĩ thể được kết vào
cơ sở dữ liệu. Cơ sở dữ liệu mạnh hơn các văn bản log thơng thường và cung cấp sự
phân tích dễ dàng và linh động hơn, ít lỗi hơn.
Biến đổi dữ liệu càng hướng đến trình diễn tốt hơn của dữ liệu. Các trị số
học cĩ thể được phân rã hoặc biến đổi thành các khoảng cung cấp cái nhìn tương
thích hơn về dữ liệu. Các thuộc tính mới kết tinh từ các thuộc tính hiện cĩ là nguồn
gốc của các thuộc tính đặc biệt. Tiến trình sản sinh thể hiện vài loại kết tập, ví dụ:
mỗi tiến trình thử được phân nhĩm thành các lượng nhĩm thuộc tính mới.
Trong quá trình phân chia các phiên thăm cá nhân thành các giao tác, cĩ
thể định danh các phiên phụ hoặc nhiệm vụ các thơng tin mạch lạc cần thiết trong
tiến trình định danh dựa trên nội dung thực của trang. Ngồi các ý nghĩa khác biệt
của tương tác ở các trình độ khác nhau của trừu tượng cĩ thể khác biệt: tương tác
học và đào tạo, giao diện người máy và đa truyền thơng và dịch vụ tương tác.
Lọc dữ liệu sử dụng các khái niệm giáo dục đặc biệt như: số lượng các
ứng cử viên, số lần đọc lặp lại, trình độ kiến thức,… Thơng thường, dữ liệu được
lọc bằng cách định nghĩa một vài điều kiện trên một hay nhiều thuộc tính và loại bỏ
các thể hiện vi phạm.
Người dạy cĩ thể tham gia các tác vụ tiền xử lý, ví dụ, đề xuất các phương
thức lọc đặc thù và sản sinh thuộc tính hoặc biến đổi,… Vì thế, cần thiết đề cao việc
làm thuận tiện tiến trình tiền xử lý chuẩn bị cho dữ liệu học tập trực tuyến sao cho
cĩ ý nghĩa nhất và hữu ích nhất.
2.4 Các kỹ thuật khai khống dữ liệu trong hệ thống giáo dục
Khai khống dữ liệu là lĩnh vực tập trung nhiều nghiên cứu: kiến trúc cây
quyết định, luật qui nạp, mạng neural, học tập dựa trên thể hiện, học Bayes, lập
-16-
trình logic, các thuật tốn thống kê,… Phần tiếp theo là một số ứng dụng đặc thù
của kỹ thuật khai khống dữ liệu được phân nhĩm dựa vào tác vụ và hệ thống giáo
dục trên web (xem Bảng 2.2).
2.4.1 Thống kê và trực quan hĩa
Thống kê lượng sử dụng của sinh viên là điểm bắt đầu của tiến trình kiểm
nghiệm hệ thống đào tạo trực tuyến, mặc dù chúng khơng được xem là các kỹ thuật
khai khống dữ liệu. Thống kê hình thức suy luận là giả sử hướng về phần lớn được
thể hiện và được kiểm thử. Khai khống dữ liệu, một cách lạc quan, được khám phá
giả sử hướng về phần lớn tự động rút trích từ dữ liệu. thống kê.
Thống kê lượng sử dụng được rút trích bằng cách sử dụng các cơng cụ chuẩn
được thiết kế để phân tích các web server log như AccessWatch, Analog, Gwstat,
WebStat,… Nhưng cũng cĩ vài cơng cụ thống kê dữ liệu giáo dục như
Synergo/ColAT . Vài ví dụ thống kê lượng sử dụng được dễ dàng đo được như tổng
số lần xem và số lần xem từng trang. Vài thống kê thơng dụng khác cho thấy các
học viên liên quan phân bổ theo thời gian, phần lớn các khố học thường được tán
thành, làm cách nào người học tạo ra nhiều phiên học suốt cùng thời gian. Ngồi ra
vài thống kê đặc thù trong AIWBES cho thấy con số trung bình của vi phạm ràng
buộc, độ phức tập trung bình của vấn đề, tồn bộ thời gian sử dụng để thử. Các
kiểm thử thống kê thủ tục phức tạp hơn như phân tích hồi quy, phân tích tương
quan, thống kê đa chiều cần phải sử dụng các cơng cụ thống kê mạnh hơn như
SPSS, SAS, S, R, Statistica,... Nếu dữ liệu được lưu trữ trong cơ sở dữ liệu quan
hệ, thì các truy vấn SQL cĩ thể cung cấp các chức năng cho việc thi hành số lượng
lớn các thống kê đơn giản như độ lệch chuẩn, chế độ, kích thước mẫu,… Nhưng
thơng tin thu được từ lưu lượng sử dụng khơng phải lúc nào cũng dễ dàng phân tích
đối với người dạy và do đĩ các kỹ thuật khác cần phải được sử dụng. Kỹ thuật trực
quan hĩa thơng tin cĩ thể sử dụng để cải thiện mức độ phức tạp, dữ liệu vết sinh
viên đa chiều thu thập từ hệ thống giáo dục nền web. Các kỹ thuật này giúp thuận
-17-
tiện phân tích lượng lớn thơng tin bằng cách thể hiện dữ liệu ở nhiều kiểu trình bày.
Thơng thường các lượng lớn dữ liệu thơ được trình bày hoặc biểu diễn thành các đồ
thị, các mảnh rời rạc, trình diễn 3 chiều,… Thơng tin trực quan hĩa từ các biểu đồ
thống kê cĩ thể về phân cơng bổ sung, các câu hỏi đặt ra, điểm kiểm tra,… Các kỹ
thuật trực quan hĩa được dùng để hình dung các khía cạnh xã hội trong các hình
thức học kết hợp với sự hỗ trợ của máy vi tính, quan hệ cộng đồng trong các hệ
thống ngang hàng và các cuộc nĩi chuyện nhĩm trực tuyến. Người hướng dẫn cĩ
thể vận động các trình diễn đồ hoạ, cho phép học viên hiểu rõ hơn và chú ý đến
những gì diễn ra trong các lớp học từ xa. Cĩ vài cơng cụ trực quan hĩa trong dữ liệu
giáo dục như GISMO/CourseVis và Listen tool.
Bảng 2.2: Các nghiên cứu ứng dụng kỹ thuật khai khống dữ liệu vào hệ thống
giáo dục.
Tác giả Tác vụ Hệ thống giáo dục
Sanjeeve và Zytkow (1995) Mẫu tuần tự Giáo dục truyền thống
Zaiane et al. (1998) Thống kê và mẫu tuần tự Hệ thống LCM
Beck và Woolf (2000) Dự đốn Hệ thống AIWBE
Becker et al. (2000) Kết hợp và phân lớp Giáo dục truyền thống
Chen et al. (2000) Phân lớp Khố học nền Web
Ha et al. (2000) Kết hợp Khố học nền Web
Ma et al. (2000) Kết hợp Giáo dục truyền thống
Tang et al. (2000) Khai khống văn bản Hệ thống AIWBE
Yu et al. (2001) Kết hợp Khố học nền Web
Zaiane và Luo(2001) Mẫu tuần tự Hệ thống LCM
Luan (2002) Gom nhĩm và dự đốn Giáo dục truyền thống
Pahl và Donnellan (2003) Mẫu tuần tự và thống kê Hệ thống LCM
Shen et al. (2002) Trực quan hĩa Hệ thống LCM
Wang (2002) Kết hợp và mẫu tuần tự Khố học nền Web
Merceron và Yacef (2003) Thống kê Hệ thống AIWBE
Minaei-Bidgoli và Punch
(2003)
Phân lớp Khĩa học nền Web
Shen et al. (2003) Mẫu tuần tự và gom
nhĩm
Khố học nền Web
Zarzo (2003) Thống kê Khố học nền Web
Arroyo et al. (2004) Dự đốn Hệ thống AIWBE
Baker et al. (2004) Phân lớp Hệ thống AIWBE
Chen et al. (2004) Khai khống văn bản Khố học nền Web
Freyberger et al. (2004) Kết hợp Hệ thống AIWBE
Hamalainen et al. (2004) Phân lớp Hệ thống AIWBE
Heiner et al. (2004) Thống kê Hệ thống AIWBE
Lu (2004) Kết hợp Hệ thống AIWBE
-18-
Merceron và Yacef (2004) Kết hợp Hệ thống AIWBE
Minaei-Bidgoli et al. (2004) Kết hợp Khố học nền Web
Mor và Minguillon (2004) Gom nhĩm Hệ thống LCM
Romero et al. (2004) Kết hợp Hệ thống AIWBE
Talavera và Gaudioso
(2004)
Gom nhĩm Hệ thống LCM
Ueno (2004a) Phát hiện tách tử Khố học nền Web
Ueno (2004b) Khai khống văn bản Khố học nền Web
Wang et al. (2004) Mẫu tuần tự và gom
nhĩm
Hệ thống LCM
Li và Zaiane (2004) Kết hợp Hệ thống LCM
Avouris et al. (2005) Thống kê Khố học nền Web
Castro et al. (2005) Phát hiện tách tử Hệ thống LCM
Dringus và Ellis (2005) Khai khống văn bản Hệ thống LCM
Feng et al. (2005) Dự đốn Hệ thống AIWBE
Hammouda và Kamel
(2005)
Khai khống văn bản Khố học nền Web
Markellou et al. (2005) Kết hợp Khố học nền Web
Mazza và Milani (2005) Trực quan hĩa Hệ thống LCM
Mostow et al. (2005) Trực quan hĩa Hệ thống AIWBE
Muehlenbrock (2005) Phát hiện tách tử Hệ thống AIWBE
Nilakant and Mitrovic
(2005)
Thống kê Hệ thống AIWBE
Tang and McCalla (2005) Gom nhĩm Hệ thống AIWBE
Zorrilla et al. (2005) Thống kê Hệ thống LCM
Damez et al. (2005) Phân lớp Hệ thống AIWBE
Bari and Benzater (2005) Khai khống văn bản Hệ thống LCM
2.4.2 Khai khống web
Khai khống web (do Srivastava và cộng sự nêu năm 2000) là ứng dụng các
kỹ thuật khai khống dữ liệu rút trích tri thức từ web. Cĩ 3 hạng mục chính trong
khai khống web từ gĩc nhìn dữ liệu sử dụng: khai khống thơng tin web là tiến
trình rút trích thơng tin hữu ích từ nội dung văn bản web; khai khống cấu trúc web
là tiến trình khám phá thơng tin cấu trúc từ web; và khai khống lượng sử dụng
(WUM) là khám phá các mẫu cĩ nghĩa từ dữ liệu phát sinh từ giao tác client-server
trên một hay nhiều vùng. Nhưng cĩ hai hạng mục khai khống web từ gĩc nhìn sử
dụng hệ thống: khai khống web đoản tuyến, sử dụng để khám phá các mẫu và các
thơng tin hữu ích để giúp người dạy xác nhận mơ hình đào tạo và tái cấu trúc trang;
trực tuyến hay tích hợp khai khống web vào các mẫu đã được tự động khám phá
-19-
vào hệ thống thơng minh hay đại diện cĩ thể hỗ trợ người học trong nỗ lực học trực
tuyến. Các mẫu khai khống được dùng bởi hệ thống để cải thiện ứng dụng hay các
chức năng của nĩ.
Cĩ nhiều kỹ thuật khai khống web ứng dụng vào hệ thống giáo dục, nhưng
hầu như tồn bộ chỉ cĩ thể phân vào 1 trong 3 nhĩm sau: gom nhĩm, phân lớp và
phát hiện tách tử; khai khống luật kết hợp và khai khống mẫu tuần tự; và khai
khống văn bản.
2.4.2.1 Gom nhĩm, phân lớp và phát hiện tách tử
Gom nhĩm là tiến trình phân nhĩm các đối tượng vật lý hay trừu tượng thành
các lớp chứa các đối tượng như nhau. Gom nhĩm và phân lớp đều là các phương
pháp phân lớp. Gom nhĩm là phương pháp phân lớp khơng giám sát. Phân lớp và
dự đốn là hai kỹ thuật cĩ liên quan. Phân lớp dự đốn nhãn lớp, trong khi dự đốn
ước tính các hàm diễn trị. Mặt khác, phát hiện tách tử là sự quan sát (hay đo đạc)
thường lớn hay nhỏ phụ thuộc vào các trị khác nhau trong tập dữ liệu. Phát hiện
tách tử tiêu biểu là thuộc tính đối với một trong những nguyên nhân sau: Sự đo
lường được xác định, ghi nhận, hoặc nhập vào máy tính một cách sai lệch; ðo đạc
đến từ mật độ phân bố; đo đạc đúng nhưng biểu diễn các sự kiện hiếm.
Các phương pháp này được ứng dụng vào hệ thống giáo dục nền web. Gom
nhĩm cĩ thể gom nhĩm tập các trang cĩ nội dung như nhau, người dùng với định
hướng như nhau hay các phiên định hướng. Phân lớp cho phép cá tính hố thuộc
tính của nhĩm hồ sơ người dùng, các trang như nhau hay các phiên học tập. Phát
hiện tách tử cĩ thể phát hiện các sinh viên cĩ vấn đề trong học tập. Sau đĩ chúng tơi
mơ tả vài nghiên cứu về ứng dụng của các kỹ thuật đĩ lên các kiểu khác nhau của
hệ thống giáo dục nền Web:
- Các khố học trên web: Chen, Liu, Ou và Liu năm 2000 ứng dụng cây
quyết định (thuật tốn C5.0) và dữ liệu kỹ nghệ lập phương từ các hồ sơ web log để
quản lý các tiến trình. Phân tích đệ quy khám phá nhĩm sinh viên tiềm năng cĩ
cùng tính cách và phản ứng đối với một chiến lược sư phạm đặc thù. Minaei-
Bidgoli và Punch năm 2003 phân lớp sinh viên dựa trên các đặc tính rút ra từ các dữ
-20-
liệu ghi nhận nhằm dự đốn trình độ cuối kỳ của sinh viên. Họ sử dụng các thuật
tốn chung để tối ưu kết hợp các phân lớp bằng cách đo các vector. Ueno năm 2004
đề xuất phương pháp phát hiện tách tử trực tuyến của tiến trình học khơng riêng của
học viên bằng cách dùng dữ liệu về phản hồi của học viên đối với các nội dung học
trực tuyến. Các phương pháp phát hiện tách tử trực tuyến sử dụng luật phân phối
dự đốn Bayesian và nĩ hỗ hai hướng dẫn bằng cách sử dụng kết quả khai khống
cho tiến trình học của học viên.
- Các hệ thống quản trị thơng tin học tập: Talavera và Gaudioso năm 2004 đề
xuất khai khống dữ liệu sinh viên sử dụng gom nhĩm để khám phá các mẫu phản
ánh hành vi người dùng. Họ đề xuất mơ hình cho quản lý kết hợp để cá tính hố các
nhĩm hành vi vào các khơng gian cộng tác phi cấu trúc. Mor và Minguillon năm
2004 mở rộng khả năng tuần tự của SCORM chuẩn để đưa vào khái niệm của lộ
trình được khuyến khích, bằng cách kết hợp sự tinh thơng của người dạy và các
kinh nghiệm học được từ phân tích lưu lượng sử dụng hệ thống. Castro, Vellido,
Nebot và Minguillon năm 2005 phát hiện các hành vi đặc trưng trên các kiến trúc
phân nhĩm người dùng của một khu trại ảo. Họ đề xuất sử dụng mơ hình bản vẽ
định vị và mơ hình gom nhĩm để cá tính hố nhĩm các sinh viên trực tuyến. Mơ
hình trung hồ các tác động nghịch của phát hiện tách tử trên tiến trình gom nhĩm
dữ liệu.
- Hệ thống giáo dục nền web dễ thích ứng và thơng minh.Tang và cộng sự
năm 2000 đã sử dụng gom nhĩm dữ liệu cho đào tạo trên web để đề xuất cách học
cộng tác theo nhĩm và để cung cấp dự đốn sự gia tăng của học viên. Họ tìm các
vùng sinh viên với các tính cách học tập giống nhau dựa trên sự tuần tự và nội dung
các trang mà sinh viên xem. Họ đang làm việc trên hệ thống tư vấn thơng minh sử
dụng gom nhĩm và lọc kết hợp. ðây là hệ thống khuyến cáo cĩ thể cá nhân hố và
làm thích ứng các nội dung khố học dựa trên quan sát hệ thống của học viên và các
đánh giá tích luỹ bởi học viên. Hamalainen và cộng sự vào năm 2004 giới thiệu mơ
hình lý thuyết, kết hợp cả các kỹ thuật khai khống dữ liệu và máy học để xây dựng
một mạng Bayesian nhằm mơ tả tiến trình học tập của sinh viên. Mục đích là để
-21-
phân loại sinh viên để đưa ra các hướng dẫn đặc trưng dựa trên kỹ năng và tính
cách. Beck và Woolf năm 2000 xây dựng một đại diện đào tạo cho các sinh viên cĩ
trình độ cao mơ hình hố với máy học trong hệ thống hướng dẫn thơng minh. ðại
diện này học cách dự đốn khả năng phản hồi chính xác tiếp theo của sinh viên và
bao lâu để sinh viên đưa ra phản hồi. Chúng sử dụng hồi quy tuyến tính để dự đốn
các thay đổi cĩ thể thấy được. Arroyo, Murray, Woolf và Beal năm 2004 đưa ra các
kết luận các thay đổi học được từ các ITS log file của sinh viên. Họ bắt đầu từ việc
phân tích mối tương quan giữa các biến thể và mạng Bayesian kết luận từ thái độ
của sinh viên (cả khẳng định lẫn phủ định) và dự đốn của hệ thống. Họ dùng các
phương pháp cĩ khả năng đúng để học các xác suất điều kiện từ dữ liệu sinh viên.
Baker, Corbett và Koedinger năm 2004 sử dụng mơ hình máy học phản hồi tiềm
tàng để phát hiện các sinh viên sử dụng sai lệch hệ thống hướng dẫn thơng minh.
Họ xây dựng cơ chế phân lớp để nhận biết nếu như sinh viên đang chơi với hệ thống
theo lối dẫn đến học tập kém và cần phải can thiệp. Feng, Hefernan và Koedinger
năm 2005 tìm kiếm nguồn lỗi trong dự đốn tri thức sinh viên. Họ thực hiện hồi quy
từng bước để dự đốn thơng số giúp các dự đốn kém về các điểm số cuối kỳ.
Muehlenbrock năm 2005 phát hiện các đặc trưng và lệch lạc trong hành động của
học viên hay người dạy so với người khác, nhằm cung cấp người dạy và học viên
các thơng tin hỗ trợ quản lý việc dạy và học. Damez, Marsala, Dang và Bouchon-
Meunier năm 2005 sử dụng cây quyết định mờ cho mơ hình hố người dùng và
phân biệt người mới từ các khảo nghiệm người dùng một cách tự động. Họ dùng đại
diện để học các tính cách nhận thức của tác động người dùng và phân loại người
dùng được khảo nghiệm hay khơng.
2.4.2.2 Khai khống luật kết hợp và khai khống mẫu tuần tự
Khai khống luật kết hợp là một trong những phương pháp được học nhiều
nhất. Các luật cĩ liên quan đến một hay nhiều thuộc tính của tập dữ liệu với các
thuộc tính khác sinh các mệnh đề if–then liên quan đến các giá trị thuộc tính. Khai
khống luật kết hợp giữa tập các phần tử trong cơ sở dữ liệu lớn được khởi xướng
bởi Agrawal, Imielinski và Swami năm 1993 và mở ra một họ hàng thuật tốn mới.
-22-
Vấn đề nguyên thuỷ là phân tích giỏ hàng để tìm ra các mối quan hệ thú vị giữa các
mặt hàng được mua. Khai khống mẫu tuần tự do Agrawal & Srikant nêu ra năm
1995, nhằm tìm các mẫu phiên nội như là sự xuất hiện của tập các phần tử theo sau
một phần tử khác trong một tập phiên thứ tự theo thời gian hay phần. Các phương
pháp này đã được ứng dụng cho hệ thống giáo dục nền web. Kết hợp sẽ khai khống
những thơng tin mà sinh viên cĩ xu hướng truy cập cùng nhau hoặc những tập hợp
cơng cụ thường dùng. Vài mẫu tuần tự cĩ thể khai khống các thơng tin thúc đẩy
truy cập các thơng tin khác, hoặc cơng cụ và nội dung gắn bĩ nhau như thế nào
trong tiến trình học tập. Sau đĩ chúng ta mơ tả vài nghiên cứu về ứng dụng của các
kỹ thuật đĩ trong các kiểu hệ thống giáo dục khác nhau:
Các khố học nền web: Ha và cộng sự vào năm 2000 thực hiện phân tích
lộ trình cho các nền giáo dục cá nhân hố và các trang kết hợp với cấu trúc tri thức
ảo, cĩ thể thể hiện bởi bản thân người học khi họ di chuyển trong trang web. Yu và
cộng sự năm 2001 đã tìm ra các hành vi khơng đúng của sinh viên. ðịnh nghĩa các
web log truyền thống và ứng dụng các luật kết hợp mờ để tìm ra mối liên hệ giữa
mỗi mẫu của hành vi học viên; bao gồm thời gian họ bỏ ra để trên mạng, số lượng
các bài viết đã đọc và phát hành, số lượng các câu hỏi,…Wang năm 2002 phát triển
cơng cụ phân tích hồ sơ dựa trên kỹ thuật khai khống dữ liệu. Ơng ta sử dụng các
vùng tư liệu liên quan và sự tuần tự của chúng. Tri thức này cho phép người dạy
học về cấu trúc duyệt động và để định danh các mẫu học thú vị hay khơng được
mong đợi. ðể làm điều đĩ, ơng khám phá 2 loại mối quan hệ: quan hệ kết hợp và
quan hệ tuần tự giữa các tài liệu. Shen, Han, Yang, Yang và Huang vào năm 2003
sử dụng khai khống dữ liệu và nguyên nhân xuất phát từ các trường hợp cho đào
tạo từ xa. Họ dùng gom nhĩm để phân loại sinh viên dựa trên hành động và các luật
kết hợp tuần tự của các điểm tri thức khác nhau. Minaei-Bidgoli, Tan và Punch năm
2004 đề xuất khai khống các luật tương phản thú vị cho hệ thống giáo dục trên
web. Các luật tương phản giúp định danh các thuộc tính tính cách hố mẫu trình
diễn khơng cân bằng giữa các nhĩm sinh viên khác nhau. Markellou, Mousourouli,
Spiros và Tsakalidis năm 2005 đề xuất framework dựa trên bản thể học và khám
-23-
phá các luật kết hợp sử dụng thuật tốn ưu tiên. Vai trị của bản thể học là để quyết
định tư liệu học nào phù hợp hơn để khuyến khích người dùng.
Các hệ thống quản trị thơng tin đào tạo nổi tiếng: Zayiane và Luo năm
2001 đề xuất khám phá các mẫu hữu ích dựa trên các giới hạn, để người dạy đánh
giá hoạt động của sinh viên trong các khố học trên web. Li và Zayiane năm 2004
cũng sử dụng các đại diện khuyến khích cho hệ thống giáo dục sử dụng luật kết hợp
khai khống để khám phá kết hợp giữa các hành động người dùng và URL. ðại diện
cũng khuyến khích các hoạt động trực tuyến hay lối tắt trong khố học trên web dựa
trên lịch sử truy cập của học viên. Pahl và Donnellan năm 2003 phân tích các phiên
học của cá nhân sinh viên. ðầu tiên họ định khoảng thời gian học của mỗi sinh viên
và các web server rời thành các phiên, tính tốn thống kê và tìm kiếm các mẫu
phiên và các quãng thời gian. Wang, Weng, Su và Tseng năm 2004 đề xuất 4 pha
khai khống hồ sơ học, sử dụng khai khống mẫu tuần tự, gom nhĩm và tạo cây
quyết định một cách tuần tự, để rút trích các đặc tính học tập để tạo cây quyết định
để dự đốn nhĩm nào các học viên mới thuộc về.
Các hệ thống giáo dục thơng minh và dễ thích ứng. Lu năm 2004 sử dụng
các luật kết hợp mờ trong các tư liệu học cá nhân hố khuyến khích hệ thống. Ơng
sử dụng các luật khớp mờ để khám phá sự kết hợp giữa yêu cầu của sinh viên và
danh sách các học liệu. Romero và cộng sự năm 2004 đề xuất sử dụng cấu trúc lập
trình ngữ pháp với các kỹ thuật tối ưu đa mục tiêu để cung cấp các phản hồi cho các
tác giả. Họ khám phá các mối liên hệ thú vị từ thơng tin sử dụng của sinh viên.
Merceron và Yacef năm 2004 sử dụng luật kết hợp và các phân tích dữ liệu biểu
tượng cũng như các truy vấn SQL truyền thống để khai khống dữ liệu thu được từ
cơng cụ hướng dẫn nền web. Mục đích của họ là tìm ra các lỗi thường xảy ra cùng
nhau. Freyberger, Hefernan và Ruiz năm 2004 sử dụng luật kết hợp để hướng đến
mơ hình chuyển thiết lập tốt nhất của quá trình học tập của sinh viên trong hệ thống
hướng dẫn thơng minh. Luật kết hợp quyết định các hành vi nào cần phải được thực
hiện trên mơ hình chuyển đổi dự đốn thành tích sinh viên.
-24-
2.4.2.3 Khai khống văn bản
Các phương pháp khai khống văn bản cĩ thể xem như mở rộng của khai
khống dữ liệu trên dữ liệu văn bản và cĩ liên hệ mật thiết với khai khống web.
Theo Grobelnik, Mladenic, & Jermol, năm 2002, đây là lĩnh vực kỷ luật nội cĩ liên
quan đến máy học và khai khống dữ liệu, thống kê, thu hồi thơng tin và xử lý ngơn
ngữ tự nhiên. Khai khống văn bản cĩ thể hoạt động với tập dữ liệu phi cấu trúc
hoặc bán phi cấu trúc như tài liệu văn bản, HTML, email,… Kế tiếp, chúng tơi mơ
tả vài nghiên cứu ứng dụng của các kỹ thuật trên các hệ thống giáo dục nền web
khác nhau:
Các khố học nền tảng Web: Ueno năm 2004 sử dụng các kỹ thuật khai
khống dữ liệu và văn bản cho đào tạo kết hợp trong ILMS; sử dụng khai khống
văn bản cho các cuộc toạ đàm phân tích mở rộng tương đương. Học viên chọn thể
loại liên quan cĩ thể thể hiện được các bình luận của họ về hệ thống và hệ thống
cung cấp chế độ đánh giá cho bình luận của học viên giữa các học viên. Chen, Li,
Wang và Jia năm 2004 đề xuất tự động xây dựng các sổ điện tử thơng qua khai
khống nội dung web. Họ sử dụng chiến lược xếp hạng để đánh giá khả năng phù
hợp của trang và rút trích các đặc tính khái niệm và xây dựng hệ thống các cấp bậc.
Tane, Schmitz và Stumme năm 2004 đề xuất cơng cụ bản thể học để tạo ra hầu hết
các tài nguyên cĩ sẵn trên web. Họ sử dụng khai khống văn bản và các kỹ thuật
gom nhĩm để phân nhĩm tài liệu dựa trên đề tài và sự tương đương. Hammouda và
Kamel năm 2005 đề xuất thực hiện khai khống dữ liệu trên tài liệu, vốn là nền của
rút trích tri thức trong mơi trường đào tạo trực tuyến. Trong tiến trình khai khống
văn bản, gom nhĩm cũng được tiếp cận để định danh các nhĩm văn bản.
Các hệ thống quản trị thơng tin học tập nổi tiếng: Dringus và Ellis năm
2005 đề xuất sử dụng khai khống văn bản như là chiến lược cho định giá các diễn
đàn thảo luận bất đồng bộ. Các kỹ thuật khai khống văn bản tăng cường khả năng
học viên để đánh giá tiến trình của một bài thảo luận. Bari và Benzater năm 2005
trích dữ liệu từ các sản phẩm tương tác đa truyền thơng pdf để giúp đánh giá trình
diễn đa truyền thơng, các mục đích thống kê và để rút trích các dữ liệu liên quan.
-25-
Họ nhận biết các khối chính của trình diễn đa phương tiện và thể hiện các tính chất
bên trong.
Các hệ thống giáo dục thơng minh và dễ thích ứng: Tang và cộng sự năm
2000 đề xuất xây dựng cây hướng dẫn cá nhân hố trên web bằng cách khai khống
cả ngữ cảnh lẫn cấu trúc của chương trình. Họ sử dụng thuật tốn khai khống văn
bản theo chiến lược từ khố để chọn các bài viết cho các sinh viên đào tạo từ xa.
2.5 Các hướng nghiên cứu trong tương lai
Khai khống dữ liệu giáo dục sẽ là lĩnh vực nghiên cứu kế tiếp, gồm các
hướng nghiên cứu về giáo dục trực tuyến, siêu truyền thơng dễ thích ứng, hệ thống
dạy học thơng minh, khai khống web, khai khống dữ liệu,… Ứng dụng của khai
khống văn bản cĩ nhiều yêu cầu đặc thù khơng thể hiện ở các miền khác, chủ yếu
là nhu cầu tính đến khía cạnh sư phạm của học viên và hệ thống. Mặc dù khai
khống dữ liệu giáo dục là lĩnh vực nghiên cứu gần đây, nên cĩ số lượng lớn các
đĩng gĩp trong tập san, các hội nghị quốc tế, các hội thảo và vài quyển sách thể
hiện đây là lĩnh vực mới đầy hứa hẹn. Vài trong số các định hướng hứa hẹn là sử
dụng các đại diện khuyến khích cho đào tạo trực tuyến. Các đại diện này thấy được
sinh viên làm gì và đưa ra các hành động khuyến cáo (hoạt động, lối tắt, nội
dung,…) họ nghĩ rất tiện lợi cho sinh viên. Các đại diện này cĩ thể được tích hợp
trong hệ thống giáo dục trực tuyến liên quan mà các tư liệu cĩ thể tự động tìm thấy
trên web và tích hợp vào hệ thống. Bằng cách này, họ giúp người dạy phát hiện
phần nào trong số các tư liệu cĩ sẵn từ các nguồn khơng đồng nhất như internet là
tốt nhất để sử dụng để biên soạn các khố học mới. Ngồi ra, các khuyến cáo cĩ thể
được tích hợp với các miền tri thức trong bản thể học, kết hợp khai khống web và
web ngữ nghĩa trong khai khống ngữ nghĩa web. Khai khống web ngữ nghĩa là sự
tích hợp thành cơng trong tri thức bản thể ở các sàn của tiến trình khám phá tri thức.
Khai khống dữ liệu giáo dục là lĩnh vực nghiên cứu trẻ và cần thiết đặc
trưng hố hơn và định hướng nghiên cứu trong miền giáo dục để đạt được các thành
cơng ứng dụng đối với các lĩnh vực khác như khai khống dữ liệu y học, khai
khống dữ liệu thương mại điện tử,… Các định hướng nghiên cứu tương lai là:
-26-
Các cơng cụ khai khống được sử dụng dễ dàng hơn đối với người dạy hay
các người dùng khơng chuyên trong khai khống dữ liệu. Cơng cụ khai khống dữ
liệu được thiết kế thơng thường để mạnh mẽ và linh động hơn là đơn giản. Hầu hết
các cơng cụ khai khống dữ liệu hiện tại rất phức tạp cho người dạy sử dụng và các
đặc tính của nĩ đi xa quá tầm người dạy mong muốn. Vì vậy, các cơng cụ đĩ cần
phải trực quan hơn và dễ dàng tương tác với giao diện, với các thuật tốn khai
khống khơng cần tham số để đơn giản hố cấu hình và thực thi và với đặc tính trực
quan hĩa để làm cho kết quả cĩ ý nghĩa hơn cho người dạy và các thiết kế viên
chương trình đào tạo.
Chuẩn hố các phương pháp và dữ liệu. Các cơng cụ hiện từ các khố học
đặc thù cĩ thể chỉ hữu ích cho cá nhà phát triển. Khơng cĩ cơng cụ chung nào hay
các cơng cụ tái sử dụng hay kỹ thuật cĩ thể ứng dụng vào bất kỳ hệ thống giáo dục
nào. Vì thế, chuẩn dữ liệu và các tiến trình tiền xử lý, khám phá và hậu xử lý là cần
thiết.
Tích hợp với các hệ thống đào tạo trực tuyến: Cơng cụ khai khống dữ liệu
cần được tích hợp vào mơi trường đào tạo trực tuyến như các cơng cụ khác. Các tác
vụ khai khống dữ liệu (tiền xử lý, khai khống dữ liệu và hậu xử lý) cần được đưa
ra cho một ứng dụng đơn. Phản hồi và kết quả đạt được từ khai khống dữ liệu cĩ
thể được ứng dụng trực tiếp vào mơi trường đào tạo trực tuyến.
Các kỹ thuật khai khống dữ liệu đặc trưng. Các cơng cụ khai khống dữ liệu
hiệu quả được tính hợp vào miền tri thức giáo dục vốn đã đưa vào các kỹ thuật khai
khống dữ liệu. Các kỹ thuật khai khống đặc thù trong lĩnh vực giáo dục cĩ thể
giúp cải thiện các thiết kế hướng dẫn và các quyết định sư phạm tốt hơn. Thuật tốn
khai khống truyền thống cần được kích hoạt để tính đến ngữ cảnh giáo dục
2.6 Tĩm tắt một số luận văn thạc sĩ liên quan đến khai khống dữ liệu giáo dục
Tại trường đại học Khoa học tự nhiên TPHCM, trong các năm gần đây đã cĩ một
số luận văn nghiên cứu về lĩnh vực khai khống dữ liệu giáo dục:
-27-
Tác giả Nguyễn Hồng Tú Anh [1] nghiên cứu và phát triển thuật tốn
tìm luật kết hợp tối ưu trên thuộc tính số; ứng dụng khai khống dữ liệu kết quả học
tập của sinh viên.
Tác giả Nguyễn Quốc Thơng [6] ứng dụng luật kết hợp trong việc tính
điểm để phát hiện học sinh yếu, các học sinh cần phụ đạo thêm,... Quá trình khai
khống thực hiện trên các bảng như trong dữ liệu quan hệ.
Tác giả Lê Thanh Minh [4] nghiên cứu khai khống luật kết hợp trên kết
quả thi tốt nghiệp Trung học phổ thơng và Trung học cơ sở cho mục tiêu đánh giá
hiệu quả đào tạo và cung cấp các thơng tin cần thiết cho quá trình nâng cao chất
lượng học sinh.Tác giả Minh vận dụng kỹ thuật song song trong việc tìm kiếm các
itemset phổ biến và sử dụng khái niệm mờ trong xây dựng luật kết hợp. Quá trình
khai khống cũng được tiến hành trên các bảng dữ liệu quan hệ.
Tác giá Bùi Văn Thành [5] vận dụng kỹ thuật khám phá mẫu tuần tự
trong khai khống dữ liệu điểm sinh viên. Kết quả thu được cho phép dự đốn các
kết quả sẽ đạt trong thời gian tiếp theo thơng qua các kết quả đã đạt được trong hiện
tại.
Tác giả Nguyễn Hữu ðơng [2] cũng khai thác dữ liệu điểm học sinh, sử
dụng phương pháp khai phá tri thức từ dữ liệu chuỗi thời gian, với các dữ liệu điểm
được biến đổi phù hợp về dạng chuỗi thời gian.