Nghiên cứu và ứng dụng phương pháp khai khoáng luật kết hợp trên dữ liệu giáo dục

Trang nhan đề Lời cảm ơn Mục lục Danh mục bảng Chương_1: Mở đầu Chương_2: Tổng quan về bài toán khai khoáng dữ liệu giáo dục đào tạo Chương_3: Khai khoáng dữ liệu bằng luật kết hợp Chương_4: Chương trình và kết quả Chương_5: kết luận và hướng phát triển Tài liệu tham khảo

pdf24 trang | Chia sẻ: lvcdongnoi | Lượt xem: 2673 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Nghiên cứu và ứng dụng phương pháp khai khoáng luật kết hợp trên dữ liệu giáo dục, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ược xem như đĩng vai trị quan trọng và hàng ngàn khố học trên web đã được triển khai trong vài năm qua. Nhưng nhiều trong số các khố học này lại dựa trên các tư liệu học tập tĩnh, khơng thực sự phù hợp với sự đa dạng trong sinh viên. Hệ thống giáo dục thích ứng và thơng minh được coi như giải pháp cho mơi trường học tập cá nhân. Hệ thống này cung cấp cho người học chế độ học tập cá nhân bằng cách xây dựng các mục tiêu cá nhân, sở thích và kiến thức. Khám phá tri thức trong dữ liệu (KDD) là tính năng tự động rút các nguy cơ và các mẫu thoả mãn từ tập hợp dữ liệu lớn. KDD cĩ thể được dùng khơng chỉ để học mơ hình tiến trình học tập hay định hình sinh viên mà cịn để xác thực và cải thiện hệ thống học tập trực tuyến bằng cách khám phá các thơng tin học tập hữu ích từ các hồ sơ học tập. Trong mơi trường giảng dạy tập trung, các giảng viên cĩ thể thu nhận phản hồi về kinh nghiệm học tập sinh viên trong tương tác mặt đối mặt với sinh viên, giúp cải thiện chương trình giảng dạy. Quyết định tiến hành theo dõi thái độ của sinh viên trong lớp, phân tích các dữ liệu trong lịch sử và ước lượng sự ảnh hưởng của chiến lược sư phạm. Tuy nhiên, khi sinh viên làm việc trong mơi trường điện tử, việc giám sát này khơng khả thi. Giảng viên cần phải tìm cách khác để thu thập thơng tin này. Các tổ chức quản trị các website trong lĩnh vực giáo dục, thu thập khối lượng lớn dữ liệu tự động phát sinh từ web servers và thu thập từ các dữ liệu ghi vết truy cập. Mơi trường học tập trực tuyến cĩ khả năng ghi nhận lại các thái độ học tập của sinh viên và cĩ thể cung cấp lượng khổng lồ hồ sơ học tập. Gần đây, cĩ sự tăng trưởng về quan tâm đến sự phân tích tự động trên dữ liệu về tương tác giữa người học với mơi trường học trực tuyến. ðể cung cấp một mơi trường học tập hiệu quả hơn, các kỹ thuật khai khống dữ liệu cần được thực hiện. Khai khống dữ liệu -5- là một bước trong tồn bộ tiến trình của KDD bao gồm tiền xử lý, khai khống và hậu xử lý. Khai khống dữ liệu ứng dụng thành cơng trong thương mại điện tử và bắt đầu được sử dụng trong lĩnh vực đào tạo trực tuyến với các kết quả triển vọng mặc dù các phương thức khám phá được sử dụng ở cả hai lĩnh vực (thương mại điện tử và đào tạo trực tuyến) là tương tự nhau, tuy nhiên cĩ vài điểm khác biệt quan trọng:  Lĩnh vực: Mục đích của thương mại điện tử là hướng khách hàng đến mua hàng trong khi đào tạo trực tuyến hướng sinh viên đến học tập.  Dữ liệu: Trong thương mại điện tử, dữ liệu sử dụng chỉ là ghi vết người dùng truy cập cịn đào tạo trực tuyến cần nhiều thơng tin hơn về tương tác của sinh viên. Mơ hình người dùng cũng khác biệt trong cả hai hệ thống.  Mục tiêu: mục tiêu của khai khống dữ liệu trong thương mại điện tử là làm tăng doanh thu, rất hữu hình và cĩ thể hiểu như một lượng tiền, số lượng khách hàng và sự trung thành của khách hàng. Cịn mục tiêu của khai khống dữ liệu trong đào tạo trực tuyến là cải thiện học tập. Mục tiêu này chủ quan hơn và tinh vi hơn để đo lường.  Kỹ thuật: Hệ thống giáo dục cĩ đặc tính yêu cầu xử trí khác nhau đối với mỗi vấn đề khai khống. Kết quả là nhiều kỹ thuật khai khống đặc biệt cần để chỉ định tiến trình đào tạo. Vài kỹ thuật truyền thống cĩ thể được thích ứng trong khi vài kỹ thuật khác thì khơng. Ứng dụng của kỹ thuật rút trích tri thức đối với hệ thống giáo dục nhằm cải thiện đào tạo cĩ thể xem như kỹ thuật ước lượng hình thức, đây là sự ước lượng của chương trình giáo dục trong khi chúng vẫn cịn được phát triển và với mục đích cải thiện chương trình. Tìm hiểu cách sinh viên sử dụng hệ thống là một trong những cách ước lượng thiết kế dạy theo lối hình thức và nĩ sẽ giúp người dạy cải thiện các tư liệu dạy học. Các kỹ thuật khai khống cĩ thể khám phá ra các thơng tin quan trọng cĩ thể được sử dụng trong ước lượng hình thức để hỗ trợ người dạy kiến lập cơ sở sư phạm cho quyết định khi thiết kế hay điều chỉnh mội trường để giảng dạy tiếp cận. Ứng dụng của khai khống dữ liệu trong hệ thống giáo dục là một chu kỳ -6- lặp của hình thức cầm thế, kiểm nghiệm và cải tiến (xem hình 2.1)[19]. Tri thức khai khống được cần tham gia vào quy trình lặp của hệ thống và cĩ định hướng.. Khơng chỉ chuyển dữ liệu thành tri thức mà cịn tinh lọc tri thức khai khống để đưa ra quyết định. Như chúng ta cĩ thể thấy ở hình 2.1, người dạy và chịu trách nhiệm hàn lâm đảm nhiệm cơng việc thiết kế, hoạch định, xây dựng và bảo trì hệ thống giáo dục. Sinh viên sử dụng và tác động với họ. Bắt đầu từ các thơng tin cĩ sẵn về các khố học, sinh viên, lưu lượng sử dụng và tương tác, các kỹ thuật khai khống dữ liệu khác nhau cĩ thể dùng để khám phá tri thức hữu ích để cải thiện tiến trình đào tạo trực tuyến. Tri thức khám phá khơng chỉ người cung cấp cĩ thể sử dụng mà cả người sở hữu (sinh viên) cũng cĩ thể dùng. Vì vậy, ứng dụng của khai khống dữ liệu trong hệ thống giáo dục cĩ thể hướng đến tác nhân khác với các gĩc nhìn đặc trưng:  Hướng đến sinh viên: Mục tiêu là để khuyến khích người học về các hoạt động, tài nguyên và các tác vụ học cĩ thể gây hứng thú và cải thiện học vấn, đề xuất kinh nghiệm học tập tốt cho sinh viên, đề xuất hướng đi và giảm thiểu hay đơn giản là liên kết để sinh viên theo, dựa trên các tác vụ đã hồn thành và thành cơng của họ và các tác vụ đã được tạo bởi những người học tương tự, …  Hướng đến người dạy: Mục đích là cĩ được nhiều phản hồi về giảng dạy, đánh giá cấu trúc nội dung khố học và hiệu quả của nĩ lên tiến trình đào tạo, phân lớp các học viên thành các nhĩm dựa trên nhu cầu về định hướng và giám sát, tìm ra các mẫu thường và bất thường về tiến trình học tập của học viên, tìm ra các lỗi thường mắc, tìm ra các hoạt động hiệu quả hơn, khám phá các thơng tin để cải thiện tính hiêu quả và tuỳ biến khố học, cấu trúc lại để cá nhân hố chương trình dạy học tốt hơn, tổ chức lại nội dung hiệu quả hơn cho tiến trình của người học và xây dựng các kế hoạch thích ứng hơn, … -7- Hình 2.1: Chu trình ứng dụng khai khống dữ liệu vào các hệ thống giáo dục  Hướng đến những người quản trị và những người chịu trách nhiệm chuyên mơn: Mục tiêu là để cĩ các thơng số về cải thiện trang một cách hiệu quả và thích ứng đối với hành vi của người dùng của họ (tối ưu kích thước server, phân bố dấu vết mạng, …), tìm cách tổ chức các tài nguyên thành lập (con người và tư liệu) và các đề nghị giáo dục, đề cao các chương trình giáo dục được cung cấp và quyết định sự ảnh hưởng lên việc tiếp cận khoảng cách trung gian học tập. Cĩ nhiều cơng cụ khai khống thơng thường cung cấp thuật tốn khai khống, kỹ thuật lọc và trực quan hĩa. Vài ví dụ của các cơng cụ thương mại và hàn lâm như DBMiner, Clementine, Intelligent Miner, Weka, … Tuy nhiên các cơng cụ này khơng được thiết kế đặc biệt và bảo trì cho mục đích giáo dục và thật là nặng nề cho người dạy nếu khơng cĩ kiến thức bao quát trong lĩnh vực khai khống dữ liệu để sử dụng các cơng cụ này. ðể giải quyết vấn đề này vài cơng cụ khai khống dữ liệu giáo dục, thống kê và trực quan hĩa được phát triển để giúp người dạy phân tích khía cạnh khác biệt của tiến trình học tập (xem bảng 2.1). Các hệ thống giáo dục (Lớp học truyền thống, hệ thống đào tạo trực tuyến, hệ thống giáo dục trực tuyến thích ứng và thơng minh) Thiết kế, hoạch định, xây dựng và bảo trì Sử dụng, tương tác, tham gia và giao tiếp Dữ liệu về cách sử dụng và sự tương tác của sinh viên, thơng tin khĩa học, học liệu,… Khai khống dữ liệu (gom nhĩm, phân lớp, tách nhĩm, kết hợp, so khớp mẫu, khai khống văn bản) Thể hiện tri thức được khám phá ðưa ra các lời khuyên Giáo viênNhà chuyên mơn Sinh viên -8- Bảng 2.1: Một số cơng cụ khai khống giáo dục, thống kê và trực quan hĩa Cơng cụ Tác giả Tác vụ Mining Tool Zaiane và Luo (2001) Kết hợp và mẫu MultiStar Silva và Viera (2002) Kết hợp và phân lớp Data Analysis Center Shen et al. (2002) Kết hợp và phân lớp EPRules Romero et al. (2003) Kết hợp KAON Tane et al. (2004) Khai khống văn bản và gom nhĩm TADA-ED Merceron và Yacef (2005) Phân lớp và kết hợp O3R Becker et al. (2005) Mẫu tuần tự Synergo/ColAT Avouris et al. (2005) Thống kê và trực quan hĩa GISMO/Course Vis Mazza và Milani (2005) Trực quan hĩa Listen Tool Mostow et al. (2005) Trực quan hĩa TAFPA Damez et ak. (2005) Phân lớp iPDF_Analyzer Bari và Benzater (2005) Khai khống văn bản 2.2 Hệ thống giáo dục: dữ liệu và mục tiêu Khai khống dữ liệu cĩ thể ứng dụng cho dữ liệu đến từ 2 loại hệ thống giáo dục: lớp học truyền thống và giáo dục từ xa. Cần thiết phải giải quyết vấn đề độc lập với ứng dụng của kỹ thuật khai khống trong mỗi loại bởi chúng khác biệt về nguồn dữ liệu và mục tiêu. 2.2.1 Lớp học truyền thống Mơi trường lớp học truyền thống được sử dụng rộng khắp. Dựa trên phương thức giao tiếp mặt-đối-mặt giữa người dạy và sinh viên thơng qua các bài giảng. Cĩ nhiều kiểu phụ khác nhau: giáo dục riêng và cộng đồng, sơ cấp và trung cấp, cao cấp, cấp 3 và giáo dục hàn lâm, giáo dục đặc biệt. Kiểu lớp học này bị chỉ trích vì nĩ khuyến khích lối học thụ động, bỏ qua các khác biệt cá thể và nhu cầu của người học, khơng chú ý đến giải quyết vấn đề, lối suy nghĩ chủ quan, hoặc các kỹ năng suy nghĩ cao cấp. Trong lớp học truyền thống, người dạy cĩ xu hướng đề cao phương pháp bằng cách giám sát tiến trình học tập của sinh viên và phân tích thái độ bằng các ghi nhận trên giấy và quan sát. Họ cũng cĩ thể sử dụng thơng tin về tình hình tham dự lớp của sinh viên, thơng tin khố học, các mục tiêu cá nhân và -9- các dữ liệu kế hoạch cá nhân. Các viện giáo dục cĩ nhiều loại nguồn thơng tin khác nhau: cơ sở dữ liệu truyền thống (thơng tin sinh viên, thơng tin người dạy, lớp và thời khố biểu,…), thơng tin trực tuyến (các trang về thơng tin khố học), cơ sở dữ liệu truyền thơng,… Khai khống dữ liệu giúp các tác nhân này về tiến trình học tập. Các viện muốn biết sinh viên nào muốn tham gia các khố học đặc thù nào và sinh viên nào cần sự giúp đỡ để cĩ thể tốt nghiệp. Người quản trị cĩ thể muốn tìm hiểu các thơng tin như các yêu cầu thu nạp và dự đốn số lượng tham gia để cĩ thể sắp thời gian. Sinh viên cĩ thể muốn biết chọn lựa khố học tốt nhất dựa trên dự đốn thành tích trên khố học đã chọn. Người dạy cĩ lẽ muốn biết kỹ năng học nào đĩng gĩp quan trọng trong tồn bộ tiến trình học, tại sao một lớp tiến triển kém hơn các lớp khác, các nhĩm sinh viên tương đương,… cĩ vài nghiên cứu về ứng dụng của khai khống dữ liệu trong giáo dục truyền thống. Một trong những bài viết đầu tiên về việc sử dụng khai khống dữ liệu trong giáo dục để hiểu về việc tham gia lớp học của sinh viên được viết bởi Sanjeev và Zytkow năm 1995. Họ ứng dụng tri thức khám phá vào mệnh đề hình thức dạng “Mẫu P chứa dữ liệu trong khoảng R” cho cơ sở dữ liệu đại học. Kết quả được trình bày đến một quản trị trường đại học chuyên để đưa ra các quyết định mang tính chiến lược về qui cách viện. Một nghiên cứu khác về việc sử dụng KDD để định danh và để hiểu sự xét duyệt lý lịch cĩ ảnh hưởng đến sinh viên ở một trường ðại học Brazil do Becker và cộng sự đưa ra năm 2000. Họ kiểm chứng chất lượng tác động của xét duyệt và đánh giá sử dụng nhiều kỹ thuật như tổng hợp, kết hợp, phân lớp. Một nghiên cứu khác liên quan, mục tiêu là chọn các sinh viên yếu để tham gia các lớp học phụ đạo do Ma và cộng sự nêu ra năm 2000. Họ sử dụng hàm tính điểm dựa trên luật kết hợp. ðầu tiên, họ xác định các sinh viên yếu tiềm tàng và sau đĩ chọn các khố học được khuyến khích tham gia. Cuối cùng, ứng dụng trong giáo dục cao cấp để thực hiện phân tích thấu đáo cá tính của sinh viên được thực hiện bởi Luan năm 2002 [15]. Ơng đề xuất sử dụng nhiều phương pháp khơng giám sát (mạng Kohonen) và giám sát (C5.0, các thuật tốn thơng dụng,…) để gom nhĩm và dự đốn nhằm cho phép các viện giáo dục cấp -10- tài nguyên và số liệu, tiên phong quản lý các kết quả của sinh viên và cải thiện tính hiệu quả của hậu phát triển. 2.2.2 Giáo dục từ xa Giáo dục từ xa hay đào tạo từ xa bao gồm các kỹ thuật và phương pháp cung cấp kết nối đến chương trình giáo dục cho những sinh viên bị cách biệt về thời gian và khơng gian với các bài giảng. Hệ thống đào tạo trực tuyến thiếu hụt mối quan hệ gần gũi của sinh viên – giảng viên (một đối với một). Cĩ nhiều kiểu phụ của giáo dục từ xa: đào tạo dựa trên giấy tương đương, đào tạo qua băng video, đào tạo trên máy vi tính (đào tạo đa truyền thơng, đào tạo trên internet, hoặc đào tạo trực tuyến),... Hiện tại, được sử dụng nhiều nhất là hình thức đào tạo trên web cho phép sinh viên học tập thuận tiện thơng qua internet. ðào tạo trên web là hình thức đào tạo từ xa phát triển trên internet do Johnson và cộng sự đề xuất năm 2000. Ngày nay, cĩ nhiều điều liên quan đến giáo dục trên web như học tập trực tuyến, đào tạo trực tuyến, hướng dẫn trực tuyến, học tập trên web, đào tạo trên web, hướng dẫn trên web,... và cĩ nhiều loại hệ thống dựa trên web: đồng bộ và bất đồng bộ, cộng tác và khơng cộng tác, tập văn mở và đĩng,… Các hệ thống giáo dục trên web này cĩ thể ghi nhận truy cập của sinh viên trên web log cung cấp dấu vết thơ của người học di chuyển trong site. Srivastava và cộng sự nêu ra nhiều loại log vào năm 2000:  Server log file: Hình thức ủy nhiệm được sử dụng rộng rãi dùng nguồn dữ liệu để thực hiện khai khống, chứa các chi tiết thật về thời gian, lộ trình và các phản hồi đầu vào. ða dạng về định dạng như định dạng phổ biến (CLF), định dạng văn bản mở rộng (ELF),… Thường thì chỉ cĩ dạng file log cho tất cả sinh viên.  Client log file: Bao gồm tập hợp các log files cho mỗi sinh viên, chứa thơng tin về tương tác của sinh viên với hệ thống. Cĩ thể được cài đặt bằng các tác nhân từ xa (như Javascripts, Java Applets), định nghĩa mã nguồn của trình duyệt hiện hành, hoặc dùng cookies. -11-  Proxy log file: Bao gồm tập các log files lưu trữ đệm giữa trình duyệt và máy chủ. Thơng tin này bổ sung thơng tin cho server log file. Cần lưu ý khái niệm log cĩ bao gồm giới hạn của luật pháp. Ngồi ra bất cứ khi nào hệ thống log xác thực người dùng khơng cần phải liên quan đến hiện diện thực của người dùng nhưng chủ yếu xem họ như chủ thể cá nhân. Log files cũng cĩ nhiều giới hạn cịn tồn tại, ghi vết dữ liệu khơng phải người dùng, đơn giản chỉ click và khơng thực sự tham gia hoạt động, khơng nắm bắt được thơng tin ngữ cảnh, nhận biết các máy tính đặc biệt chứ khơng phải con người, các vấn đề liên quan đến thơng tin khơng hồn tất hoặc khơng chính xác và vài khía cạnh kỹ thuật của trình duyệt (như bộ nhớ đệm) cĩ thể cản trở ghi vết. ðể định các vấn đề, Yu, Own và Lin năm 2001 đề xuất sử dụng cách khác để ghi nhận hồ sơ học viên bao gồm lộ trình học, chú trọng trên các khố học, trình độ khố học, thời gian học,… Li và Zayiane năm 2004 sử dụng nhiều kênh thơng tin hơn để mơ hình hố định hướng người dùng : dấu vết truy cập, cấu trúc các trang đã xem, thơng tin các trang đã xem. Avouris, Komis, Fiotakis, Margaritis và Voyiatzaki năm 2005 mở rộng tính năng tự động sinh log files bằng cách giới thiệu các thơng tin ngữ cảnh như là các sự kiện bổ sung bằng cách liên kết các bình luận và các files tĩnh. Monk năm 2005 kết hợp dữ liệu trên hoạt động với nội dung và hồ sơ người dùng trong một mơ hình kết hợp hình thức. Ingram năm 1999 kết hợp dữ liệu với các phương pháp thẩm vấn như trị chuyện với sinh viên, trong lớp thì phát biểu, khảo sát, hay viết phản hồi về web site. Iksal and Choquet năm 2005 đề xuất sử dụng ghi vết siêu ngơn ngữ để mơ tả đường đi ngữ nghĩa ghi nhận bởi hệ thống giáo dục trên web. Markham và cộng sự năm 2003 đề xuất sử dụng phần mềm rút trích dữ liệu từ mơi trường học trực tuyến và tổ chức chúng theo nhiều cách thơng minh. Các hệ thống giáo dục được phân thành 3 loại: các khố học trên web, hệ quản trị thơng tin đào tạo phổ biến và hệ thống giáo dục thơng minh và dễ thích ứng trên web. -12- 2.2.2.1 Các khĩa học đặc thù trên web Các khố học trên web là các chương trình học sử dụng chuẩn HTML (HyperText Markup Language). Cĩ nhiều khố học, hướng dẫn,… của loại này trên internet và cũng như các website khác, nĩ cĩ cùng một loại nguồn dữ liệu:  Nội dung: Dữ liệu thực trong trang web, ví dụ dữ liệu được thiết kế để truyền đạt đến người dùng. Bao gồm vân bản, đồ hoạ, video, âm thanh,…  Cấu trúc: Dữ liệu mơ tả tổ chức của nội dung. Cấu trúc thơng tin nội bao gồm dãy các thẻ HTML hay XML chứa trong một trang. Cĩ thể được trình bày thành cấu trúc cây, trong đĩ thẻ HTML thành gốc của cây. Loại chính yếu của cấu trúc thơng tin trang là liên kết giữa trang này với trang khác.  Thơng tin sử dụng: Dữ liệu mơ tả mẫu sử dụng của các trang. Cĩ hai loại thơng tin sinh viên: thơng tin về hành động của sinh viên và truyền thơng, thơng tin về hoạt động của sinh viên trong khố học.  Hồ sơ người dùng: Dữ liệu cung cấp thơng tin nhân khẩu về người dùng của site. Bao gồm thơng tin đăng ký và hồ sơ khách hàng. Khai khống dữ liệu cĩ thể dùng để biết sinh viên sử dụng khố học như thế nào, mức độ tác động của các chiến lược sư phạm lên nhiều loại sinh viên, thứ tự sinh viên học về các đề tài phụ, các trang/ đề tài nào sinh viên thường bỏ qua, thời gian sinh viên bỏ ra trên một trang, một chương hay tồn bộ khố học,… 2.2.2.2 Các hệ quản trị nội dung học tập phổ biến Các hệ quản trị thơng tin nổi tiếng (LCMS) là các nền tảng cung cấp các kênh thơng tin đa dạng và khơng gian làm việc để chia sẻ thơng tin thuận tiện và truyền thơng giữa các học viên trong khố, cho phép người dạy chia sẻ thơng tin đến sinh viên, tạo ra các tư liệu, chuẩn bị các bảng phân cơng và bài kiểm tra, hứa hẹn vào các cuộc thảo luận, quản lý các lớp học từ xa và cho phép kết hợp học tập với diễn đàn và chat, khơng gian lưu trữ hồ sơ, dịch vụ tin tức,… Vài ví dụ của LCMS thương mại Blackboard, Virtual-U, WebCT, TopClass,... và vài ví dụ về LCMS miễn phí: Moodle, Ilias, Claroline, aTutor,... Các hệ thống này gom lại lượng lớn dữ liệu vết hoạt động của sinh viên và cĩ tính năng giám sát tích hợp sẵn -13- (do Mazza & Milani nêu năm 2005). Cĩ thể ghi nhận bất cứ hoạt động nào cĩ liên quan, như đọc, viết, tham gia kiểm tra, thực hiện các tác vụ trong mơi trường thực và ảo, ngay cả khi liên lạc với các máy ngang hàng (do Mostow nêu năm 2004). ðồng thời cung cấp dữ liệu lưu trữ tồn bộ thơng tin hệ thống: thơng tin cá nhân của người dùng (hồ sơ), kết quả hàn lâm, dữ liệu tương tác người dùng,… Mặc dù vài nền cung cấp cơng cụ báo cáo, khi mà cĩ lượng lớn sinh viên, trở nên khĩ khăn cho quá trình rút trích thơng tin hữu ích. Khai khống dữ liệu cĩ thể ứng dụng để khám phá , trực quan hĩa và phân tích dữ liệu nhận biết các mẫu hữu ích và kiểm định các hoạt động trên web để cĩ các phản hồi mang tính mục tiêu cho giảng dạy và biết nhiều hơn về cách sinh viên học trên LCMS. 2.2.2.3 Các hệ thống giáo dục thích ứng và thơng minh trên web Brusilovsky & Peylo năm 2003 đề cập đến hệ thống giáo dục dễ thích ứng và thơng minh (AIWBES) cung cấp lựa chọn cho lối truyền thống đơn giản đưa-chúng- lên-trang-web tiếp cận định hướng phát triển chương trình học trên web. AIWBES cĩ khả năng thích ứng dễ dàng hơn bằng cách xây dựng mơ hình các mục tiêu, sở thích và kiến thức của mỗi sinh viên và sử dụng mơ hình đĩ suốt quá trình giao tiếp với sinh viên nhằm thích ứng nhu cầu của sinh viên. AIWES là kết quả của sự tiến hố của hệ thống hướng dẫn thơng minh (ITS) và hệ siêu truyền thơng dễ thích ứng (AHS). Vài ví dụ của ITS là SQL-Tutor, German Tutor, ActiveMath, VC-Prolog- Tutor và vài ví dụ của AHS là AHA!, InterBook, KBS-Hyperbook, WebCOBALT. Dữ liệu từ AIWEBS ngày càng giàu ngữ nghĩa và cĩ thể hướng đến phân tích dự đốn hơn là dữ liệu từ hệ thống giáo dục trên web truyền thống. Các dữ liệu cĩ sẵn từ mơ hình miền (Cĩ thể được cấu trúc như bản thể), tập dữ liệu sư phạm (tập các vấn đề, các giải pháp và các thơng tin phức tạp), các hồ sơ vết tương tác (dữ liệu liên quan đến sự tương tác của người dùng) và mơ hình sinh viên (danh sách các ràng buộc thoả mãn và vi phạm). AIWBES sử dụng chuẩn mơ hình sinh viên (vốn được sử dụng nội trong hệ thống hướng dẫn), nhưng vì mục đích của khai khống dữ liệu, cần thiết phải cĩ một mơ hình mới về tương tác của sinh viên cùng với các thơng tin bổ sung với dữ liệu ngữ cảnh. Tương tác của sinh viên cĩ thể được phân -14- tích thành nhiều lớp khác nhau của hạt: khố học, phiên, vấn đề, cố gắng và ràng buộc. Khai khống dữ liệu cĩ thể được dùng để khám phá nguyên nhân gây ra các vấn đề cho hệ thống, ví dụ các mệnh đề phản hồi sai, để ấn định tiến độ của người học, đề xuất các kinh nghiệm học cá nhân và hoạt động của sinh viên. 2.3 Tiền xử lý dữ liệu Tiền xử lý dữ liệu cho phép biến đổi dữ liệu nguyên thuỷ thành các dạng phù hợp sử dụng trong các thuật tốn khai khống. Vì thế, trước khi thực thi các thuật tốn khai khống, một lượng lớn các tác vụ tiền xử lý cần được chỉ định:  Làm sạch dữ liệu: Một trong những tác vụ chính yếu, để loại bỏ phần tử khơng thích hợp và các log khơng cần thiết cho tiến trình xử lý như đồ hoạ, script.  ðịnh danh người dùng: Tiến trình liên kết các tham khảo đến người dùng đã đăng nhập.  ðịnh danh phiên làm việc: Yêu cầu tồn bộ các tham khảo đến người dùng và khố học trong log và rã chúng thành các phiên người dùng. Trong một số trường hợp riêng, chúng tơi giả định ban đầu phiên làm việc mới khi sự thay đổi về khố học diễn ra hoặc khi khoảng thời gian giữa 2 giao tác thành khơng trong 30 phút.  Tiến độ hồn thành: Chứa tồn bộ các tham khảo cịn thiếu do lưu đệm của trình duyệt và proxy server.  ðịnh danh giao tác: rã các phiên thành các đơn vị nhỏ hơn, coi như các giao tác hay các tập.  Biến đổi dữ liệu và làm giàu: Bao gồm tính tốn các thuộc tính mới từ các thuộc tính cĩ sẵn, chuyển đổi các thuộc tính số học thành các thuộc tính cĩ nghĩa, cung cấp ý nghĩa để tham khảo các thơng tin trong log,…  Tích hợp dữ liệu: Sự tích hợp và đồng bộ dữ liệu từ các nguồn hỗn hợp.  Giảm dữ liệu: Giảm chiều dữ liệu. Ngồi ra, tiền xử lý dữ liệu của hệ thống giáo dục trên web cĩ vài đặc thù đưa ra: -15-  Hầu hết các hệ thống sử dụng xác thực người dùng (bảo mật mật mã) mà các log định danh bởi người dùng kể từ lúc người dùng đăng nhập và các phiên đã được định danh kể từ lúc người dùng thốt.  Hầu hết các hệ thống ghi nhận tương tác của sinh viên khơng chỉ trong các log mà cịn trực tiếp vào cơ sở dữ liệu. Nếu khơng rơi vào các trường hợp, trong suốt tiến trình chuẩn bị, dữ liệu của mỗi dinh viên (hồ sơ, log) cĩ thể được kết vào cơ sở dữ liệu. Cơ sở dữ liệu mạnh hơn các văn bản log thơng thường và cung cấp sự phân tích dễ dàng và linh động hơn, ít lỗi hơn.  Biến đổi dữ liệu càng hướng đến trình diễn tốt hơn của dữ liệu. Các trị số học cĩ thể được phân rã hoặc biến đổi thành các khoảng cung cấp cái nhìn tương thích hơn về dữ liệu. Các thuộc tính mới kết tinh từ các thuộc tính hiện cĩ là nguồn gốc của các thuộc tính đặc biệt. Tiến trình sản sinh thể hiện vài loại kết tập, ví dụ: mỗi tiến trình thử được phân nhĩm thành các lượng nhĩm thuộc tính mới.  Trong quá trình phân chia các phiên thăm cá nhân thành các giao tác, cĩ thể định danh các phiên phụ hoặc nhiệm vụ các thơng tin mạch lạc cần thiết trong tiến trình định danh dựa trên nội dung thực của trang. Ngồi các ý nghĩa khác biệt của tương tác ở các trình độ khác nhau của trừu tượng cĩ thể khác biệt: tương tác học và đào tạo, giao diện người máy và đa truyền thơng và dịch vụ tương tác.  Lọc dữ liệu sử dụng các khái niệm giáo dục đặc biệt như: số lượng các ứng cử viên, số lần đọc lặp lại, trình độ kiến thức,… Thơng thường, dữ liệu được lọc bằng cách định nghĩa một vài điều kiện trên một hay nhiều thuộc tính và loại bỏ các thể hiện vi phạm. Người dạy cĩ thể tham gia các tác vụ tiền xử lý, ví dụ, đề xuất các phương thức lọc đặc thù và sản sinh thuộc tính hoặc biến đổi,… Vì thế, cần thiết đề cao việc làm thuận tiện tiến trình tiền xử lý chuẩn bị cho dữ liệu học tập trực tuyến sao cho cĩ ý nghĩa nhất và hữu ích nhất. 2.4 Các kỹ thuật khai khống dữ liệu trong hệ thống giáo dục Khai khống dữ liệu là lĩnh vực tập trung nhiều nghiên cứu: kiến trúc cây quyết định, luật qui nạp, mạng neural, học tập dựa trên thể hiện, học Bayes, lập -16- trình logic, các thuật tốn thống kê,… Phần tiếp theo là một số ứng dụng đặc thù của kỹ thuật khai khống dữ liệu được phân nhĩm dựa vào tác vụ và hệ thống giáo dục trên web (xem Bảng 2.2). 2.4.1 Thống kê và trực quan hĩa Thống kê lượng sử dụng của sinh viên là điểm bắt đầu của tiến trình kiểm nghiệm hệ thống đào tạo trực tuyến, mặc dù chúng khơng được xem là các kỹ thuật khai khống dữ liệu. Thống kê hình thức suy luận là giả sử hướng về phần lớn được thể hiện và được kiểm thử. Khai khống dữ liệu, một cách lạc quan, được khám phá giả sử hướng về phần lớn tự động rút trích từ dữ liệu. thống kê. Thống kê lượng sử dụng được rút trích bằng cách sử dụng các cơng cụ chuẩn được thiết kế để phân tích các web server log như AccessWatch, Analog, Gwstat, WebStat,… Nhưng cũng cĩ vài cơng cụ thống kê dữ liệu giáo dục như Synergo/ColAT . Vài ví dụ thống kê lượng sử dụng được dễ dàng đo được như tổng số lần xem và số lần xem từng trang. Vài thống kê thơng dụng khác cho thấy các học viên liên quan phân bổ theo thời gian, phần lớn các khố học thường được tán thành, làm cách nào người học tạo ra nhiều phiên học suốt cùng thời gian. Ngồi ra vài thống kê đặc thù trong AIWBES cho thấy con số trung bình của vi phạm ràng buộc, độ phức tập trung bình của vấn đề, tồn bộ thời gian sử dụng để thử. Các kiểm thử thống kê thủ tục phức tạp hơn như phân tích hồi quy, phân tích tương quan, thống kê đa chiều cần phải sử dụng các cơng cụ thống kê mạnh hơn như SPSS, SAS, S, R, Statistica,... Nếu dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ, thì các truy vấn SQL cĩ thể cung cấp các chức năng cho việc thi hành số lượng lớn các thống kê đơn giản như độ lệch chuẩn, chế độ, kích thước mẫu,… Nhưng thơng tin thu được từ lưu lượng sử dụng khơng phải lúc nào cũng dễ dàng phân tích đối với người dạy và do đĩ các kỹ thuật khác cần phải được sử dụng. Kỹ thuật trực quan hĩa thơng tin cĩ thể sử dụng để cải thiện mức độ phức tạp, dữ liệu vết sinh viên đa chiều thu thập từ hệ thống giáo dục nền web. Các kỹ thuật này giúp thuận -17- tiện phân tích lượng lớn thơng tin bằng cách thể hiện dữ liệu ở nhiều kiểu trình bày. Thơng thường các lượng lớn dữ liệu thơ được trình bày hoặc biểu diễn thành các đồ thị, các mảnh rời rạc, trình diễn 3 chiều,… Thơng tin trực quan hĩa từ các biểu đồ thống kê cĩ thể về phân cơng bổ sung, các câu hỏi đặt ra, điểm kiểm tra,… Các kỹ thuật trực quan hĩa được dùng để hình dung các khía cạnh xã hội trong các hình thức học kết hợp với sự hỗ trợ của máy vi tính, quan hệ cộng đồng trong các hệ thống ngang hàng và các cuộc nĩi chuyện nhĩm trực tuyến. Người hướng dẫn cĩ thể vận động các trình diễn đồ hoạ, cho phép học viên hiểu rõ hơn và chú ý đến những gì diễn ra trong các lớp học từ xa. Cĩ vài cơng cụ trực quan hĩa trong dữ liệu giáo dục như GISMO/CourseVis và Listen tool. Bảng 2.2: Các nghiên cứu ứng dụng kỹ thuật khai khống dữ liệu vào hệ thống giáo dục. Tác giả Tác vụ Hệ thống giáo dục Sanjeeve và Zytkow (1995) Mẫu tuần tự Giáo dục truyền thống Zaiane et al. (1998) Thống kê và mẫu tuần tự Hệ thống LCM Beck và Woolf (2000) Dự đốn Hệ thống AIWBE Becker et al. (2000) Kết hợp và phân lớp Giáo dục truyền thống Chen et al. (2000) Phân lớp Khố học nền Web Ha et al. (2000) Kết hợp Khố học nền Web Ma et al. (2000) Kết hợp Giáo dục truyền thống Tang et al. (2000) Khai khống văn bản Hệ thống AIWBE Yu et al. (2001) Kết hợp Khố học nền Web Zaiane và Luo(2001) Mẫu tuần tự Hệ thống LCM Luan (2002) Gom nhĩm và dự đốn Giáo dục truyền thống Pahl và Donnellan (2003) Mẫu tuần tự và thống kê Hệ thống LCM Shen et al. (2002) Trực quan hĩa Hệ thống LCM Wang (2002) Kết hợp và mẫu tuần tự Khố học nền Web Merceron và Yacef (2003) Thống kê Hệ thống AIWBE Minaei-Bidgoli và Punch (2003) Phân lớp Khĩa học nền Web Shen et al. (2003) Mẫu tuần tự và gom nhĩm Khố học nền Web Zarzo (2003) Thống kê Khố học nền Web Arroyo et al. (2004) Dự đốn Hệ thống AIWBE Baker et al. (2004) Phân lớp Hệ thống AIWBE Chen et al. (2004) Khai khống văn bản Khố học nền Web Freyberger et al. (2004) Kết hợp Hệ thống AIWBE Hamalainen et al. (2004) Phân lớp Hệ thống AIWBE Heiner et al. (2004) Thống kê Hệ thống AIWBE Lu (2004) Kết hợp Hệ thống AIWBE -18- Merceron và Yacef (2004) Kết hợp Hệ thống AIWBE Minaei-Bidgoli et al. (2004) Kết hợp Khố học nền Web Mor và Minguillon (2004) Gom nhĩm Hệ thống LCM Romero et al. (2004) Kết hợp Hệ thống AIWBE Talavera và Gaudioso (2004) Gom nhĩm Hệ thống LCM Ueno (2004a) Phát hiện tách tử Khố học nền Web Ueno (2004b) Khai khống văn bản Khố học nền Web Wang et al. (2004) Mẫu tuần tự và gom nhĩm Hệ thống LCM Li và Zaiane (2004) Kết hợp Hệ thống LCM Avouris et al. (2005) Thống kê Khố học nền Web Castro et al. (2005) Phát hiện tách tử Hệ thống LCM Dringus và Ellis (2005) Khai khống văn bản Hệ thống LCM Feng et al. (2005) Dự đốn Hệ thống AIWBE Hammouda và Kamel (2005) Khai khống văn bản Khố học nền Web Markellou et al. (2005) Kết hợp Khố học nền Web Mazza và Milani (2005) Trực quan hĩa Hệ thống LCM Mostow et al. (2005) Trực quan hĩa Hệ thống AIWBE Muehlenbrock (2005) Phát hiện tách tử Hệ thống AIWBE Nilakant and Mitrovic (2005) Thống kê Hệ thống AIWBE Tang and McCalla (2005) Gom nhĩm Hệ thống AIWBE Zorrilla et al. (2005) Thống kê Hệ thống LCM Damez et al. (2005) Phân lớp Hệ thống AIWBE Bari and Benzater (2005) Khai khống văn bản Hệ thống LCM 2.4.2 Khai khống web Khai khống web (do Srivastava và cộng sự nêu năm 2000) là ứng dụng các kỹ thuật khai khống dữ liệu rút trích tri thức từ web. Cĩ 3 hạng mục chính trong khai khống web từ gĩc nhìn dữ liệu sử dụng: khai khống thơng tin web là tiến trình rút trích thơng tin hữu ích từ nội dung văn bản web; khai khống cấu trúc web là tiến trình khám phá thơng tin cấu trúc từ web; và khai khống lượng sử dụng (WUM) là khám phá các mẫu cĩ nghĩa từ dữ liệu phát sinh từ giao tác client-server trên một hay nhiều vùng. Nhưng cĩ hai hạng mục khai khống web từ gĩc nhìn sử dụng hệ thống: khai khống web đoản tuyến, sử dụng để khám phá các mẫu và các thơng tin hữu ích để giúp người dạy xác nhận mơ hình đào tạo và tái cấu trúc trang; trực tuyến hay tích hợp khai khống web vào các mẫu đã được tự động khám phá -19- vào hệ thống thơng minh hay đại diện cĩ thể hỗ trợ người học trong nỗ lực học trực tuyến. Các mẫu khai khống được dùng bởi hệ thống để cải thiện ứng dụng hay các chức năng của nĩ. Cĩ nhiều kỹ thuật khai khống web ứng dụng vào hệ thống giáo dục, nhưng hầu như tồn bộ chỉ cĩ thể phân vào 1 trong 3 nhĩm sau: gom nhĩm, phân lớp và phát hiện tách tử; khai khống luật kết hợp và khai khống mẫu tuần tự; và khai khống văn bản. 2.4.2.1 Gom nhĩm, phân lớp và phát hiện tách tử Gom nhĩm là tiến trình phân nhĩm các đối tượng vật lý hay trừu tượng thành các lớp chứa các đối tượng như nhau. Gom nhĩm và phân lớp đều là các phương pháp phân lớp. Gom nhĩm là phương pháp phân lớp khơng giám sát. Phân lớp và dự đốn là hai kỹ thuật cĩ liên quan. Phân lớp dự đốn nhãn lớp, trong khi dự đốn ước tính các hàm diễn trị. Mặt khác, phát hiện tách tử là sự quan sát (hay đo đạc) thường lớn hay nhỏ phụ thuộc vào các trị khác nhau trong tập dữ liệu. Phát hiện tách tử tiêu biểu là thuộc tính đối với một trong những nguyên nhân sau: Sự đo lường được xác định, ghi nhận, hoặc nhập vào máy tính một cách sai lệch; ðo đạc đến từ mật độ phân bố; đo đạc đúng nhưng biểu diễn các sự kiện hiếm. Các phương pháp này được ứng dụng vào hệ thống giáo dục nền web. Gom nhĩm cĩ thể gom nhĩm tập các trang cĩ nội dung như nhau, người dùng với định hướng như nhau hay các phiên định hướng. Phân lớp cho phép cá tính hố thuộc tính của nhĩm hồ sơ người dùng, các trang như nhau hay các phiên học tập. Phát hiện tách tử cĩ thể phát hiện các sinh viên cĩ vấn đề trong học tập. Sau đĩ chúng tơi mơ tả vài nghiên cứu về ứng dụng của các kỹ thuật đĩ lên các kiểu khác nhau của hệ thống giáo dục nền Web: - Các khố học trên web: Chen, Liu, Ou và Liu năm 2000 ứng dụng cây quyết định (thuật tốn C5.0) và dữ liệu kỹ nghệ lập phương từ các hồ sơ web log để quản lý các tiến trình. Phân tích đệ quy khám phá nhĩm sinh viên tiềm năng cĩ cùng tính cách và phản ứng đối với một chiến lược sư phạm đặc thù. Minaei- Bidgoli và Punch năm 2003 phân lớp sinh viên dựa trên các đặc tính rút ra từ các dữ -20- liệu ghi nhận nhằm dự đốn trình độ cuối kỳ của sinh viên. Họ sử dụng các thuật tốn chung để tối ưu kết hợp các phân lớp bằng cách đo các vector. Ueno năm 2004 đề xuất phương pháp phát hiện tách tử trực tuyến của tiến trình học khơng riêng của học viên bằng cách dùng dữ liệu về phản hồi của học viên đối với các nội dung học trực tuyến. Các phương pháp phát hiện tách tử trực tuyến sử dụng luật phân phối dự đốn Bayesian và nĩ hỗ hai hướng dẫn bằng cách sử dụng kết quả khai khống cho tiến trình học của học viên. - Các hệ thống quản trị thơng tin học tập: Talavera và Gaudioso năm 2004 đề xuất khai khống dữ liệu sinh viên sử dụng gom nhĩm để khám phá các mẫu phản ánh hành vi người dùng. Họ đề xuất mơ hình cho quản lý kết hợp để cá tính hố các nhĩm hành vi vào các khơng gian cộng tác phi cấu trúc. Mor và Minguillon năm 2004 mở rộng khả năng tuần tự của SCORM chuẩn để đưa vào khái niệm của lộ trình được khuyến khích, bằng cách kết hợp sự tinh thơng của người dạy và các kinh nghiệm học được từ phân tích lưu lượng sử dụng hệ thống. Castro, Vellido, Nebot và Minguillon năm 2005 phát hiện các hành vi đặc trưng trên các kiến trúc phân nhĩm người dùng của một khu trại ảo. Họ đề xuất sử dụng mơ hình bản vẽ định vị và mơ hình gom nhĩm để cá tính hố nhĩm các sinh viên trực tuyến. Mơ hình trung hồ các tác động nghịch của phát hiện tách tử trên tiến trình gom nhĩm dữ liệu. - Hệ thống giáo dục nền web dễ thích ứng và thơng minh.Tang và cộng sự năm 2000 đã sử dụng gom nhĩm dữ liệu cho đào tạo trên web để đề xuất cách học cộng tác theo nhĩm và để cung cấp dự đốn sự gia tăng của học viên. Họ tìm các vùng sinh viên với các tính cách học tập giống nhau dựa trên sự tuần tự và nội dung các trang mà sinh viên xem. Họ đang làm việc trên hệ thống tư vấn thơng minh sử dụng gom nhĩm và lọc kết hợp. ðây là hệ thống khuyến cáo cĩ thể cá nhân hố và làm thích ứng các nội dung khố học dựa trên quan sát hệ thống của học viên và các đánh giá tích luỹ bởi học viên. Hamalainen và cộng sự vào năm 2004 giới thiệu mơ hình lý thuyết, kết hợp cả các kỹ thuật khai khống dữ liệu và máy học để xây dựng một mạng Bayesian nhằm mơ tả tiến trình học tập của sinh viên. Mục đích là để -21- phân loại sinh viên để đưa ra các hướng dẫn đặc trưng dựa trên kỹ năng và tính cách. Beck và Woolf năm 2000 xây dựng một đại diện đào tạo cho các sinh viên cĩ trình độ cao mơ hình hố với máy học trong hệ thống hướng dẫn thơng minh. ðại diện này học cách dự đốn khả năng phản hồi chính xác tiếp theo của sinh viên và bao lâu để sinh viên đưa ra phản hồi. Chúng sử dụng hồi quy tuyến tính để dự đốn các thay đổi cĩ thể thấy được. Arroyo, Murray, Woolf và Beal năm 2004 đưa ra các kết luận các thay đổi học được từ các ITS log file của sinh viên. Họ bắt đầu từ việc phân tích mối tương quan giữa các biến thể và mạng Bayesian kết luận từ thái độ của sinh viên (cả khẳng định lẫn phủ định) và dự đốn của hệ thống. Họ dùng các phương pháp cĩ khả năng đúng để học các xác suất điều kiện từ dữ liệu sinh viên. Baker, Corbett và Koedinger năm 2004 sử dụng mơ hình máy học phản hồi tiềm tàng để phát hiện các sinh viên sử dụng sai lệch hệ thống hướng dẫn thơng minh. Họ xây dựng cơ chế phân lớp để nhận biết nếu như sinh viên đang chơi với hệ thống theo lối dẫn đến học tập kém và cần phải can thiệp. Feng, Hefernan và Koedinger năm 2005 tìm kiếm nguồn lỗi trong dự đốn tri thức sinh viên. Họ thực hiện hồi quy từng bước để dự đốn thơng số giúp các dự đốn kém về các điểm số cuối kỳ. Muehlenbrock năm 2005 phát hiện các đặc trưng và lệch lạc trong hành động của học viên hay người dạy so với người khác, nhằm cung cấp người dạy và học viên các thơng tin hỗ trợ quản lý việc dạy và học. Damez, Marsala, Dang và Bouchon- Meunier năm 2005 sử dụng cây quyết định mờ cho mơ hình hố người dùng và phân biệt người mới từ các khảo nghiệm người dùng một cách tự động. Họ dùng đại diện để học các tính cách nhận thức của tác động người dùng và phân loại người dùng được khảo nghiệm hay khơng. 2.4.2.2 Khai khống luật kết hợp và khai khống mẫu tuần tự Khai khống luật kết hợp là một trong những phương pháp được học nhiều nhất. Các luật cĩ liên quan đến một hay nhiều thuộc tính của tập dữ liệu với các thuộc tính khác sinh các mệnh đề if–then liên quan đến các giá trị thuộc tính. Khai khống luật kết hợp giữa tập các phần tử trong cơ sở dữ liệu lớn được khởi xướng bởi Agrawal, Imielinski và Swami năm 1993 và mở ra một họ hàng thuật tốn mới. -22- Vấn đề nguyên thuỷ là phân tích giỏ hàng để tìm ra các mối quan hệ thú vị giữa các mặt hàng được mua. Khai khống mẫu tuần tự do Agrawal & Srikant nêu ra năm 1995, nhằm tìm các mẫu phiên nội như là sự xuất hiện của tập các phần tử theo sau một phần tử khác trong một tập phiên thứ tự theo thời gian hay phần. Các phương pháp này đã được ứng dụng cho hệ thống giáo dục nền web. Kết hợp sẽ khai khống những thơng tin mà sinh viên cĩ xu hướng truy cập cùng nhau hoặc những tập hợp cơng cụ thường dùng. Vài mẫu tuần tự cĩ thể khai khống các thơng tin thúc đẩy truy cập các thơng tin khác, hoặc cơng cụ và nội dung gắn bĩ nhau như thế nào trong tiến trình học tập. Sau đĩ chúng ta mơ tả vài nghiên cứu về ứng dụng của các kỹ thuật đĩ trong các kiểu hệ thống giáo dục khác nhau:  Các khố học nền web: Ha và cộng sự vào năm 2000 thực hiện phân tích lộ trình cho các nền giáo dục cá nhân hố và các trang kết hợp với cấu trúc tri thức ảo, cĩ thể thể hiện bởi bản thân người học khi họ di chuyển trong trang web. Yu và cộng sự năm 2001 đã tìm ra các hành vi khơng đúng của sinh viên. ðịnh nghĩa các web log truyền thống và ứng dụng các luật kết hợp mờ để tìm ra mối liên hệ giữa mỗi mẫu của hành vi học viên; bao gồm thời gian họ bỏ ra để trên mạng, số lượng các bài viết đã đọc và phát hành, số lượng các câu hỏi,…Wang năm 2002 phát triển cơng cụ phân tích hồ sơ dựa trên kỹ thuật khai khống dữ liệu. Ơng ta sử dụng các vùng tư liệu liên quan và sự tuần tự của chúng. Tri thức này cho phép người dạy học về cấu trúc duyệt động và để định danh các mẫu học thú vị hay khơng được mong đợi. ðể làm điều đĩ, ơng khám phá 2 loại mối quan hệ: quan hệ kết hợp và quan hệ tuần tự giữa các tài liệu. Shen, Han, Yang, Yang và Huang vào năm 2003 sử dụng khai khống dữ liệu và nguyên nhân xuất phát từ các trường hợp cho đào tạo từ xa. Họ dùng gom nhĩm để phân loại sinh viên dựa trên hành động và các luật kết hợp tuần tự của các điểm tri thức khác nhau. Minaei-Bidgoli, Tan và Punch năm 2004 đề xuất khai khống các luật tương phản thú vị cho hệ thống giáo dục trên web. Các luật tương phản giúp định danh các thuộc tính tính cách hố mẫu trình diễn khơng cân bằng giữa các nhĩm sinh viên khác nhau. Markellou, Mousourouli, Spiros và Tsakalidis năm 2005 đề xuất framework dựa trên bản thể học và khám -23- phá các luật kết hợp sử dụng thuật tốn ưu tiên. Vai trị của bản thể học là để quyết định tư liệu học nào phù hợp hơn để khuyến khích người dùng.  Các hệ thống quản trị thơng tin đào tạo nổi tiếng: Zayiane và Luo năm 2001 đề xuất khám phá các mẫu hữu ích dựa trên các giới hạn, để người dạy đánh giá hoạt động của sinh viên trong các khố học trên web. Li và Zayiane năm 2004 cũng sử dụng các đại diện khuyến khích cho hệ thống giáo dục sử dụng luật kết hợp khai khống để khám phá kết hợp giữa các hành động người dùng và URL. ðại diện cũng khuyến khích các hoạt động trực tuyến hay lối tắt trong khố học trên web dựa trên lịch sử truy cập của học viên. Pahl và Donnellan năm 2003 phân tích các phiên học của cá nhân sinh viên. ðầu tiên họ định khoảng thời gian học của mỗi sinh viên và các web server rời thành các phiên, tính tốn thống kê và tìm kiếm các mẫu phiên và các quãng thời gian. Wang, Weng, Su và Tseng năm 2004 đề xuất 4 pha khai khống hồ sơ học, sử dụng khai khống mẫu tuần tự, gom nhĩm và tạo cây quyết định một cách tuần tự, để rút trích các đặc tính học tập để tạo cây quyết định để dự đốn nhĩm nào các học viên mới thuộc về.  Các hệ thống giáo dục thơng minh và dễ thích ứng. Lu năm 2004 sử dụng các luật kết hợp mờ trong các tư liệu học cá nhân hố khuyến khích hệ thống. Ơng sử dụng các luật khớp mờ để khám phá sự kết hợp giữa yêu cầu của sinh viên và danh sách các học liệu. Romero và cộng sự năm 2004 đề xuất sử dụng cấu trúc lập trình ngữ pháp với các kỹ thuật tối ưu đa mục tiêu để cung cấp các phản hồi cho các tác giả. Họ khám phá các mối liên hệ thú vị từ thơng tin sử dụng của sinh viên. Merceron và Yacef năm 2004 sử dụng luật kết hợp và các phân tích dữ liệu biểu tượng cũng như các truy vấn SQL truyền thống để khai khống dữ liệu thu được từ cơng cụ hướng dẫn nền web. Mục đích của họ là tìm ra các lỗi thường xảy ra cùng nhau. Freyberger, Hefernan và Ruiz năm 2004 sử dụng luật kết hợp để hướng đến mơ hình chuyển thiết lập tốt nhất của quá trình học tập của sinh viên trong hệ thống hướng dẫn thơng minh. Luật kết hợp quyết định các hành vi nào cần phải được thực hiện trên mơ hình chuyển đổi dự đốn thành tích sinh viên. -24- 2.4.2.3 Khai khống văn bản Các phương pháp khai khống văn bản cĩ thể xem như mở rộng của khai khống dữ liệu trên dữ liệu văn bản và cĩ liên hệ mật thiết với khai khống web. Theo Grobelnik, Mladenic, & Jermol, năm 2002, đây là lĩnh vực kỷ luật nội cĩ liên quan đến máy học và khai khống dữ liệu, thống kê, thu hồi thơng tin và xử lý ngơn ngữ tự nhiên. Khai khống văn bản cĩ thể hoạt động với tập dữ liệu phi cấu trúc hoặc bán phi cấu trúc như tài liệu văn bản, HTML, email,… Kế tiếp, chúng tơi mơ tả vài nghiên cứu ứng dụng của các kỹ thuật trên các hệ thống giáo dục nền web khác nhau:  Các khố học nền tảng Web: Ueno năm 2004 sử dụng các kỹ thuật khai khống dữ liệu và văn bản cho đào tạo kết hợp trong ILMS; sử dụng khai khống văn bản cho các cuộc toạ đàm phân tích mở rộng tương đương. Học viên chọn thể loại liên quan cĩ thể thể hiện được các bình luận của họ về hệ thống và hệ thống cung cấp chế độ đánh giá cho bình luận của học viên giữa các học viên. Chen, Li, Wang và Jia năm 2004 đề xuất tự động xây dựng các sổ điện tử thơng qua khai khống nội dung web. Họ sử dụng chiến lược xếp hạng để đánh giá khả năng phù hợp của trang và rút trích các đặc tính khái niệm và xây dựng hệ thống các cấp bậc. Tane, Schmitz và Stumme năm 2004 đề xuất cơng cụ bản thể học để tạo ra hầu hết các tài nguyên cĩ sẵn trên web. Họ sử dụng khai khống văn bản và các kỹ thuật gom nhĩm để phân nhĩm tài liệu dựa trên đề tài và sự tương đương. Hammouda và Kamel năm 2005 đề xuất thực hiện khai khống dữ liệu trên tài liệu, vốn là nền của rút trích tri thức trong mơi trường đào tạo trực tuyến. Trong tiến trình khai khống văn bản, gom nhĩm cũng được tiếp cận để định danh các nhĩm văn bản.  Các hệ thống quản trị thơng tin học tập nổi tiếng: Dringus và Ellis năm 2005 đề xuất sử dụng khai khống văn bản như là chiến lược cho định giá các diễn đàn thảo luận bất đồng bộ. Các kỹ thuật khai khống văn bản tăng cường khả năng học viên để đánh giá tiến trình của một bài thảo luận. Bari và Benzater năm 2005 trích dữ liệu từ các sản phẩm tương tác đa truyền thơng pdf để giúp đánh giá trình diễn đa truyền thơng, các mục đích thống kê và để rút trích các dữ liệu liên quan. -25- Họ nhận biết các khối chính của trình diễn đa phương tiện và thể hiện các tính chất bên trong.  Các hệ thống giáo dục thơng minh và dễ thích ứng: Tang và cộng sự năm 2000 đề xuất xây dựng cây hướng dẫn cá nhân hố trên web bằng cách khai khống cả ngữ cảnh lẫn cấu trúc của chương trình. Họ sử dụng thuật tốn khai khống văn bản theo chiến lược từ khố để chọn các bài viết cho các sinh viên đào tạo từ xa. 2.5 Các hướng nghiên cứu trong tương lai Khai khống dữ liệu giáo dục sẽ là lĩnh vực nghiên cứu kế tiếp, gồm các hướng nghiên cứu về giáo dục trực tuyến, siêu truyền thơng dễ thích ứng, hệ thống dạy học thơng minh, khai khống web, khai khống dữ liệu,… Ứng dụng của khai khống văn bản cĩ nhiều yêu cầu đặc thù khơng thể hiện ở các miền khác, chủ yếu là nhu cầu tính đến khía cạnh sư phạm của học viên và hệ thống. Mặc dù khai khống dữ liệu giáo dục là lĩnh vực nghiên cứu gần đây, nên cĩ số lượng lớn các đĩng gĩp trong tập san, các hội nghị quốc tế, các hội thảo và vài quyển sách thể hiện đây là lĩnh vực mới đầy hứa hẹn. Vài trong số các định hướng hứa hẹn là sử dụng các đại diện khuyến khích cho đào tạo trực tuyến. Các đại diện này thấy được sinh viên làm gì và đưa ra các hành động khuyến cáo (hoạt động, lối tắt, nội dung,…) họ nghĩ rất tiện lợi cho sinh viên. Các đại diện này cĩ thể được tích hợp trong hệ thống giáo dục trực tuyến liên quan mà các tư liệu cĩ thể tự động tìm thấy trên web và tích hợp vào hệ thống. Bằng cách này, họ giúp người dạy phát hiện phần nào trong số các tư liệu cĩ sẵn từ các nguồn khơng đồng nhất như internet là tốt nhất để sử dụng để biên soạn các khố học mới. Ngồi ra, các khuyến cáo cĩ thể được tích hợp với các miền tri thức trong bản thể học, kết hợp khai khống web và web ngữ nghĩa trong khai khống ngữ nghĩa web. Khai khống web ngữ nghĩa là sự tích hợp thành cơng trong tri thức bản thể ở các sàn của tiến trình khám phá tri thức. Khai khống dữ liệu giáo dục là lĩnh vực nghiên cứu trẻ và cần thiết đặc trưng hố hơn và định hướng nghiên cứu trong miền giáo dục để đạt được các thành cơng ứng dụng đối với các lĩnh vực khác như khai khống dữ liệu y học, khai khống dữ liệu thương mại điện tử,… Các định hướng nghiên cứu tương lai là: -26- Các cơng cụ khai khống được sử dụng dễ dàng hơn đối với người dạy hay các người dùng khơng chuyên trong khai khống dữ liệu. Cơng cụ khai khống dữ liệu được thiết kế thơng thường để mạnh mẽ và linh động hơn là đơn giản. Hầu hết các cơng cụ khai khống dữ liệu hiện tại rất phức tạp cho người dạy sử dụng và các đặc tính của nĩ đi xa quá tầm người dạy mong muốn. Vì vậy, các cơng cụ đĩ cần phải trực quan hơn và dễ dàng tương tác với giao diện, với các thuật tốn khai khống khơng cần tham số để đơn giản hố cấu hình và thực thi và với đặc tính trực quan hĩa để làm cho kết quả cĩ ý nghĩa hơn cho người dạy và các thiết kế viên chương trình đào tạo. Chuẩn hố các phương pháp và dữ liệu. Các cơng cụ hiện từ các khố học đặc thù cĩ thể chỉ hữu ích cho cá nhà phát triển. Khơng cĩ cơng cụ chung nào hay các cơng cụ tái sử dụng hay kỹ thuật cĩ thể ứng dụng vào bất kỳ hệ thống giáo dục nào. Vì thế, chuẩn dữ liệu và các tiến trình tiền xử lý, khám phá và hậu xử lý là cần thiết. Tích hợp với các hệ thống đào tạo trực tuyến: Cơng cụ khai khống dữ liệu cần được tích hợp vào mơi trường đào tạo trực tuyến như các cơng cụ khác. Các tác vụ khai khống dữ liệu (tiền xử lý, khai khống dữ liệu và hậu xử lý) cần được đưa ra cho một ứng dụng đơn. Phản hồi và kết quả đạt được từ khai khống dữ liệu cĩ thể được ứng dụng trực tiếp vào mơi trường đào tạo trực tuyến. Các kỹ thuật khai khống dữ liệu đặc trưng. Các cơng cụ khai khống dữ liệu hiệu quả được tính hợp vào miền tri thức giáo dục vốn đã đưa vào các kỹ thuật khai khống dữ liệu. Các kỹ thuật khai khống đặc thù trong lĩnh vực giáo dục cĩ thể giúp cải thiện các thiết kế hướng dẫn và các quyết định sư phạm tốt hơn. Thuật tốn khai khống truyền thống cần được kích hoạt để tính đến ngữ cảnh giáo dục 2.6 Tĩm tắt một số luận văn thạc sĩ liên quan đến khai khống dữ liệu giáo dục Tại trường đại học Khoa học tự nhiên TPHCM, trong các năm gần đây đã cĩ một số luận văn nghiên cứu về lĩnh vực khai khống dữ liệu giáo dục: -27-  Tác giả Nguyễn Hồng Tú Anh [1] nghiên cứu và phát triển thuật tốn tìm luật kết hợp tối ưu trên thuộc tính số; ứng dụng khai khống dữ liệu kết quả học tập của sinh viên.  Tác giả Nguyễn Quốc Thơng [6] ứng dụng luật kết hợp trong việc tính điểm để phát hiện học sinh yếu, các học sinh cần phụ đạo thêm,... Quá trình khai khống thực hiện trên các bảng như trong dữ liệu quan hệ.  Tác giả Lê Thanh Minh [4] nghiên cứu khai khống luật kết hợp trên kết quả thi tốt nghiệp Trung học phổ thơng và Trung học cơ sở cho mục tiêu đánh giá hiệu quả đào tạo và cung cấp các thơng tin cần thiết cho quá trình nâng cao chất lượng học sinh.Tác giả Minh vận dụng kỹ thuật song song trong việc tìm kiếm các itemset phổ biến và sử dụng khái niệm mờ trong xây dựng luật kết hợp. Quá trình khai khống cũng được tiến hành trên các bảng dữ liệu quan hệ.  Tác giá Bùi Văn Thành [5] vận dụng kỹ thuật khám phá mẫu tuần tự trong khai khống dữ liệu điểm sinh viên. Kết quả thu được cho phép dự đốn các kết quả sẽ đạt trong thời gian tiếp theo thơng qua các kết quả đã đạt được trong hiện tại.  Tác giả Nguyễn Hữu ðơng [2] cũng khai thác dữ liệu điểm học sinh, sử dụng phương pháp khai phá tri thức từ dữ liệu chuỗi thời gian, với các dữ liệu điểm được biến đổi phù hợp về dạng chuỗi thời gian.

Các file đính kèm theo tài liệu này:

  • pdf6.pdf
  • pdf1.pdf
  • pdf10.pdf
  • pdf2.pdf
  • pdf3.pdf
  • pdf4.pdf
  • pdf5.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
Luận văn liên quan