Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học

Khi đánh giá các tổ chức, ngoài việc sử dụng phối hợp các chỉ số ở trên, còn có thể đánh giá theo thời gian để xác định xu hướng trong hoạt động và chất lượng nghiên cứu khoa học của các tổ chức. Từ đó có thể cho cái nhìn khách quan hơn về các tổ chức lâu đời và các tổ chức mới thành lập.

pdf167 trang | Chia sẻ: lylyngoc | Ngày: 25/10/2013 | Lượt xem: 1567 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
p. - Website chính thức: o Trường: vn/ o Khoa: du.vn/ edu.vn/old/people.html 74 5. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp. HCM - Loại hình: Đại học công lập. - Website chính thức: o Trường: .vn/ o Khoa: u.vn/?site=61 u.vn/index.php?option =com_content&view= article&id=1883&Item id=2509&lang=vi&sit e=61 26 6. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ Thuật Tp. HCM - Loại hình: Đại học công lập. - Website chính thức: o Trường: u.vn/ o Khoa: n/web/guest/229 32 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 113 Trần Hưng Nghiệp T.S Lương Phúc Hiệp n/ 7. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp. HCM - Loại hình: Đại học công lập. - Website chính thức: o Trường: o Khoa: .com/?MenuID=112 s.com/gv/ 86 8. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp. HCM - Loại hình: Đại học tư thục. - Website chính thức: o Trường: .vn/ o Khoa: vn/ du.vn/openerp/static/pr ofiles/groups/625/inde x.html du.vn/openerp/static/pr ofiles/groups/628/inde x.html du.vn/openerp/static/pr ofiles/groups/631/inde x.html 33 9. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công Nghệ Tp. HCM - Loại hình: Đại học tư thục. - Website chính thức: o Trường: .vn/homepage/ o Khoa: .vn/khoacntt/ https://giangvien.hutec h.edu.vn/listteacher.as px?d=2 https://giangvien.hutec h.edu.vn/listteacher.as px?d=2&p=2 24 10. Trường Đại học FPT - Loại hình: Đại học tư thục. - Website chính thức: o Trường: story/danh-sach-giang- vien 136 Tổng số 577 5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu Để thu được dữ liệu chỉ mục từ danh sách giảng viên, cần sử dụng web crawler để tìm kiếm và trích xuất dữ liệu. Web crawler này được xây dựng dựa Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 114 Trần Hưng Nghiệp T.S Lương Phúc Hiệp trên web crawler đã được xây dựng để thu thập dữ liệu chỉ mục tổng quát trình bày ở phần trên. Cơ sở dữ liệu mà chương trình sử dụng cũng là cơ sở dữ liệu của hệ thống thư viện điện tử. Dữ liệu sau khi nhập vào cơ sở dữ liệu nằm trong hai bảng, bảng Org lưu dữ liệu các tổ chức, bảng Author lưu dữ liệu các tác giả. Dữ liệu danh sách giảng viên cung cấp cho web crawler phải qua hai thao tác, đó là chuẩn hóa về dạng thích hợp cho việc tìm kiếm và nhập liệu vào cơ sở dữ liệu. Vì dữ liệu thu nhận được ban đầu bán cấu trúc và từ nhiều nguồn khác nhau nên các thao tác này phải làm thủ công khá mất thời gian. Tác giả đã sử dụng một số công cụ để thao tác nhanh hơn. Để có thể tìm kiếm hiệu quả thì tên của giảng viên phải được chuẩn hóa về dạng Tiếng Việt không dấu. Việc chuyển đổi sang Tiếng Việt không dấu được thực hiện nhờ công cụ Unikey 4.019. Để nhập một lượng lớn dữ liệu danh sách giảng viên, nhập bằng tay sẽ rất mất thời gian, việc xây dựng một chương trình đọc file danh sách và nhập liệu tự động là cần thiết. Tuy nhiên đây là yếu tố phụ trong đề tài nên việc nhập liệu được thực hiện bằng cách sinh các SQL Script insert bằng công cụ Notepad++20. 5.4 Chương trình thu thập dữ liệu chỉ mục 5.4.1 Khảo sát hiện trạng Như đã nói ở phần chương trình thu thập dữ liệu ở trên, các trang web của các hệ thống thư viện điện tử là nguồn cung cấp dữ liệu chỉ mục có thể thu thập dễ dàng và hiệu quả nhất. Chương trình thu thập dữ liệu ở đây sẽ thu thập các dữ liệu cần thiết từ MAS. Sau đó, dữ liệu sẽ được kiểm tra và bổ sung thêm từ cơ sở dữ liệu DBLP. Trong tương lai, chúng tôi sẽ bổ sung thêm dữ liệu từ các thư viện điện tử khác và các nguồn khác. 19 20 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 115 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Trong MAS, dữ liệu được tổ chức thành sáu loại đối tượng chính, đó là tác giả (Author), bài báo khoa học (Publication), Hội nghị (Conference), Tờ báo (Journal), Tổ chức (Organization), Từ khóa (Keyword). Như đã trình bày ở phần trên, MAS hỗ trợ nhiều cách khác nhau để lấy được dữ liệu của các đối tượng này. Một trong số các cách đó là sử dụng chức năng tìm kiếm. Đặc biệt, MAS hỗ trợ tìm kiếm nâng cao theo tên tác giả trong lĩnh vực cụ thể và hỗ trợ gợi ý tác giả. Ta có thể sử dụng các chức năng này để tăng thêm độ chính xác của kết quả tìm kiếm. Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem”. Để tìm kiếm, MAS sử dụng url theo phương thức get với cấu trúc nhất định, nhờ vậy có thể tự động sinh ra url thích hợp để tìm kiếm từ các từ khóa là tên tác giả. Sau khi lấy các trang html về, chương trình sẽ phân tích để trích xuất lấy dữ liệu và lưu trữ vào cơ sở dữ liệu cục bộ. 5.4.2 Phân tích thiết kế Để thu thập dữ liệu chỉ mục cần thiết, đề tài đã xây dựng một chương trình web crawler. Về cơ bản, web crawler này tương tự như web crawler ở phần Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 116 Trần Hưng Nghiệp T.S Lương Phúc Hiệp trên và sử dụng lại nhiều ý tưởng cũng như các đoạn mã chức năng. Tuy nhiên, do dữ liệu nhập và mục đích khác nhau nên vẫn có một số điểm khác biệt quan trọng trong thiết kế và cài đặt. Cũng như web crawler ở phần trên, web crawler ở đây là một dạng crawler tập trung, và là dạng crawler cho deep web. Những dữ liệu chỉ mục cần lấy liên quan đến nhiều giảng viên khác nhau được phân bố hỗn độn trên MAS nên cách tốt nhất để tiến hành lấy dữ liệu là sử dụng chức năng tìm kiếm của MAS. Để sử dụng chức năng này, chương trình sẽ dùng dữ liệu đầu vào là danh sách giảng viên, kết hợp với các mẫu được định nghĩa trước để sinh ra các url truy vấn máy tìm kiếm của MAS, các kết quả trả về sẽ được trích xuất và lưu xuống cơ sở dữ liệu, sau đó sẽ được xử lý tiếp. Để nâng cao hiệu quả hoạt động, chương trình sẽ sử dụng chức năng tìm kiếm nâng cao theo tên tác giả trong lĩnh vực cụ thể là khoa học máy tính (Computer Science) để hạn chế nhầm lẫn với các kết quả khác. Ngoài ra, chương trình còn sử dụng chức năng gợi ý tác giả của MAS. Khi sử dụng chức năng này, trong kết quả trả về sẽ có gợi ý các tác giả tương ứng với từ khóa tìm kiếm, chương trình sẽ trích xuất danh sách các tác giả này lưu lại. Sau đó người dùng sẽ kiểm tra bằng tay và chọn lọc giữ lại các tác giả cần quan tâm, bỏ qua các tác giả trùng trên. Dựa trên danh sách tác giả sau khi chọn lọc, chương trình sẽ thu thập dữ liệu chỉ mục liên quan đến các tác giả trên MAS và lưu trữ xuống cơ sở dữ liệu. Sau khi đã hoàn tất việc thu thập, dữ liệu chỉ mục này sẽ được dùng để tính toán các chỉ số. Sau khi tính toán xong, người dùng sẽ kiểm tra lại bằng tay các bài báo nằm trong Hirsch core và trong các nhóm đầu khác, việc kiểm tra sau này là để giảm thiểu số lượng dữ liệu cần kiểm tra mà vẫn bảo đảm độ chính xác. Đối tượng tìm kiếm ban đầu của chương trình là các tác giả, sau đó sẽ duyệt danh sách tác giả để lấy danh sách bài viết, sau đó sẽ duyệt danh sách bài viết để lấy dữ liệu chỉ mục, các đối tượng khác sẽ được lấy dựa trên sự liên kết đến từng bài viết, ví dụ như mối quan hệ được viết bởi, mối quan hệ xuất bản tại… Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 117 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Để các chỉ số đánh giá hoạt động hiệu quả thì dữ liệu càng chính xác càng tốt. Dữ liệu chỉ mục thu thập trong trường hợp này không quá lớn nên sẽ được kiểm tra bằng tay nhiều lần. Thuật giải của quy trình thu thập dữ liệu như sau: Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu. /** * Thuật toán chạy Crawler lấy dữ liệu trên MAS theo hướng duyệt Author. * @author Nghiep * Date created: 18-08-2011 */ Input: - Org, Author in Org. - URL patterns Output: - Dữ liệu publication, author, organization, conference, journal, keyword với sự kết nối ngữ nghĩa với nhau và với subdomain, domain. Note: - Khi thử nghiệm các độ đo, dữ liệu càng chính xác càng tốt. - Có một vấn đề chung mà các quá trình thu thập dữ liệu luôn gặp phải, đó là độ chính xác, vấn đề nổi bật nhất là các tác giả trùng tên. - Để giải quyết vấn đề này, cũng như hầu hết các nhóm nghiên cứu khác trên thế giới, tác giả sẽ sử dụng cơ chế bán tự động trong đó người dùng sẽ kiểm tra lại bằng tay kết quả thu thập dữ liệu. BEGIN * Bước 1: Lấy danh sách Org từ DB. - Với mỗi Org: lấy danh sách Author tương ứng từ DB. - Với mỗi Author: query MAS: Lấy danh sách suggested authors: - Nếu không có suggested author nào thì coi như author đó không có bài báo nào, chuyển sang author tiếp theo. - Nếu có thì: - Duyệt qua tất cả các suggested author: - Đi đến trang chi tiết của mỗi tác giả đề xuất: - Lưu các instances của tác giả đang xét. * Bước 2: Kiểm tra các instance của các tác giả. * Bước 3: Lấy danh sách authorinstance từ DB. - Đi đến trang chi tiết của mỗi tác giả đề xuất: - Lấy số lượng publication. - Duyệt qua trang danh sách publication, lấy danh sách các publication. - Duyệt qua các publication. - Lưu hết dữ liệu liên quan đến các publication trong publication list: tác giả nằm trong authorinstance sẽ được coi như chính là tác giả đại diện, không cần lưu, author_paper sẽ lưu theo tác giả đại diện. Các tác giả khác lưu bình thường. * Bước 4: Kiểm tra toàn bộ dữ liệu. END Trong quy trình trên, bước hai và bước bốn sẽ được thực hiện bằng tay, chương trình web crawler sẽ thực hiện bước một và bước ba. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 118 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Mô hình hoạt động của chương trình ở bước một như sau: Mô hình hoạt động của chương trình ở bước ba như sau: Trong mỗi bước một và bước ba của chương trình, quá trình thu thập dữ liệu có thể chia làm 4 bước nhỏ như sau: Bước nhỏ 1: Tạo danh sách url nền tảng. MAS Dữ liệu chỉ mục Nội dung html Các mẫu Xử lý Danh sách url URL query Phân tích html Dữ liệu danh sách tác giả trên MAS MAS Dữ liệu danh sách tác giả trên MAS Nội dung html Các mẫu Xử lý Danh sách url URL query Phân tích html Dữ liệu danh sách tổ chức, tác giả Hình 5.2 – Mô hình hoạt động của chương trình ở bước một. Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 119 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Từ danh sách đầu vào, sử dụng các pattern đã định nghĩa trước, chương trình sinh ra các url nền tảng để tìm kiếm tác giả trên MAS ở bước một, hay để duyệt qua các bài viết của các tác giả ở bước ba. Bước nhỏ 2: Tải các trang html. Chương trình sẽ tải các trang html kết quả tìm kiếm ở bước một, hay các trang thông tin đối tượng ở bước ba. Ở các trang html kết quả tìm kiếm, dữ liệu html về gợi ý tác giả chỉ được sinh ra sau khi trang html đã được tải về hoàn chỉnh bằng JavaScript theo cơ chế AJAX, vì vậy không thể lấy dữ liệu này bằng cách tải trang thông thường. Muốn lấy được dữ liệu gợi ý này phải xử lý được JavaScript và AJAX của trang html ban đầu, cách giải quyết vấn đề này sẽ được trình bày trong phần cài đặt. Các trang thông tin đối tượng sẽ được tải bình thường như web crawler ở phần trên. Bước nhỏ 3: Phân tích các trang html. Khi đã nhận được các trang html, chương trình sẽ tiến hành phân tích nội dung html để lấy các dữ liệu cần thiết. Quá trình phân tích được thực hiện dựa vào các pattern của trang html được xác định dựa vào việc phân tích bằng tay các trang html mẫu. Quá trình phân tích các trang html này cũng sẽ trích ra các url cần thiết, bổ sung chúng vào danh sách các url sẽ request tiếp theo. Bước nhỏ 4: Lưu dữ liệu. Sau khi thu nhận được dữ liệu cần thiết, chương trình sẽ lưu chúng vào cơ sở dữ liệu để sử dụng sau ở các bước tiếp theo. Ngoài các mẫu url được sử dụng trong chương trình web crawler ở phần trên, còn có các mẫu url sau: Bảng 5.3 – Các mẫu url được dùng trong crawler. STT Mẫu url Giải thích 1. /Search?searchdomain= Phần đầu của mẫu url tìm kiếm nâng cao tác Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 120 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 2&s=0&query=author% 3a%28 giả. Trong đó searchdomain=2 tức là tìm kiếm trong lĩnh vực computer science, s=0 tức là có gợi ý. Ví dụ: h?searchdomain=2&s=0&query=author%3a %28Hoang%20Van%20Kiem%29 2. %29 Phần cuối của mẫu url tìm kiếm nâng cao tác giả. 3. /Detail?entitytype=2&se archtype=2&id= Mẫu url dùng để duyệt danh sách các bài báo của của một tác giả. Ví dụ: Thêm id = 9187431 để có địa chỉ url của trang duyệt danh sách các bài báo của của tác giả Hoang Van Kiem: l?entitytype=2&searchtype=2&id=9187431 Ngoài các mẫu pattern được sử dụng trong chương trình web crawler ở phần trên, còn có các mẫu pattern sau: Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu. STT Tên Mẫu Giải thích 1. SUGGESTED_ AUTHOR_DIV _ID ctl00_divSearchSu ggestion Id thẻ div chứa thông tin gợi ý trong trang kết quả tìm kiếm. Chương trình web crawler này cũng sẽ sử dụng chung thiết kế cơ sở dữ liệu với web crawler ở phần trên. Sơ đồ ERD của cơ sở dữ liệu được thiết kế trong công cụ MySQL Workbench như sau: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 121 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Sơ đồ 5.1 – Mô hình ERD cơ sở dữ liệu của chương trình. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 122 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Trong cơ sở dữ liệu này, bảng AuthorInstance sẽ lưu các dữ liệu về gợi ý tác giả thu được ở bước một của quy trình thu thập dữ liệu. Người dùng sẽ xóa các bản ghi không đúng đi để chương trình tiếp tục bước ba. Các dữ liệu khác được lưu giống như cũ. 5.4.3 Cài đặt Hệ thống thu thập dữ liệu này được xây dựng như một ứng dụng desktop dựa trên hệ thống web crawler ở phần trên, hệ thống được viết bằng Java và áp dụng các công nghệ sau: - Ngôn ngữ phát triển: Java. - Công nghệ Java SE 7. - Cơ sở dữ liệu quan hệ với hệ quản trị MySQL 5.6 - Công cụ phát triển: Netbeans 7.1 - Công nghệ web crawler. - Request trang html bằng các hàm native trong Java . - Giả lập request của web browser và xử lý JavaScript, AJAX bằng thư viện Selenium21 2.9. - Phân tích trang html bằng thư viện Jsoup 1.5.2. Kiến trúc hệ thống: Thừa kế kiến trúc từ hệ thống web crawler ở phần trên, hệ thống này được xây dựng sử dụng Java SE thuần túy với sự hỗ trợ của một số thư viện chức năng, không sử dụng các framwork lập trình nhằm kiểm soát code tốt hơn từ đó tối ưu chương trình. Hệ thống được xây dựng với kiến trúc nhiều tầng, gồm có các tầng sau:  Controller: Quản lý các hoạt động của chương trình. 21 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 123 Trần Hưng Nghiệp T.S Lương Phúc Hiệp  Business Logic: Thực hiện các chức năng chính của chương trình như tạo danh sách url, request trang html, phân tích trang html lấy dữ liệu.  Data Access: Cung cấp giao tiếp giữa chương trình và Database.  Database: Cơ sở dữ liệu quan hệ quản lý dữ liệu của hệ thống. Tổ chức code: Chương trình sử dụng lại tổ chức code của crawler ở phần trên với các package tương đương. Sự khác biệt là lớp controller lúc này sẽ kiểm soát dòng logic của web crawler mới, lớp business logic lúc này sẽ có các hàm thực hiện bước một và bước ba của quy trình thu thập dữ liệu. Các kỹ thuật lập trình đáng chú ý: Ngoài các kỹ thuật lập trình thừa kế từ web crawler ở phần trên, chương trình này còn áp dụng một kỹ thuật đặc biệt là giả lập thao tác web browser. Như đã nói ở phần phân tích thiết kế, ở các trang html kết quả tìm kiếm, dữ liệu html về gợi ý tác giả chỉ được sinh ra sau khi trang html đã được tải về hoàn chỉnh bằng JavaScript theo cơ chế AJAX, vì vậy không thể lấy dữ liệu này bằng cách tải trang thông thường. Chương trình đã giải quyết vấn đề này bằng cách sử dụng thư viện Selenium 2.9 để điều khiển web browser Firefox 10.0 giả lập thao tác tìm kiếm của người dùng, đồng thời xử lý JavaScript và AJAX của trang kết quả tìm kiếm để thu được trang html chứa dữ liệu gợi ý cần thiết. Controller Business Logic Data Access DB MAS Sơ đồ 5.2 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 124 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Trong quá trình triển khai chương trình này, tác giả cũng đã tiến hành thử nghiệm để tìm ra các thông số tối ưu cho chương trình crawler khi chạy trên nguồn dữ liệu MAS để bảo đảm tính hiệu quả trong khi vẫn tránh được chính sách chống DDOS của MAS. Cơ sở dữ liệu: Chương trình được cài đặt để có thể chạy trên hai hệ quản trị cơ sở dữ liệu phổ biến là MySQL và SQL Server, có thể chuyển đổi qua lại bằng cách thay đổi giá trị các hằng số điều khiển. Hiện tại chương trình đang được triển khai trên cơ sở dữ liệu MySQL vì các ưu điểm của nó như miễn phí, đơn giản, dễ triển khai, chất lượng và hỗ trợ tương đối tốt. Hệ quản trị cơ sở dữ liệu đang dùng là phiên bản 5.6, MySQL Java Connector đang dùng là 5.1.16. Như trong web crawler ở phần trên, các thông số của MySQL cũng đã được chỉnh sửa để hoạt động hiệu quả hơn. Trong quá trình chạy thử nghiệm, cơ sở dữ liệu đang sử dụng có tên CSPublicationCrawler, hoạt động trên localhost, cổng 3306, username root, password root. 5.4.4 Kết quả Chương trình thu thập dữ liệu đã được hoàn thiện các chức năng cốt lõi và đã được sử dụng để thu thập dữ liệu thực tế. Kết quả thu thập và xử lý dữ liệu như sau:  Bước 1: Thu thập danh sách AuthorInstance. Tổng cộng có 269 AuthorInstance của 135 tác giả.  Bước 2: Kiểm tra danh sách AuthorInstance. Sau quá trình kiểm tra và loại bỏ các AuthorInstance không đúng, còn lại 146 AuthorInstance của 100 tác giả. Quá trình kiểm tra được trình bày chi tiết ở mục sau.  Bước 3: Thu thập dữ liệu chỉ mục. Kết quả thu thập được thể hiện chi tiết trong bảng sau: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 125 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục. STT Tên bảng Giải thích Số bản ghi 1. Author Tác giả 1576 2. AuthorInstance Thể hiện của tác giả 146 3. Conference Hội thảo 140 4. Domain Lĩnh vực 1 5. Journal Tờ báo 108 6. Keyword Từ khóa 1860 7. Org Tổ chức 391 8. Paper Bài báo 1855 9. Subdomain Lĩnh vực con 24 10. Author_Paper Số liên kết tác giả với bài báo 2402 11. Paper_Keyword Số liên kết bài báo với từ khóa 3593 12. Paper_Paper Số liên kết bài báo trích dẫn bài báo khác 1441  Bước 4: Kiểm tra dữ liệu chỉ mục. Sau quá trình kiểm tra, dữ liệu vẫn giữ nguyên. Quá trình kiểm tra được trình bày chi tiết ở mục sau. 5.5 Kiểm tra dữ liệu Những quá trình thu thập dữ liệu luôn gặp một vấn đề chung là dữ liệu có thể có sai sót. Những sai sót này có thể chia làm hai dạng là false positive và false negative [WikiErr]. Cụ thể hai dạng sai sót này như sau:  False positive: là dạng sai sót do bỏ sót những dữ liệu thỏa yêu cầu.  False negative: là dạng sai sót do thu nhận những dữ liệu không thỏa yêu cầu. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 126 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Trong quá trình thu thập dữ liệu ở chương này, cả hai dạng sai sót đều có thể xảy ra. Những sai sót đó đều ảnh hưởng xấu tới kết quả hoạt động và việc đánh giá nên chúng cần được kiểm tra và chỉnh sửa lại cho đúng. Những sai sót dạng false positive nếu xảy ra do lỗi khách quan thì chỉ có một cách giải quyết là bổ sung thêm nguồn dữ liệu để tăng thêm độ chính xác. Những sai sót dạng false negative có thể giải quyết bằng cách kiểm tra lại dữ liệu và loại bỏ các đơn vị dữ liệu không thỏa yêu cầu. Khi thu thập danh sách giảng viên của các trường, như đã nói ở trên, danh sách giảng viên không được thu nhận đầy đủ vì những lý do khách quan, nên sẽ bị sai sót dạng false positive. Những sai sót này có thể được khắc phục bằng cách bổ sung thêm giảng viên còn thiếu, nhưng việc này cần sự hỗ trợ hợp tác của các đơn vị nắm giữ dữ liệu giảng viên trong các trường. Vì vậy, những sai sót này sẽ được sửa sau khi làm việc được với các đơn vị đó. Tuy nhiên, những giảng viên thu được hiện tại đóng vai trò chủ chốt trong nghiên cứu và giảng dạy ở các tổ chức của họ nên được xem là đủ tốt để đại diện cho các giảng viên của tổ chức đó. Ở cả bước một thu thập dữ liệu AuthorInstance và bước hai thu thập dữ liệu chỉ mục, sai sót dạng false positive xảy ra vì dữ liệu từ nguồn MAS không đầy đủ. Dạng sai sót này sẽ được giải quyết bằng cách bổ sung thêm các nguồn dữ liệu như từ DBLP, hay từ các thư viện điện tử khác như CiteSeerX, Google Scholar. Ở bước một thu thập dữ liệu AuthorInstance, những sai sót dạng false nagative xảy ra chủ yếu do các tác giả trùng họ tên với nhau. Vì dữ liệu thử nghiệm không quá lớn nên dạng sai sót này đã được giải quyết bằng cách kiểm tra bằng tay và xóa các AuthorInstance không đúng. Việc kiểm tra này chủ yếu dựa trên các thông tin về đơn vị công tác, các đồng tác giả, các trích dẫn đến bài báo của tác giả. Ở bước hai thu thập dữ liệu chỉ mục, những sai sót dạng false nagative xảy ra chủ yếu do chất lượng dữ liệu của MAS. Dữ liệu chỉ mục ngay sau khi thu thập về khá lớn nên khó có thể kiểm tra bằng tay ngay được. Thay vào đó, các Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 127 Trần Hưng Nghiệp T.S Lương Phúc Hiệp dữ liệu này sẽ được dùng để tính toán chỉ số h-index trước, sau khi tính toán ta sẽ xác định Hirsch-core, từ đó giới hạn số bài báo cần phải kiểm tra của mỗi tác giả. Việc kiểm tra này chủ yếu dựa trên các thông tin về các đồng tác giả, các trích dẫn đến bài báo đó. Trong trường hợp cụ thể đang xét, dữ liệu kết quả sau khi kiểm tra không thay đổi so với trước đó. 5.6 Tính toán các chỉ số xếp hạng 5.6.1 Mở đầu Với mục đích thử nghiệm các chỉ số phân tích xếp hạng và xây dựng tính năng cho hệ thống thư viện điện tử, đề tài sẽ tiến hành tính toán nhiều chỉ số khác nhau trên dữ liệu chỉ mục đã thu thập được liên quan đến các khoa công nghệ thông tin của các trường đại học nổi tiếng ở Tp. Hồ Chí Minh. Các chỉ số này sẽ tập trung vào đánh giá các tổ chức trên nhiều tiêu chí khác nhau. 5.6.2 Phân tích thiết kế Những chỉ số được tính toán ở đây sẽ giống như các chỉ số được tính toán ở phần trên, điểm khác biệt là dữ liệu để tính toán khác nhau về ý nghĩa cũng như độ lớn. Như vậy quá trình tính toán sẽ tương đồng về mặt nguyên lý tính toán, công nghệ và công cụ sử dụng. Tuy nhiên đánh giá kết quả sẽ được thực hiện khác. Với mỗi loại đối tượng, các chỉ số sẽ cài đặt như sau: Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng. STT Loại đối tượng Các chỉ số 1. Bài báo - Số lượng trích dẫn. 2. Tác giả - Số lượng bài báo. - Số lượng trích dẫn. - Số trích dẫn trung bình của một bài báo. - Số lượng đồng tác giả. - H-index. - G-index. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 128 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 3. Tổ chức - Số lượng bài báo. - Số lượng trích dẫn. - Số trích dẫn trung bình của một bài báo. - Số lượng tác giả. - H-index. - G-index. 4. Hội thảo - Số lượng bài báo. - Số lượng trích dẫn. - Số trích dẫn trung bình của một bài báo. - G-index. 5. Tờ báo - Số lượng bài báo. - Số lượng trích dẫn. - Số trích dẫn trung bình của một bài báo. - G-index. 6. Tạp chí - Số lượng bài báo. - Số lượng trích dẫn. - Số trích dẫn trung bình của một bài báo. - G-index. Ngoài ra, chỉ số đặc biệt số trích dẫn của một bài báo có thể được tính một cách dễ dàng bằng cách lấy số lượng trích dẫn chia cho số lượng bài báo. Để tăng thêm hiệu quả khi sử dụng các chỉ số, chương trình sẽ tính toán với nhiều cấp độ gom cụm khác nhau:  Cấp độ tổng thể: Việc đếm và tính toán không có ràng buộc nào.  Cấp độ từ khóa: Việc đếm và tính toán sẽ bị ràng buộc với điều kiện các bài báo có liên hệ đến từ khóa tương ứng. Dữ liệu được thu thập ở phần này không có dữ liệu liên hệ với lĩnh vực con nên cấp độ lĩnh vực con sẽ không được tính toán. Việc tính toán với nhiều cấp độ gom cụm này sẽ giúp cho việc đánh giá các chỉ số dễ dàng hơn. Việc sử dụng các chỉ số để đánh giá các đối tượng cũng hiệu quả, chính xác hơn. Từ đó, xây dựng chức năng cho hệ thống thư viện điện tử tốt hơn. Các nguyên lý tính toán các chỉ số trong stored procedure và chương trình riêng tính toán các chỉ số đã được trình bày ở phần trên. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 129 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Mô hình cơ sở dữ liệu được sử dụng chung với chương trình tính toán ở trên. Hình sau mô tả mô hình ERD của các bảng lưu trữ các chỉ số: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 130 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Sơ đồ 5.3 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 131 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 5.6.3 Cài đặt Như đã phân tích, việc tính toán sẽ được cài đặt làm hai phần: stored procedure và chương trình tính toán riêng. Stored procedure và chương trình tính toán này đã được cài đặt ở phần trên. 5.7 Đánh giá kết quả 5.7.1 Kết quả tính toán Trong những phần trên, đề tài đã trình bày về các bước của quá trình thu thập dữ liệu chỉ mục và tính toán các chỉ số xếp hạng cho các tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Kết quả tính toán tập trung miêu tả nhiều khía cạnh khác nhau của các tổ chức sẽ được trình bày chi tiết sau đây. a) Số giảng viên: thể hiện quy mô về số lượng của tổ chức. Bảng 5.7 – Kết quả tính toán số lượng giảng viên. STT Tên tổ chức Số GV 1. Trường Đại học FPT 136 2. Trường Đại học Công Nghệ Thông Tin 86 3. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp. HCM 86 4. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM 74 5. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự Nhiên Tp. HCM 67 6. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp. HCM 33 7. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ Thuật Tp. HCM 32 8. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công Nghệ Tp. HCM 24 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 132 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 9. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp. HCM 26 10. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 13 Kết quả này được thể hiện trong biểu đồ sau: Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức. Biểu đồ cho thấy trường Đại học FPT có nhiều giảng viên nhất, là 136 giảng viên. b) Số bài báo: thể hiện khối lượng sản phẩm nghiên cứu khoa học của tổ chức. Bảng 5.8 – Kết quả tính toán số lượng bài báo. STT Tên tổ chức Số bài báo 1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM 301 2. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự Nhiên Tp. HCM 191 0 20 40 60 80 100 120 140 160 Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT Số lượng giảng viên Số lượng giảng viên Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 133 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 3. Trường Đại học Công Nghệ Thông Tin 114 4. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp. HCM 42 5. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 27 6. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ Thuật Tp. HCM 25 7. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp. HCM 24 8. Trường Đại học FPT 19 9. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công Nghệ Tp. HCM 14 10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp. HCM 3 Kết quả này được thể hiện trong biểu đồ sau: Biểu đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức. 0 50 100 150 200 250 300 350 Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT Số lượng bài báo Số lượng bài báo Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 134 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM có nhiều bài báo nhất, là 301 bài báo. c) Số trích dẫn: thể hiện tầm ảnh hưởng của sản phẩm nghiên cứu khoa học của tổ chức. Bảng 5.9 – Kết quả tính toán số lượng trích dẫn. STT Tên tổ chức Số trích dẫn 1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM 691 2. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự Nhiên Tp. HCM 211 3. Trường Đại học Công Nghệ Thông Tin 142 4. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp. HCM 64 5. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công Nghệ Tp. HCM 55 6. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 34 7. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp. HCM 23 8. Trường Đại học FPT 16 9. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ Thuật Tp. HCM 15 10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp. HCM 2 Kết quả này được thể hiện trong biểu đồ sau: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 135 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức. Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM có nhiều trích dẫn nhất, là 691 trích dẫn. d) Tỷ lệ trích dẫn trung bình cho một bài báo: là một loại chỉ số impact factor căn bản thể hiện hiệu suất ảnh hưởng của sản phẩm nghiên cứu khoa học của tổ chức. Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo. STT Tên tổ chức Số trích dẫn trung bình một bài báo 1. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công Nghệ Tp. HCM 3,93 2. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM 2,3 3. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp. HCM 1.52 0 100 200 300 400 500 600 700 800 Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT Số lượng trích dẫn Số lượng trích dẫn Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 136 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 4. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 1,26 5. Trường Đại học Công Nghệ Thông Tin 1,25 6. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự Nhiên Tp. HCM 1,1 7. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp. HCM 0.96 8. Trường Đại học FPT 0.84 9. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp. HCM 0,67 10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ Thuật Tp. HCM 0.6 Kết quả này được thể hiện trong biểu đồ sau: Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ chức. Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công Nghệ Tp. HCM có tỷ lệ trích dẫn trung bình của một bài báo cao nhất, là 3,93. 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT Số lượng trích dẫn trung bình Số lượng trích dẫn trung bình Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 137 Trần Hưng Nghiệp T.S Lương Phúc Hiệp e) H-index: Chỉ số h-index ở đây được tính theo một định nghĩa của MAS về h-index của tổ chức: “Một tổ chức có h-index = h khi các tác giả thuộc tổ chức đó được sắp xếp theo thứ tự giảm dần h-index cá nhân, và có h tác giả ở đầu có h-index cá nhân ít nhất là h, và tác giả thứ (h+1) có h-index cá nhân nhỏ hơn (h+1).” Bảng 5.11 – Kết quả tính toán chỉ số H-index. STT Tên tổ chức H-index 1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM 4 2. Trường Đại học Công Nghệ Thông Tin 3 3. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự Nhiên Tp. HCM 3 4. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 2 5. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp. HCM 2 6. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp. HCM 1 7. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ Thuật Tp. HCM 1 8. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp. HCM 1 9. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công Nghệ Tp. HCM 1 10. Trường Đại học FPT 1 Kết quả này được thể hiện trong biểu đồ sau: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 138 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Biểu đồ 5.5 – Biểu đồ H-index các tổ chức. Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM có H-index cao nhất, là 4. f) G-index: chỉ số g-index ở đây được tính theo định nghĩa sau: “Một tổ chức có g-index = g nếu xét trong tổng số các tác phẩm của tổ chức đó, g tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn lớn hơn hay bằng g2, và (g+1) tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn nhỏ hơn (g+1)2.” Bảng 5.12 – Kết quả tính toán chỉ số G-index. STT Tên tổ chức G-index 1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM 24 2. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự Nhiên Tp. HCM 10 3. Trường Đại học Công Nghệ Thông Tin 9 4. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công 7 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT H-Index H-Index Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 139 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Nghệ Tp. HCM 5. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp. HCM 6 6. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 5 7. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ Thuật Tp. HCM 4 8. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp. HCM 4 9. Trường Đại học FPT 3 10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp. HCM 1 Kết quả này được thể hiện trong biểu đồ sau: Biểu đồ 5.6 – Biểu đồ G-index các tổ chức. Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM có G-index cao nhất, là 24. 0 5 10 15 20 25 30 Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT G-Index G-Index Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 140 Trần Hưng Nghiệp T.S Lương Phúc Hiệp g) Tổng hợp kết quả: Bảng tổng hợp này xếp các tổ chức theo thứ tự như trong bảng thông tin các khoa, trường khi thu thập dữ liệu. Bảng 5.13 – Tổng hợp kết quả tính toán. STT Xếp hạng theo các chỉ số Số GV Số bài báo Số trích dẫn Số trích dẫn trung bình một bài báo H-index G-index 1. 86 114 142 1,25 3 9 2. 13 27 34 1,26 2 5 3. 67 191 211 1,1 3 10 4. 74 301 691 2,3 4 24 5. 26 3 2 0,67 1 1 6. 32 25 15 0,6 1 4 7. 86 24 23 0,96 1 4 8. 33 42 64 1,52 2 6 9. 24 14 55 3,93 1 7 10. 136 19 16 0,84 1 3 Biểu đồ tổng hợp kết quả tính toán như sau: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 141 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức. 0 100 200 300 400 500 600 700 800 Số lượng tác giả Số lượng bài báo Số lượng trích dẫn Số trích dẫn trung bình của một bài báo H-index G-index Tổng hợp kết quả tính toán các chỉ số của các tổ chức (Số chỉ hạng nhỏ hơn là hạng cao hơn) Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 142 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Biểu đồ thể hiện kết quả tính toán các chỉ số cho các tổ chức, khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp. HCM có số trích dẫn nhiều vượt trội. h) Tổng hợp kết quả xếp hạng: Bảng tổng hợp xếp hạng được xếp các tổ chức theo thứ tự như trong bảng thông tin các khoa, trường khi thu thập dữ liệu. Thứ hạng càng cao thì số chỉ thứ hạng càng gần một hơn. Bảng 5.14 – Tổng hợp kết quả xếp hạng. STT Xếp hạng theo các chỉ số Số GV Số bài báo Số trích dẫn Số trích dẫn trung bình một bài báo H-index G-index 1. 2 3 3 5 2 3 2. 10 5 6 4 4 6 3. 5 2 2 6 2 2 4. 4 1 1 2 1 1 5. 9 10 10 9 6 10 6. 7 6 9 10 6 7 7. 2 7 7 7 6 7 8. 6 4 4 3 4 5 9. 8 9 5 1 6 4 10. 1 8 8 8 6 9 Biểu đồ tổng hợp kết quả xếp hạng như sau: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 143 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Biểu đồ 5.8 – Biểu đồ tổng hợp kết quả xếp hạng các tổ chức. 5.7.2 Nhận xét và đề xuất một số cải tiến Qua các kết quả được trình bày ở trên, ta có thể đưa ra một số nhận xét sau:  Nhóm các trường dẫn đầu thuộc về các trường thuộc Đại học Quốc gia Tp. HCM. Trường Đại học Bách Khoa Tp. HCM dẫn đầu về nhiều mặt và có thể xem là trường mạnh nhất trong số các trường trên. Các trường Đại học Khoa Học Tự Nhiên Tp. HCM và trường Đại học Công Nghệ Thông Tin cũng là những trường nằm trong tốp đầu về chất lượng nghiên cứu khoa học. 0 2 4 6 8 10 12 Số lượng tác giả Số lượng bài báo Số lượng trích dẫn Số trích dẫn trung bình của một bài báo H-index G-index Tổng hợp kết quả xếp hạng các tổ chức theo các chỉ số (Số chỉ hạng nhỏ hơn là hạng cao hơn) Đại học Công Nghệ Thông Tin Đại học Quốc Tế Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM Đại học Công Nghiệp Tp. HCM Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM Đại học FPT Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 144 Trần Hưng Nghiệp T.S Lương Phúc Hiệp  Một số trường công lập được phát triển lâu năm nhưng không chuyên về công nghệ thông tin thì cũng không mạnh về công nghệ thông tin lắm, đặc biệt là trường Đại học Sư Phạm Tp. HCM hầu như không nghiên cứu mà chỉ giảng dạy tin học.  Các trường đại học tư thục với sự đầu tư mạnh mẽ về tài chính cũng phát triển đáng kể về nghiên cứu khoa học. Tuy nhiên trường Đại học FPT chỉ phát triển mạnh mẽ về số lượng giảng viên để đào tạo ra sinh viên đi làm ở doanh nghiệp mà không chú trọng nghiên cứu khoa học. Qua những nhận xét trên, có thể kết luận rằng các chỉ số xếp hạng phản ánh khá chính xác tình hình thực tế ở các tổ chức. Từ quá trình thực nghiệm, đề tài đưa ra một số đề xuất cải tiến sau:  Mỗi chỉ số phản ánh một khía cạnh khác nhau, vì vậy có thể phối hợp sử dụng các chỉ số này một cách phù hợp để đưa ra các đánh giá khách quan về nhiều mặt trong hoạt động cũng như chất lượng nghiên cứu khoa học ở các tổ chức. Ví dụ: o Xét trường Đại học FPT, kết hợp số lượng giảng viên nhiều và số lượng bài báo khoa học ít có thể đánh giá trường này chuyên về đào tạo mà ít nghiên cứu. o Xét trường Đại học Kỹ Thuật Công Nghệ, kết hợp số lượng giảng viên ít và số lượng bài báo khoa học nhiều có thể đánh giá trường này khá chú trọng nghiên cứu so với đào tạo.  Khi đánh giá các tổ chức, ngoài việc sử dụng phối hợp các chỉ số ở trên, còn có thể đánh giá theo thời gian để xác định xu hướng trong hoạt động và chất lượng nghiên cứu khoa học của các tổ chức. Từ đó có thể cho cái nhìn khách quan hơn về các tổ chức lâu đời và các tổ chức mới thành lập.  Dữ liệu để tính toán các chỉ số này có đặc trưng là thay đổi theo thời gian nên cần phải tiến hành thu thập và tính toán thường xuyên. Để Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 145 Trần Hưng Nghiệp T.S Lương Phúc Hiệp dữ liệu thu thập được đầy đủ và có chất lượng thì cần phải sử dụng nhiều nguồn khác nhau. Vì vậy cần mở rộng nguồn dữ liệu của crawler. Mặt khác, có thể dùng một cách khá hiệu quả để thu thập dữ liệu là sử dụng một hệ thống tương tự Wiki, cho phép người dùng đóng góp thông tin dữ liệu chỉ mục, dữ liệu này có thể được kiểm tra đánh giá lại bởi những người dùng có uy tín được cấp quyền để tránh sai dạng false negative.  Hệ thống thư viện điện tử có thể sử dụng dữ liệu chỉ mục và các chỉ số được tính toán ở đây để xây dựng chức năng dành cho các đối tượng người dùng quan tâm. Trong tương lai cần mở rộng phạm vi dữ liệu và tính toán nhiều chỉ số hơn để đáp ứng tốt hơn nhu cầu của người dùng trong nước. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 146 Trần Hưng Nghiệp T.S Lương Phúc Hiệp CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết quả đạt được Đóng góp đầu tiên của đề tài là đã nghiên cứu và xây dựng một chương trình thu thập dữ liệu chỉ mục hiệu quả cao, từ đó đề tài đã và đang thu thập được dữ liệu chỉ mục của hơn 2,3 triệu bài báo khoa học trong lĩnh vực công nghệ thông tin. Đề tài cũng đã xây dựng mô hình dữ liệu quan hệ để lưu trữ các dữ liệu chỉ mục này một cách hiệu quả và thuận tiện sử dụng. Ngoài ra, đề tài cũng đã nghiên cứu xây dựng mô hình ứng dụng và xây dựng chương trình tính toán nhiều chỉ số xếp hạng khác nhau và đã có những thử nghiệm đánh giá trên dữ liệu thu thập được. Bên cạnh đó, đề tài đã thu thập, chuẩn hóa dữ liệu chỉ mục của các tổ chức nghiên cứu về công nghệ thông tin nổi tiếng ở Tp. Hồ Chí Minh, từ đó tiến hành thực nghiệm các chỉ số xếp hạng. Dựa trên những kết quả thực nghiệm này, đề tài đã đưa ra một số đề xuất cải tiến trong việc thu thập dữ liệu, sử dụng các chỉ số và xây dựng hệ thống thư viện điện tử. Bước đầu thử nghiệm, đề tài đã đề xuất xây dựng một hệ thống thư viện điện tử với các chức năng cơ bản, có thiết kế tốt và có khả năng mở rộng thêm các module do các nhóm nghiên cứu khác đang thực hiện. Từ đó, hệ thống này có thể ứng dụng trong thực tế và sử dụng để làm thực nghiệm trong quá trình nghiên cứu. 6.2 Hạn chế và hướng phát triển 6.2.1 Hạn chế Bên cạnh những thành quả đạt được, đề tài vẫn còn không ít tồn tại và hạn chế. Chương trình thu thập dữ liệu chưa có nhiều nguồn dữ liệu khác nhau, vì vậy có thể bị thiếu sót dữ liệu. Việc kiểm tra dữ liệu hiện nay cũng đang được thực hiện bằng tay gây khó khăn khi xử lý dữ liệu lớn. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 147 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Các chỉ số xếp hạng chưa được cài đặt và thử nghiệm đầy đủ để tìm ra cách sử dụng tối ưu. Các đề xuất cải tiến vẫn chỉ là sản phẩm suy luận chứ chưa được triển khai thực tế. Do giới hạn về thời gian thực hiện nên hệ thống thư viện điện tử vẫn còn sơ khai, chưa tích hợp nhiều tính năng. 6.2.2 Hướng phát triển Trong tương lai đề tài có thể tiến hành thử nghiệm nhiều hơn về các chỉ số xếp hạng, các đề xuất cải tiến cũng cần được đưa vào ứng dụng thực tế. Chương trình thu thập dữ liệu có thể mở rộng thêm các nguồn dữ liệu từ các hệ thống thư viện điện tử khác ngoài MAS, và các trang web chính thức của tác giả. Ngoài ra, cần xây dựng cơ chế kiểm tra dữ liệu tự động. Hệ thống thư viện điện tử có thể được xây dựng thành một hệ thống ứng dụng hoàn chỉnh với đầy đủ tính năng. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 148 Trần Hưng Nghiệp T.S Lương Phúc Hiệp DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: 1. [TC2011] Đỗ Văn Tiến, Nguyễn Phước Cường (2011). “Xây dựng và làm giàu kho chỉ mục bài báo khoa học dùng web crawler”, Báo cáo khóa luận, khoa Công Nghệ Phần Mềm, trường Đại học Công Nghệ Thông Tin. Tiếng Anh: 1. [Aus2006] David Austin (2006) . “How Google Finds Your Needle in the Web's Haystack”, Grand Valley State University, Feature Column from the AMS, Monthly essays on mathematical topics. 2. [BM+2008] Lutz Bornmann, Rüdiger Mutz, Hans-Dieter Daniel. “Are there better indices for evaluation purposes than the h index? A comparison of nine different variants of the h index using data from biomedicine”. Journal of the American Society for Information Science and Technology, vol.59, 2008, pp. 830-837. 3. [BM+2009] Lutz Bornmann, Rüdiger Mutz, Hans-Dieter Daniel. “DoWe Need the h Index and Its Variants in Addition to Standard Bibliometric Measures?”. Journal of the American Society for Information Science and Technology archive, vol.60, no.6, 06/2009. 4. [BP1998] Sergey Brin, Lawrence Page (1998). “The Anatomy of a Large-Scale Hypertextual Web Search Engine”. Proceedings of the 7th international conference on World Wide Web (WWW). Brisbane, Australia. pp. 107–117. 5. [BP+1998] Sergey Brin, Lawrence Page, Rajeev Motwani, Terry Winograd (1999). “The PageRank citation ranking: bringing order to the Web”. Technical report, Stanford University. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 149 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 6. [Bur2007] Quentin L. Burrell. “Hirsch’s h-index: a stochastic model”. Journal of In-formetrics, vol.1, no.1, 2007, pp.16–25. 7. [Bur2007a] Quentin L. Burrell. “On the h-index, the size of the Hirsch core and Jin’s A-index”. Journal of Informetrics, vol.1, no.2, 2007, pp.170-177. 8. [BW+2008] Lutz Bornmann, Gerlind Wallon and Anna Ledin. “Is the h index related to (standard) bibliometric measures and to the assessments by peers? An investigation of the h index by using molecular life sciences data”. Research Evaluation, vol.17, no.2, 06/2008, pp.149-156. 9. [CB2008] Rodrigo Costas, María Bordons. “Is g-index better than h-index? An exploratory study at the individual level”. Scientometrics, vol.77, no.2, 2008, pp.267-288. 10. [Egg2006] Leo Egghe, “Theory and practise of the g-index”. Scientometrics, vol. 69, no.1, 2006, pp.131-152. 11. [ER2008] Leo Egghe, Ronald Rousseau. “An h-index weighted by citation impact”. Information Processing & Management, vol.4, 2008, pp.770-780. 12. [Hir2005] J. E. Hirsch (2005). “An index to quantify an individual’s scientific research output”. PNAS. 13. [Hir2007] J. E. Hirsch. “Does the h index have predictive power?”. PNAS, vol.104, no.49, 2007, pp.19193-19198. 14. [HK2003] Taher H. Haveliwala and Sepandar D. Kamvar (2003). “The Second Eigenvalue of the Google Matrix”. Stanford University. 15. [HK+2003] Taher Haveliwala, Sepandar Kamvar and Glen Jeh (2003). “An Analytical Comparison of Approaches to Personalizing PageRank”. Stanford University. 16. [Jin2006] Bihui Jin. “H-index: an evaluation indicator proposed by scientist”. Science Focus, vol.1, no.1, 2006, pp.8-9. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 150 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 17. [Jin2010] Arif Jinha (2010). “Article 50 million: an estimate of the number of scholarly articles in existence”. Learned Publishing, vol.23, no.3, pp.258-263. DOI: 10.1087/20100308. 18. [JL+2007] Bihui Jin, Liming Liang, Ronald Rousseau, Leo Egghe. “The R- and AR-indices: Complementing the h-index”. Chinese Science Bulletin, vol.52, no.6, 2007, pp.855-863. 19. [Kos2006] Marek Kosmulski. “A new Hirsch-type index saves time and works equally well as the original h-index”. ISSI Newsletter, vol.2, no.3, 2006, pp.4-6. 20. [MY2007] Lokman I. Meho and Kiduk Yang. “Impact of data sources on citation counts and rankings of LIS faculty: Web of Science versus Scopus and Google Scholar”. Journal of the American Society for Information Science and Technology, vol.58, no.13, 2007, pp.2105-2125. 21. [NZ+2005] Zaiqing Nie, Yuanzhi Zhang, Ji-Rong Wen, Wei- Ying Ma (2005). “Object-level ranking: bringing order to web objects”. Conference: World Wide Web Conference Series - WWW , pp. 567-574. DOI: 10.1145/1060745.1060828 22. [Rou2006] Ronald Rousseau (2006). “New developments related to the Hirsch index”. Truy xuất ngày 20/12/2012, từ 23. [Rou2008] Ronald Rousseau. “Reflections on recent developments of the h-index and h-type indices”. Collnet journal of scientometrics and information management, vol.2, no.1, 06/2008. 24. [Sch2003] Barry Schwartz (2003). “The Paradox of Choice: Why More Is Less”. Web: 1. [ACM] 20/12/2011. 2. [CS] 20/12/2011. 3. [CSX] 20/12/2011. 4. [GS] 20/12/2011. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 151 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 5. [GSH] , 20/12/2011. 6. [IEEE] 20/12/2011. 7. [MAS] 17/01/2012. 8. [MASH] /About/Help.htm, 17/01/2012. 9. [SL] 20/12/2011. 10. [WikiDB&SE] /List_of_academic_databases_and_search_engines, 20/12/2011. 11. [WikiDS] 02/09/2011. 12. [WikiErr] /Type_I_and_type_II_errors, 20/12/2011. 13. [WikiGF] 20/12/2011. 14. [WikiHI] 02/09/2011. 15. [WikiIF] 02/09/2011. 16. [WikiME] /Matthew_effect_(sociology), 02/09/2011. 17. [WikiPR] , 02/09/2011. 18. [WikiSCI] 02/09/2011. 19. [WikiWC] 20/12/2011.

Các file đính kèm theo tài liệu này:

  • pdfĐề tài- ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC.pdf