Khi đánh giá các tổ chức, ngoài việc sử dụng phối hợp các chỉ số ở
trên, còn có thể đánh giá theo thời gian để xác định xu hướng trong
hoạt động và chất lượng nghiên cứu khoa học của các tổ chức. Từ đó
có thể cho cái nhìn khách quan hơn về các tổ chức lâu đời và các tổ
chức mới thành lập.
167 trang |
Chia sẻ: lylyngoc | Lượt xem: 2382 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
p.
- Website chính thức:
o Trường:
vn/
o Khoa:
du.vn/
edu.vn/old/people.html
74
5. Khoa Công
nghệ
Thông tin
trường Đại
học Sư
Phạm Tp.
HCM
- Loại hình: Đại học công
lập.
- Website chính thức:
o Trường:
.vn/
o Khoa:
u.vn/?site=61
u.vn/index.php?option
=com_content&view=
article&id=1883&Item
id=2509&lang=vi&sit
e=61
26
6. Khoa Công
nghệ
Thông tin
trường Đại
học Sư
Phạm Kỹ
Thuật Tp.
HCM
- Loại hình: Đại học công
lập.
- Website chính thức:
o Trường:
u.vn/
o Khoa:
n/web/guest/229
32
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 113 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
n/
7. Khoa Công
nghệ
Thông tin
trường Đại
học Công
Nghiệp Tp.
HCM
- Loại hình: Đại học công
lập.
- Website chính thức:
o Trường:
o Khoa:
.com/?MenuID=112
s.com/gv/
86
8. Khoa Khoa
Học Công
nghệ
trường Đại
học Hoa
Sen Tp.
HCM
- Loại hình: Đại học tư
thục.
- Website chính thức:
o Trường:
.vn/
o Khoa:
vn/
du.vn/openerp/static/pr
ofiles/groups/625/inde
x.html
du.vn/openerp/static/pr
ofiles/groups/628/inde
x.html
du.vn/openerp/static/pr
ofiles/groups/631/inde
x.html
33
9. Khoa Công
nghệ
Thông tin
trường Đại
học Kỹ
Thuật Công
Nghệ Tp.
HCM
- Loại hình: Đại học tư
thục.
- Website chính thức:
o Trường:
.vn/homepage/
o Khoa:
.vn/khoacntt/
https://giangvien.hutec
h.edu.vn/listteacher.as
px?d=2
https://giangvien.hutec
h.edu.vn/listteacher.as
px?d=2&p=2
24
10. Trường Đại
học FPT
- Loại hình: Đại học tư
thục.
- Website chính thức:
o Trường:
story/danh-sach-giang-
vien
136
Tổng số 577
5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu
Để thu được dữ liệu chỉ mục từ danh sách giảng viên, cần sử dụng web
crawler để tìm kiếm và trích xuất dữ liệu. Web crawler này được xây dựng dựa
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 114 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
trên web crawler đã được xây dựng để thu thập dữ liệu chỉ mục tổng quát trình
bày ở phần trên. Cơ sở dữ liệu mà chương trình sử dụng cũng là cơ sở dữ liệu
của hệ thống thư viện điện tử. Dữ liệu sau khi nhập vào cơ sở dữ liệu nằm
trong hai bảng, bảng Org lưu dữ liệu các tổ chức, bảng Author lưu dữ liệu các
tác giả.
Dữ liệu danh sách giảng viên cung cấp cho web crawler phải qua hai thao
tác, đó là chuẩn hóa về dạng thích hợp cho việc tìm kiếm và nhập liệu vào cơ
sở dữ liệu. Vì dữ liệu thu nhận được ban đầu bán cấu trúc và từ nhiều nguồn
khác nhau nên các thao tác này phải làm thủ công khá mất thời gian. Tác giả đã
sử dụng một số công cụ để thao tác nhanh hơn.
Để có thể tìm kiếm hiệu quả thì tên của giảng viên phải được chuẩn hóa về
dạng Tiếng Việt không dấu. Việc chuyển đổi sang Tiếng Việt không dấu được
thực hiện nhờ công cụ Unikey 4.019. Để nhập một lượng lớn dữ liệu danh sách
giảng viên, nhập bằng tay sẽ rất mất thời gian, việc xây dựng một chương trình
đọc file danh sách và nhập liệu tự động là cần thiết. Tuy nhiên đây là yếu tố
phụ trong đề tài nên việc nhập liệu được thực hiện bằng cách sinh các SQL
Script insert bằng công cụ Notepad++20.
5.4 Chương trình thu thập dữ liệu chỉ mục
5.4.1 Khảo sát hiện trạng
Như đã nói ở phần chương trình thu thập dữ liệu ở trên, các trang web của
các hệ thống thư viện điện tử là nguồn cung cấp dữ liệu chỉ mục có thể thu thập
dễ dàng và hiệu quả nhất. Chương trình thu thập dữ liệu ở đây sẽ thu thập các
dữ liệu cần thiết từ MAS. Sau đó, dữ liệu sẽ được kiểm tra và bổ sung thêm từ
cơ sở dữ liệu DBLP. Trong tương lai, chúng tôi sẽ bổ sung thêm dữ liệu từ các
thư viện điện tử khác và các nguồn khác.
19
20
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 115 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Trong MAS, dữ liệu được tổ chức thành sáu loại đối tượng chính, đó là tác
giả (Author), bài báo khoa học (Publication), Hội nghị (Conference), Tờ báo
(Journal), Tổ chức (Organization), Từ khóa (Keyword). Như đã trình bày ở
phần trên, MAS hỗ trợ nhiều cách khác nhau để lấy được dữ liệu của các đối
tượng này. Một trong số các cách đó là sử dụng chức năng tìm kiếm.
Đặc biệt, MAS hỗ trợ tìm kiếm nâng cao theo tên tác giả trong lĩnh vực cụ
thể và hỗ trợ gợi ý tác giả. Ta có thể sử dụng các chức năng này để tăng thêm
độ chính xác của kết quả tìm kiếm.
Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem”.
Để tìm kiếm, MAS sử dụng url theo phương thức get với cấu trúc nhất định,
nhờ vậy có thể tự động sinh ra url thích hợp để tìm kiếm từ các từ khóa là tên
tác giả.
Sau khi lấy các trang html về, chương trình sẽ phân tích để trích xuất lấy dữ
liệu và lưu trữ vào cơ sở dữ liệu cục bộ.
5.4.2 Phân tích thiết kế
Để thu thập dữ liệu chỉ mục cần thiết, đề tài đã xây dựng một chương trình
web crawler. Về cơ bản, web crawler này tương tự như web crawler ở phần
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 116 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
trên và sử dụng lại nhiều ý tưởng cũng như các đoạn mã chức năng. Tuy nhiên,
do dữ liệu nhập và mục đích khác nhau nên vẫn có một số điểm khác biệt quan
trọng trong thiết kế và cài đặt.
Cũng như web crawler ở phần trên, web crawler ở đây là một dạng crawler
tập trung, và là dạng crawler cho deep web. Những dữ liệu chỉ mục cần lấy liên
quan đến nhiều giảng viên khác nhau được phân bố hỗn độn trên MAS nên
cách tốt nhất để tiến hành lấy dữ liệu là sử dụng chức năng tìm kiếm của MAS.
Để sử dụng chức năng này, chương trình sẽ dùng dữ liệu đầu vào là danh sách
giảng viên, kết hợp với các mẫu được định nghĩa trước để sinh ra các url truy
vấn máy tìm kiếm của MAS, các kết quả trả về sẽ được trích xuất và lưu xuống
cơ sở dữ liệu, sau đó sẽ được xử lý tiếp.
Để nâng cao hiệu quả hoạt động, chương trình sẽ sử dụng chức năng tìm
kiếm nâng cao theo tên tác giả trong lĩnh vực cụ thể là khoa học máy tính
(Computer Science) để hạn chế nhầm lẫn với các kết quả khác. Ngoài ra,
chương trình còn sử dụng chức năng gợi ý tác giả của MAS. Khi sử dụng chức
năng này, trong kết quả trả về sẽ có gợi ý các tác giả tương ứng với từ khóa tìm
kiếm, chương trình sẽ trích xuất danh sách các tác giả này lưu lại. Sau đó người
dùng sẽ kiểm tra bằng tay và chọn lọc giữ lại các tác giả cần quan tâm, bỏ qua
các tác giả trùng trên.
Dựa trên danh sách tác giả sau khi chọn lọc, chương trình sẽ thu thập dữ
liệu chỉ mục liên quan đến các tác giả trên MAS và lưu trữ xuống cơ sở dữ liệu.
Sau khi đã hoàn tất việc thu thập, dữ liệu chỉ mục này sẽ được dùng để tính
toán các chỉ số. Sau khi tính toán xong, người dùng sẽ kiểm tra lại bằng tay các
bài báo nằm trong Hirsch core và trong các nhóm đầu khác, việc kiểm tra sau
này là để giảm thiểu số lượng dữ liệu cần kiểm tra mà vẫn bảo đảm độ chính
xác.
Đối tượng tìm kiếm ban đầu của chương trình là các tác giả, sau đó sẽ duyệt
danh sách tác giả để lấy danh sách bài viết, sau đó sẽ duyệt danh sách bài viết
để lấy dữ liệu chỉ mục, các đối tượng khác sẽ được lấy dựa trên sự liên kết đến
từng bài viết, ví dụ như mối quan hệ được viết bởi, mối quan hệ xuất bản tại…
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 117 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Để các chỉ số đánh giá hoạt động hiệu quả thì dữ liệu càng chính xác càng
tốt. Dữ liệu chỉ mục thu thập trong trường hợp này không quá lớn nên sẽ được
kiểm tra bằng tay nhiều lần. Thuật giải của quy trình thu thập dữ liệu như sau:
Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu.
/**
* Thuật toán chạy Crawler lấy dữ liệu trên MAS theo hướng duyệt
Author.
* @author Nghiep
* Date created: 18-08-2011
*/
Input:
- Org, Author in Org.
- URL patterns
Output:
- Dữ liệu publication, author, organization, conference, journal,
keyword với sự kết nối ngữ nghĩa với nhau và với subdomain, domain.
Note:
- Khi thử nghiệm các độ đo, dữ liệu càng chính xác càng tốt.
- Có một vấn đề chung mà các quá trình thu thập dữ liệu luôn gặp
phải, đó là độ chính xác, vấn đề nổi bật nhất là các tác giả trùng
tên.
- Để giải quyết vấn đề này, cũng như hầu hết các nhóm nghiên cứu khác
trên thế giới, tác giả sẽ sử dụng cơ chế bán tự động trong đó người
dùng sẽ kiểm tra lại bằng tay kết quả thu thập dữ liệu.
BEGIN
* Bước 1: Lấy danh sách Org từ DB.
- Với mỗi Org: lấy danh sách Author tương ứng từ DB.
- Với mỗi Author: query MAS: Lấy danh sách suggested authors:
- Nếu không có suggested author nào thì coi như author đó
không có bài báo nào, chuyển sang author tiếp theo.
- Nếu có thì:
- Duyệt qua tất cả các suggested author:
- Đi đến trang chi tiết của mỗi tác giả đề xuất:
- Lưu các instances của tác giả đang xét.
* Bước 2: Kiểm tra các instance của các tác giả.
* Bước 3: Lấy danh sách authorinstance từ DB.
- Đi đến trang chi tiết của mỗi tác giả đề xuất:
- Lấy số lượng publication.
- Duyệt qua trang danh sách publication, lấy danh sách các
publication.
- Duyệt qua các publication.
- Lưu hết dữ liệu liên quan đến các publication trong
publication list: tác giả nằm trong authorinstance sẽ được coi như
chính là tác giả đại diện, không cần lưu, author_paper sẽ lưu theo
tác giả đại diện. Các tác giả khác lưu bình thường.
* Bước 4: Kiểm tra toàn bộ dữ liệu.
END
Trong quy trình trên, bước hai và bước bốn sẽ được thực hiện bằng tay,
chương trình web crawler sẽ thực hiện bước một và bước ba.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 118 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Mô hình hoạt động của chương trình ở bước một như sau:
Mô hình hoạt động của chương trình ở bước ba như sau:
Trong mỗi bước một và bước ba của chương trình, quá trình thu thập dữ
liệu có thể chia làm 4 bước nhỏ như sau:
Bước nhỏ 1: Tạo danh sách url nền tảng.
MAS
Dữ liệu
chỉ mục
Nội dung
html
Các mẫu
Xử lý
Danh sách url
URL query
Phân tích html
Dữ liệu danh
sách tác giả
trên MAS
MAS
Dữ liệu danh
sách tác giả
trên MAS
Nội dung
html
Các mẫu
Xử lý
Danh sách url
URL query
Phân tích html
Dữ liệu danh
sách tổ chức,
tác giả
Hình 5.2 – Mô hình hoạt động của chương trình ở bước một.
Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 119 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Từ danh sách đầu vào, sử dụng các pattern đã định nghĩa trước, chương
trình sinh ra các url nền tảng để tìm kiếm tác giả trên MAS ở bước một, hay để
duyệt qua các bài viết của các tác giả ở bước ba.
Bước nhỏ 2: Tải các trang html.
Chương trình sẽ tải các trang html kết quả tìm kiếm ở bước một, hay các
trang thông tin đối tượng ở bước ba.
Ở các trang html kết quả tìm kiếm, dữ liệu html về gợi ý tác giả chỉ được
sinh ra sau khi trang html đã được tải về hoàn chỉnh bằng JavaScript theo cơ
chế AJAX, vì vậy không thể lấy dữ liệu này bằng cách tải trang thông thường.
Muốn lấy được dữ liệu gợi ý này phải xử lý được JavaScript và AJAX của
trang html ban đầu, cách giải quyết vấn đề này sẽ được trình bày trong phần cài
đặt.
Các trang thông tin đối tượng sẽ được tải bình thường như web crawler ở
phần trên.
Bước nhỏ 3: Phân tích các trang html.
Khi đã nhận được các trang html, chương trình sẽ tiến hành phân tích nội
dung html để lấy các dữ liệu cần thiết. Quá trình phân tích được thực hiện dựa
vào các pattern của trang html được xác định dựa vào việc phân tích bằng tay
các trang html mẫu. Quá trình phân tích các trang html này cũng sẽ trích ra các
url cần thiết, bổ sung chúng vào danh sách các url sẽ request tiếp theo.
Bước nhỏ 4: Lưu dữ liệu.
Sau khi thu nhận được dữ liệu cần thiết, chương trình sẽ lưu chúng vào cơ
sở dữ liệu để sử dụng sau ở các bước tiếp theo.
Ngoài các mẫu url được sử dụng trong chương trình web crawler ở phần
trên, còn có các mẫu url sau:
Bảng 5.3 – Các mẫu url được dùng trong crawler.
STT Mẫu url Giải thích
1. /Search?searchdomain= Phần đầu của mẫu url tìm kiếm nâng cao tác
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 120 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
2&s=0&query=author%
3a%28
giả.
Trong đó searchdomain=2 tức là tìm kiếm
trong lĩnh vực computer science, s=0 tức là
có gợi ý.
Ví dụ:
h?searchdomain=2&s=0&query=author%3a
%28Hoang%20Van%20Kiem%29
2. %29 Phần cuối của mẫu url tìm kiếm nâng cao tác
giả.
3. /Detail?entitytype=2&se
archtype=2&id=
Mẫu url dùng để duyệt danh sách các bài báo
của của một tác giả.
Ví dụ: Thêm id = 9187431 để có địa chỉ url
của trang duyệt danh sách các bài báo của
của tác giả Hoang Van Kiem:
l?entitytype=2&searchtype=2&id=9187431
Ngoài các mẫu pattern được sử dụng trong chương trình web crawler ở
phần trên, còn có các mẫu pattern sau:
Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu.
STT Tên Mẫu Giải thích
1. SUGGESTED_
AUTHOR_DIV
_ID
ctl00_divSearchSu
ggestion
Id thẻ div chứa thông tin gợi ý
trong trang kết quả tìm kiếm.
Chương trình web crawler này cũng sẽ sử dụng chung thiết kế cơ sở dữ liệu
với web crawler ở phần trên. Sơ đồ ERD của cơ sở dữ liệu được thiết kế trong
công cụ MySQL Workbench như sau:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 121 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Sơ đồ 5.1 – Mô hình ERD cơ sở dữ liệu của chương trình.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 122 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Trong cơ sở dữ liệu này, bảng AuthorInstance sẽ lưu các dữ liệu về gợi ý
tác giả thu được ở bước một của quy trình thu thập dữ liệu. Người dùng sẽ xóa
các bản ghi không đúng đi để chương trình tiếp tục bước ba. Các dữ liệu khác
được lưu giống như cũ.
5.4.3 Cài đặt
Hệ thống thu thập dữ liệu này được xây dựng như một ứng dụng desktop
dựa trên hệ thống web crawler ở phần trên, hệ thống được viết bằng Java và áp
dụng các công nghệ sau:
- Ngôn ngữ phát triển: Java.
- Công nghệ Java SE 7.
- Cơ sở dữ liệu quan hệ với hệ quản trị MySQL 5.6
- Công cụ phát triển: Netbeans 7.1
- Công nghệ web crawler.
- Request trang html bằng các hàm native trong Java .
- Giả lập request của web browser và xử lý JavaScript, AJAX bằng thư
viện Selenium21 2.9.
- Phân tích trang html bằng thư viện Jsoup 1.5.2.
Kiến trúc hệ thống:
Thừa kế kiến trúc từ hệ thống web crawler ở phần trên, hệ thống này được
xây dựng sử dụng Java SE thuần túy với sự hỗ trợ của một số thư viện chức
năng, không sử dụng các framwork lập trình nhằm kiểm soát code tốt hơn từ đó
tối ưu chương trình. Hệ thống được xây dựng với kiến trúc nhiều tầng, gồm có
các tầng sau:
Controller: Quản lý các hoạt động của chương trình.
21
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 123 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Business Logic: Thực hiện các chức năng chính của chương trình như
tạo danh sách url, request trang html, phân tích trang html lấy dữ liệu.
Data Access: Cung cấp giao tiếp giữa chương trình và Database.
Database: Cơ sở dữ liệu quan hệ quản lý dữ liệu của hệ thống.
Tổ chức code: Chương trình sử dụng lại tổ chức code của crawler ở phần
trên với các package tương đương. Sự khác biệt là lớp controller lúc này sẽ
kiểm soát dòng logic của web crawler mới, lớp business logic lúc này sẽ có các
hàm thực hiện bước một và bước ba của quy trình thu thập dữ liệu.
Các kỹ thuật lập trình đáng chú ý:
Ngoài các kỹ thuật lập trình thừa kế từ web crawler ở phần trên, chương
trình này còn áp dụng một kỹ thuật đặc biệt là giả lập thao tác web browser.
Như đã nói ở phần phân tích thiết kế, ở các trang html kết quả tìm kiếm, dữ liệu
html về gợi ý tác giả chỉ được sinh ra sau khi trang html đã được tải về hoàn
chỉnh bằng JavaScript theo cơ chế AJAX, vì vậy không thể lấy dữ liệu này
bằng cách tải trang thông thường. Chương trình đã giải quyết vấn đề này bằng
cách sử dụng thư viện Selenium 2.9 để điều khiển web browser Firefox 10.0
giả lập thao tác tìm kiếm của người dùng, đồng thời xử lý JavaScript và AJAX
của trang kết quả tìm kiếm để thu được trang html chứa dữ liệu gợi ý cần thiết.
Controller
Business Logic
Data Access
DB
MAS
Sơ đồ 5.2 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 124 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Trong quá trình triển khai chương trình này, tác giả cũng đã tiến hành thử
nghiệm để tìm ra các thông số tối ưu cho chương trình crawler khi chạy trên
nguồn dữ liệu MAS để bảo đảm tính hiệu quả trong khi vẫn tránh được chính
sách chống DDOS của MAS.
Cơ sở dữ liệu:
Chương trình được cài đặt để có thể chạy trên hai hệ quản trị cơ sở dữ liệu
phổ biến là MySQL và SQL Server, có thể chuyển đổi qua lại bằng cách thay
đổi giá trị các hằng số điều khiển. Hiện tại chương trình đang được triển khai
trên cơ sở dữ liệu MySQL vì các ưu điểm của nó như miễn phí, đơn giản, dễ
triển khai, chất lượng và hỗ trợ tương đối tốt.
Hệ quản trị cơ sở dữ liệu đang dùng là phiên bản 5.6, MySQL Java
Connector đang dùng là 5.1.16. Như trong web crawler ở phần trên, các thông
số của MySQL cũng đã được chỉnh sửa để hoạt động hiệu quả hơn.
Trong quá trình chạy thử nghiệm, cơ sở dữ liệu đang sử dụng có tên
CSPublicationCrawler, hoạt động trên localhost, cổng 3306, username root,
password root.
5.4.4 Kết quả
Chương trình thu thập dữ liệu đã được hoàn thiện các chức năng cốt lõi và
đã được sử dụng để thu thập dữ liệu thực tế. Kết quả thu thập và xử lý dữ liệu
như sau:
Bước 1: Thu thập danh sách AuthorInstance. Tổng cộng có 269
AuthorInstance của 135 tác giả.
Bước 2: Kiểm tra danh sách AuthorInstance. Sau quá trình kiểm tra và
loại bỏ các AuthorInstance không đúng, còn lại 146 AuthorInstance của
100 tác giả. Quá trình kiểm tra được trình bày chi tiết ở mục sau.
Bước 3: Thu thập dữ liệu chỉ mục. Kết quả thu thập được thể hiện chi
tiết trong bảng sau:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 125 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục.
STT Tên bảng Giải thích Số bản ghi
1. Author Tác giả 1576
2. AuthorInstance Thể hiện của tác giả 146
3. Conference Hội thảo 140
4. Domain Lĩnh vực 1
5. Journal Tờ báo 108
6. Keyword Từ khóa 1860
7. Org Tổ chức 391
8. Paper Bài báo 1855
9. Subdomain Lĩnh vực con 24
10. Author_Paper Số liên kết tác giả với bài
báo
2402
11. Paper_Keyword Số liên kết bài báo với từ
khóa
3593
12. Paper_Paper Số liên kết bài báo trích dẫn
bài báo khác
1441
Bước 4: Kiểm tra dữ liệu chỉ mục. Sau quá trình kiểm tra, dữ liệu vẫn
giữ nguyên. Quá trình kiểm tra được trình bày chi tiết ở mục sau.
5.5 Kiểm tra dữ liệu
Những quá trình thu thập dữ liệu luôn gặp một vấn đề chung là dữ liệu có
thể có sai sót. Những sai sót này có thể chia làm hai dạng là false positive và
false negative [WikiErr]. Cụ thể hai dạng sai sót này như sau:
False positive: là dạng sai sót do bỏ sót những dữ liệu thỏa yêu cầu.
False negative: là dạng sai sót do thu nhận những dữ liệu không thỏa
yêu cầu.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 126 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Trong quá trình thu thập dữ liệu ở chương này, cả hai dạng sai sót đều có
thể xảy ra. Những sai sót đó đều ảnh hưởng xấu tới kết quả hoạt động và việc
đánh giá nên chúng cần được kiểm tra và chỉnh sửa lại cho đúng. Những sai sót
dạng false positive nếu xảy ra do lỗi khách quan thì chỉ có một cách giải quyết
là bổ sung thêm nguồn dữ liệu để tăng thêm độ chính xác. Những sai sót dạng
false negative có thể giải quyết bằng cách kiểm tra lại dữ liệu và loại bỏ các
đơn vị dữ liệu không thỏa yêu cầu.
Khi thu thập danh sách giảng viên của các trường, như đã nói ở trên, danh
sách giảng viên không được thu nhận đầy đủ vì những lý do khách quan, nên sẽ
bị sai sót dạng false positive. Những sai sót này có thể được khắc phục bằng
cách bổ sung thêm giảng viên còn thiếu, nhưng việc này cần sự hỗ trợ hợp tác
của các đơn vị nắm giữ dữ liệu giảng viên trong các trường. Vì vậy, những sai
sót này sẽ được sửa sau khi làm việc được với các đơn vị đó. Tuy nhiên, những
giảng viên thu được hiện tại đóng vai trò chủ chốt trong nghiên cứu và giảng
dạy ở các tổ chức của họ nên được xem là đủ tốt để đại diện cho các giảng viên
của tổ chức đó.
Ở cả bước một thu thập dữ liệu AuthorInstance và bước hai thu thập dữ liệu
chỉ mục, sai sót dạng false positive xảy ra vì dữ liệu từ nguồn MAS không đầy
đủ. Dạng sai sót này sẽ được giải quyết bằng cách bổ sung thêm các nguồn dữ
liệu như từ DBLP, hay từ các thư viện điện tử khác như CiteSeerX, Google
Scholar.
Ở bước một thu thập dữ liệu AuthorInstance, những sai sót dạng false
nagative xảy ra chủ yếu do các tác giả trùng họ tên với nhau. Vì dữ liệu thử
nghiệm không quá lớn nên dạng sai sót này đã được giải quyết bằng cách kiểm
tra bằng tay và xóa các AuthorInstance không đúng. Việc kiểm tra này chủ yếu
dựa trên các thông tin về đơn vị công tác, các đồng tác giả, các trích dẫn đến
bài báo của tác giả.
Ở bước hai thu thập dữ liệu chỉ mục, những sai sót dạng false nagative xảy
ra chủ yếu do chất lượng dữ liệu của MAS. Dữ liệu chỉ mục ngay sau khi thu
thập về khá lớn nên khó có thể kiểm tra bằng tay ngay được. Thay vào đó, các
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 127 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
dữ liệu này sẽ được dùng để tính toán chỉ số h-index trước, sau khi tính toán ta
sẽ xác định Hirsch-core, từ đó giới hạn số bài báo cần phải kiểm tra của mỗi tác
giả. Việc kiểm tra này chủ yếu dựa trên các thông tin về các đồng tác giả, các
trích dẫn đến bài báo đó. Trong trường hợp cụ thể đang xét, dữ liệu kết quả sau
khi kiểm tra không thay đổi so với trước đó.
5.6 Tính toán các chỉ số xếp hạng
5.6.1 Mở đầu
Với mục đích thử nghiệm các chỉ số phân tích xếp hạng và xây dựng tính
năng cho hệ thống thư viện điện tử, đề tài sẽ tiến hành tính toán nhiều chỉ số
khác nhau trên dữ liệu chỉ mục đã thu thập được liên quan đến các khoa công
nghệ thông tin của các trường đại học nổi tiếng ở Tp. Hồ Chí Minh. Các chỉ số
này sẽ tập trung vào đánh giá các tổ chức trên nhiều tiêu chí khác nhau.
5.6.2 Phân tích thiết kế
Những chỉ số được tính toán ở đây sẽ giống như các chỉ số được tính toán ở
phần trên, điểm khác biệt là dữ liệu để tính toán khác nhau về ý nghĩa cũng như
độ lớn. Như vậy quá trình tính toán sẽ tương đồng về mặt nguyên lý tính toán,
công nghệ và công cụ sử dụng. Tuy nhiên đánh giá kết quả sẽ được thực hiện
khác.
Với mỗi loại đối tượng, các chỉ số sẽ cài đặt như sau:
Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng.
STT Loại đối tượng Các chỉ số
1. Bài báo - Số lượng trích dẫn.
2. Tác giả - Số lượng bài báo.
- Số lượng trích dẫn.
- Số trích dẫn trung bình của một bài báo.
- Số lượng đồng tác giả.
- H-index.
- G-index.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 128 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
3. Tổ chức - Số lượng bài báo.
- Số lượng trích dẫn.
- Số trích dẫn trung bình của một bài báo.
- Số lượng tác giả.
- H-index.
- G-index.
4. Hội thảo - Số lượng bài báo.
- Số lượng trích dẫn.
- Số trích dẫn trung bình của một bài báo.
- G-index.
5. Tờ báo - Số lượng bài báo.
- Số lượng trích dẫn.
- Số trích dẫn trung bình của một bài báo.
- G-index.
6. Tạp chí - Số lượng bài báo.
- Số lượng trích dẫn.
- Số trích dẫn trung bình của một bài báo.
- G-index.
Ngoài ra, chỉ số đặc biệt số trích dẫn của một bài báo có thể được tính một
cách dễ dàng bằng cách lấy số lượng trích dẫn chia cho số lượng bài báo.
Để tăng thêm hiệu quả khi sử dụng các chỉ số, chương trình sẽ tính toán với
nhiều cấp độ gom cụm khác nhau:
Cấp độ tổng thể: Việc đếm và tính toán không có ràng buộc nào.
Cấp độ từ khóa: Việc đếm và tính toán sẽ bị ràng buộc với điều kiện các
bài báo có liên hệ đến từ khóa tương ứng.
Dữ liệu được thu thập ở phần này không có dữ liệu liên hệ với lĩnh vực con
nên cấp độ lĩnh vực con sẽ không được tính toán.
Việc tính toán với nhiều cấp độ gom cụm này sẽ giúp cho việc đánh giá các
chỉ số dễ dàng hơn. Việc sử dụng các chỉ số để đánh giá các đối tượng cũng
hiệu quả, chính xác hơn. Từ đó, xây dựng chức năng cho hệ thống thư viện
điện tử tốt hơn.
Các nguyên lý tính toán các chỉ số trong stored procedure và chương trình
riêng tính toán các chỉ số đã được trình bày ở phần trên.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 129 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Mô hình cơ sở dữ liệu được sử dụng chung với chương trình tính toán ở
trên.
Hình sau mô tả mô hình ERD của các bảng lưu trữ các chỉ số:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 130 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Sơ đồ 5.3 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 131 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
5.6.3 Cài đặt
Như đã phân tích, việc tính toán sẽ được cài đặt làm hai phần: stored
procedure và chương trình tính toán riêng. Stored procedure và chương trình
tính toán này đã được cài đặt ở phần trên.
5.7 Đánh giá kết quả
5.7.1 Kết quả tính toán
Trong những phần trên, đề tài đã trình bày về các bước của quá trình thu
thập dữ liệu chỉ mục và tính toán các chỉ số xếp hạng cho các tổ chức làm việc
trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Kết quả tính toán tập
trung miêu tả nhiều khía cạnh khác nhau của các tổ chức sẽ được trình bày chi
tiết sau đây.
a) Số giảng viên: thể hiện quy mô về số lượng của tổ chức.
Bảng 5.7 – Kết quả tính toán số lượng giảng viên.
STT Tên tổ chức Số GV
1. Trường Đại học FPT 136
2. Trường Đại học Công Nghệ Thông Tin 86
3. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp Tp.
HCM
86
4. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp.
HCM
74
5. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự
Nhiên Tp. HCM
67
6. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp.
HCM
33
7. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ
Thuật Tp. HCM
32
8. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công
Nghệ Tp. HCM
24
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 132 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
9. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp.
HCM
26
10. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 13
Kết quả này được thể hiện trong biểu đồ sau:
Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức.
Biểu đồ cho thấy trường Đại học FPT có nhiều giảng viên nhất, là 136
giảng viên.
b) Số bài báo: thể hiện khối lượng sản phẩm nghiên cứu khoa học của tổ
chức.
Bảng 5.8 – Kết quả tính toán số lượng bài báo.
STT Tên tổ chức Số bài báo
1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa
Tp. HCM
301
2. Khoa Công nghệ Thông tin trường Đại học Khoa Học
Tự Nhiên Tp. HCM
191
0
20
40
60
80
100
120
140
160
Đại học
Công
Nghệ
Thông
Tin
Đại học
Quốc
Tế
Đại học
Khoa
Học Tự
Nhiên
Tp.
HCM
Đại học
Bách
Khoa
Tp.
HCM
Đại
học
Sư
Phạm
Tp.
HCM
Đại
học
Sư
Phạm
Kỹ
Thuật
Tp.
HCM
Đại học
Công
Nghiệp
Tp.
HCM
Đại học
Hoa
Sen Tp.
HCM
Đại học
Kỹ
Thuật
Công
Nghệ
Tp.
HCM
Đại học
FPT
Số lượng giảng viên
Số lượng
giảng viên
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 133 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
3. Trường Đại học Công Nghệ Thông Tin 114
4. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp.
HCM
42
5. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 27
6. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ
Thuật Tp. HCM
25
7. Khoa Công nghệ Thông tin trường Đại học Công
Nghiệp Tp. HCM
24
8. Trường Đại học FPT 19
9. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật
Công Nghệ Tp. HCM
14
10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp.
HCM
3
Kết quả này được thể hiện trong biểu đồ sau:
Biểu đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức.
0
50
100
150
200
250
300
350
Đại học
Công
Nghệ
Thông
Tin
Đại học
Quốc
Tế
Đại học
Khoa
Học Tự
Nhiên
Tp.
HCM
Đại học
Bách
Khoa
Tp.
HCM
Đại
học
Sư
Phạm
Tp.
HCM
Đại
học
Sư
Phạm
Kỹ
Thuật
Tp.
HCM
Đại học
Công
Nghiệp
Tp.
HCM
Đại học
Hoa
Sen Tp.
HCM
Đại học
Kỹ
Thuật
Công
Nghệ
Tp.
HCM
Đại học
FPT
Số lượng bài báo
Số lượng
bài báo
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 134 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp.
HCM có nhiều bài báo nhất, là 301 bài báo.
c) Số trích dẫn: thể hiện tầm ảnh hưởng của sản phẩm nghiên cứu khoa học
của tổ chức.
Bảng 5.9 – Kết quả tính toán số lượng trích dẫn.
STT Tên tổ chức Số trích dẫn
1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa
Tp. HCM
691
2. Khoa Công nghệ Thông tin trường Đại học Khoa Học
Tự Nhiên Tp. HCM
211
3. Trường Đại học Công Nghệ Thông Tin 142
4. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp.
HCM
64
5. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật
Công Nghệ Tp. HCM
55
6. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 34
7. Khoa Công nghệ Thông tin trường Đại học Công
Nghiệp Tp. HCM
23
8. Trường Đại học FPT 16
9. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ
Thuật Tp. HCM
15
10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp.
HCM
2
Kết quả này được thể hiện trong biểu đồ sau:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 135 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức.
Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp.
HCM có nhiều trích dẫn nhất, là 691 trích dẫn.
d) Tỷ lệ trích dẫn trung bình cho một bài báo: là một loại chỉ số impact
factor căn bản thể hiện hiệu suất ảnh hưởng của sản phẩm nghiên cứu
khoa học của tổ chức.
Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo.
STT Tên tổ chức Số trích dẫn
trung bình
một bài báo
1. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật
Công Nghệ Tp. HCM
3,93
2. Khoa Công nghệ Thông tin trường Đại học Bách Khoa
Tp. HCM
2,3
3. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp.
HCM
1.52
0
100
200
300
400
500
600
700
800
Đại học
Công
Nghệ
Thông
Tin
Đại học
Quốc
Tế
Đại học
Khoa
Học Tự
Nhiên
Tp.
HCM
Đại học
Bách
Khoa
Tp.
HCM
Đại
học
Sư
Phạm
Tp.
HCM
Đại
học
Sư
Phạm
Kỹ
Thuật
Tp.
HCM
Đại học
Công
Nghiệp
Tp.
HCM
Đại học
Hoa
Sen Tp.
HCM
Đại học
Kỹ
Thuật
Công
Nghệ
Tp.
HCM
Đại học
FPT
Số lượng trích dẫn
Số lượng
trích dẫn
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 136 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
4. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 1,26
5. Trường Đại học Công Nghệ Thông Tin 1,25
6. Khoa Công nghệ Thông tin trường Đại học Khoa Học
Tự Nhiên Tp. HCM
1,1
7. Khoa Công nghệ Thông tin trường Đại học Công
Nghiệp Tp. HCM
0.96
8. Trường Đại học FPT 0.84
9. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp.
HCM
0,67
10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ
Thuật Tp. HCM
0.6
Kết quả này được thể hiện trong biểu đồ sau:
Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ chức.
Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công
Nghệ Tp. HCM có tỷ lệ trích dẫn trung bình của một bài báo cao nhất, là 3,93.
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Đại học
Công
Nghệ
Thông
Tin
Đại học
Quốc
Tế
Đại học
Khoa
Học Tự
Nhiên
Tp.
HCM
Đại học
Bách
Khoa
Tp.
HCM
Đại
học
Sư
Phạm
Tp.
HCM
Đại
học
Sư
Phạm
Kỹ
Thuật
Tp.
HCM
Đại học
Công
Nghiệp
Tp.
HCM
Đại học
Hoa
Sen Tp.
HCM
Đại học
Kỹ
Thuật
Công
Nghệ
Tp.
HCM
Đại học
FPT
Số lượng trích dẫn trung bình
Số lượng
trích dẫn
trung bình
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 137 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
e) H-index: Chỉ số h-index ở đây được tính theo một định nghĩa của MAS
về h-index của tổ chức: “Một tổ chức có h-index = h khi các tác giả
thuộc tổ chức đó được sắp xếp theo thứ tự giảm dần h-index cá nhân, và
có h tác giả ở đầu có h-index cá nhân ít nhất là h, và tác giả thứ (h+1) có
h-index cá nhân nhỏ hơn (h+1).”
Bảng 5.11 – Kết quả tính toán chỉ số H-index.
STT Tên tổ chức H-index
1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp.
HCM
4
2. Trường Đại học Công Nghệ Thông Tin 3
3. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự
Nhiên Tp. HCM
3
4. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 2
5. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp.
HCM
2
6. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp.
HCM
1
7. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ
Thuật Tp. HCM
1
8. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp
Tp. HCM
1
9. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công
Nghệ Tp. HCM
1
10. Trường Đại học FPT 1
Kết quả này được thể hiện trong biểu đồ sau:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 138 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Biểu đồ 5.5 – Biểu đồ H-index các tổ chức.
Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp.
HCM có H-index cao nhất, là 4.
f) G-index: chỉ số g-index ở đây được tính theo định nghĩa sau: “Một tổ
chức có g-index = g nếu xét trong tổng số các tác phẩm của tổ chức đó,
g tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn lớn hơn hay
bằng g2, và (g+1) tác phẩm được trích dẫn nhiều nhất có tổng số trích
dẫn nhỏ hơn (g+1)2.”
Bảng 5.12 – Kết quả tính toán chỉ số G-index.
STT Tên tổ chức G-index
1. Khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp.
HCM
24
2. Khoa Công nghệ Thông tin trường Đại học Khoa Học Tự
Nhiên Tp. HCM
10
3. Trường Đại học Công Nghệ Thông Tin 9
4. Khoa Công nghệ Thông tin trường Đại học Kỹ Thuật Công 7
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Đại học
Công
Nghệ
Thông
Tin
Đại học
Quốc
Tế
Đại học
Khoa
Học Tự
Nhiên
Tp.
HCM
Đại học
Bách
Khoa
Tp.
HCM
Đại
học
Sư
Phạm
Tp.
HCM
Đại
học
Sư
Phạm
Kỹ
Thuật
Tp.
HCM
Đại học
Công
Nghiệp
Tp.
HCM
Đại học
Hoa
Sen Tp.
HCM
Đại học
Kỹ
Thuật
Công
Nghệ
Tp.
HCM
Đại học
FPT
H-Index
H-Index
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 139 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Nghệ Tp. HCM
5. Khoa Khoa Học Công nghệ trường Đại học Hoa Sen Tp.
HCM
6
6. Khoa Công nghệ Thông tin trường Đại học Quốc Tế 5
7. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Kỹ
Thuật Tp. HCM
4
8. Khoa Công nghệ Thông tin trường Đại học Công Nghiệp
Tp. HCM
4
9. Trường Đại học FPT 3
10. Khoa Công nghệ Thông tin trường Đại học Sư Phạm Tp.
HCM
1
Kết quả này được thể hiện trong biểu đồ sau:
Biểu đồ 5.6 – Biểu đồ G-index các tổ chức.
Biểu đồ cho thấy khoa Công nghệ Thông tin trường Đại học Bách Khoa Tp.
HCM có G-index cao nhất, là 24.
0
5
10
15
20
25
30
Đại học
Công
Nghệ
Thông
Tin
Đại học
Quốc
Tế
Đại học
Khoa
Học Tự
Nhiên
Tp.
HCM
Đại học
Bách
Khoa
Tp.
HCM
Đại
học Sư
Phạm
Tp.
HCM
Đại
học Sư
Phạm
Kỹ
Thuật
Tp.
HCM
Đại học
Công
Nghiệp
Tp.
HCM
Đại học
Hoa
Sen Tp.
HCM
Đại học
Kỹ
Thuật
Công
Nghệ
Tp.
HCM
Đại học
FPT
G-Index
G-Index
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 140 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
g) Tổng hợp kết quả: Bảng tổng hợp này xếp các tổ chức theo thứ tự như
trong bảng thông tin các khoa, trường khi thu thập dữ liệu.
Bảng 5.13 – Tổng hợp kết quả tính toán.
STT
Xếp hạng theo các chỉ số
Số GV
Số bài
báo
Số trích
dẫn
Số trích dẫn trung
bình một bài báo
H-index G-index
1. 86 114 142 1,25 3 9
2. 13 27 34 1,26 2 5
3. 67 191 211 1,1 3 10
4. 74 301 691 2,3 4 24
5. 26 3 2 0,67 1 1
6. 32 25 15 0,6 1 4
7. 86 24 23 0,96 1 4
8. 33 42 64 1,52 2 6
9. 24 14 55 3,93 1 7
10. 136 19 16 0,84 1 3
Biểu đồ tổng hợp kết quả tính toán như sau:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 141 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức.
0
100
200
300
400
500
600
700
800
Số
lượng
tác giả
Số
lượng
bài báo
Số
lượng
trích
dẫn
Số trích
dẫn
trung
bình của
một bài
báo
H-index G-index
Tổng hợp kết quả tính toán các chỉ số của các tổ chức
(Số chỉ hạng nhỏ hơn là hạng cao hơn)
Đại học Công Nghệ Thông
Tin
Đại học Quốc Tế
Đại học Khoa Học Tự Nhiên
Tp. HCM
Đại học Bách Khoa Tp. HCM
Đại học Sư Phạm Tp.
HCM
Đại học Sư Phạm Kỹ
Thuật Tp. HCM
Đại học Công Nghiệp Tp.
HCM
Đại học Hoa Sen Tp. HCM
Đại học Kỹ Thuật Công Nghệ
Tp. HCM
Đại học FPT
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 142 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Biểu đồ thể hiện kết quả tính toán các chỉ số cho các tổ chức, khoa Công
nghệ Thông tin trường Đại học Bách Khoa Tp. HCM có số trích dẫn nhiều
vượt trội.
h) Tổng hợp kết quả xếp hạng: Bảng tổng hợp xếp hạng được xếp các tổ
chức theo thứ tự như trong bảng thông tin các khoa, trường khi thu thập
dữ liệu. Thứ hạng càng cao thì số chỉ thứ hạng càng gần một hơn.
Bảng 5.14 – Tổng hợp kết quả xếp hạng.
STT
Xếp hạng theo các chỉ số
Số GV
Số bài
báo
Số trích
dẫn
Số trích dẫn trung
bình một bài báo
H-index G-index
1. 2 3 3 5 2 3
2. 10 5 6 4 4 6
3. 5 2 2 6 2 2
4. 4 1 1 2 1 1
5. 9 10 10 9 6 10
6. 7 6 9 10 6 7
7. 2 7 7 7 6 7
8. 6 4 4 3 4 5
9. 8 9 5 1 6 4
10. 1 8 8 8 6 9
Biểu đồ tổng hợp kết quả xếp hạng như sau:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 143 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Biểu đồ 5.8 – Biểu đồ tổng hợp kết quả xếp hạng các tổ chức.
5.7.2 Nhận xét và đề xuất một số cải tiến
Qua các kết quả được trình bày ở trên, ta có thể đưa ra một số nhận xét
sau:
Nhóm các trường dẫn đầu thuộc về các trường thuộc Đại học Quốc
gia Tp. HCM. Trường Đại học Bách Khoa Tp. HCM dẫn đầu về
nhiều mặt và có thể xem là trường mạnh nhất trong số các trường
trên. Các trường Đại học Khoa Học Tự Nhiên Tp. HCM và trường
Đại học Công Nghệ Thông Tin cũng là những trường nằm trong tốp
đầu về chất lượng nghiên cứu khoa học.
0
2
4
6
8
10
12
Số
lượng
tác giả
Số
lượng
bài báo
Số
lượng
trích
dẫn
Số trích
dẫn
trung
bình của
một bài
báo
H-index G-index
Tổng hợp kết quả xếp hạng các tổ chức theo các chỉ số
(Số chỉ hạng nhỏ hơn là hạng cao hơn)
Đại học Công Nghệ Thông
Tin
Đại học Quốc Tế
Đại học Khoa Học Tự Nhiên
Tp. HCM
Đại học Bách Khoa Tp. HCM
Đại học Sư Phạm Tp.
HCM
Đại học Sư Phạm Kỹ
Thuật Tp. HCM
Đại học Công Nghiệp Tp.
HCM
Đại học Hoa Sen Tp. HCM
Đại học Kỹ Thuật Công Nghệ
Tp. HCM
Đại học FPT
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 144 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Một số trường công lập được phát triển lâu năm nhưng không
chuyên về công nghệ thông tin thì cũng không mạnh về công nghệ
thông tin lắm, đặc biệt là trường Đại học Sư Phạm Tp. HCM hầu như
không nghiên cứu mà chỉ giảng dạy tin học.
Các trường đại học tư thục với sự đầu tư mạnh mẽ về tài chính cũng
phát triển đáng kể về nghiên cứu khoa học. Tuy nhiên trường Đại
học FPT chỉ phát triển mạnh mẽ về số lượng giảng viên để đào tạo ra
sinh viên đi làm ở doanh nghiệp mà không chú trọng nghiên cứu
khoa học.
Qua những nhận xét trên, có thể kết luận rằng các chỉ số xếp hạng phản ánh
khá chính xác tình hình thực tế ở các tổ chức.
Từ quá trình thực nghiệm, đề tài đưa ra một số đề xuất cải tiến sau:
Mỗi chỉ số phản ánh một khía cạnh khác nhau, vì vậy có thể phối
hợp sử dụng các chỉ số này một cách phù hợp để đưa ra các đánh giá
khách quan về nhiều mặt trong hoạt động cũng như chất lượng
nghiên cứu khoa học ở các tổ chức.
Ví dụ:
o Xét trường Đại học FPT, kết hợp số lượng giảng viên nhiều
và số lượng bài báo khoa học ít có thể đánh giá trường này
chuyên về đào tạo mà ít nghiên cứu.
o Xét trường Đại học Kỹ Thuật Công Nghệ, kết hợp số lượng
giảng viên ít và số lượng bài báo khoa học nhiều có thể đánh
giá trường này khá chú trọng nghiên cứu so với đào tạo.
Khi đánh giá các tổ chức, ngoài việc sử dụng phối hợp các chỉ số ở
trên, còn có thể đánh giá theo thời gian để xác định xu hướng trong
hoạt động và chất lượng nghiên cứu khoa học của các tổ chức. Từ đó
có thể cho cái nhìn khách quan hơn về các tổ chức lâu đời và các tổ
chức mới thành lập.
Dữ liệu để tính toán các chỉ số này có đặc trưng là thay đổi theo thời
gian nên cần phải tiến hành thu thập và tính toán thường xuyên. Để
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 145 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
dữ liệu thu thập được đầy đủ và có chất lượng thì cần phải sử dụng
nhiều nguồn khác nhau. Vì vậy cần mở rộng nguồn dữ liệu của
crawler. Mặt khác, có thể dùng một cách khá hiệu quả để thu thập dữ
liệu là sử dụng một hệ thống tương tự Wiki, cho phép người dùng
đóng góp thông tin dữ liệu chỉ mục, dữ liệu này có thể được kiểm tra
đánh giá lại bởi những người dùng có uy tín được cấp quyền để tránh
sai dạng false negative.
Hệ thống thư viện điện tử có thể sử dụng dữ liệu chỉ mục và các chỉ
số được tính toán ở đây để xây dựng chức năng dành cho các đối
tượng người dùng quan tâm. Trong tương lai cần mở rộng phạm vi
dữ liệu và tính toán nhiều chỉ số hơn để đáp ứng tốt hơn nhu cầu của
người dùng trong nước.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 146 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
6.1 Kết quả đạt được
Đóng góp đầu tiên của đề tài là đã nghiên cứu và xây dựng một chương
trình thu thập dữ liệu chỉ mục hiệu quả cao, từ đó đề tài đã và đang thu thập
được dữ liệu chỉ mục của hơn 2,3 triệu bài báo khoa học trong lĩnh vực công
nghệ thông tin. Đề tài cũng đã xây dựng mô hình dữ liệu quan hệ để lưu trữ các
dữ liệu chỉ mục này một cách hiệu quả và thuận tiện sử dụng.
Ngoài ra, đề tài cũng đã nghiên cứu xây dựng mô hình ứng dụng và xây
dựng chương trình tính toán nhiều chỉ số xếp hạng khác nhau và đã có những
thử nghiệm đánh giá trên dữ liệu thu thập được.
Bên cạnh đó, đề tài đã thu thập, chuẩn hóa dữ liệu chỉ mục của các tổ chức
nghiên cứu về công nghệ thông tin nổi tiếng ở Tp. Hồ Chí Minh, từ đó tiến
hành thực nghiệm các chỉ số xếp hạng. Dựa trên những kết quả thực nghiệm
này, đề tài đã đưa ra một số đề xuất cải tiến trong việc thu thập dữ liệu, sử dụng
các chỉ số và xây dựng hệ thống thư viện điện tử.
Bước đầu thử nghiệm, đề tài đã đề xuất xây dựng một hệ thống thư viện
điện tử với các chức năng cơ bản, có thiết kế tốt và có khả năng mở rộng thêm
các module do các nhóm nghiên cứu khác đang thực hiện. Từ đó, hệ thống này
có thể ứng dụng trong thực tế và sử dụng để làm thực nghiệm trong quá trình
nghiên cứu.
6.2 Hạn chế và hướng phát triển
6.2.1 Hạn chế
Bên cạnh những thành quả đạt được, đề tài vẫn còn không ít tồn tại và hạn
chế.
Chương trình thu thập dữ liệu chưa có nhiều nguồn dữ liệu khác nhau, vì
vậy có thể bị thiếu sót dữ liệu. Việc kiểm tra dữ liệu hiện nay cũng đang được
thực hiện bằng tay gây khó khăn khi xử lý dữ liệu lớn.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 147 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Các chỉ số xếp hạng chưa được cài đặt và thử nghiệm đầy đủ để tìm ra cách
sử dụng tối ưu. Các đề xuất cải tiến vẫn chỉ là sản phẩm suy luận chứ chưa
được triển khai thực tế.
Do giới hạn về thời gian thực hiện nên hệ thống thư viện điện tử vẫn còn sơ
khai, chưa tích hợp nhiều tính năng.
6.2.2 Hướng phát triển
Trong tương lai đề tài có thể tiến hành thử nghiệm nhiều hơn về các chỉ số
xếp hạng, các đề xuất cải tiến cũng cần được đưa vào ứng dụng thực tế.
Chương trình thu thập dữ liệu có thể mở rộng thêm các nguồn dữ liệu từ các
hệ thống thư viện điện tử khác ngoài MAS, và các trang web chính thức của tác
giả. Ngoài ra, cần xây dựng cơ chế kiểm tra dữ liệu tự động.
Hệ thống thư viện điện tử có thể được xây dựng thành một hệ thống ứng
dụng hoàn chỉnh với đầy đủ tính năng.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 148 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng Việt:
1. [TC2011] Đỗ Văn Tiến, Nguyễn Phước Cường (2011). “Xây
dựng và làm giàu kho chỉ mục bài báo khoa học dùng web crawler”,
Báo cáo khóa luận, khoa Công Nghệ Phần Mềm, trường Đại học
Công Nghệ Thông Tin.
Tiếng Anh:
1. [Aus2006] David Austin (2006) . “How Google Finds Your
Needle in the Web's Haystack”, Grand Valley State University,
Feature Column from the AMS, Monthly essays on mathematical
topics.
2. [BM+2008] Lutz Bornmann, Rüdiger Mutz, Hans-Dieter
Daniel. “Are there better indices for evaluation purposes than the h
index? A comparison of nine different variants of the h index using
data from biomedicine”. Journal of the American Society for
Information Science and Technology, vol.59, 2008, pp. 830-837.
3. [BM+2009] Lutz Bornmann, Rüdiger Mutz, Hans-Dieter
Daniel. “DoWe Need the h Index and Its Variants in Addition to
Standard Bibliometric Measures?”. Journal of the American Society
for Information Science and Technology archive, vol.60, no.6,
06/2009.
4. [BP1998] Sergey Brin, Lawrence Page (1998). “The Anatomy
of a Large-Scale Hypertextual Web Search Engine”. Proceedings of
the 7th international conference on World Wide Web (WWW).
Brisbane, Australia. pp. 107–117.
5. [BP+1998] Sergey Brin, Lawrence Page, Rajeev Motwani,
Terry Winograd (1999). “The PageRank citation ranking: bringing
order to the Web”. Technical report, Stanford University.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 149 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
6. [Bur2007] Quentin L. Burrell. “Hirsch’s h-index: a stochastic
model”. Journal of In-formetrics, vol.1, no.1, 2007, pp.16–25.
7. [Bur2007a] Quentin L. Burrell. “On the h-index, the size of the
Hirsch core and Jin’s A-index”. Journal of Informetrics, vol.1, no.2,
2007, pp.170-177.
8. [BW+2008] Lutz Bornmann, Gerlind Wallon and Anna Ledin.
“Is the h index related to (standard) bibliometric measures and to
the assessments by peers? An investigation of the h index by using
molecular life sciences data”. Research Evaluation, vol.17, no.2,
06/2008, pp.149-156.
9. [CB2008] Rodrigo Costas, María Bordons. “Is g-index better
than h-index? An exploratory study at the individual level”.
Scientometrics, vol.77, no.2, 2008, pp.267-288.
10. [Egg2006] Leo Egghe, “Theory and practise of the g-index”.
Scientometrics, vol. 69, no.1, 2006, pp.131-152.
11. [ER2008] Leo Egghe, Ronald Rousseau. “An h-index
weighted by citation impact”. Information Processing &
Management, vol.4, 2008, pp.770-780.
12. [Hir2005] J. E. Hirsch (2005). “An index to quantify an
individual’s scientific research output”. PNAS.
13. [Hir2007] J. E. Hirsch. “Does the h index have predictive
power?”. PNAS, vol.104, no.49, 2007, pp.19193-19198.
14. [HK2003] Taher H. Haveliwala and Sepandar D. Kamvar
(2003). “The Second Eigenvalue of the Google Matrix”. Stanford
University.
15. [HK+2003] Taher Haveliwala, Sepandar Kamvar and Glen Jeh
(2003). “An Analytical Comparison of Approaches to Personalizing
PageRank”. Stanford University.
16. [Jin2006] Bihui Jin. “H-index: an evaluation indicator
proposed by scientist”. Science Focus, vol.1, no.1, 2006, pp.8-9.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 150 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
17. [Jin2010] Arif Jinha (2010). “Article 50 million: an estimate
of the number of scholarly articles in existence”. Learned
Publishing, vol.23, no.3, pp.258-263. DOI: 10.1087/20100308.
18. [JL+2007] Bihui Jin, Liming Liang, Ronald Rousseau, Leo
Egghe. “The R- and AR-indices: Complementing the h-index”.
Chinese Science Bulletin, vol.52, no.6, 2007, pp.855-863.
19. [Kos2006] Marek Kosmulski. “A new Hirsch-type index saves
time and works equally well as the original h-index”. ISSI
Newsletter, vol.2, no.3, 2006, pp.4-6.
20. [MY2007] Lokman I. Meho and Kiduk Yang. “Impact of data
sources on citation counts and rankings of LIS faculty: Web of
Science versus Scopus and Google Scholar”. Journal of the
American Society for Information Science and Technology, vol.58,
no.13, 2007, pp.2105-2125.
21. [NZ+2005] Zaiqing Nie, Yuanzhi Zhang, Ji-Rong Wen, Wei-
Ying Ma (2005). “Object-level ranking: bringing order to web
objects”. Conference: World Wide Web Conference Series - WWW
, pp. 567-574. DOI: 10.1145/1060745.1060828
22. [Rou2006] Ronald Rousseau (2006). “New developments
related to the Hirsch index”. Truy xuất ngày 20/12/2012, từ
23. [Rou2008] Ronald Rousseau. “Reflections on recent
developments of the h-index and h-type indices”. Collnet journal of
scientometrics and information management, vol.2, no.1, 06/2008.
24. [Sch2003] Barry Schwartz (2003). “The Paradox of Choice:
Why More Is Less”.
Web:
1. [ACM] 20/12/2011.
2. [CS] 20/12/2011.
3. [CSX] 20/12/2011.
4. [GS] 20/12/2011.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 151 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
5. [GSH] ,
20/12/2011.
6. [IEEE] 20/12/2011.
7. [MAS]
17/01/2012.
8. [MASH]
/About/Help.htm, 17/01/2012.
9. [SL] 20/12/2011.
10. [WikiDB&SE]
/List_of_academic_databases_and_search_engines, 20/12/2011.
11. [WikiDS]
02/09/2011.
12. [WikiErr]
/Type_I_and_type_II_errors, 20/12/2011.
13. [WikiGF] 20/12/2011.
14. [WikiHI] 02/09/2011.
15. [WikiIF]
02/09/2011.
16. [WikiME]
/Matthew_effect_(sociology), 02/09/2011.
17. [WikiPR] , 02/09/2011.
18. [WikiSCI] 02/09/2011.
19. [WikiWC]
20/12/2011.
Các file đính kèm theo tài liệu này:
- Đề tài- ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC.pdf