Định dạng các files của tài liệu điện tử
Định dạng các files của tài liệu điện tử
TS. Nguyễn Lệ Nhung
Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia thành “đơn chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một nhân viên lập trình, và “đa chương trình” được bảo đảm bởi vài nhân viên lập trình và có thể được xử lý bằng nhiều chương trình (phần mềm) khác nhau.
Chúng ta có thể liệt kê những định dạng cơ bản:
1. Các định dạng văn bản thường được xây dựng nhờ sự trợ giúp của quá trình biên soạn.
2. Các định dạng đồ họa lưu giữ hình ảnh
3. Các định dạng cơ sở dữ liệu được xây dựng nhờ những phần mềm chuyên dụng - các hệ thống quản lý cơ sở dữ liệu
4. Các định dạng bảng điện tử
5. Các định dạng nghe-nhìn/video-audio
6. Đánh dấu ngôn ngữ
5 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 3344 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Định dạng các files của tài liệu điện tử, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
1
Định dạng các files của tài liệu điện tử
TS. Nguyễn Lệ Nhung
Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia
thành “đơn chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một
nhân viên lập trình, và “đa chương trình” được bảo đảm bởi vài nhân viên
lập trình và có thể được xử lý bằng nhiều chương trình (phần mềm) khác
nhau.
Chúng ta có thể liệt kê những định dạng cơ bản:
1. Các định dạng văn bản thường được xây dựng nhờ sự trợ giúp của quá
trình biên soạn. Những định dạng văn bản phổ biến nhất là:
- các định dạng đơn phần mềm Microsoft Word và Word Perfect;
- định dạng RTF (Rich Text Format) được bảo đảm bởi nhiều phụ lục phần
mềm trong khi đó vẫn giữ định dạng văn bản đã đặt;
- định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với cả
văn bản và biểu đồ. Có thể đọc những file theo định dạng PDF bằng nhiều
phần mềm để đọc files khác nhau, nhưng chúng được xây dựng chỉ nhờ
phần mềm Adobe Acrobat.
2. Các định dạng đồ họa lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) và được
chia ra thành hai kiểu chính:
2.1. Các định dạng vector - lưu giữ hình ảnh như là tập hợp các hình dạng
hình học. Phổ biến hơn cả là:
- định dạng DXF (Drawing Interchange Format) được sử dụng rộng rãi
trong các chương trình thiết kế bằng máy tính cho các kỹ sư và kiến trúc sư;
- định dạng EPS (Encapsulated PortScript) được sử dụng rộng rãi trong các
hệ thống biểu quyết/bầu cử tại bàn;
- định dạng CGM (Computer Graphics Metafile) được sử dụng rộng rãi
trong nhiều phần mềm đồ họa (ví dụ trong phần mềm Photoshop).
2.2. Các định dạng mành, chúng lưu giữ hình ảnh như là tập hợp những
điểm ảnh - pixels. Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng. Phổ
biến hơn cả là:
- định dạng BMP (Bitmap)- định dạng tương đối kém về chất lượng, thường
dùng vào quá trình soạn thảo văn bản;
- định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi trong các
ứng dụng phần mềm;
- định dạng GIF (Graphics Interchange Format) sử dụng rộng rãi trong các
phần mềm dành cho Internet.
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
2
3. Các định dạng cơ sở dữ liệu được xây dựng nhờ những phần mềm chuyên
dụng - các hệ thống quản lý cơ sở dữ liệu.
Hệ thống quản lý cơ sở dữ liệu cho phép xác định những mối quan hệ giữa
các thành phần thông tin của cơ sở dữ liệu, thực hiện các tác động khác
nhau tới thông tin của cơ sở dữ liệu (tìm kiếm, đánh dấu, thực hiện những
phép toán khác nhau, lập báo cáo và chỉ dẫn, v.v.). Những ví dụ về hệ thống
quản lý cơ sở dữ liệu là Microsoft SQL Sever, Oracle, MySQL, IBM DB2,
Sybase và những phần mềm khác.
Ví dụ, cơ sở dữ liệu về khách hàng gồm có trường thông tin tên người mua,
địa chỉ và thông tin về hàng hóa. Những trường đó có thể được tổ chức
thành các bảng riêng biệt (thí dụ, một bảng cho tất cả các trường với họ tên
của khách hàng).
Cơ sở dữ liệu có thể chuyển sang định dạng văn bản, nhưng khi đó bị mất đi
mối liên hệ giữa các trường thông tin với các bảng (ví dụ, lúc đó có thể nhận
được mười trang họ tên, mười trang địa chỉ và nghìn trang thông tin về hàng
hóa, tức là thông tin không liên kết).
4. Các định dạng bảng điện tử. Những file trong định dạng bảng điện tử lưu
giữ trong các ô những con số và mối liên hệ giữa những con số đó. Ví dụ,
một ô có thể chứa công thức thực hiện việc cộng dữ liệu của hai ô khác.
Giống như các file cơ sở dữ liệu, các file bảng điện tử thường có định dạng
của chính phần mềm tạo ra nó. Một số chương trình có thể nhập khẩu và
khai thác những dữ liệu của các nguồn khác kể cả của những chương trình
dùng để trao đổi dữ liệu kiểu này (thí dụ, định dạng DIF (Data Interchange
Format)). Các file của bảng điện tử có thể chuyển đổi thành file văn bản,
nhưng những con số và mối liên hệ giữa các số sẽ bị mất đi.
5. Các định dạng nghe-nhìn/video-audio. Những định dạng đó chứa các hình
ảnh chuyển động (ví dụ video số, hoạt hình) và các dữ liệu âm thanh được
xây dựng và có thể xem, nghe nhờ các chương trình tương thích và lưu giữ
trong định dạng đơn chương trình. Những định dạng được sử dụng nhiều
hơn cả là QuickTime và MPEG (Motion Picture Experts Group).
6. Đánh dấu ngôn ngữ còn được gọi là các định dạng đánh dấu, gồm có các
hướng dẫn đính kèm để biểu diễn nội dung của file. Chúng là:
- SGML (Standard Generalized Markup Language) được sử dụng trong các
cơ quan nhà nước ở nhiều nước trên thế giới và là tiêu chuẩn quốc tế;
- HTML (Hypertext Markup Language) được sử dụng để hiển thị hầu như
toàn bộ thông tin của mạng World Wide Web;
- XML (Extensible Markup Language) - ngôn ngữ tương đối đơn giản dựa
trên cơ sở SGML và được dùng phổ biến khi quản lý thông tin và trao đổi
thông tin.
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
3
Từng định dạng file có điểm mạnh và điểm yếu riêng khi áp dụng vào việc
bảo đảm tài liệu cho quản lý. Thí dụ, những định dạng văn bản
(MicrosoftWord, WordPerfect, RTF v.v.) thuận tiện cho tìm kiếm ngữ cảnh
theo các tài liệu trong cơ sở dữ liệu, còn các định dạng đồ hoạ (PDF, TIFF
v.v.) giúp nhận được hình ảnh khi scan với toàn bộ những đặc điểm bên
ngoài của nó và giữ tài liệu có dạng đúng như trên giấy với đầy đủ chữ ký,
con dấu, bút tích.
Định dạng MS Word rất tiện cho biên tập tài liệu và xử lý thông tin, nhưng
file MS Word lại chứa đựng nhiều thông tin ẩn (trước tiên về những thay
đổi đã thực hiện trong file) và như vậy, nó rất không an toàn theo quan điểm
thất thoát thông tin công vụ. Ví dụ, trong lúc chuẩn bị tài liệu thương mại,
thông tin ẩn lại cho ta biết những đề xuất khởi điểm, ai có ảnh hưởng mạnh
nhất tới văn bản. Trong chuẩn bị tài liệu theo nhóm, sự phân tích sửa đổi
cho ta khả năng nhận biết không chỉ họ tên những người lập tài liệu mà cả
mức độ đóng góp của từng người vào phương án hoàn chỉnh của tài liệu.
Ở Nga, các cơ quan chính quyền LB tự quy định định dạng cho các dạng tài
liệu điện tử được sử dụng trong giao dịch với các cơ quan, tổ chức khác và
với công dân. Thí dụ, theo những yêu cầu của Uỷ ban LB về thị trường tiền
tệ (ngày nay là Cơ quan LB về thị trường tài chính) các file tài liệu phải
được trình bày trong định dạng RTF. Về phần mình, Bộ Tài chính Nga quy
định các file tài liệu thống kê do các tổ chức bảo hiểm (bảo hiểm y tế) lập có
định dạng XML.
Vậy định dạng XML tuyệt vời vì cái gì? Đánh dấu ngôn ngữ mở rộng
(Extensible Markup Language) chứa đựng trong mình không chỉ các dữ liệu
mà còn mang thông tin mô tả những dữ liệu đó. Nó dùng được cho bất kỳ
ứng dụng máy tính nào mà không bị lệ thuộc vào kỹ thuật và các hệ thống
xử lý, nó cho phép chuyển tải dung lượng lớn thông tin không cần đến
những biến đổi cấu trúc dữ liệu. Công nghệ XML (eXtensible Markup
Language) được dùng để chia sẻ các loại dữ liệu riêng biệt thông qua các hệ
thống khác nhau bằng một hình thức thể hiện thống nhất. Trước đây các ứng
dụng của bộ Office thường lưu lại các file bằng định dạng của riêng mình
mà các chương trình khác không thể mở ra để xem được.
Những định dạng tiền nhiệm của XML là đánh dấu ngôn ngữ chuẩn chung
được Tổ chức tiêu chuẩn quốc tế phê duyệt như một tiêu chuẩn ngay từ
những năm 1980, một phiên bản rút gọn của nó là đánh dấu ngôn ngữ siêu
văn bản HTML.
Định dạng XML được các tổ chức tiêu chuẩn của cộng đồng-internet với đại
diện là tập đoàn World Wide Web (W3C) và tổ chức UDDI.org thông qua.
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
4
Hiện nay các công ty Microsoft, IBM, Oracle, cũng như một loạt các công
ty sản xuất phầm mềm đã linh hoạt chuyển sang sử dụng XML vào các sản
phẩm của mình và trên thực tế, họ đang thực hiện ý tưởng tiêu chuẩn hoá
định dạng tài liệu trên cơ sở XML.
Thuận lợi đầu tiên của công nghệ XML là giảm thiểu được kích thước file,
cho phép người dùng gửi các file này đi dưới dạng file đính kèm một cách
dễ dàng. Định dạng XML cũng tạo điều kiện cho một file tài liệu nào đó có
thể chứa được văn bản, hình ảnh các dạng dữ liệu phức tạp, cùng với định
dạng dữ liệu riêng của nó. Ngoài ra XML còn giúp cho người dùng truy cập
vào dữ liệu dễ dàng hơn, cũng như có thể phục hồi được các tệp dữ liệu đã
bị hỏng, đồng thời tăng cường độ an toàn của dữ liệu.
Định dạng PDF là một định dạng tập tin văn bản do hãng Adobe Systems
Inc. xây dựng đang rất phổ biến trong trao đổi tài liệu và được sử dụng rộng
rãi cho những tài liệu của mạng internet bởi vì nó cho phép giữ hình thức
ban đầu của tài liệu và ngăn cản việc thay đổi thông tin tài liệu. Tương tự
như định dạng Microsoft Word (.doc), PDF hỗ trợ văn bản thô (text) cùng
với font chữ, hình ảnh đồ họa và nhiều hiệu ứng khác. Tuy nhiên, việc hiển
thị văn bản PDF không phụ thuộc vào môi trường làm việc của người sử
dụng (cấu hình máy, phần mềm và hệ điều hành). Không như văn bản
Word, một văn bản PDF sẽ được hiển thị giống nhau trên những môi trường
làm việc khác nhau nếu như file PDF đó đã được tạo hiệu ứng nhúng font
chữ (Embedded Subset). Chính vì ưu điểm này, định dạng PDF đã trở nên
phổ biển cho việc phát hành sách, báo hay các tài liệu khác qua mạng
Internet. Theo đánh giá của công ty Adobe thì đã có hàng triệu người tải
phần mềm miễn phí của công ty để xem các file PDF, nhiều doanh nghiệp
đã chọn định dạng này làm tiêu chuẩn chuyển giao và lưu giữ tài liệu, có
không ít lập trình viên độc lập đang giới thiệu những sản phẩm hỗ trợ PDF,
thậm chí một số là miễn phí.
Nhưng công ty Adobe trong tương lai sẽ không cung cấp miễn phí quyền
tiếp cận tới các chương trình của mình. Hơn nữa, trong những phiên bản
mới của chương trình Adobe, các file của phiên bản cũ thường được trình
diễn không chính xác. Chính vì vậy đã xuất hiện phiên bản nâng cấp định
dạng PDF dược gọi là PDF-Archive (PDF-A). Ở nước ngoài nó được coi là
một trong hai phiên bản cơ sở mà trong tương lai có thể được sử dụng cho
lưu trữ tài liệu điện tử. Còn định dạng thứ hai là XML nói trên.
Định dạng PDF-A cũng giống như XML có những điểm nổi trội và yếu kém
của mình trong công tác lưu trữ tài liệu điện tử. Cụ thể, định dạng PDF-A
đặc biệt thuận lợi cho lưu trữ tài liệu điện tử vì nó giữ được ngoại hình của
tài liệu gốc bằng giấy. Kinh nghiệm công tác xét xử hai vụ phá sản lớn nhất
trong lịch sử Mỹ - các công ty Enron và Global Crossing đã khẳng định
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
5
được tiện ích của nó. Họ đã tạo lập khối lượng lớn tài liệu trong định dạng
PDF và đã đặt ra trước các cơ quan tư pháp LB nhiệm vụ lưu trữ những tài
liệu đó. Về nhiều điểm thì đây là tác động tích cực vào quá trình biên soạn
dự thảo tiêu chuẩn quốc tế về lưu trữ tài liệu theo PDF.
Song khả năng sử dụng những định dạng trên vào lưu trữ điện tử còn hạn
chế, lấy thí dụ, định dạng PDF-A không dùng được cho lưu trữ tài liệu nghe
nhìn.
Thay lời kết luận
Phải lưu ý rằng không có một định dạng nào trong số các định dạng file tài
liệu điện tử là tối ưu cho lưu trữ lâu dài, bởi vì kỹ thuật, công nghệ và
chương trình thay đổi khá nhanh. Ngay bây giờ đã khó khôi phục lại trên
thiết bị mới những tài liệu được lập nhờ các công cụ biên tập AmiPro,
WordPerfect. Vậy thì có thể dễ dàng không, nếu như dựng lại tài liệu lưu trữ
trong định dạng Word-97 sau 10-15 năm nữa?
Chắc chắn là sự phong phú của các định dạng files tài liệu sẽ vẫn tồn tại. Vì
vậy, các cơ quan lưu trữ biên soạn tiêu chuẩn cho lưu trữ tài liệu điện tử có
định dạng khác nhau mà trước tiên cho những định dạng phổ biến hơn cả là
PDF và XML. Tuy vậy, hiện nay những hy vọng lớn lao đều liên quan đến
việc sử dụng định dạng XML như là tiêu chuẩn để trao đổi tài liệu điện tử
trong các lĩnh vực hoạt động khác nhau, đặc biệt là trong lĩnh vực quản lý
nhà nước.
TS. Nguyễn Lệ Nhung tổng hợp và dịch từ www.archives.ru
Các file đính kèm theo tài liệu này:
- Định dạng các files của tài liệu điện tử.pdf