Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP chủ và cung cấp
giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên máy chủ.
Các ứng dụng máy khách kết nối đến dịch vụPivotTable bằng cách sử dụng giao
diện OLE DB hoặc mô hình ADO.
Các ứng dụng máy khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ
cơ sở dữ liệu OLAP.
53 trang |
Chia sẻ: lylyngoc | Lượt xem: 2374 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn -Xây dựng cơ sở dữ liệu bài báo điện tử liên quan tới gốm sứ Việt Nam phục vụ đào tạo tại học viện báo chí và tuyên truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
quả là điểm của những bài kiểm tra hay bài thi.
Công nghệ giảng dạy: người dạy sử dụng nhiều loại công nghệ khác nhau để
giải thích chứng minh và minh họa cho các chủ đề khác nhau.
Như vậy cách dạy học theo phương pháp truyền thống sẽ rất hiệu quả nếu như
việc chia sẻ thông tin không dễ dàng tìm thấy ở nơi khác, việc trình bày thông tin
một cách nhanh chóng, tạo ra sự quan tâm của người học vào thông tin, tạo ra kỹ
năng lắng nghe tốt trong quá trình học của người học. Tuy nhiên ở phương pháp
dạy học truyền thống này có những mặt hạn chế nhất định của nó bởi không phải
người học nào cũng có khả năng học tốt về lắng nghe, thường không duy trì lâu sự
chú ý của người học, hạn hẹp trong việc tiếp thu thông tin, chưa phát huy hết năng
lực vốn có của người học.
1.2.2. Học tập tương tác, tích cực.
Phương pháp dạy học tích cực: là dạy học bằng hướng phát huy tính tích cực,
chủ động, sáng tạo của người học.
"Tích cực" trong phương pháp dạy học tích cực được dùng với nghĩa là hoạt
động, chủ động, trái nghĩa với không hoạt động, thụ động chứ không dùng theo
nghĩa trái với tiêu cực.
Phương pháp dạy học tích cực hướng tới việc hoạt động hóa, tích cực hóa hoạt
động nhận thức của người học, nghĩa là tập trung vào phát huy tính tích cực của
người học chứ không phải là tập trung vào phát huy tính tích cực của người dạy, tuy
nhiên để dạy học theo phương pháp tích cực thì người dạy phải nỗ lực nhiều so với
dạy theo phương pháp thụ động.
Đổi mới cách học: là phải đổi mới cách dạy, cách dạy chỉ đạo cách học, nhưng
ngược lại thói quen học tập người học cũng ảnh hưởng tới cách dạy của người dạy.
Chẳng hạn, có trường hợp người học đòi hỏi cách dạy tích cực hoạt động nhưng
người dạy chưa đáp ứng được, hoặc có trường hợp người dạy hăng hái áp dụng
- 17 -
phương pháp dạy học tích cực nhưng không thành công vì người học chưa thích
ứng, vẫn quen với lối học tập thụ động.
Học tập tích cực là tích cực nhận thức, ham hiểu biết, có ý chí cố gắng trong
quá trình lĩnh hội kiến thức, học tập tích cực tạo ra hứng thú, sinh ra tính tư duy độc
lập và từ đó hình thành nên khả năng sáng tạo của người học. Tính tích cực là một
phẩm chất vốn có của con người, bởi vì để tồn tại và phát triển con người luôn phải
chủ động, tích cực cải biến môi trường tự nhiên, cải tạo xã hội, vì vậy, hình thành
và phát triển tính tích cực xã hội là một trong những nhiệm vụ chủ yếu của giáo
dục.
Tính tích cực học tập về thực chất là tính tích cực nhận thức, đặc trưng bởi sự
ham hiểu biết, cố gắng trí lực và có nghị lực cao trong quá trình chiếm lĩnh tri thức,
tính tích cực nhận thức trong hoạt động học tập liên quan trước hết với động cơ học
tập. Động cơ đúng tạo ra hứng thú, hứng thú là tiền đề của tự giác, hứng thú và tự
giác là hai yếu tố tạo nên tính tích cực, tính tích cực sản sinh nếp tư duy độc lập,
suy nghĩ độc lập là mầm mống của sáng tạo. Ngược lại, phong cách học tập tích cực
độc lập sáng tạo sẽ phát triển tự giác, hứng thú, bồi dưỡng động cơ học tập. Tính
tích cực học tập biểu hiện ở những dấu hiệu như:
• Hăng hái trả lời các câu hỏi của giáo viên, bổ sung các câu trả lời của bạn,
thích phát biểu ý kiến của mình trước vấn đề nêu ra;
• Nêu lên thắc mắc, đòi hỏi giải thích cặn kẽ những vấn đề chưa đủ rõ;
• Chủ động vận dụng kiến thức, kĩ năng đã học để nhận thức vấn đề mới; tập
trung chú ý vào vấn đề đang học;
• Kiên trì hoàn thành các bài tập, không nản trước những tình huống khó
khăn…
Tính tích cực học tập thể hiện qua các cấp độ từ thấp lên cao như:
• Bắt chước: gắng sức làm theo mẫu hành động của thầy, của bạn…
• Tìm tòi: độc lập giải quyết vấn đề nêu ra, tìm kiếm cách giải quyết khác nhau
về một số vấn đề…
• Sáng tạo: tìm ra cách giải quyết mới, độc đáo, hữu hiệu.
1.2.3. Vai trò của dữ liệu đa phương tiện trong công tác học tích cực.
Công nghê thông tin nói chung, dữ liệu đa phương tiện nói riêng ngày càng trở
nên hết sức quan trong công tác dạy và học, đặc biệt là trong công tác học tích cực.
- 18 -
Nâng cao được chất lượng dạy và học: thì trong đó phải có sử dụng hình ảnh,
âm thanh, video để trích dẫn, làm dẫn chứng hay minh họa cụ thể của một vấn đề
cho một bài giảng làm cho bài giảng thêm sinh động và tăng tính thuyết phục, lôi
cuốn người học. Tuy nhiên cung không quá lạm dụng việc sử dụng dữ liệu đa
phương tiện trong quá trình giảng dạy, điều đó sẽ làm phá vỡ đi cấu trúc trọng tâm
chính của vấn đề cần truyền đạt và người học khó nắm được vấn đề.
Như vậy, việc sử dụng dữ liệu đa phương tiện trong công tác học tích cực là
rất cần thiết, nhưng chèn hình ảnh, âm thanh và video ra sao là do người dạy lựa
chọn tùy thuộc vào nội dung bài giảng, tùy thuộc vào thời gian giảng và đối tượng
người học.
1.3. Kho học liệu tại Học viện Báo chí và Tuyên truyền
Kho học liệu của Học viện Báo chí và Tuyên truyền là một kho dữ liệu chứa
dữ liệu khoa học của Học viện, kho học liệu của Học viện có đội ngũ cán bộ chuyên
môn cao, trang thiết bị hiện đại, dữ liệu phong phú, đa dạng.
Học viện không ngừng tuyển dụng, đào tạo, nâng cao trình độ khoa học cho
các cán bộ, không ngừng sửa chữa, nâng cấp trang thiết bị máy móc hiện đại phục
phụ cho việc tra cứu, tìm hiểu, lấy tư liệu của đội ngũ Cán bộ, Giảng viên, Học viên
của Học viện.
Dữ liệu trong kho học liệu luôn được cập nhật, bổ sung, để đảm bảo tính mới,
tính đầy đủ, tính phong phú và đa dạng, từ đó đáp ứng kịp thời cho công tác dạy và
học tại Học viện.
1.3.1. Kho dữ liệu bài giảng
Hiện nay, có nhiều các hiểu khác nhau về kho dữ liệu, nhưng ta có thể định
nghĩa kho dữ liệu như sau: Kho dữ là tập hợp các dữ liệu định hướng theo chủ đề,
được tích hợp lại có tính phiên bản theo thời gian và kiên định được dùng cho việc
hỗ trợ việc tạo quyết định quản lý.
Tên gọi của bốn thuộc tính “định hướng theo chủ đề”, “được tích hợp lại”, “có
tính phiên bản theo thời gian” và “kiên định” ở trên đã cung cấp một số nét cơ bản
nhất về đặc trưng của kho dữ liệu.
Kho dữ liệu bài giảng: là tập hợp các bài giảng có cấu trúc, thường sử dụng
với mục đích dạy học, nghiên cứu khoa học…Ta có thể chia thành hai loại kho dữ
liệu như sau:
- 19 -
• Kho dữ liệu đơn ngôn ngữ: là một kho dữ liệu lưu trữ bài giảng trong một
ngôn ngữ.
• Kho dữ liệu đa ngôn ngữ: là một kho dữ liệu lưu trư các bài giảng, các bài
giảng có thể được viết bằng các ngôn ngữ khác nhau. Các kho dữ liệu đa
ngôn ngữ được định dạng bằng cách so sánh các thành phần tương ứng giữa
các ngôn ngữ này.
Các kho dữ liệu bài giảng có ý nghĩa hết sức quan trọng trong vấn đề giảng
dạy, học thống kê, tuy nhiên việc xây dựng một kho dữ liệu tốt không hề đơn giản,
trong đó làm sao đảm được tính nhất quán cho dữ liệu gán nhãn trên toàn bộ kho dữ
liệu.
1.3.2. Năng lực truy cập thông tin trên Intrernet của Học viện
Chiến lược phát triển kinh tế xã hội nói chung, chiến lược phát triển khoa học
công nghệ nói riêng là việc tiếp cận và áp dụng những thành tựu khoa học tiên tiến
trên thế giới để bắt kịp với trình độ phát triển chung của các nước trong khu vực và
trên thế giới. Để làm được điều này chúng ta phải sẵn sàng tiếp cận được công nghệ
mới, tri thức mới.
Ngày nay, Internet là một kho dữ liệu khổng lồ, giàu tài nguyên, Thông tin
trên các trang Web rất đa dạng, phong phú về nội dung và hình thức. Một thách
thức đặt ra là khả năng khai thác và sử dụng thông tin trong kho dữ liệu khổng lồ ấy
làm sao có hiệu quả cao nhất, để làm được điều này chúng ta phải đào tạo học sinh,
sinh viên, học viên, người học khi tốt nghiệp ra trường có những kỹ năng và kiến
thức để làm chủ thế giới thông tin. Vậy, năng lực truy cập thông tin trên Internet của
người dạy và người học là một trong những vấn đề cấp thiết cần được quan hàng
đầu, cần được đào tạo, bồi dưỡng, tuyển dụng đội ngũ Giảng viên có trình độ công
nghệ thông tin cao.
Những năm về trước, khi ngành công nghệ thông tin bắt đầu có ở Việt Nam,
hạ tầng cơ sở thấp, năng lực sử dụng công nghệ thông tin còn rất hạn chế. Tuy
nhiên những năm gần đây khi ngành công nghệ thông tin bắt đầu phát triển và mở
rộng tại Việt Nam, hạ tầng cơ sở bắt đầu lớn mạnh, nhờ có những lớp bồi dưỡng,
tình thần tự tìm tòi, học hỏi của các thầy cô và cán bộ trong trường mà khả năng sử
dụng công nghệ thông tin và năng lực truy cập Internet của thầy cô ngày càng tốt
hơn.
- 20 -
1.3.3. Nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo
của Học viện
Hiện nay, nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của
Học viện chủ yếu lấy từ kho học liệu của Học viện, Ngoài ra nguồn thông tin còn
được thu thập và trích lọc từ kho dữ liệu các bài báo, kho dữ liệu các Video về gốm
sứ mà là sản phẩm bài tập, bài kiểm tra thực tế của sinh viên, học viên của Học
viện.
1.3.4. Nhu cầu về cơ sở dữ liệu thông tin đa phương tiện
Nắm vững nhu cầu về CSDL thông tin đa phương tiện, đáp ứng kịp thời, chính
xác là một trong những nhiệm vụ quan trọng trong công tác đào tạo tại Học viện.
Ngày nay, khoa học xã hội ngày càng phát triển, các chuyên đào tạo trong Học viện
ngày càng nhiều thì nhu cầu về cơ sở dữ liệu thông tin đa phương tiện ngày càng đa
dạng và phong phú hơn.
1.4. Kết luận
Trong thời kỳ công nghiệp hóa, hiện đại hóa, ngành Công nghệ thông tin đang
trong đà phát triển mạnh, việc sử dụng dữ liệu đa phương tiện, áp dụng hình ảnh,
âm thanh, video vào trong công tác đào tạo tại Học viện Báo chí và Tuyên truyền
nói riêng, công tác giảng dạy và đào tạo nói chung là một nhu cầu cần thiết.
- 21 -
Chương 2: KHAI PHÁ DỮ LIỆU TRONG CƠ SỞ DỮ
LIỆU LIÊN QUAN TỚI GỐM SỨ CỔ TRUYỀN
2.1. Kiến trúc cơ sở dữ liệu văn bản
2.1.1. Kiến trúc chung
Kiến trúc: là một hệ thống xác định cấu trúc của nó, các thành phần được hệ
thống xác định, chức năng mỗi thành phần được mô tả, các mối quan hệ và tương
tác giữa các thành phần này được định nghĩa. Đặc tả về kiến trúc cho các hệ thống
phần mềm đò hỏi phải xác định rất nhiều đơn thể với các giao diện và mối quan hệ
qua lại giữa dòng điều khiển xuyên suốt hệ thống. Có 3 cách tiếp cận khác nhau:
• Dựa trên các thành phần: các thành phần của chúng được định nghĩa cùng
với mối tương quan giữa chúng. Như vậy, DBMS gồm một số thành phần,
mỗi thành phần cung cấp một số chức năng vận hành nào đó. Tương tác có
trật tự và có hệ thống giữa chúng cung cấp toàn bộ chức năng của hệ thống.
Đây là tiếp cận mong muốn nếu mục tiêu đối tượng là thiết kế và cài đặt hệ
thống đang xem xét. Ngược lại sẽ rất khó khăn khi cần xác định chức năng
của hệ thống bằng cách xem các thành phần của nó.
• Dựa trên chức năng: các nhóm người được sử dụng được xác định và các
chức năng mà hệ thống được thực hiện cho mỗi nhóm được định nghĩa. Đặc
tả hệ thống loại này điển hình là mô tả cấu trúc phân cấp của các nhóm người
sử dụng. Kết quả là tạo ra một kiến trúc hệ thống phân cấpvới các giao diện
được định nghĩa rõ ràng giữa các chức năng và các tầng khác nhau.
• Dựa trên dữ liệu: các kiểu dữ liệu khác nhau sẽ được định nghĩa, và bộ
khung kiến trúc được đặc tả nhằm nhằm định nghĩa các đơn vị chức năng sẽ
tiếp nhận hoặc sử dụng dữ liệu trên những góc độ khác nhau. Bởi dữ liệu là
tài nguyên chính mà DBMS cần quản lý, cách tiếp cận này được ưa chuộng
đối với hoạt động tiêu chuẩn hoá. Ưu điểm của tiếp cận trên dữ liệu là tầm
quan trong chủ chốt đã được đặt vào tài nguyên dữ liệu. Trên quan điểm của
của hệ quản trị CSDL, điều này rất có ý nghĩa bởi vì tài nguyên căn bản mà
DBMS quản lý là dữ liệu. Tuy nhiên chúng ta không thể đặc tả đầy đủ một
kiến trúc trừ khi mô đun chức năng cũng được mô tả.
Cả ba cách tiếp cận trên điều phải được sử dụng khi ta định nghĩa một mô hình
kiến trúc, trong đó mỗi góc độ ta sẽ tập trung vào các khía cạnh khác nhau của mô
- 22 -
hình kiến trúc, kiến trúc ANSI/SPARC thuộc vào nhóm phương pháp dựa vào tổ
chức dữ liệu, nó cho phép ba hình ảnh về dữ liệu:
• Khung nhìn ngoài: là cách nhìn của người sử dụng, kể cả lập trình viên;
• Khung nhìn trong: là cách nhìn của hệ thống;
• Khung nhìn khái niệm: là cách nhìn của công ty hay xí nghiệp.
Hình 2.1 Kiến trúc ANSI/SPARC
• Lược đồ trong: là lược đồ ở mức thấp nhất của kiến trúc, là mức xử lý phần
định nghĩa và tổ chức vật lý của dữ liệu. Vị trí của dữ liệu trong thiết bị lưu
trữ, cơ chế truy nhập được sử dụng là những vấn đề được cập nhật ở mức
này.
• Lược đồ ngoài: là tập khung nhìn của từng người sử dụng biểu thị cho phần
CSDL mà người dùng có thể truy cập cũng như mối liên hệ giữa các dữ liệu
người dùng có thể thấy được. Nhiều người sử dụng có thể dùng chung một
khung nhìn.
• Lược đồ khái niệm: là lược đồ nằm giữa lược đồ ngoài và lược đồ trong, là ý
nghĩa khái niệm của CSDL.
2.1.2. Các chức năng trong cơ sở dữ liệu văn bản
CSDL văn bản cũng có một số chức năng chính như: Lưu trữ, truy câp, tổ
chức và xử lý.
• Lưu trữ trên đĩa và có thể chuyển đổi từ CSDL này sang CSDL khác, ta có
thể sử dụng các hệ quản trị CSDL nhỏ như Excel, Access, MySQL,
ProrgraSQL, hay SQL Server, Oracle.
- 23 -
• Truy cập dữ liệu phụ thuộc vào yêu cầu và mục đích của người sử dụng. Ở
mức cục bộ dữ liệu được truy cập ngay chính trong CSDL nhằm xử lý dữ
liệu bên trong của chính nó. Khi mục đích yêu cầu vượt ra ngoài CSDL ta
cần có sự cập nhật giữa các CSDL với nhau.
• Tổ chức CSDL văn bản phụ thuộc vào mô hình cơ sở dữ liệu, phụ thuộc vào
đặc điểm riêng của từng ứng dụng cụ thể.
• Trong nhiều trường hợp cần xử lý, truy vấn dữ liệu theo yêu cầu và mục đích
khác nhau, ta phải truy vấn cùng với các phép toán, phát biểu CSDL để kết
xuất ra yêu cầu của việc xử lý.
2.2. Kiến trúc cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ
truyền Việt Nam
2.2.1. Nội dung liên quan tới gốm sứ cổ truyền
Gốm sứ bát tràng: là tên gọi cho các loại đồ gốm được sản xuất tại làng Bát
tràng thuộc xã Bát tràng, huyện Gia lâm, Hà nội. Theo nghĩa Hán Việt, chữ Bát
nghĩa là Bát ăn của nhà sư, chữ tràng có nghĩa là “cái sân lớn” là mảng đất dành
riêng cho chuyên môn. Để làm gốm sứ người chọn phải qua các khâu xử lý và pha
chế đất, tạo dáng, tạo hoa văn, phủ men và cuối cùng là nung sản phẩm.
• Chọn đất: điều quan trong đầu tiên để hình thành nên các lo gốm là nguồn
đất sét làm gốm
• Xử lý, pha chế đất: trong đất nguyên liệu thường có tạp chất, ngoài ra tùy
thuộc vào yêu cầu của từng loại gốm khác nhau mà có những cách pha chế
khác nhau để tạo ra sản phẩm phù hợp.
• Tạo dáng: phương pháp tạo dáng cổ truyền của người làng Bát tràng là làm
bằng tay trên bàn xoay. Trong khâu tạo dáng, người thợ gốm Bát tràng, sử
dụng phổ biến lối “vuốt tay, be chạch” trên bàn xoay. Ngày nay, theo yêu cầu
sản xuất gốm công nghệ hay mĩ nghệ, nghệ nhân gốm có thể đắp nặn một sản
phẩm mẫu để đổ khuôn thạch cao phục phụ cho việc sản xuất hàng loạt.
• Phơi sấy và sửa hàng mộc: tiến hành phơi hàng mộc sao cho khô, không bị
nứt nẻ, không làm thay đổi hình dạng của sản phẩm. Biện pháp tối ưu mà lâu
nay người dân Bát trang vẫn sử dụng là hong khô hiện vật trên giá và để nơi
thoáng mát. Ngày nay nhiều người đã sử dụng sấy hiện vật trong lò sấy, tăng
- 24 -
nhiệt độ từ từ để nước bốc hơi dần. Sau khi sản phẩm đã định hình cần đem
“ủ vóc” và sửa lại cho hoàn chỉnh.
• Quá trang trí hoa văn và phủ men: Để trang trí hoa văn người thợ gốm Bát
tràng vẽ trực tiếp lên nền mộc các văn họa tiết, thợ vẽ gốm phải có tay nghề
cao, hoa văn học tiết phải hài hòa với giáng gốm
• Tráng men: khi sản phẩm mộc đã hoàn chỉnh, người thợ gốm có thể nung sơ
bộ sản phẩm ở nhiệt độ thấp, rồi sau đó mới đem tráng men hoặc dùng ngay
sản phẩm mộc hoàn chỉnh đó trực tiếp tráng men lên trên rồi mới nung. Kỹ
thuật tráng men có nhiều hình thức như phun men, dội men lên bề mặt cốt
gốm cỡ lớn, nhúng men đối với loại gốm nhỏ, nhưng thông dụng nhất là
tráng men ngoài sản phẩm, gọi là “kim men”, và khó hơn là hình thức “quay
men” và “đúc men”.
• Quá trình nung: khi công việc chuẩn bị đã hoàn tất thì đốt lò trở thành khâu
quyết định thành cộng hay quyết định của một mẻ gốm, việc nung gốm theo
nguyên tác nâng cao dần nhiệt độ lò đến nhiệt độ cao nhất, khi gốm chin thì
hạ dần nhiệt độ lò.
Những đặc điểm của gốm Bát Tràng: Hầu hết, đồ gốm Bát Tràng được sản
xuất theo lối thủ công, thể hiện rõ rệt tài năng sáng tạo của người thợ lưu truyền qua
nhiều thế hệ. Do tính chất của các nguồn nguyên liệu tạo cốt gốm và việc tạo dáng
đều làm bằng tay trên bàn xoay, cùng với việc sử dụng các loại men khai thác trong
nước theo kinh nghiệm nên đồ gốm Bát Tràng có nét riêng là cốt đầy, chắc và khá
nặng, lớp men trắng thường ngả mầu ngà, đục.
Dựa vào ý nghĩa sử dụng, có thể phân chia loại hình của đồ gốm Bát Tràng
như sau:
• Đồ gốm gia dụng: Bao gồm các loại đĩa, chậu hoa, âu, thạp, ang, bát, chén,
khay trà, ấm, điếu, nậm rượu, bình vôi, bình, lọ, choé và hũ.
• Đồ gốm dùng làm đồ thờ cúng: Bao gồm các loại chân đèn, chân nến, lư
hương, đỉnh, đài thờ, mâm gốm và kiếm. Trong đó, chân đèn, lư hương và
đỉnh là những sản phẩm có giá trị đối với các nhà sưu tầm đương đại vì lẽ
trên nhiều chiếc có minh văn cho biết rõ họ tên tác giả, quê quán và năm
tháng chế tạo, nhiều chiếc còn ghi khắc cả họ và tên của những người đặt
hàng. Đó là một nét đặc biệt trong đồ gốm Bát tràng.
- 25 -
• Đồ trang trí: Bao gồm mô hình nhà, long đình, các loại tượng như tượng
nghê, tượng ngựa, tượng Di Lặc, tượng Kim Cương, tượng hổ, tượng voi,
tượng người ba đầu, tượng đầu khỉ mình rắn và tượng rồng.
• Trang trí: Thế kỉ 14–15: Hình thức trang trí trên gốm Bát Tràng bao gồm các
kiểu như khắc chìm, tô men nâu theo kĩ thuật gốm hoa nâu thời Lý–Trần, kết
hợp với chạm nổi và vẽ men lam.
Gốm Bát Tràng có 5 dòng men đặc trưng được thể hiện qua mỗi thời kì khác
nhau để tạo nên những sản phẩm đặc trưng khác nhau: men lam xuất hiện khởi đầu
ở Bát Tràng với những đồ gốm có sắc xanh chì đến đen sẫm; men nâu thể hiện theo
phong cách truyền thống và được vẽ theo kĩ thuật men lam; men trắng ngà sử dụng
trên nhiều loại hình đồ gốm từ thế kỉ 17 đến thế kỉ 19, men này mỏng, màu vàng
ngà, bóng thích hợp với các trang trí nổi tỉ mỉ; men xanh rêu được dùng kết hợp với
men trắng ngà và nâu tạo ra một đòng Tam thái rất riêng của Bát Tràng ở thế kỉ 16–
17 và men rạn là dòng men chỉ xuất hiện tại Bát Tràng từ cuối thế kỉ 16 và phát
triển liên tục qua các thế kỉ 17–19.
Hình 2.2 Chân đèn gốm tráng men lam, loại men nổi tiếng của Bát Tràng
Gốm sứ Chu đậu: gốm Chu Đậu-Mỹ Xá, còn được biết đến là gốm Chu Đậu,
là gốm sứ cổ truyền Việt Nam đã được sản xuất tại vùng mà nay thuộc làng Chu
Đậu và làng Mỹ Xá, thuộc các xã Minh Tân và Thái Tân, huyện Nam Sách, tỉnh Hải
Dương. Loại gốm sứ này thường được nhắc đến với tên gốm Chu Đậu là do lần đầu
tiên người ta khai quật được các di tích của dòng gốm này ở Chu Đậu. Sau này, khi
khai quật tiếp ở Mỹ Xá (làng bên cạnh Chu Đậu) thì người ta phát hiện ra khối
lượng di tích còn đa dạng hơn và có một số nước men người ta không tìm thấy trong
số các di tích khai quật được tại Chu Đậu, Gốm sứ Chu Đậu là dòng gốm nổi tiếng
vì màu men và họa tiết thuần Việt. Nó đã từng xuất khẩu sang nhiều nước châu Âu.
Năm 1997, sau khi tìm được rất nhiều gốm Chu Đậu trong con tàu đắm ở Cù Lao
- 26 -
Chàm (Nghệ an) của người Bồ Đào Nha, dòng gốm này mới được biết đến và nổi
tiếng, tại Mỹ Xá có gia phả dòng họ 14 đời có ghi câu "Tổ tiên lấy nghề nung bát
làm nghiệp". Mới đây, các nhà khảo cổ đã khẳng định bà Bùi Thị Hý là tổ nghề
gốm Chu Đậu, dòng gốm sứ này có thể đã được hình thành và phát triển trong
khoảng từ thế kỷ 13 đến thế kỷ 18. Có nguồn nói, nó bị hủy diệt do chiến tranh Lê-
Mạc cuối thế kỷ 16.
Hình 2.3 Hai bình Âm dương gốm Chu đậu
Gốm sứ Phủ lãng: Làng gốm Phù Lãng thuộc xã Phù Lãng, huyện Quế Võ,
tỉnh Bắc Ninh, cách Hà Nội khoảng 60 km và cách sông Lục đầu khoảng 4 km. Phù
Lãng nằm bên bờ sông Cầu và có nhiều bến đò ngang suốt ngày chở khách qua lại.
Địa danh Phù Lãng có thể có từ cuối thời Trần đầu thời Lê, vào thời kỳ này, Phù
Lãng có 3 thôn: Trung thôn, Thượng thôn, Hạ thôn.
Gốm Phù Lãng tập trung vào 3 loại hình:
• Gốm dùng trong tín ngưỡng (lư hương, đài thờ, đỉnh...);
• Gốm gia dụng (lọ, bình, chum, vại, bình vôi, ống điếu...);
• Gốm trang trí (bình, ấm hình thú như ngựa, voi...).
Gốm Phù Lãng có nét sắc thái riêng biệt, đó là những sản phẩm gốm men nâu,
nâu đen, vàng nhạt, vàng thẫm, vàng nâu… mà người ta gọi chung là men da lươn.
Thêm nữa, nét đặc trưng nổi bật của gốm Phù Lãng là sử dụng phương pháp đắp nổi
theo hình thức chạm bong, còn gọi là chạm kép, màu men tự nhiên, bền và lạ; dáng
của gốm mộc mạc, thô phác nhưng khỏe khoắn, chứa đựng vẻ đẹp nguyên sơ của
đất với lửa, và rất đậm nét của điêu khắc tạo hình.
• Kỹ thuật làm gốm: Một xưởng sản xuất gốm gồm năm nhóm chính: tổ lò, tổ
chuốt, tổ họa tiết, tổ men, tổ làm sạch. Khác với những sản phẩm gốm lấy
chất liệu từ “xương” đất sét xanh của Thổ Hà, sét trắng của Bát Tràng, gốm
- 27 -
Phù Lãng được tạo nên từ “xương” đất đỏ hồng lấy từ vùng Thống Vát,
Cung Khiêm (Bắc Giang).
• Tạo hình: gốm Phù Lãng được sử dụng nhiều phương pháp khác nhau trong
nghệ thuật tạo dáng, với những hình khối đa dạng. Nhưng nhìn chung có thể
quy vào hai phương pháp cơ bản: tạo hình trên bàn xoay và in trên khuôn gỗ
hoặc khuôn đất nung rồi dán ghép lại.
• Chất liệu làm men tráng gồm có: Tro cây rừng (loại cây mà khi đốt, tàn tro
trắng như vôi, như tàn thuốc, sau khi quét men và phơi khô, sản phẩm có
màu trắng đục.
• Quá trình nung:Sau công đoạn vào men và tạo mầu, phơi khô, sản phẩm
được đưa vào lò nung ở nhiệt độ đến 1.000 độ C, để đảm bảo gốm sành nâu
có lớp da ngoài đanh mặt, nhẵn bóng và chắc. Xếp sản phẩm trong lò nung
phải tuân theo nguyên tắc tiết kiệm tối đa không gian trong lò.
Nếu vẻ đẹp của Bát Tràng là sự đa dạng về nước men, những nét vẽ tinh tế,
thì hồn cốt của Phù Lãng được tạo nên từ sự dân dã, mộc mạc của nước men da
lươn này.
Hinh 2.4 Bình hoa gốm Phù Lãng hiện đại
2.2.2. Các chức năng cần thiết đối với cơ sở dữ liệu văn bản gốm sứ
Cơ sở dữ liệu văn bản gốm sứ là một trong những cơ sở dữ liệu văn bản quan
trong việc truy cập, lưu trữ, tổ chức và xử lý phục phụ cho công tác học tập, nghiên
cứu, duy trì và phát triển nền văn hóa của dân tộc Việt Nam. Cơ sở dữ liệu văn bản
gốm sứ phải là CSDL có các chức năng cần thiết sau:
• Có thể truy cập được được CSDL;
• Có thể tìm kiếm thông tin cần thiết liên quan tới các văn bản về gốm sứ;
- 28 -
• Có thể lấy được các thông tin khi tìm thấy;
• Có thể hiển thị thông tin và sử dụng được thông tin khi tìm thấy;
• Có thể cập nhật thông tin mới.
2.3. Khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản: là một quá trình trích chọn ra các tri thức mới, có
giá trị và tác động được đang tiềm ẩn trong các văn bản để sử dụng các tri thức này
vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ người dùng. Ta có kiến trúc điển
hình của hệ thống khai phá dữ liệu sau:
Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản
Về bản chất của khai phá dữ liệu văn bản là sự kết hợp của khai phá dữ liệu và
xử lý ngôn ngữ tự nhiên, quá trình khai phá dữ liệu văn bản là cụ thể hóa quá trình
khai phá dữ liệu đối với dữ liệu văn bản, với giả thiết đã xác định được: một là bài
toán khai phá dữ liệu văn bản, hai là miền dữ liệu văn bản thuộc miền ứng dụng,
quá trình khai phá dữ liệu văn bản thực hiện qua các bước sau:
• Thu thập dữ liệu văn bản thuộc miền ứng dụng, cụ thể ở đây là các bài báo
trên Web liên quan tới gốm sứ Việt nam..
• Biểu diễn dữ liệu văn bản thu thập được sang khuôn dạng phù hợp với bài
toán khai phá văn bản.
• Lựa chọn tập dữ liệu đầu vào cho bài toán khai phá dữ liệu
• Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã được lựa chọn để
tìm ra các mẫu, các tri thức.
- 29 -
• Thực hiện khai thác sử dụng các mẫu, các tri thức nhận được từ quá trình
khai thác văn bản vào thực tiễn hoạt động.
Để khai phá dữ liệu văn bản người ta sử dụng một vài bài toán khai phá điển
hình như: Tìm kiếm, phân tích ngữ nghĩa, phân cụm, phân lớp, trích trọn đặc trưng,
tóm tắt văn bản…
Bài toán trích rút quan hệ: là một trong những bài toán quan trọng trong lĩnh
vực khai phá tri thức mang tầm vóc lớn, vì ứng dụng của nó rất đa dạng. Ngoài việc
làm giàu thêm lượng thông tin, nó còn được xem là một phương pháp hiệu quả để
đưa ra phương pháp xử lý cho các hệ thống như: hệ thống hỏi đáp, xây dựng cơ sở
tri thức, phát hiện ảnh qua đoạn văn bản…
Các phương pháp trích rút quan hệ ngữ nghĩa đã được đề xuất khá phong phú,
từ phương pháp học thống kê, có giám sát dựa trên dữ liệu đã gán nhãn, hay các
phương pháp dựa trên luật học bán giám sát….
Để rút trích quan hệ ngữ nghĩa trong văn bản ta có thể tham khảo và áp dụng
một số phương pháp Phương pháp DIPRE: Năm 1988, Sergey Brin đã giới thiệu
phương pháp học bán giám sát, đặt tên là DIPRE, cho việc trích rút quan hệ ngữ
nghĩa. Phương pháp này được thử nghiệm để trích mối quan hệ “tác giả” và “ cuốn
sách”, với tập dữ liệu ban đầu khoảng 5 ví dụ cho mỗi mẫu quan hệ. Hệ thống
DIPRE mở rộng tập ban đầu thành một danh sách khoảng 1500 cuốn sách.
Phương pháp DIRPE có thể được mô tả như sau:
Đầu vào: Tập các mẫu quan hệ S= {}, tập dữ liệu D;
Đầu ra: Tập R các quan hệ trích rút được
• Bước 1. RS
Tập đích được khởi tạo từ tập mồi S. Tập mẫu quan hệ S có thể là rất nhỏ
• Bước 2. OFindOccurrences(R’,D).
Tìm tất cả các xuất hiện trong mẫu quan hệ của tập dữ liệu D;
• Bước 3. RGenPatterns(O)
Dựa vào tập câu đã tìm được, tiến hành tìm các mẫu quan hệ giữa các thành
phần của mẫu quan hệ ban đầu, Sergey Brin định nghĩa ban đầu rất đơn giản, bằng
việc giữ lại m ký tự trước thành phần mẫu quan hệ đầu tiên, giữ lại phía sau thành
phần thứ hai n ký tự, và k ký tự nằm giữa hai thành phần này là m. Bằng một
- 30 -
phương pháp đơn giản để giữ lại các phần đầu, phần giữa và phần cuối phổ biến
(Xuất hiện nhiều lần trong dữ liệu). Kết quả nhận được biểu diễn dưới dạng:
o [1, phần đầu, phần cuối, phần giữa], thì Tác giả đứng trước sách.
o [0, phần đầu, phần cuối, phần giữa], thì tác giả đứng sau sách.
• Bước 4. R’MD(O)
Từ tập mẫu mới thu nhận được ta có thể trích rút các cặp quan hệ <Tác giả,
Sách> mới trong tập dữ liệu D, bổ sung các cặp quan hệ thu được vào R;
• Bước 5. Khi R đủ lớn thì dừng lại, ngược lại quay lại bước 2 để tìm những
cặp quan hệ và mẫu mới.
Phương pháp Snowball
Snowboll: là hệ thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu mẫu
quan hệ làm nhân, Trong quá trình thực hiện mẫu và tập quan hệ mới được sinh ra
cần đánh giá chất lượng. Giải thuật được thực nghiệm trên mối quan hệ “tổ chức-địa
điểm”, thể hiện trụ sở chính của tổ chức có vị trí thuộc “địa điểm” với mẫu quan hệ
ban đầu như Microsoft-Redmond, IBM-Armonk, Boeing-seatile, Intel –Santa Santa
clara.
Nội dung cơ bản của phương pháp Snowball
Đầu vào: Một tập văn bản D (tập huấn luyện); tập nhân mẫu quan hệ d ban
đầu S gồm các cặp mẫu quan hệ nào đó. Mỗi cặp quan hệ gồm hai thực thể A và B
có quan hệ dạng: hay , như vậy S= {};
Đầu Ra: Tập R là các quan hệ rút trích được;
• Bước 1: Tìm sự xuất hiện của các cặp quan hệ trong dữ liệu
R=S;
Với mỗi cặp quan hệ trong S, tìm trong D tất cả các câu có chứa cả A
và B. Tiến hành phân tích, chọn lọc và rút trích các mẫu, một câu khớp với biểu
thức *A*B* thì cụm từ đứng trước A gọi là Trái, cụm từ đứng giữa A và B gọi là
Giữa và cụm từ đứng sau B gọi là Phải
• Bước 2: Tìm sự xuất hiện của các thực thể trong dữ liệu
Tiến hành phân cụm tập mẫu, Snowball sử dụng hàm Match để tính độ tương
đồng giữa các mẫu và xác định ngưỡng tương đồng tsin cho việc gom cụm nhằm
- 31 -
làm giảm số lượng các mẫu cũng như làm cho mẫu có tính khái quát hơn. Độ tương
đồng giữa hai mẫu được biểu diễn bởi hàm Match (mẫu 1, mẫu 2):
Match(mẫu1, mẫu2) = (wTrái1,wTrái2)+(wGiữa1.wGiữa2)+(wPhải1.wPhải2)
Các mẫu sau khi tìm thấy được dùng để trích rút các cặp quan hệ mới trong D,
sau đó đối chiếu từng cặp quan hệ mới tìm thấy với tập R để kiểm tra chất
lượng của mẫu, từ đó chọn mẫu mới có độ chính xác cao, cặp quan hệ mới
thuộc một trong các trường hợp sau:
Positive: Nếu đã nằm trong tập R;
Negative: Nếu chỉ có đúng một trong hai (A’, hoặc B’) xuất hiện
trong tập R;
Unknown: nếu , cả hai đều không xuất hiện trong tập R. Tập
Unknown được xem là tập các quan hệ mới trong vòng lặp sau.
• Bước 3: sinh mẫu mới
Snowball có độ chính xác của từng mẫu dựa trên số Positve và Negative của
nó và chọn ra N mẫu có điểm cao nhất.
• Bước 4: Tìm các Mẫu quan hệ D mới.
Với mỗi mẫu trong danh sách tốp N thu nhận lại được bổ sung vào tập mẫu để
trích rút tập R’ các cặp quan hệ mới trong tập dữ liệu D. Bổ sung các tập quan hệ
vào R: R=R hợp R’; để làm tăng tính chính xác cho hệ thống, các cặp trong quan hệ
R’ được đánh giá để lựa chọn ra M cặp được đánh giá tốt nhất và M cặp này được
dùng làm mẫu quan hệ cho quá trình rút mẫu kế tiếp, Hệ thống tiếp tục quay lại
bước 1. Quá trình trên tiếp tục lặp cho đến khi Hệ thống không tìm được cặp mới
hoặc lặp theo số lần mà ta xác định trước. Sau đây là thủ tục sinh mẫu mới của
phương pháp Snowball:
- 32 -
Sub GenerateTuples (Patterns)
Foreach text_segment in corpus
(1) {, }=CreateOccurence (text_segment);
Tc=;
Sim Best=0;
Foreach p in Patterns
(2) sim = Match (, p);
If (sim ≥ T sim)
(3) UpdatePatternSelectivity (p, TC);
Sim Best= sim;
P Best =p;
If (Sim Best≥ Tsim)
CandidateTuples[TC]. Patterns [PBest] = SimBest;
Return CandidatetTuples
Bảng 2.1 Thủ tục sinh mẫu mới của phương pháp Snowball
Dựa vào hai phương pháp trên, ta có thể thiết kế thử nghiệm một hệ thống
CSDL dạng hỏi đáp các loại gốm sứ cổ truyền Việt nam và tác giả bài báo, ví dụ
như sau:
Mối quan hệ Phần đầu của mẫu quan hệ Phần cuối của mẫu quan hệ
Gốm sứ Bát tràng Hồ Chí Minh
Gốm sứ Chu đậu Nam cao
….. …
Bảng 2.2 Một số ví dụ về mẫu quan hệ
- 33 -
Mối quan hệ Mẫu tổng quát
gốm sứ của
gốm sứ của
Bảng 2.3 Một số mẫu tổng quát
Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp
Hình 2.7 Mô tả quá trình trích rút quan hệ nghữ nghĩa
- 34 -
Quy trình thiết kế CSDL được thực hiện như sau:
Đầu vào: Tập các quan hệ nhân ban đầu, các quan hệ gồm cặp thực thể gồm
hai thành phần , , <chuyên mục
gốm sứ, tên bài báo>
Đầu ra: CSDL gồm tập các cặp quan hệ trích rút được và tập các mẫu trích rút
• Bước 1: Thu thập dữ liệu
Tận dụng miền tri thức nền lớn từ các máy tìm kiếm như Google,
Yahoo,…với đầu vào là tập mẫu ban đầu được xây dựng bằng tay, thông qua máy
tìm kiếm ta tìm được một tập các trang Web có chứa đầy đủ hai thành phần của tập
mẫu quan hệ này.
• Bước 2: Tiền xử lý.
Loại bỏ thẻ HTML, lấy nội dung chính của trang Web.
Tách câu, tách từ, tìm các cặp từ là hai thành phần của qua hệ mẫu.
Mở rộng tập thực thể cho từng mối quan hệ thực thể ban đầu
• Bước 3: Gán nhãn tổng quát
Từ tập thực thể mở rộng, ứng với mỗi cặp thực thể ta tiến hành gán
nhãn cho cặp thực thể đó.
Xác định thành phần trái, thành phần phải, thành giữa của các thực thể
cho các thực thể được gán nhãn, dựa vào tập câu thu được
Biểu diễn thành phần trái, thành phần phải, thành giữa dưới dạng
vector, ta có được tập mẫu thô.
• Bước 4: Phân cụm mẫu.
Tiến hành so khớp các thành phần trái, thành phần phải, thành giữa
giữa các mẫu thô để loại bỏ các mâu thô trùng
Xác định các mẫu quan hệ được thực hiện bằng phân cụm mẫu thô.
Mỗi cụm đại diện bởi một mẫu và quá trình phân cụm được thực hiện
như sau: với những mâu thô được sinh ra
Nếu độ tương đồng vượt qua một ngưỡng xác định, thì mẫu thô đó
thuộc vào nhóm có độ tương đồng cao nhất. Ngược lại mẫu đó thuộc
đại diện cho một nhóm mới được sinh ra
- 35 -
• Bước 5. sinh ra mẫu quan hệ mới
Những mẫu tổng quát đã nhận được là đầu vào cho CSDL để tìm ra tập
câu có chứa các mẫu đó.Nhận dạng thực thể có chứa trong tập câu dựa
vào các thực thể mở rộng.
Kiểm tra độ tin cậy của các mẫu qua hệ mới được sinh ra. Những mẫu
quan hệ vượt qua một giá trị ngưỡng thì giữ chúng lại.
Quay lại bước 1, sử dụng tập quan hệ mẫu mới nhận được cùng với tập
mẫu quan hệ ban đầu đưa vào CSDL để tiến hành sinh tập mẫu quan hệ
mới và tìm thêm tập mẫu quan hệ mới cho mối quan hệ đó, vòng lặp
dừng khi mẫu quan hệ mới hoặc mẫu mới không còn được tiếp tục sinh
ra.
2.4. Kết luận
Qua việc trình bày về kiến trúc chung về cơ sở dữ liệu, kiến trúc CSDL văn
bản, những nội dung liên quan tới gốm sứ cổ truyền Việt nam, những chức năng cơ
bản của cơ sở dữ liệu văn bản, từ đó ta thấy được mức độ cần thiết của CSDL văn
bản liên quan tới gốm sứ cổ truyền Việt nam trong công tác giảng dạy tại Học viện
Báo chí và Tuyên truyền. Đồng thời dựa vào các khái niệm, quá trình khai phá dữ
liệu để ta tiến hành tìm hiểu về khai phá, thiết kế CSDL văn bản liên quan tới gốm
sứ cổ truyền phục phụ cho công tác dạy học tại Học viên.
- 36 -
Chương 3: KHAI THÁC CƠ SỞ DỮ LIỆU VỀ GỐM
SỨ CỔ TRUYỀN TRONG CÔNG TÁC GIẢNG DẠY
TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN
3.1. Hạ tầng công nghệ thông tin tại Học viện
Hiện nay hạ tầng công nghệ thông tin tại Học viện Báo chí và Tuyên truyền có
các thiết bị CNTT như:
• Máy chủ: đặt tại trung tâm thông tin khoa học của Học viện;
• Các cáy tính bộ phân được đưa vào sử dụng ở các phòng, ban, phòng học;
• Máy in, máy quét, máy photocopy được trang bị đầy đủ tại các phòng, ban,
Camera giám sát được lắp đặt ở các phòng học.
• Hệ thống mạng được kết nối với đường truyền có băng thông lớn.
• Có đầy đủ trang thiết bị cho các hệ thống báo cháy, hệ thống điều hòa nhiệt
độ, hệ thống khóa, bảo mật cao.
Tuy nhiên do điều kiện kinh tế còn hạn chế, hạ tầng công nghệ thông tin tại
Học viện thiếu nhiều những trang thiết bị hiện đại, việc nâng cấp, sửa chữa trang
thiết bị kịp thời để phục vụ tốt hơn nhu cầu dạy và học còn chậm. Đây là vấn đề
quan trong cần được Học viện quan tâm, để thực hiện tốt công tác đào tạo, nghiên
cứu khoa học của Học viện trong thời kỳ hội nhập hiện nay và trong tương lai.
3.2. Một số môn học liên quan tới Gốm sứ cổ truyền
Hình ảnh Gốm sứ cổ truyền của một nước là sự thể hiện một phần rất lớn nền
văn hóa của một nước, chính vì vậy ta phải bảo vệ, tôn tạo và phát triển ngành gốm
sứ cổ truyền. Để làm được điều này ngoài các bộ phận, các cơ quan có liên quan tới
việc bảo vệ, tôn tạo và phát triển gốm sứ, ngành giáo dục cũng phải chú trong nhiều
hơn nữa các môn học có liên qua như:
• Kỹ thuật gốm sứ;
• Chuyên ngành Vật liệu và Công nghệ Vật liệu Xây dựng;
• Cấu trúc và tính chất của vật liệu Silicat;
• Công nghệ Vật liệu Chịu lửa;
• Công nghệ Gốm sứ;
- 37 -
• Công nghệ Thủy tinh;
• Phát thanh-truyền hình;
• Báo chí;
• Văn hóa học,
• Ngôn ngữ học.
• …
3.3. Thiết kế chi tiết của cơ sở dữ liệu văn bản liên quan tới
Gốm sứ cổ truyền
3.3.1. Công cụ Olap trong SQL Server 2005
OLAP: là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối
nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu trong kho dữ liệu, OLAP tạo
khối cho dữ liệu bằng các bảng chiều và bảng sự kiện, cung cấp khả năng thực hiện
các truy vấn và phân tích cho các ứng dụng máy khách.
Trong khi kho dữ liệu lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho
phép các ứng dụng máy khách truy xuất hiệu quả dữ liệu này, OLAP cung cấp
nhiều lợi ích cho người phân tích như:
• Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn,
định hướng và khám phá dữ liệu;
• Cung cấp một ngôn ngữ truy vấn, phân tích;
• Dữ liệu được tính toán trước đối với các truy vấn thường xuyên, nhằm làm
cho thời gian trả lời nhanh đối với các truy vấn đặc biệt.
• Cung cấp các công cụ mạnh, giúp người dùng tạo các khung nhìn mới của dữ
liệu dựa trên một tập các hàm tính toán đặc biệt.
Ứng dụng OLAP: OLAP được đặt ra để xử lý các truy vấn liên quan đến
lượng dữ liệu rất lớn mà hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất
nhiều thời gian.
Dịch vụ OLAP: là một máy phục vụ tầng giữa, phục vụ cho phân tích xử lý
trực tuyến, hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các
khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến
thông tin khối cho các máy khách.
- 38 -
Các đặc điểm của dịch vụ OLAP:
• Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp
thực hiện.
• Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ.
• Các khối có thể ghi:.
• Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu trữ và
giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho
các kỹ thuật OLAP.
• Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu
• Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý.
Các mô hình lưu trữ hỗ trợ OLAP:
• Mô hình Olap đa chiều
Mô hình OLAP đa chiều lưu trữ dữ liệu cơ sở và thông tin tổng hợp (là các độ
đo được tính toán từ các bảng) trong các cấu trúc đa chiều gọi là các khối. Các cấu
trúc này được lưu bên ngoài cơ sở dữ liệu data mart hoặc kho dữ liệu.
Lưu trữ các khối trong cấu trúc OLAP đa chiều là tốt nhất cho các truy vấn
tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh.
Mô hình OLAP đa chiều cho phép thực hiện các truy vấn phân tích dữ liệu tốt
nhất vì các đặc điểm sau:
Thông tin tổng hợp và dữ liệu cơ sở được lưu trữ trong cấu trúc đa chiều.
Các thao tác kết, là một trong những thao tác tốn chi phí nhất của mô hình
quan hệ, thì không cần thiết.
OLAP đa chiều sử dụng các thuật toán nén dữ liệu cho phép lưu trữ với ít
không gian hơn.
OLAP đa chiều sử dụng chỉ mục bitmap cho hiệu quả thực thi tốt hơn.
OLAP đa chiều lấy dữ liệu trong khối rất nhanh bằng cách sử dụng các xử lý
truy vấn tốc độ cao và lưu dữ liệu. Thông tin nhận được từ khối và các bảng
OLAP cơ sở chỉ được truy xuất thông tin chi tiết.
OLAP đa chiều không xử dụng cơ chế khoá vì dữ liệu là chỉ đọc.
OLAP đa chiều có thể được nạp trước vào bộ nhớ chính.
- 39 -
Dữ liệu có thể dễ dàng sao chép đến client cho phân tích không trực tuyến
(off-line).
• Mô hình OLAP quan hệ:
Mô hình OLAP quan hệ: lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các
bảng quan hệ. Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các bảng
kho dữ liệu.
Lưu trữ các khối trong cấu trúc OLAP quan hệ là tốt nhất cho các truy vấn dữ
liệu không thường xuyên. Lưu trữ dữ liệu trong cấu trúc OLAP quan hệ cung cấp
các lợi ích sau:
OLAP quan hệ cho phép xây dựng khối tự động tạo chỉ mục.
OLAP quan hệ ánh xạ các tổng hợp có sẵn từ kho dữ liệu. OLAP quản lý
được phép xử dụng các tổng hợp có sẵn để tổng hợp mà không cần tính toán
lại cho mỗi truy vấn.
OLAP quan hệ tạo đòn bẩy cho hệ quản trị cơ sở dữ liệu quan hệ nhằm cho
các nhà quản trị hệ thống duy trì nó hiệu quả hơn.
OLAP quan hệ hỗ trợ Microsoft SQL Server, Oracle, Access và Open
Database Connectivity (ODBC).
• Mô hình OLAP lai:
Mô hình OLAP lai là sự kết hợp giữa OLAP đa chiều và OLAP quan hệ.
Lưu trữ các khối trong cấu trúc OLAP đa chiều là tốt nhất cho các truy vấn
tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở. Lợi ích của
việc lưu trữ trong cấu trúc OLAP lai là:
Lấy dữ liệu trong khối nhanh hơn bằng cách sử dụng xử lý truy vấn tốc độ
cao của OLAP đa chiều.
Tiêu thụ ít không gian lưu trữ hơn OLAP đa chiều.
Tránh trùng lắp dữ liệu.
Kiến trúc khối của OLAP:
Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết
và tổng hợp. Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các
phần dành riêng, Các khối được thiết kế dựa trên yêu cầu phân tích của người dùng.
- 40 -
Một kho dữ liệu có thể hỗ trợ nhiều khối khác nhau như khối Bán hàng, khối Bảng
kiểm kê,…
Dữ liệu nguồn của một khối chỉ ra nơi chứa kho dữ liệu cung cấp dữ liệu cho
khối.
Các chiều được ánh xạ từ các thông tin của các bảng chiều trong kho dữ liệu
vào các mức phân cấp, ví dụ như chiều Địa lý thì gồm các mức như Lục địa, Quốc
gia, Tỉnh-Thành phố. Các chiều có thể được tạo một cách độc lập và có thể chia sẻ
giữa các khối nhằm xây dựng các khối dễ dàng và để chắc chắn rằng thông tin tổng
hợp cho phân tích luôn ổn định. Ví dụ, nếu một chiều chia sẻ một phân cấp sản
phẩm và được sử dụng trong tất cả các khối thì cấu tạo của thông tin tổng hợp về
sản phẩm sẽ ổn định giữa các khối sử dụng chiều đó.
Một chiều là một dạng đặc biệt của chiều mà ánh xạ các thuộc tính từ các
thành viên của một chiều khác để sau đó có thể được sử dụng trong các khối. Ví dụ,
một chiều ảo của thuộc tính kích thước sản phẩm cho phép một khối) tổng hợp dữ
liệu như số lượng sản phẩm bán được theo kích thước, hoặc như số lượng áo bán
được theo kiểu và theo kích thước. Các chiều ảo và các thuộc tính thành viên được
đánh giá là cần thiết cho các truy vấn và chúng không đòi hỏi phải có các khối lưu
trữ vật lý.
Các độ đo xác định các giá trị số từ bảng sự kiện mà được tổng hợp cho phân
tích như giá bán, chi phí hoặc số lượng bán.
Các phần dành riêng là các vật chứa lưu trữ đa chiều, giữ dữ liệu của khối.
Mỗi khối chứa ít nhất một thành phần riêng, và dữ liệu của khối có thể kết hợp từ
nhiều partition. Mỗi thành phần riêng có thể lấy dữ liệu một nguồn dữ liệu khác
nhau và có thể lưu trong một vị trí riêng biệt. Dữ liệu của một thành phần riêng có
thể được cập nhật độc lập với các thành phần riêng khác trong một khối. Ví dụ, dữ
liệu của một khối có thể được chia theo thời gian, với một partition chứa dữ liệu của
năm hiện hành, một partition khác chứa dữ liệu của năm trước, và một partition thứ
ba chứa tất cả dữ liệu của các năm trước nữa.
Các thành phần riêng của một khối có thể được lưu trữ độc lập trong các cách
thức khác nhau với các mức độ tổng kết khác nhau. Các partition không thể hiện đối
với người dùng, đối với họ một khối là một đối tượng đơn, và chúng cung cấp các
tuỳ chọn đa dạng để quản lý dữ liệu OLAP.
- 41 -
Một khối ảo là một khung nhìn luận lý của các phần chia của một hoặc nhiều
khối. Một khối ảo có thể được sử dụng để kết các khối khác nhau để chia sẻ một
chiều chung nào đó, ví dụ như có thể kết giữa khối Bán hàng và khối Kho nhằm các
mục đích phân tích đặc biệt nào đó trong khi duy trì các khối tách biệt cho đơn giản.
Các chiều và các độ đo có thể được chọn từ các khối được kết để thể hiện trong
khối ảo.
Mô hình kiến trúc dịch vụ OLAP:
Kiến trúc dịch vụ OLAP gồm 2 thành phần: khách và chủ
Dịch vụ OLAP của SQL Server cung cấp thành phần chủ có khả năng tạo và
quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho máy khách qua dịch
vụ PivotTable.
Các thao tác của thành phần máy chủ bao gồm việc tạo các khối dữ liệu đa
chiều từ kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa
chiều, trong cơ sở dữ liệu quan hệ hoặc kết hợp cả hai. Siêu dữ liệu của các cấu
trúc khối đa chiều được lưu trữ trong một kho trong cơ sở dữ liệu quan hệ.
Các thao tác được thành phần chủ cung cấp gồm:
Khả năng tạo và quản lý các khối của OLAP.
Phục vụ lấy dữ liệu và làm cho nó có thể sử dụng được từ các ứng dụng
khách
Dịch vụ OLAP của SQL Server cung cấp thành phần chủ có khả năng tạo và
quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho khách qua dịch vụ
PivotTable.
Các thao tác của thành phần Server bao gồm việc tạo các khối dữ liệu đa chiều
từ kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa chiều,
trong cơ sở dữ liệu quan hệ hoặc kết hợp cả hai. Siêu dữ liệu của các cấu trúc khối
đa chiều được lưu trữ trong một kho trong cơ sở dữ liệu quan hệ.
Các thao tác được thành phần máy chủ cung cấp gồm:
Khả năng tạo và quản lý các khối của OLAP.
Phục vụ lấy dữ liệu và làm cho nó có thể sử dụng được từ các ứng dụng
client.
- 42 -
Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP chủ và cung cấp
giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên máy chủ.
Các ứng dụng máy khách kết nối đến dịch vụ PivotTable bằng cách sử dụng giao
diện OLE DB hoặc mô hình ADO.
Các ứng dụng máy khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ
cơ sở dữ liệu OLAP.
Dịch vụ PivotTable có thể tạo các khối cục bộ mà đó là các tập con của các
khối cư trú trên server. Các khối cục bộ có thể được sử dụng để làm tăng hiệu quả
thực hiện và sử dụng để thực hiện các phân tích không trực tuyến.
Dịch vụ PivotTable là một công cụ lưu trữ, duyệt và phân tích khối.
PivotTable là một OLAP chủ xử lý tại chỗ với cả các đặc tính phân tích trực tuyến
và không trực tuyến mà:
Cung cấp truy cập trực tuyến đến dữ liệu OLAP như một máy khách của
dịch vụ OLAP.
Bao gồm các đặc tính phân tích dữ liệu, xây dựng khối và quản lý cache.
Cho phép các khối lưu trữ cục bộ để phân tích không trực tuyến như là kết nối
đến dữ liệu dịch vụ OLAP trực tuyến.
3.3.2. Thiết kế chi tiết cơ sở dữ liệu
Dữ liệu Đầu vào: Tận dụng miền tri thức nền lớn từ các máy tìm kiếm như
Google, Yahoo,…với đầu vào là các bài báo về gốc sứ cổ truyền Việt nam được xây
dựng bằng bằng tay thông qua máy tìm kiếm.
Dữ liệu đầu ra: Là CSDL bài báo về gốm sứ cổ truyền Việt nam chạy trên
SQL server 2005.
Bước 1: Thiết kế bảng CSDL
Phân tích, chuẩn hóa dữ liệu, ta lưu dữ liệu ở 3 bảng có cấu trúc như sau:
• CMS_Article: bảng này lưu các danh mục của bài báo gồm Mã bài báo
(ArticleID) là khóa chính, tiêu đề bài báo (Title), phần tóm tắt của bài báo
(Head), nội dung bài báo(Content), thời điểm đăng bài(PublishedTime, ngoài
ra bảng còn chứa hai khóa phụ là AuthorID, ChannelID
- 43 -
# Tên Cột KIểu dữ liệu Diễn giải
1 ArticleID Int Mã số bài báo-khóa chính
2 Title Nvarchar Tiêu đề
3 Head Nvarchar Phần tóm tắt
4 Content Nvarchar Nội dung bài báo
5 Address Nvarchar Địa chỉ Web đăng bài
6 PublishedTime Nvarchar Thời điểm đăng bài
7 AuthorID Nvarchar Mã tác giả
8 channelID Nvarchar Mã chuyên mục
Bảng 3.1 Thông tin về bài báo
• CMS_AuthorID: chứa thông tin về tác giả bài báo gồm mã tác giả(authorID),
tên tác giả(FullName), bút danh(Alias).
# Tên Cột KIểu dữ liệu Diễn giải
1 AuthorID Varchar Mã tác giả-khóa chính
2 FullName Nvarchar Tên tác giả
3 Alias Varchar Bút danh
Bảng 3.2 Thông tin về tác giả bài báo
• CMS_Channel: Chứa thông tin về chuyên mục các bài báo gồm, mã chuyên
mục(ChannelID), tên chuyên mục(Name).
# Tên Cột KIểu dữ liệu Diễn giải
1 ChannelID Varchar Mã chuyên mục-khóa chính
2 Name Varchar Tên chuyên mục
Bảng 3.3 Thông tin về chuyên mục bài báo
- 44 -
Bước 2: Thiết kế CSDL
Hình 3.1 Tạo mô hình liên kết thực thể
3.4. Một số trang màn hình cài đặt
Khởi tạo và cài đặt Project:
• Tạo cơ sở dữ liệu Thises trong SQL Server 2005 như thiết kế ở trên và nhập
dữ liệu thử nghiệm.
Hình 3.3 Thêm thông tin bài báo
- 45 -
Hình 3.4 Thêm nội dung thông tin Tác giả
Hình 3.5 Thêm nội dung thông tin chuyên mục
- 46 -
Hình 3.6 Tạo tìm kiếm thông tin
Hình 3.7 Giao diện chương trình Demo
- 47 -
Hình 3.8 Giao diện tìm kiếm thông tin
Hình 3.9 Giao diện thêm thông tin về tác giả
- 48 -
Hình 3.10 Giao diện thêm thông tin về chủ đề
Hình 3.11 Giao diện thêm thông tin về bài báo
- 49 -
Hình 3.12 Hiển thị các báo cáo theo chuyên mục 1
Hình 3.13 Hiển thị các báo cáo theo chuyên mục 2
- 50 -
Hình 3.14 Hiển thị các báo cáo theo chuyên mục 3
- 51 -
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Các kết quả đạt được
Kết quả luận văn đã thiết kế và xây dựng được một CSDL bài báo điện tử liên
quan tới Gốm sứ cổ truyền Việt Nam. Cơ sở dữ liệu này đã góp một phần không
nhỏ trong việc tra cứu, lưu trữ thông tin chi tiết các bài báo điện tử liên quan tới
gốm sứ cổ truyền Việt nam. Đây như là một thư viện thu nhỏ để phục vụ cho công
tác dạy và học tâp và nghiên cứu của Học viện Báo chí và Tuyên tuyền nói riêng và
phục vụ cho công tác dạy học, nghiên cứu nói chung.
Phương hướng nghiên cứu tiếp theo
Dữ liệu đầu vào được lấy một cách tự động, vùng dữ liệu không chỉ thu hẹp ở
các lĩnh vực về Gốm sứ Việt Nam mà được mở rộng. Tìm phương án xử lý khi
CSDL trở nên rất lớn, dữ liệu lấy ở nhiều nguồn khác nhau và được cập nhật tự
động.
Tiếp tục thiết kế, cài đặt hoàn chỉnh CSDL
Tiếp tục thiết kế chi tiết và rõ ràng hơn nữa trong việc xây dựng CSDL bài báo
điện tử liên quan tới Gốm sứ, tiến hành cài đặt hoàn chỉnh, đóng gói để CSDL trở
thành phần mềm ứng dụng thực tế trên thị trường.
- 52 -
TÀI LIỆU THAM KHẢO
Tiếng việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn
Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản Giáo
dục Việt Nam, 2009.
[2] M. Tamer, Ozsu, Biên dịch Trần Đức Quang, Nguyên Lý Các Hệ Cơ Sở
Dữ Liệu Phân Tán. Nhà Xuất bản Thống kê, 1999.
[3] Lê Tiến Vương, Nhập môn Cơ sở dữ liệu quan hệ. Nhà xuất bản Thống kê.
2000.
[4] Lương Mạnh Bá, Nguyễn Thanh Thủy. Nhập môn Xử lý ảnh số. Nhà xuất
bản Khoa học và Kỹ thuật.
[5] Hoàng Thị Lệ Chi (2009)-Thiết kế Cơ sở dữ liệu Phân tán Thuần nhất sử
dụng các Kỹ thuật Khai phá dữ liệu. Luận văn Thạc sĩ khoa học Đại học Bách khoa
Hà nội.
[6] Nguyễn Thị Thu Hằng (2009)-Xây dựng kho dữ liệu cho Hệ thống tổng
hợp thông tin Kinh tế-Xã hội. Luận văn thạc sĩ khoa học, Đại học Công nghệ, Đại
Học Quốc gia Hà nội.
[7] Nguyễn Thị Phương Nga (2008) – Nghiên cứu các Kỹ thuật khai phá dữ
liệu Ứng dụng trong Hóa học, Luận án Tiến sĩ, Đại học Bách khoa Hà Nội.
[8] Trần Hoài Nam (2004)-Cơ sở dữ liệu đa phương tiện Yêu cầu và Các vấn
đề.
Internet
[9] àng_gốm_Phù_lãng
[10] ốm_Chu_Đậu-Mỹ_Xá
[11] ốm_Bát_tràng
[12] âu 5 các-loại-dữ-liệu-đa-phương-tiện
[13]
[14]
[15]á_dữ_liệu
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-XÂY DỰNG CƠ SỞ DỮ LIỆU BÀI BÁO ĐIỆN TỬ LIÊN QUAN TỚI GỐM SỨ VIỆT NAM PHỤC VỤ ĐÀO TẠO TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN.pdf