Luận văn -Xây dựng cơ sở dữ liệu bài báo điện tử liên quan tới gốm sứ Việt Nam phục vụ đào tạo tại học viện báo chí và tuyên truyền

Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP chủ và cung cấp giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên máy chủ. Các ứng dụng máy khách kết nối đến dịch vụPivotTable bằng cách sử dụng giao diện OLE DB hoặc mô hình ADO. Các ứng dụng máy khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu OLAP.

pdf53 trang | Chia sẻ: lylyngoc | Lượt xem: 2362 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn -Xây dựng cơ sở dữ liệu bài báo điện tử liên quan tới gốm sứ Việt Nam phục vụ đào tạo tại học viện báo chí và tuyên truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
quả là điểm của những bài kiểm tra hay bài thi. Công nghệ giảng dạy: người dạy sử dụng nhiều loại công nghệ khác nhau để giải thích chứng minh và minh họa cho các chủ đề khác nhau. Như vậy cách dạy học theo phương pháp truyền thống sẽ rất hiệu quả nếu như việc chia sẻ thông tin không dễ dàng tìm thấy ở nơi khác, việc trình bày thông tin một cách nhanh chóng, tạo ra sự quan tâm của người học vào thông tin, tạo ra kỹ năng lắng nghe tốt trong quá trình học của người học. Tuy nhiên ở phương pháp dạy học truyền thống này có những mặt hạn chế nhất định của nó bởi không phải người học nào cũng có khả năng học tốt về lắng nghe, thường không duy trì lâu sự chú ý của người học, hạn hẹp trong việc tiếp thu thông tin, chưa phát huy hết năng lực vốn có của người học. 1.2.2. Học tập tương tác, tích cực. Phương pháp dạy học tích cực: là dạy học bằng hướng phát huy tính tích cực, chủ động, sáng tạo của người học. "Tích cực" trong phương pháp dạy học tích cực được dùng với nghĩa là hoạt động, chủ động, trái nghĩa với không hoạt động, thụ động chứ không dùng theo nghĩa trái với tiêu cực. Phương pháp dạy học tích cực hướng tới việc hoạt động hóa, tích cực hóa hoạt động nhận thức của người học, nghĩa là tập trung vào phát huy tính tích cực của người học chứ không phải là tập trung vào phát huy tính tích cực của người dạy, tuy nhiên để dạy học theo phương pháp tích cực thì người dạy phải nỗ lực nhiều so với dạy theo phương pháp thụ động. Đổi mới cách học: là phải đổi mới cách dạy, cách dạy chỉ đạo cách học, nhưng ngược lại thói quen học tập người học cũng ảnh hưởng tới cách dạy của người dạy. Chẳng hạn, có trường hợp người học đòi hỏi cách dạy tích cực hoạt động nhưng người dạy chưa đáp ứng được, hoặc có trường hợp người dạy hăng hái áp dụng - 17 - phương pháp dạy học tích cực nhưng không thành công vì người học chưa thích ứng, vẫn quen với lối học tập thụ động. Học tập tích cực là tích cực nhận thức, ham hiểu biết, có ý chí cố gắng trong quá trình lĩnh hội kiến thức, học tập tích cực tạo ra hứng thú, sinh ra tính tư duy độc lập và từ đó hình thành nên khả năng sáng tạo của người học. Tính tích cực là một phẩm chất vốn có của con người, bởi vì để tồn tại và phát triển con người luôn phải chủ động, tích cực cải biến môi trường tự nhiên, cải tạo xã hội, vì vậy, hình thành và phát triển tính tích cực xã hội là một trong những nhiệm vụ chủ yếu của giáo dục. Tính tích cực học tập về thực chất là tính tích cực nhận thức, đặc trưng bởi sự ham hiểu biết, cố gắng trí lực và có nghị lực cao trong quá trình chiếm lĩnh tri thức, tính tích cực nhận thức trong hoạt động học tập liên quan trước hết với động cơ học tập. Động cơ đúng tạo ra hứng thú, hứng thú là tiền đề của tự giác, hứng thú và tự giác là hai yếu tố tạo nên tính tích cực, tính tích cực sản sinh nếp tư duy độc lập, suy nghĩ độc lập là mầm mống của sáng tạo. Ngược lại, phong cách học tập tích cực độc lập sáng tạo sẽ phát triển tự giác, hứng thú, bồi dưỡng động cơ học tập. Tính tích cực học tập biểu hiện ở những dấu hiệu như: • Hăng hái trả lời các câu hỏi của giáo viên, bổ sung các câu trả lời của bạn, thích phát biểu ý kiến của mình trước vấn đề nêu ra; • Nêu lên thắc mắc, đòi hỏi giải thích cặn kẽ những vấn đề chưa đủ rõ; • Chủ động vận dụng kiến thức, kĩ năng đã học để nhận thức vấn đề mới; tập trung chú ý vào vấn đề đang học; • Kiên trì hoàn thành các bài tập, không nản trước những tình huống khó khăn… Tính tích cực học tập thể hiện qua các cấp độ từ thấp lên cao như: • Bắt chước: gắng sức làm theo mẫu hành động của thầy, của bạn… • Tìm tòi: độc lập giải quyết vấn đề nêu ra, tìm kiếm cách giải quyết khác nhau về một số vấn đề… • Sáng tạo: tìm ra cách giải quyết mới, độc đáo, hữu hiệu. 1.2.3. Vai trò của dữ liệu đa phương tiện trong công tác học tích cực. Công nghê thông tin nói chung, dữ liệu đa phương tiện nói riêng ngày càng trở nên hết sức quan trong công tác dạy và học, đặc biệt là trong công tác học tích cực. - 18 - Nâng cao được chất lượng dạy và học: thì trong đó phải có sử dụng hình ảnh, âm thanh, video để trích dẫn, làm dẫn chứng hay minh họa cụ thể của một vấn đề cho một bài giảng làm cho bài giảng thêm sinh động và tăng tính thuyết phục, lôi cuốn người học. Tuy nhiên cung không quá lạm dụng việc sử dụng dữ liệu đa phương tiện trong quá trình giảng dạy, điều đó sẽ làm phá vỡ đi cấu trúc trọng tâm chính của vấn đề cần truyền đạt và người học khó nắm được vấn đề. Như vậy, việc sử dụng dữ liệu đa phương tiện trong công tác học tích cực là rất cần thiết, nhưng chèn hình ảnh, âm thanh và video ra sao là do người dạy lựa chọn tùy thuộc vào nội dung bài giảng, tùy thuộc vào thời gian giảng và đối tượng người học. 1.3. Kho học liệu tại Học viện Báo chí và Tuyên truyền Kho học liệu của Học viện Báo chí và Tuyên truyền là một kho dữ liệu chứa dữ liệu khoa học của Học viện, kho học liệu của Học viện có đội ngũ cán bộ chuyên môn cao, trang thiết bị hiện đại, dữ liệu phong phú, đa dạng. Học viện không ngừng tuyển dụng, đào tạo, nâng cao trình độ khoa học cho các cán bộ, không ngừng sửa chữa, nâng cấp trang thiết bị máy móc hiện đại phục phụ cho việc tra cứu, tìm hiểu, lấy tư liệu của đội ngũ Cán bộ, Giảng viên, Học viên của Học viện. Dữ liệu trong kho học liệu luôn được cập nhật, bổ sung, để đảm bảo tính mới, tính đầy đủ, tính phong phú và đa dạng, từ đó đáp ứng kịp thời cho công tác dạy và học tại Học viện. 1.3.1. Kho dữ liệu bài giảng Hiện nay, có nhiều các hiểu khác nhau về kho dữ liệu, nhưng ta có thể định nghĩa kho dữ liệu như sau: Kho dữ là tập hợp các dữ liệu định hướng theo chủ đề, được tích hợp lại có tính phiên bản theo thời gian và kiên định được dùng cho việc hỗ trợ việc tạo quyết định quản lý. Tên gọi của bốn thuộc tính “định hướng theo chủ đề”, “được tích hợp lại”, “có tính phiên bản theo thời gian” và “kiên định” ở trên đã cung cấp một số nét cơ bản nhất về đặc trưng của kho dữ liệu. Kho dữ liệu bài giảng: là tập hợp các bài giảng có cấu trúc, thường sử dụng với mục đích dạy học, nghiên cứu khoa học…Ta có thể chia thành hai loại kho dữ liệu như sau: - 19 - • Kho dữ liệu đơn ngôn ngữ: là một kho dữ liệu lưu trữ bài giảng trong một ngôn ngữ. • Kho dữ liệu đa ngôn ngữ: là một kho dữ liệu lưu trư các bài giảng, các bài giảng có thể được viết bằng các ngôn ngữ khác nhau. Các kho dữ liệu đa ngôn ngữ được định dạng bằng cách so sánh các thành phần tương ứng giữa các ngôn ngữ này. Các kho dữ liệu bài giảng có ý nghĩa hết sức quan trọng trong vấn đề giảng dạy, học thống kê, tuy nhiên việc xây dựng một kho dữ liệu tốt không hề đơn giản, trong đó làm sao đảm được tính nhất quán cho dữ liệu gán nhãn trên toàn bộ kho dữ liệu. 1.3.2. Năng lực truy cập thông tin trên Intrernet của Học viện Chiến lược phát triển kinh tế xã hội nói chung, chiến lược phát triển khoa học công nghệ nói riêng là việc tiếp cận và áp dụng những thành tựu khoa học tiên tiến trên thế giới để bắt kịp với trình độ phát triển chung của các nước trong khu vực và trên thế giới. Để làm được điều này chúng ta phải sẵn sàng tiếp cận được công nghệ mới, tri thức mới. Ngày nay, Internet là một kho dữ liệu khổng lồ, giàu tài nguyên, Thông tin trên các trang Web rất đa dạng, phong phú về nội dung và hình thức. Một thách thức đặt ra là khả năng khai thác và sử dụng thông tin trong kho dữ liệu khổng lồ ấy làm sao có hiệu quả cao nhất, để làm được điều này chúng ta phải đào tạo học sinh, sinh viên, học viên, người học khi tốt nghiệp ra trường có những kỹ năng và kiến thức để làm chủ thế giới thông tin. Vậy, năng lực truy cập thông tin trên Internet của người dạy và người học là một trong những vấn đề cấp thiết cần được quan hàng đầu, cần được đào tạo, bồi dưỡng, tuyển dụng đội ngũ Giảng viên có trình độ công nghệ thông tin cao. Những năm về trước, khi ngành công nghệ thông tin bắt đầu có ở Việt Nam, hạ tầng cơ sở thấp, năng lực sử dụng công nghệ thông tin còn rất hạn chế. Tuy nhiên những năm gần đây khi ngành công nghệ thông tin bắt đầu phát triển và mở rộng tại Việt Nam, hạ tầng cơ sở bắt đầu lớn mạnh, nhờ có những lớp bồi dưỡng, tình thần tự tìm tòi, học hỏi của các thầy cô và cán bộ trong trường mà khả năng sử dụng công nghệ thông tin và năng lực truy cập Internet của thầy cô ngày càng tốt hơn. - 20 - 1.3.3. Nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của Học viện Hiện nay, nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của Học viện chủ yếu lấy từ kho học liệu của Học viện, Ngoài ra nguồn thông tin còn được thu thập và trích lọc từ kho dữ liệu các bài báo, kho dữ liệu các Video về gốm sứ mà là sản phẩm bài tập, bài kiểm tra thực tế của sinh viên, học viên của Học viện. 1.3.4. Nhu cầu về cơ sở dữ liệu thông tin đa phương tiện Nắm vững nhu cầu về CSDL thông tin đa phương tiện, đáp ứng kịp thời, chính xác là một trong những nhiệm vụ quan trọng trong công tác đào tạo tại Học viện. Ngày nay, khoa học xã hội ngày càng phát triển, các chuyên đào tạo trong Học viện ngày càng nhiều thì nhu cầu về cơ sở dữ liệu thông tin đa phương tiện ngày càng đa dạng và phong phú hơn. 1.4. Kết luận Trong thời kỳ công nghiệp hóa, hiện đại hóa, ngành Công nghệ thông tin đang trong đà phát triển mạnh, việc sử dụng dữ liệu đa phương tiện, áp dụng hình ảnh, âm thanh, video vào trong công tác đào tạo tại Học viện Báo chí và Tuyên truyền nói riêng, công tác giảng dạy và đào tạo nói chung là một nhu cầu cần thiết. - 21 - Chương 2: KHAI PHÁ DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU LIÊN QUAN TỚI GỐM SỨ CỔ TRUYỀN 2.1. Kiến trúc cơ sở dữ liệu văn bản 2.1.1. Kiến trúc chung Kiến trúc: là một hệ thống xác định cấu trúc của nó, các thành phần được hệ thống xác định, chức năng mỗi thành phần được mô tả, các mối quan hệ và tương tác giữa các thành phần này được định nghĩa. Đặc tả về kiến trúc cho các hệ thống phần mềm đò hỏi phải xác định rất nhiều đơn thể với các giao diện và mối quan hệ qua lại giữa dòng điều khiển xuyên suốt hệ thống. Có 3 cách tiếp cận khác nhau: • Dựa trên các thành phần: các thành phần của chúng được định nghĩa cùng với mối tương quan giữa chúng. Như vậy, DBMS gồm một số thành phần, mỗi thành phần cung cấp một số chức năng vận hành nào đó. Tương tác có trật tự và có hệ thống giữa chúng cung cấp toàn bộ chức năng của hệ thống. Đây là tiếp cận mong muốn nếu mục tiêu đối tượng là thiết kế và cài đặt hệ thống đang xem xét. Ngược lại sẽ rất khó khăn khi cần xác định chức năng của hệ thống bằng cách xem các thành phần của nó. • Dựa trên chức năng: các nhóm người được sử dụng được xác định và các chức năng mà hệ thống được thực hiện cho mỗi nhóm được định nghĩa. Đặc tả hệ thống loại này điển hình là mô tả cấu trúc phân cấp của các nhóm người sử dụng. Kết quả là tạo ra một kiến trúc hệ thống phân cấpvới các giao diện được định nghĩa rõ ràng giữa các chức năng và các tầng khác nhau. • Dựa trên dữ liệu: các kiểu dữ liệu khác nhau sẽ được định nghĩa, và bộ khung kiến trúc được đặc tả nhằm nhằm định nghĩa các đơn vị chức năng sẽ tiếp nhận hoặc sử dụng dữ liệu trên những góc độ khác nhau. Bởi dữ liệu là tài nguyên chính mà DBMS cần quản lý, cách tiếp cận này được ưa chuộng đối với hoạt động tiêu chuẩn hoá. Ưu điểm của tiếp cận trên dữ liệu là tầm quan trong chủ chốt đã được đặt vào tài nguyên dữ liệu. Trên quan điểm của của hệ quản trị CSDL, điều này rất có ý nghĩa bởi vì tài nguyên căn bản mà DBMS quản lý là dữ liệu. Tuy nhiên chúng ta không thể đặc tả đầy đủ một kiến trúc trừ khi mô đun chức năng cũng được mô tả. Cả ba cách tiếp cận trên điều phải được sử dụng khi ta định nghĩa một mô hình kiến trúc, trong đó mỗi góc độ ta sẽ tập trung vào các khía cạnh khác nhau của mô - 22 - hình kiến trúc, kiến trúc ANSI/SPARC thuộc vào nhóm phương pháp dựa vào tổ chức dữ liệu, nó cho phép ba hình ảnh về dữ liệu: • Khung nhìn ngoài: là cách nhìn của người sử dụng, kể cả lập trình viên; • Khung nhìn trong: là cách nhìn của hệ thống; • Khung nhìn khái niệm: là cách nhìn của công ty hay xí nghiệp. Hình 2.1 Kiến trúc ANSI/SPARC • Lược đồ trong: là lược đồ ở mức thấp nhất của kiến trúc, là mức xử lý phần định nghĩa và tổ chức vật lý của dữ liệu. Vị trí của dữ liệu trong thiết bị lưu trữ, cơ chế truy nhập được sử dụng là những vấn đề được cập nhật ở mức này. • Lược đồ ngoài: là tập khung nhìn của từng người sử dụng biểu thị cho phần CSDL mà người dùng có thể truy cập cũng như mối liên hệ giữa các dữ liệu người dùng có thể thấy được. Nhiều người sử dụng có thể dùng chung một khung nhìn. • Lược đồ khái niệm: là lược đồ nằm giữa lược đồ ngoài và lược đồ trong, là ý nghĩa khái niệm của CSDL. 2.1.2. Các chức năng trong cơ sở dữ liệu văn bản CSDL văn bản cũng có một số chức năng chính như: Lưu trữ, truy câp, tổ chức và xử lý. • Lưu trữ trên đĩa và có thể chuyển đổi từ CSDL này sang CSDL khác, ta có thể sử dụng các hệ quản trị CSDL nhỏ như Excel, Access, MySQL, ProrgraSQL, hay SQL Server, Oracle. - 23 - • Truy cập dữ liệu phụ thuộc vào yêu cầu và mục đích của người sử dụng. Ở mức cục bộ dữ liệu được truy cập ngay chính trong CSDL nhằm xử lý dữ liệu bên trong của chính nó. Khi mục đích yêu cầu vượt ra ngoài CSDL ta cần có sự cập nhật giữa các CSDL với nhau. • Tổ chức CSDL văn bản phụ thuộc vào mô hình cơ sở dữ liệu, phụ thuộc vào đặc điểm riêng của từng ứng dụng cụ thể. • Trong nhiều trường hợp cần xử lý, truy vấn dữ liệu theo yêu cầu và mục đích khác nhau, ta phải truy vấn cùng với các phép toán, phát biểu CSDL để kết xuất ra yêu cầu của việc xử lý. 2.2. Kiến trúc cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền Việt Nam 2.2.1. Nội dung liên quan tới gốm sứ cổ truyền Gốm sứ bát tràng: là tên gọi cho các loại đồ gốm được sản xuất tại làng Bát tràng thuộc xã Bát tràng, huyện Gia lâm, Hà nội. Theo nghĩa Hán Việt, chữ Bát nghĩa là Bát ăn của nhà sư, chữ tràng có nghĩa là “cái sân lớn” là mảng đất dành riêng cho chuyên môn. Để làm gốm sứ người chọn phải qua các khâu xử lý và pha chế đất, tạo dáng, tạo hoa văn, phủ men và cuối cùng là nung sản phẩm. • Chọn đất: điều quan trong đầu tiên để hình thành nên các lo gốm là nguồn đất sét làm gốm • Xử lý, pha chế đất: trong đất nguyên liệu thường có tạp chất, ngoài ra tùy thuộc vào yêu cầu của từng loại gốm khác nhau mà có những cách pha chế khác nhau để tạo ra sản phẩm phù hợp. • Tạo dáng: phương pháp tạo dáng cổ truyền của người làng Bát tràng là làm bằng tay trên bàn xoay. Trong khâu tạo dáng, người thợ gốm Bát tràng, sử dụng phổ biến lối “vuốt tay, be chạch” trên bàn xoay. Ngày nay, theo yêu cầu sản xuất gốm công nghệ hay mĩ nghệ, nghệ nhân gốm có thể đắp nặn một sản phẩm mẫu để đổ khuôn thạch cao phục phụ cho việc sản xuất hàng loạt. • Phơi sấy và sửa hàng mộc: tiến hành phơi hàng mộc sao cho khô, không bị nứt nẻ, không làm thay đổi hình dạng của sản phẩm. Biện pháp tối ưu mà lâu nay người dân Bát trang vẫn sử dụng là hong khô hiện vật trên giá và để nơi thoáng mát. Ngày nay nhiều người đã sử dụng sấy hiện vật trong lò sấy, tăng - 24 - nhiệt độ từ từ để nước bốc hơi dần. Sau khi sản phẩm đã định hình cần đem “ủ vóc” và sửa lại cho hoàn chỉnh. • Quá trang trí hoa văn và phủ men: Để trang trí hoa văn người thợ gốm Bát tràng vẽ trực tiếp lên nền mộc các văn họa tiết, thợ vẽ gốm phải có tay nghề cao, hoa văn học tiết phải hài hòa với giáng gốm • Tráng men: khi sản phẩm mộc đã hoàn chỉnh, người thợ gốm có thể nung sơ bộ sản phẩm ở nhiệt độ thấp, rồi sau đó mới đem tráng men hoặc dùng ngay sản phẩm mộc hoàn chỉnh đó trực tiếp tráng men lên trên rồi mới nung. Kỹ thuật tráng men có nhiều hình thức như phun men, dội men lên bề mặt cốt gốm cỡ lớn, nhúng men đối với loại gốm nhỏ, nhưng thông dụng nhất là tráng men ngoài sản phẩm, gọi là “kim men”, và khó hơn là hình thức “quay men” và “đúc men”. • Quá trình nung: khi công việc chuẩn bị đã hoàn tất thì đốt lò trở thành khâu quyết định thành cộng hay quyết định của một mẻ gốm, việc nung gốm theo nguyên tác nâng cao dần nhiệt độ lò đến nhiệt độ cao nhất, khi gốm chin thì hạ dần nhiệt độ lò. Những đặc điểm của gốm Bát Tràng: Hầu hết, đồ gốm Bát Tràng được sản xuất theo lối thủ công, thể hiện rõ rệt tài năng sáng tạo của người thợ lưu truyền qua nhiều thế hệ. Do tính chất của các nguồn nguyên liệu tạo cốt gốm và việc tạo dáng đều làm bằng tay trên bàn xoay, cùng với việc sử dụng các loại men khai thác trong nước theo kinh nghiệm nên đồ gốm Bát Tràng có nét riêng là cốt đầy, chắc và khá nặng, lớp men trắng thường ngả mầu ngà, đục. Dựa vào ý nghĩa sử dụng, có thể phân chia loại hình của đồ gốm Bát Tràng như sau: • Đồ gốm gia dụng: Bao gồm các loại đĩa, chậu hoa, âu, thạp, ang, bát, chén, khay trà, ấm, điếu, nậm rượu, bình vôi, bình, lọ, choé và hũ. • Đồ gốm dùng làm đồ thờ cúng: Bao gồm các loại chân đèn, chân nến, lư hương, đỉnh, đài thờ, mâm gốm và kiếm. Trong đó, chân đèn, lư hương và đỉnh là những sản phẩm có giá trị đối với các nhà sưu tầm đương đại vì lẽ trên nhiều chiếc có minh văn cho biết rõ họ tên tác giả, quê quán và năm tháng chế tạo, nhiều chiếc còn ghi khắc cả họ và tên của những người đặt hàng. Đó là một nét đặc biệt trong đồ gốm Bát tràng. - 25 - • Đồ trang trí: Bao gồm mô hình nhà, long đình, các loại tượng như tượng nghê, tượng ngựa, tượng Di Lặc, tượng Kim Cương, tượng hổ, tượng voi, tượng người ba đầu, tượng đầu khỉ mình rắn và tượng rồng. • Trang trí: Thế kỉ 14–15: Hình thức trang trí trên gốm Bát Tràng bao gồm các kiểu như khắc chìm, tô men nâu theo kĩ thuật gốm hoa nâu thời Lý–Trần, kết hợp với chạm nổi và vẽ men lam. Gốm Bát Tràng có 5 dòng men đặc trưng được thể hiện qua mỗi thời kì khác nhau để tạo nên những sản phẩm đặc trưng khác nhau: men lam xuất hiện khởi đầu ở Bát Tràng với những đồ gốm có sắc xanh chì đến đen sẫm; men nâu thể hiện theo phong cách truyền thống và được vẽ theo kĩ thuật men lam; men trắng ngà sử dụng trên nhiều loại hình đồ gốm từ thế kỉ 17 đến thế kỉ 19, men này mỏng, màu vàng ngà, bóng thích hợp với các trang trí nổi tỉ mỉ; men xanh rêu được dùng kết hợp với men trắng ngà và nâu tạo ra một đòng Tam thái rất riêng của Bát Tràng ở thế kỉ 16– 17 và men rạn là dòng men chỉ xuất hiện tại Bát Tràng từ cuối thế kỉ 16 và phát triển liên tục qua các thế kỉ 17–19. Hình 2.2 Chân đèn gốm tráng men lam, loại men nổi tiếng của Bát Tràng Gốm sứ Chu đậu: gốm Chu Đậu-Mỹ Xá, còn được biết đến là gốm Chu Đậu, là gốm sứ cổ truyền Việt Nam đã được sản xuất tại vùng mà nay thuộc làng Chu Đậu và làng Mỹ Xá, thuộc các xã Minh Tân và Thái Tân, huyện Nam Sách, tỉnh Hải Dương. Loại gốm sứ này thường được nhắc đến với tên gốm Chu Đậu là do lần đầu tiên người ta khai quật được các di tích của dòng gốm này ở Chu Đậu. Sau này, khi khai quật tiếp ở Mỹ Xá (làng bên cạnh Chu Đậu) thì người ta phát hiện ra khối lượng di tích còn đa dạng hơn và có một số nước men người ta không tìm thấy trong số các di tích khai quật được tại Chu Đậu, Gốm sứ Chu Đậu là dòng gốm nổi tiếng vì màu men và họa tiết thuần Việt. Nó đã từng xuất khẩu sang nhiều nước châu Âu. Năm 1997, sau khi tìm được rất nhiều gốm Chu Đậu trong con tàu đắm ở Cù Lao - 26 - Chàm (Nghệ an) của người Bồ Đào Nha, dòng gốm này mới được biết đến và nổi tiếng, tại Mỹ Xá có gia phả dòng họ 14 đời có ghi câu "Tổ tiên lấy nghề nung bát làm nghiệp". Mới đây, các nhà khảo cổ đã khẳng định bà Bùi Thị Hý là tổ nghề gốm Chu Đậu, dòng gốm sứ này có thể đã được hình thành và phát triển trong khoảng từ thế kỷ 13 đến thế kỷ 18. Có nguồn nói, nó bị hủy diệt do chiến tranh Lê- Mạc cuối thế kỷ 16. Hình 2.3 Hai bình Âm dương gốm Chu đậu Gốm sứ Phủ lãng: Làng gốm Phù Lãng thuộc xã Phù Lãng, huyện Quế Võ, tỉnh Bắc Ninh, cách Hà Nội khoảng 60 km và cách sông Lục đầu khoảng 4 km. Phù Lãng nằm bên bờ sông Cầu và có nhiều bến đò ngang suốt ngày chở khách qua lại. Địa danh Phù Lãng có thể có từ cuối thời Trần đầu thời Lê, vào thời kỳ này, Phù Lãng có 3 thôn: Trung thôn, Thượng thôn, Hạ thôn. Gốm Phù Lãng tập trung vào 3 loại hình: • Gốm dùng trong tín ngưỡng (lư hương, đài thờ, đỉnh...); • Gốm gia dụng (lọ, bình, chum, vại, bình vôi, ống điếu...); • Gốm trang trí (bình, ấm hình thú như ngựa, voi...). Gốm Phù Lãng có nét sắc thái riêng biệt, đó là những sản phẩm gốm men nâu, nâu đen, vàng nhạt, vàng thẫm, vàng nâu… mà người ta gọi chung là men da lươn. Thêm nữa, nét đặc trưng nổi bật của gốm Phù Lãng là sử dụng phương pháp đắp nổi theo hình thức chạm bong, còn gọi là chạm kép, màu men tự nhiên, bền và lạ; dáng của gốm mộc mạc, thô phác nhưng khỏe khoắn, chứa đựng vẻ đẹp nguyên sơ của đất với lửa, và rất đậm nét của điêu khắc tạo hình. • Kỹ thuật làm gốm: Một xưởng sản xuất gốm gồm năm nhóm chính: tổ lò, tổ chuốt, tổ họa tiết, tổ men, tổ làm sạch. Khác với những sản phẩm gốm lấy chất liệu từ “xương” đất sét xanh của Thổ Hà, sét trắng của Bát Tràng, gốm - 27 - Phù Lãng được tạo nên từ “xương” đất đỏ hồng lấy từ vùng Thống Vát, Cung Khiêm (Bắc Giang). • Tạo hình: gốm Phù Lãng được sử dụng nhiều phương pháp khác nhau trong nghệ thuật tạo dáng, với những hình khối đa dạng. Nhưng nhìn chung có thể quy vào hai phương pháp cơ bản: tạo hình trên bàn xoay và in trên khuôn gỗ hoặc khuôn đất nung rồi dán ghép lại. • Chất liệu làm men tráng gồm có: Tro cây rừng (loại cây mà khi đốt, tàn tro trắng như vôi, như tàn thuốc, sau khi quét men và phơi khô, sản phẩm có màu trắng đục. • Quá trình nung:Sau công đoạn vào men và tạo mầu, phơi khô, sản phẩm được đưa vào lò nung ở nhiệt độ đến 1.000 độ C, để đảm bảo gốm sành nâu có lớp da ngoài đanh mặt, nhẵn bóng và chắc. Xếp sản phẩm trong lò nung phải tuân theo nguyên tắc tiết kiệm tối đa không gian trong lò. Nếu vẻ đẹp của Bát Tràng là sự đa dạng về nước men, những nét vẽ tinh tế, thì hồn cốt của Phù Lãng được tạo nên từ sự dân dã, mộc mạc của nước men da lươn này. Hinh 2.4 Bình hoa gốm Phù Lãng hiện đại 2.2.2. Các chức năng cần thiết đối với cơ sở dữ liệu văn bản gốm sứ Cơ sở dữ liệu văn bản gốm sứ là một trong những cơ sở dữ liệu văn bản quan trong việc truy cập, lưu trữ, tổ chức và xử lý phục phụ cho công tác học tập, nghiên cứu, duy trì và phát triển nền văn hóa của dân tộc Việt Nam. Cơ sở dữ liệu văn bản gốm sứ phải là CSDL có các chức năng cần thiết sau: • Có thể truy cập được được CSDL; • Có thể tìm kiếm thông tin cần thiết liên quan tới các văn bản về gốm sứ; - 28 - • Có thể lấy được các thông tin khi tìm thấy; • Có thể hiển thị thông tin và sử dụng được thông tin khi tìm thấy; • Có thể cập nhật thông tin mới. 2.3. Khai phá dữ liệu văn bản Khai phá dữ liệu văn bản: là một quá trình trích chọn ra các tri thức mới, có giá trị và tác động được đang tiềm ẩn trong các văn bản để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ người dùng. Ta có kiến trúc điển hình của hệ thống khai phá dữ liệu sau: Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản Về bản chất của khai phá dữ liệu văn bản là sự kết hợp của khai phá dữ liệu và xử lý ngôn ngữ tự nhiên, quá trình khai phá dữ liệu văn bản là cụ thể hóa quá trình khai phá dữ liệu đối với dữ liệu văn bản, với giả thiết đã xác định được: một là bài toán khai phá dữ liệu văn bản, hai là miền dữ liệu văn bản thuộc miền ứng dụng, quá trình khai phá dữ liệu văn bản thực hiện qua các bước sau: • Thu thập dữ liệu văn bản thuộc miền ứng dụng, cụ thể ở đây là các bài báo trên Web liên quan tới gốm sứ Việt nam.. • Biểu diễn dữ liệu văn bản thu thập được sang khuôn dạng phù hợp với bài toán khai phá văn bản. • Lựa chọn tập dữ liệu đầu vào cho bài toán khai phá dữ liệu • Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã được lựa chọn để tìm ra các mẫu, các tri thức. - 29 - • Thực hiện khai thác sử dụng các mẫu, các tri thức nhận được từ quá trình khai thác văn bản vào thực tiễn hoạt động. Để khai phá dữ liệu văn bản người ta sử dụng một vài bài toán khai phá điển hình như: Tìm kiếm, phân tích ngữ nghĩa, phân cụm, phân lớp, trích trọn đặc trưng, tóm tắt văn bản… Bài toán trích rút quan hệ: là một trong những bài toán quan trọng trong lĩnh vực khai phá tri thức mang tầm vóc lớn, vì ứng dụng của nó rất đa dạng. Ngoài việc làm giàu thêm lượng thông tin, nó còn được xem là một phương pháp hiệu quả để đưa ra phương pháp xử lý cho các hệ thống như: hệ thống hỏi đáp, xây dựng cơ sở tri thức, phát hiện ảnh qua đoạn văn bản… Các phương pháp trích rút quan hệ ngữ nghĩa đã được đề xuất khá phong phú, từ phương pháp học thống kê, có giám sát dựa trên dữ liệu đã gán nhãn, hay các phương pháp dựa trên luật học bán giám sát…. Để rút trích quan hệ ngữ nghĩa trong văn bản ta có thể tham khảo và áp dụng một số phương pháp Phương pháp DIPRE: Năm 1988, Sergey Brin đã giới thiệu phương pháp học bán giám sát, đặt tên là DIPRE, cho việc trích rút quan hệ ngữ nghĩa. Phương pháp này được thử nghiệm để trích mối quan hệ “tác giả” và “ cuốn sách”, với tập dữ liệu ban đầu khoảng 5 ví dụ cho mỗi mẫu quan hệ. Hệ thống DIPRE mở rộng tập ban đầu thành một danh sách khoảng 1500 cuốn sách. Phương pháp DIRPE có thể được mô tả như sau: Đầu vào: Tập các mẫu quan hệ S= {}, tập dữ liệu D; Đầu ra: Tập R các quan hệ trích rút được • Bước 1. RS Tập đích được khởi tạo từ tập mồi S. Tập mẫu quan hệ S có thể là rất nhỏ • Bước 2. OFindOccurrences(R’,D). Tìm tất cả các xuất hiện trong mẫu quan hệ của tập dữ liệu D; • Bước 3. RGenPatterns(O) Dựa vào tập câu đã tìm được, tiến hành tìm các mẫu quan hệ giữa các thành phần của mẫu quan hệ ban đầu, Sergey Brin định nghĩa ban đầu rất đơn giản, bằng việc giữ lại m ký tự trước thành phần mẫu quan hệ đầu tiên, giữ lại phía sau thành phần thứ hai n ký tự, và k ký tự nằm giữa hai thành phần này là m. Bằng một - 30 - phương pháp đơn giản để giữ lại các phần đầu, phần giữa và phần cuối phổ biến (Xuất hiện nhiều lần trong dữ liệu). Kết quả nhận được biểu diễn dưới dạng: o [1, phần đầu, phần cuối, phần giữa], thì Tác giả đứng trước sách. o [0, phần đầu, phần cuối, phần giữa], thì tác giả đứng sau sách. • Bước 4. R’MD(O) Từ tập mẫu mới thu nhận được ta có thể trích rút các cặp quan hệ <Tác giả, Sách> mới trong tập dữ liệu D, bổ sung các cặp quan hệ thu được vào R; • Bước 5. Khi R đủ lớn thì dừng lại, ngược lại quay lại bước 2 để tìm những cặp quan hệ và mẫu mới. Phương pháp Snowball Snowboll: là hệ thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu mẫu quan hệ làm nhân, Trong quá trình thực hiện mẫu và tập quan hệ mới được sinh ra cần đánh giá chất lượng. Giải thuật được thực nghiệm trên mối quan hệ “tổ chức-địa điểm”, thể hiện trụ sở chính của tổ chức có vị trí thuộc “địa điểm” với mẫu quan hệ ban đầu như Microsoft-Redmond, IBM-Armonk, Boeing-seatile, Intel –Santa Santa clara. Nội dung cơ bản của phương pháp Snowball Đầu vào: Một tập văn bản D (tập huấn luyện); tập nhân mẫu quan hệ d ban đầu S gồm các cặp mẫu quan hệ nào đó. Mỗi cặp quan hệ gồm hai thực thể A và B có quan hệ dạng: hay , như vậy S= {}; Đầu Ra: Tập R là các quan hệ rút trích được; • Bước 1: Tìm sự xuất hiện của các cặp quan hệ trong dữ liệu R=S; Với mỗi cặp quan hệ trong S, tìm trong D tất cả các câu có chứa cả A và B. Tiến hành phân tích, chọn lọc và rút trích các mẫu, một câu khớp với biểu thức *A*B* thì cụm từ đứng trước A gọi là Trái, cụm từ đứng giữa A và B gọi là Giữa và cụm từ đứng sau B gọi là Phải • Bước 2: Tìm sự xuất hiện của các thực thể trong dữ liệu Tiến hành phân cụm tập mẫu, Snowball sử dụng hàm Match để tính độ tương đồng giữa các mẫu và xác định ngưỡng tương đồng tsin cho việc gom cụm nhằm - 31 - làm giảm số lượng các mẫu cũng như làm cho mẫu có tính khái quát hơn. Độ tương đồng giữa hai mẫu được biểu diễn bởi hàm Match (mẫu 1, mẫu 2): Match(mẫu1, mẫu2) = (wTrái1,wTrái2)+(wGiữa1.wGiữa2)+(wPhải1.wPhải2) Các mẫu sau khi tìm thấy được dùng để trích rút các cặp quan hệ mới trong D, sau đó đối chiếu từng cặp quan hệ mới tìm thấy với tập R để kiểm tra chất lượng của mẫu, từ đó chọn mẫu mới có độ chính xác cao, cặp quan hệ mới thuộc một trong các trường hợp sau: Positive: Nếu đã nằm trong tập R; Negative: Nếu chỉ có đúng một trong hai (A’, hoặc B’) xuất hiện trong tập R; Unknown: nếu , cả hai đều không xuất hiện trong tập R. Tập Unknown được xem là tập các quan hệ mới trong vòng lặp sau. • Bước 3: sinh mẫu mới Snowball có độ chính xác của từng mẫu dựa trên số Positve và Negative của nó và chọn ra N mẫu có điểm cao nhất. • Bước 4: Tìm các Mẫu quan hệ D mới. Với mỗi mẫu trong danh sách tốp N thu nhận lại được bổ sung vào tập mẫu để trích rút tập R’ các cặp quan hệ mới trong tập dữ liệu D. Bổ sung các tập quan hệ vào R: R=R hợp R’; để làm tăng tính chính xác cho hệ thống, các cặp trong quan hệ R’ được đánh giá để lựa chọn ra M cặp được đánh giá tốt nhất và M cặp này được dùng làm mẫu quan hệ cho quá trình rút mẫu kế tiếp, Hệ thống tiếp tục quay lại bước 1. Quá trình trên tiếp tục lặp cho đến khi Hệ thống không tìm được cặp mới hoặc lặp theo số lần mà ta xác định trước. Sau đây là thủ tục sinh mẫu mới của phương pháp Snowball: - 32 - Sub GenerateTuples (Patterns) Foreach text_segment in corpus (1) {, }=CreateOccurence (text_segment); Tc=; Sim Best=0; Foreach p in Patterns (2) sim = Match (, p); If (sim ≥ T sim) (3) UpdatePatternSelectivity (p, TC); Sim Best= sim; P Best =p; If (Sim Best≥ Tsim) CandidateTuples[TC]. Patterns [PBest] = SimBest; Return CandidatetTuples Bảng 2.1 Thủ tục sinh mẫu mới của phương pháp Snowball Dựa vào hai phương pháp trên, ta có thể thiết kế thử nghiệm một hệ thống CSDL dạng hỏi đáp các loại gốm sứ cổ truyền Việt nam và tác giả bài báo, ví dụ như sau: Mối quan hệ Phần đầu của mẫu quan hệ Phần cuối của mẫu quan hệ Gốm sứ Bát tràng Hồ Chí Minh Gốm sứ Chu đậu Nam cao ….. … Bảng 2.2 Một số ví dụ về mẫu quan hệ - 33 - Mối quan hệ Mẫu tổng quát gốm sứ của gốm sứ của Bảng 2.3 Một số mẫu tổng quát Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp Hình 2.7 Mô tả quá trình trích rút quan hệ nghữ nghĩa - 34 - Quy trình thiết kế CSDL được thực hiện như sau: Đầu vào: Tập các quan hệ nhân ban đầu, các quan hệ gồm cặp thực thể gồm hai thành phần , , <chuyên mục gốm sứ, tên bài báo> Đầu ra: CSDL gồm tập các cặp quan hệ trích rút được và tập các mẫu trích rút • Bước 1: Thu thập dữ liệu Tận dụng miền tri thức nền lớn từ các máy tìm kiếm như Google, Yahoo,…với đầu vào là tập mẫu ban đầu được xây dựng bằng tay, thông qua máy tìm kiếm ta tìm được một tập các trang Web có chứa đầy đủ hai thành phần của tập mẫu quan hệ này. • Bước 2: Tiền xử lý.  Loại bỏ thẻ HTML, lấy nội dung chính của trang Web.  Tách câu, tách từ, tìm các cặp từ là hai thành phần của qua hệ mẫu.  Mở rộng tập thực thể cho từng mối quan hệ thực thể ban đầu • Bước 3: Gán nhãn tổng quát  Từ tập thực thể mở rộng, ứng với mỗi cặp thực thể ta tiến hành gán nhãn cho cặp thực thể đó.  Xác định thành phần trái, thành phần phải, thành giữa của các thực thể cho các thực thể được gán nhãn, dựa vào tập câu thu được  Biểu diễn thành phần trái, thành phần phải, thành giữa dưới dạng vector, ta có được tập mẫu thô. • Bước 4: Phân cụm mẫu.  Tiến hành so khớp các thành phần trái, thành phần phải, thành giữa giữa các mẫu thô để loại bỏ các mâu thô trùng  Xác định các mẫu quan hệ được thực hiện bằng phân cụm mẫu thô. Mỗi cụm đại diện bởi một mẫu và quá trình phân cụm được thực hiện như sau: với những mâu thô được sinh ra  Nếu độ tương đồng vượt qua một ngưỡng xác định, thì mẫu thô đó thuộc vào nhóm có độ tương đồng cao nhất. Ngược lại mẫu đó thuộc đại diện cho một nhóm mới được sinh ra - 35 - • Bước 5. sinh ra mẫu quan hệ mới  Những mẫu tổng quát đã nhận được là đầu vào cho CSDL để tìm ra tập câu có chứa các mẫu đó.Nhận dạng thực thể có chứa trong tập câu dựa vào các thực thể mở rộng.  Kiểm tra độ tin cậy của các mẫu qua hệ mới được sinh ra. Những mẫu quan hệ vượt qua một giá trị ngưỡng thì giữ chúng lại.  Quay lại bước 1, sử dụng tập quan hệ mẫu mới nhận được cùng với tập mẫu quan hệ ban đầu đưa vào CSDL để tiến hành sinh tập mẫu quan hệ mới và tìm thêm tập mẫu quan hệ mới cho mối quan hệ đó, vòng lặp dừng khi mẫu quan hệ mới hoặc mẫu mới không còn được tiếp tục sinh ra. 2.4. Kết luận Qua việc trình bày về kiến trúc chung về cơ sở dữ liệu, kiến trúc CSDL văn bản, những nội dung liên quan tới gốm sứ cổ truyền Việt nam, những chức năng cơ bản của cơ sở dữ liệu văn bản, từ đó ta thấy được mức độ cần thiết của CSDL văn bản liên quan tới gốm sứ cổ truyền Việt nam trong công tác giảng dạy tại Học viện Báo chí và Tuyên truyền. Đồng thời dựa vào các khái niệm, quá trình khai phá dữ liệu để ta tiến hành tìm hiểu về khai phá, thiết kế CSDL văn bản liên quan tới gốm sứ cổ truyền phục phụ cho công tác dạy học tại Học viên. - 36 - Chương 3: KHAI THÁC CƠ SỞ DỮ LIỆU VỀ GỐM SỨ CỔ TRUYỀN TRONG CÔNG TÁC GIẢNG DẠY TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN 3.1. Hạ tầng công nghệ thông tin tại Học viện Hiện nay hạ tầng công nghệ thông tin tại Học viện Báo chí và Tuyên truyền có các thiết bị CNTT như: • Máy chủ: đặt tại trung tâm thông tin khoa học của Học viện; • Các cáy tính bộ phân được đưa vào sử dụng ở các phòng, ban, phòng học; • Máy in, máy quét, máy photocopy được trang bị đầy đủ tại các phòng, ban, Camera giám sát được lắp đặt ở các phòng học. • Hệ thống mạng được kết nối với đường truyền có băng thông lớn. • Có đầy đủ trang thiết bị cho các hệ thống báo cháy, hệ thống điều hòa nhiệt độ, hệ thống khóa, bảo mật cao. Tuy nhiên do điều kiện kinh tế còn hạn chế, hạ tầng công nghệ thông tin tại Học viện thiếu nhiều những trang thiết bị hiện đại, việc nâng cấp, sửa chữa trang thiết bị kịp thời để phục vụ tốt hơn nhu cầu dạy và học còn chậm. Đây là vấn đề quan trong cần được Học viện quan tâm, để thực hiện tốt công tác đào tạo, nghiên cứu khoa học của Học viện trong thời kỳ hội nhập hiện nay và trong tương lai. 3.2. Một số môn học liên quan tới Gốm sứ cổ truyền Hình ảnh Gốm sứ cổ truyền của một nước là sự thể hiện một phần rất lớn nền văn hóa của một nước, chính vì vậy ta phải bảo vệ, tôn tạo và phát triển ngành gốm sứ cổ truyền. Để làm được điều này ngoài các bộ phận, các cơ quan có liên quan tới việc bảo vệ, tôn tạo và phát triển gốm sứ, ngành giáo dục cũng phải chú trong nhiều hơn nữa các môn học có liên qua như: • Kỹ thuật gốm sứ; • Chuyên ngành Vật liệu và Công nghệ Vật liệu Xây dựng; • Cấu trúc và tính chất của vật liệu Silicat; • Công nghệ Vật liệu Chịu lửa; • Công nghệ Gốm sứ; - 37 - • Công nghệ Thủy tinh; • Phát thanh-truyền hình; • Báo chí; • Văn hóa học, • Ngôn ngữ học. • … 3.3. Thiết kế chi tiết của cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền 3.3.1. Công cụ Olap trong SQL Server 2005 OLAP: là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu trong kho dữ liệu, OLAP tạo khối cho dữ liệu bằng các bảng chiều và bảng sự kiện, cung cấp khả năng thực hiện các truy vấn và phân tích cho các ứng dụng máy khách. Trong khi kho dữ liệu lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng máy khách truy xuất hiệu quả dữ liệu này, OLAP cung cấp nhiều lợi ích cho người phân tích như: • Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu; • Cung cấp một ngôn ngữ truy vấn, phân tích; • Dữ liệu được tính toán trước đối với các truy vấn thường xuyên, nhằm làm cho thời gian trả lời nhanh đối với các truy vấn đặc biệt. • Cung cấp các công cụ mạnh, giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt. Ứng dụng OLAP: OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian. Dịch vụ OLAP: là một máy phục vụ tầng giữa, phục vụ cho phân tích xử lý trực tuyến, hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối cho các máy khách. - 38 - Các đặc điểm của dịch vụ OLAP: • Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện. • Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ. • Các khối có thể ghi:. • Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP. • Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu • Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý. Các mô hình lưu trữ hỗ trợ OLAP: • Mô hình Olap đa chiều Mô hình OLAP đa chiều lưu trữ dữ liệu cơ sở và thông tin tổng hợp (là các độ đo được tính toán từ các bảng) trong các cấu trúc đa chiều gọi là các khối. Các cấu trúc này được lưu bên ngoài cơ sở dữ liệu data mart hoặc kho dữ liệu. Lưu trữ các khối trong cấu trúc OLAP đa chiều là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh. Mô hình OLAP đa chiều cho phép thực hiện các truy vấn phân tích dữ liệu tốt nhất vì các đặc điểm sau:  Thông tin tổng hợp và dữ liệu cơ sở được lưu trữ trong cấu trúc đa chiều.  Các thao tác kết, là một trong những thao tác tốn chi phí nhất của mô hình quan hệ, thì không cần thiết.  OLAP đa chiều sử dụng các thuật toán nén dữ liệu cho phép lưu trữ với ít không gian hơn.  OLAP đa chiều sử dụng chỉ mục bitmap cho hiệu quả thực thi tốt hơn.  OLAP đa chiều lấy dữ liệu trong khối rất nhanh bằng cách sử dụng các xử lý truy vấn tốc độ cao và lưu dữ liệu. Thông tin nhận được từ khối và các bảng OLAP cơ sở chỉ được truy xuất thông tin chi tiết.  OLAP đa chiều không xử dụng cơ chế khoá vì dữ liệu là chỉ đọc.  OLAP đa chiều có thể được nạp trước vào bộ nhớ chính. - 39 -  Dữ liệu có thể dễ dàng sao chép đến client cho phân tích không trực tuyến (off-line). • Mô hình OLAP quan hệ: Mô hình OLAP quan hệ: lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các bảng quan hệ. Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các bảng kho dữ liệu. Lưu trữ các khối trong cấu trúc OLAP quan hệ là tốt nhất cho các truy vấn dữ liệu không thường xuyên. Lưu trữ dữ liệu trong cấu trúc OLAP quan hệ cung cấp các lợi ích sau:  OLAP quan hệ cho phép xây dựng khối tự động tạo chỉ mục.  OLAP quan hệ ánh xạ các tổng hợp có sẵn từ kho dữ liệu. OLAP quản lý được phép xử dụng các tổng hợp có sẵn để tổng hợp mà không cần tính toán lại cho mỗi truy vấn.  OLAP quan hệ tạo đòn bẩy cho hệ quản trị cơ sở dữ liệu quan hệ nhằm cho các nhà quản trị hệ thống duy trì nó hiệu quả hơn.  OLAP quan hệ hỗ trợ Microsoft SQL Server, Oracle, Access và Open Database Connectivity (ODBC). • Mô hình OLAP lai: Mô hình OLAP lai là sự kết hợp giữa OLAP đa chiều và OLAP quan hệ. Lưu trữ các khối trong cấu trúc OLAP đa chiều là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở. Lợi ích của việc lưu trữ trong cấu trúc OLAP lai là:  Lấy dữ liệu trong khối nhanh hơn bằng cách sử dụng xử lý truy vấn tốc độ cao của OLAP đa chiều.  Tiêu thụ ít không gian lưu trữ hơn OLAP đa chiều.  Tránh trùng lắp dữ liệu. Kiến trúc khối của OLAP: Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết và tổng hợp. Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần dành riêng, Các khối được thiết kế dựa trên yêu cầu phân tích của người dùng. - 40 - Một kho dữ liệu có thể hỗ trợ nhiều khối khác nhau như khối Bán hàng, khối Bảng kiểm kê,… Dữ liệu nguồn của một khối chỉ ra nơi chứa kho dữ liệu cung cấp dữ liệu cho khối. Các chiều được ánh xạ từ các thông tin của các bảng chiều trong kho dữ liệu vào các mức phân cấp, ví dụ như chiều Địa lý thì gồm các mức như Lục địa, Quốc gia, Tỉnh-Thành phố. Các chiều có thể được tạo một cách độc lập và có thể chia sẻ giữa các khối nhằm xây dựng các khối dễ dàng và để chắc chắn rằng thông tin tổng hợp cho phân tích luôn ổn định. Ví dụ, nếu một chiều chia sẻ một phân cấp sản phẩm và được sử dụng trong tất cả các khối thì cấu tạo của thông tin tổng hợp về sản phẩm sẽ ổn định giữa các khối sử dụng chiều đó. Một chiều là một dạng đặc biệt của chiều mà ánh xạ các thuộc tính từ các thành viên của một chiều khác để sau đó có thể được sử dụng trong các khối. Ví dụ, một chiều ảo của thuộc tính kích thước sản phẩm cho phép một khối) tổng hợp dữ liệu như số lượng sản phẩm bán được theo kích thước, hoặc như số lượng áo bán được theo kiểu và theo kích thước. Các chiều ảo và các thuộc tính thành viên được đánh giá là cần thiết cho các truy vấn và chúng không đòi hỏi phải có các khối lưu trữ vật lý. Các độ đo xác định các giá trị số từ bảng sự kiện mà được tổng hợp cho phân tích như giá bán, chi phí hoặc số lượng bán. Các phần dành riêng là các vật chứa lưu trữ đa chiều, giữ dữ liệu của khối. Mỗi khối chứa ít nhất một thành phần riêng, và dữ liệu của khối có thể kết hợp từ nhiều partition. Mỗi thành phần riêng có thể lấy dữ liệu một nguồn dữ liệu khác nhau và có thể lưu trong một vị trí riêng biệt. Dữ liệu của một thành phần riêng có thể được cập nhật độc lập với các thành phần riêng khác trong một khối. Ví dụ, dữ liệu của một khối có thể được chia theo thời gian, với một partition chứa dữ liệu của năm hiện hành, một partition khác chứa dữ liệu của năm trước, và một partition thứ ba chứa tất cả dữ liệu của các năm trước nữa. Các thành phần riêng của một khối có thể được lưu trữ độc lập trong các cách thức khác nhau với các mức độ tổng kết khác nhau. Các partition không thể hiện đối với người dùng, đối với họ một khối là một đối tượng đơn, và chúng cung cấp các tuỳ chọn đa dạng để quản lý dữ liệu OLAP. - 41 - Một khối ảo là một khung nhìn luận lý của các phần chia của một hoặc nhiều khối. Một khối ảo có thể được sử dụng để kết các khối khác nhau để chia sẻ một chiều chung nào đó, ví dụ như có thể kết giữa khối Bán hàng và khối Kho nhằm các mục đích phân tích đặc biệt nào đó trong khi duy trì các khối tách biệt cho đơn giản. Các chiều và các độ đo có thể được chọn từ các khối được kết để thể hiện trong khối ảo. Mô hình kiến trúc dịch vụ OLAP: Kiến trúc dịch vụ OLAP gồm 2 thành phần: khách và chủ Dịch vụ OLAP của SQL Server cung cấp thành phần chủ có khả năng tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho máy khách qua dịch vụ PivotTable. Các thao tác của thành phần máy chủ bao gồm việc tạo các khối dữ liệu đa chiều từ kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa chiều, trong cơ sở dữ liệu quan hệ hoặc kết hợp cả hai. Siêu dữ liệu của các cấu trúc khối đa chiều được lưu trữ trong một kho trong cơ sở dữ liệu quan hệ. Các thao tác được thành phần chủ cung cấp gồm:  Khả năng tạo và quản lý các khối của OLAP.  Phục vụ lấy dữ liệu và làm cho nó có thể sử dụng được từ các ứng dụng khách Dịch vụ OLAP của SQL Server cung cấp thành phần chủ có khả năng tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho khách qua dịch vụ PivotTable. Các thao tác của thành phần Server bao gồm việc tạo các khối dữ liệu đa chiều từ kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa chiều, trong cơ sở dữ liệu quan hệ hoặc kết hợp cả hai. Siêu dữ liệu của các cấu trúc khối đa chiều được lưu trữ trong một kho trong cơ sở dữ liệu quan hệ. Các thao tác được thành phần máy chủ cung cấp gồm:  Khả năng tạo và quản lý các khối của OLAP.  Phục vụ lấy dữ liệu và làm cho nó có thể sử dụng được từ các ứng dụng client. - 42 - Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP chủ và cung cấp giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên máy chủ. Các ứng dụng máy khách kết nối đến dịch vụ PivotTable bằng cách sử dụng giao diện OLE DB hoặc mô hình ADO. Các ứng dụng máy khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu OLAP. Dịch vụ PivotTable có thể tạo các khối cục bộ mà đó là các tập con của các khối cư trú trên server. Các khối cục bộ có thể được sử dụng để làm tăng hiệu quả thực hiện và sử dụng để thực hiện các phân tích không trực tuyến. Dịch vụ PivotTable là một công cụ lưu trữ, duyệt và phân tích khối. PivotTable là một OLAP chủ xử lý tại chỗ với cả các đặc tính phân tích trực tuyến và không trực tuyến mà:  Cung cấp truy cập trực tuyến đến dữ liệu OLAP như một máy khách của dịch vụ OLAP.  Bao gồm các đặc tính phân tích dữ liệu, xây dựng khối và quản lý cache. Cho phép các khối lưu trữ cục bộ để phân tích không trực tuyến như là kết nối đến dữ liệu dịch vụ OLAP trực tuyến. 3.3.2. Thiết kế chi tiết cơ sở dữ liệu Dữ liệu Đầu vào: Tận dụng miền tri thức nền lớn từ các máy tìm kiếm như Google, Yahoo,…với đầu vào là các bài báo về gốc sứ cổ truyền Việt nam được xây dựng bằng bằng tay thông qua máy tìm kiếm. Dữ liệu đầu ra: Là CSDL bài báo về gốm sứ cổ truyền Việt nam chạy trên SQL server 2005. Bước 1: Thiết kế bảng CSDL Phân tích, chuẩn hóa dữ liệu, ta lưu dữ liệu ở 3 bảng có cấu trúc như sau: • CMS_Article: bảng này lưu các danh mục của bài báo gồm Mã bài báo (ArticleID) là khóa chính, tiêu đề bài báo (Title), phần tóm tắt của bài báo (Head), nội dung bài báo(Content), thời điểm đăng bài(PublishedTime, ngoài ra bảng còn chứa hai khóa phụ là AuthorID, ChannelID - 43 - # Tên Cột KIểu dữ liệu Diễn giải 1 ArticleID Int Mã số bài báo-khóa chính 2 Title Nvarchar Tiêu đề 3 Head Nvarchar Phần tóm tắt 4 Content Nvarchar Nội dung bài báo 5 Address Nvarchar Địa chỉ Web đăng bài 6 PublishedTime Nvarchar Thời điểm đăng bài 7 AuthorID Nvarchar Mã tác giả 8 channelID Nvarchar Mã chuyên mục Bảng 3.1 Thông tin về bài báo • CMS_AuthorID: chứa thông tin về tác giả bài báo gồm mã tác giả(authorID), tên tác giả(FullName), bút danh(Alias). # Tên Cột KIểu dữ liệu Diễn giải 1 AuthorID Varchar Mã tác giả-khóa chính 2 FullName Nvarchar Tên tác giả 3 Alias Varchar Bút danh Bảng 3.2 Thông tin về tác giả bài báo • CMS_Channel: Chứa thông tin về chuyên mục các bài báo gồm, mã chuyên mục(ChannelID), tên chuyên mục(Name). # Tên Cột KIểu dữ liệu Diễn giải 1 ChannelID Varchar Mã chuyên mục-khóa chính 2 Name Varchar Tên chuyên mục Bảng 3.3 Thông tin về chuyên mục bài báo - 44 - Bước 2: Thiết kế CSDL Hình 3.1 Tạo mô hình liên kết thực thể 3.4. Một số trang màn hình cài đặt Khởi tạo và cài đặt Project: • Tạo cơ sở dữ liệu Thises trong SQL Server 2005 như thiết kế ở trên và nhập dữ liệu thử nghiệm. Hình 3.3 Thêm thông tin bài báo - 45 - Hình 3.4 Thêm nội dung thông tin Tác giả Hình 3.5 Thêm nội dung thông tin chuyên mục - 46 - Hình 3.6 Tạo tìm kiếm thông tin Hình 3.7 Giao diện chương trình Demo - 47 - Hình 3.8 Giao diện tìm kiếm thông tin Hình 3.9 Giao diện thêm thông tin về tác giả - 48 - Hình 3.10 Giao diện thêm thông tin về chủ đề Hình 3.11 Giao diện thêm thông tin về bài báo - 49 - Hình 3.12 Hiển thị các báo cáo theo chuyên mục 1 Hình 3.13 Hiển thị các báo cáo theo chuyên mục 2 - 50 - Hình 3.14 Hiển thị các báo cáo theo chuyên mục 3 - 51 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết quả đạt được Kết quả luận văn đã thiết kế và xây dựng được một CSDL bài báo điện tử liên quan tới Gốm sứ cổ truyền Việt Nam. Cơ sở dữ liệu này đã góp một phần không nhỏ trong việc tra cứu, lưu trữ thông tin chi tiết các bài báo điện tử liên quan tới gốm sứ cổ truyền Việt nam. Đây như là một thư viện thu nhỏ để phục vụ cho công tác dạy và học tâp và nghiên cứu của Học viện Báo chí và Tuyên tuyền nói riêng và phục vụ cho công tác dạy học, nghiên cứu nói chung. Phương hướng nghiên cứu tiếp theo Dữ liệu đầu vào được lấy một cách tự động, vùng dữ liệu không chỉ thu hẹp ở các lĩnh vực về Gốm sứ Việt Nam mà được mở rộng. Tìm phương án xử lý khi CSDL trở nên rất lớn, dữ liệu lấy ở nhiều nguồn khác nhau và được cập nhật tự động. Tiếp tục thiết kế, cài đặt hoàn chỉnh CSDL Tiếp tục thiết kế chi tiết và rõ ràng hơn nữa trong việc xây dựng CSDL bài báo điện tử liên quan tới Gốm sứ, tiến hành cài đặt hoàn chỉnh, đóng gói để CSDL trở thành phần mềm ứng dụng thực tế trên thị trường. - 52 - TÀI LIỆU THAM KHẢO Tiếng việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản Giáo dục Việt Nam, 2009. [2] M. Tamer, Ozsu, Biên dịch Trần Đức Quang, Nguyên Lý Các Hệ Cơ Sở Dữ Liệu Phân Tán. Nhà Xuất bản Thống kê, 1999. [3] Lê Tiến Vương, Nhập môn Cơ sở dữ liệu quan hệ. Nhà xuất bản Thống kê. 2000. [4] Lương Mạnh Bá, Nguyễn Thanh Thủy. Nhập môn Xử lý ảnh số. Nhà xuất bản Khoa học và Kỹ thuật. [5] Hoàng Thị Lệ Chi (2009)-Thiết kế Cơ sở dữ liệu Phân tán Thuần nhất sử dụng các Kỹ thuật Khai phá dữ liệu. Luận văn Thạc sĩ khoa học Đại học Bách khoa Hà nội. [6] Nguyễn Thị Thu Hằng (2009)-Xây dựng kho dữ liệu cho Hệ thống tổng hợp thông tin Kinh tế-Xã hội. Luận văn thạc sĩ khoa học, Đại học Công nghệ, Đại Học Quốc gia Hà nội. [7] Nguyễn Thị Phương Nga (2008) – Nghiên cứu các Kỹ thuật khai phá dữ liệu Ứng dụng trong Hóa học, Luận án Tiến sĩ, Đại học Bách khoa Hà Nội. [8] Trần Hoài Nam (2004)-Cơ sở dữ liệu đa phương tiện Yêu cầu và Các vấn đề. Internet [9] àng_gốm_Phù_lãng [10] ốm_Chu_Đậu-Mỹ_Xá [11] ốm_Bát_tràng [12] âu 5 các-loại-dữ-liệu-đa-phương-tiện [13] [14] [15]á_dữ_liệu

Các file đính kèm theo tài liệu này:

  • pdfLUẬN VĂN-XÂY DỰNG CƠ SỞ DỮ LIỆU BÀI BÁO ĐIỆN TỬ LIÊN QUAN TỚI GỐM SỨ VIỆT NAM PHỤC VỤ ĐÀO TẠO TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN.pdf
Luận văn liên quan