1. Các kết quả đạt được
Để nghiên cứu bài toán ứng dụng khai phá dữ liệu trong y tế dự phòng,
học viên đã tập trung nghiên cứu các khái niệm về y tế dự phòng, thực trạng về
nhu cầu trong việc quản lý, phân tích và dự báo đươc dịch bệnh trên tập số liệu
được báo cáo.
Bên cạnh đó, học viên cũng nghiên cứu, tìm hiểu một số phương pháp
khai phá dữ liệu hiện nay. Cùng với đó là đề xuất một số phương pháp khai dữ
liệu phù hợp với tập dữ liệu dịch bệnh cúm do Google công bố.
Dựa trên nghiên cứu đó luận văn đề xuất một mô hình dự báo dịch bệnh
truyền nhiễm dựa trên tập dữ liệu thời gian. Luận văn cũng tiến hành cài đặt
thực nghiệm một tập dữ liệu được trích xuất trong tập dữ liệu của một quốc
gia. Dựa vào kết quả phân tích, dự báo như đã trình bày trong phần thực
nghiệm, lấy đó làm cơ sở cho cho xây dựng các bài toán dự báo tình hình dịch
bệnh.
2. Hướng nghiên cứu tiếp theo
Trong khuôn khổ luận văn này, tôi mới chỉ dừng lại ở việc phân tích
chuỗi dữ liệu thời gian và đưa ra dự báo dựa vào xu hướng dữ liệu trên thực
nghiệm trong mô hình đó, đánh giá kết quả dự báo trên tập dữ liệu so với số
liệu thực tế.
Trong thời gian tới, tôi sẽ tiếp tục thực nghiệm các tập dữ liệu còn lại
trong tập dữ liệu được công bố, đồng thời xem xét hướng nghiên cứu bổ sung
nhằm phân tích, đánh giá các quy luật diễn biến dịch bệnh cúm trên toàn cầu
dự trên các đặc điểm thời gian, địa lý, điều kiện thời tiết để nâng cao độ chính
xác và giảm thiểu việc bỏ sót các cặp quan hệ trong chuỗi dữ liệu thời gian.
34 trang |
Chia sẻ: yenxoi77 | Lượt xem: 574 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận văn Khai phá dữ liệu và ứng dụng trong y tế dự phòng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
HOÀNG VĂN TIẾN
KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
Y TẾ DỰ PHÒNG
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý Hệ thống thông tin
Mã số: 8480205.01
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI
Hà Nội - 2018
i
LỜI CAM ĐOAN
Luận văn “Khai phá dữ liệu và ứng dụng trong y tế dự phòng” đánh dấu cho
những thành quả, kiến thức của tôi đã tiếp thu được trong quá trình rèn luyện,
học tập và nghiên cứu tại Trường Đại học Công nghệ - Đại học Quốc gia Hà
Nội. Tôi xin cam đoan các nội dung được trình bày trong luận văn này được xây
dựng, hoàn thành bằng chính quá trình nghiên cứu của bản thân và dưới sự
hướng dẫn của thầy giáo TS. Đặng Thanh Hải.
Trong quá trình làm luận văn này, tôi đã tham khảo một số tài liệu từ nhiều
nguồn khác nhau, các nội dung tham khảo đều được trích dẫn rõ ràng. Nếu có
điều gì không trung thực, tôi xin chịu mọi hình thức kỷ luật theo đúng quy định.
Hà Nội, ngày tháng năm 2018
Học viên
Hoàng Văn Tiến
ii
LỜI CÁM ƠN
Lời đầu tiên, tôi xin gửi lời cám ơn đến Thầy Cô giáo tại trường Đại học
Công nghệ - Đại học Quốc gia Hà Nội nói chung và Thầy Cô giáo trong bộ môn
Hệ thống thông tin và Khoa Công nghệ thông tin - Trường Đại học Công nghệ -
Đại học Quốc gia Hà Nội đã nhiệt tình giảng dạy, truyền đạt những kiến thức,
kinh nghiệm quý báu trong suốt thời gian tôi học tập tại trường.
Đặc biệt, tôi xin gửi lời cám ơn chân thành nhất đến TS. Đặng Thanh Hải,
người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn này. Nhờ sự
hướng dẫn và chỉ bảo tận tình của Thầy, tôi đã có được những kiến thức và kinh
nghiệm quý báu về cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu,
trình bày kết quả và hoàn thành luận văn của mình.
Cuối cùng, tôi xin gửi lời cám ơn tới toàn thể gia đình, bạn bè và đồng
nghiệp đã luôn quan tâm, ủng hộ và động viên, giúp tôi có nghị lực phấn đấu để
hoàn thành tốt luận văn.
Hà Nội, ngày tháng năm 2018
Học viên
Hoàng Văn Tiến
iii
TÓM TẮT NỘI DUNG
Phân tích và dự báo từ lâu đã được ứng dụng trong mọi lĩnh vực nhằm đưa ra
những định hướng, chiến lược phát triển trong tương lai. Ngành Y tế không
đứng ngoài xu thế đó, đặc biệt là dự báo dịch bệnh truyền nhiễm từ lâu đã được
các nhà khoa học quan tâm nghiên cứu và ngày càng phát triển. Phân tích và dự
báo dịch bệnh truyền nhiễm được quan tâm vì những lợi ích rất lớn nó mang lại
trong công tác phòng ngừa dịch bệnh. Phân tích và dự báo diễn biến của dịch
bệnh giúp chúng ta chủ động trong công tác phòng ngừa, nhằm giảm thiểu
những tổn hại do dịch bệnh gây ra. Việc xác định được chu kỳ diễn biến của
dịch bệnh truyền nhiễm dựa trên các yếu tố thời gian, khí hậu và vùng địa lý rất
được quan tâm. Nắm bắt chu kỳ diễn biến của dịch bệnh, đưa ra dự báo và lên
phương án ứng phó, khoanh vùng, dập dịch nhanh, không để lây lan là hết sức
quan trọng góp phần hạn chế tối đa hậu quả của dịch bệnh gây ra cho con
người.
Đề tài nghiên cứu trước hết tìm hiểu kiến thức nền tảng về khai phá dữ liệu,
sau đó tìm hiểu sâu các kỹ thuật khai phá dữ liệu tiên tiến đang nhận được nhiều
sự quan tâm của cộng đồng nghiên cứu trên thế giới, qua đó đề xuất vận dụng
phương pháp và công cụ khai phá dữ liệu phù hợp với tập dữ liệu dịch cúm do
Google Flu Trends công bố. Google Flu Trends là dịch vụ của Tập đoàn
Google, cung cấp số liệu ước tính về dịch cúm tại hơn 25 quốc gia, thông qua
việc tổng hợp các truy vấn tìm kiếm trên www.google.com, thông qua đó cố
gắng đưa ra dự báo chính xác về dịch cúm.
Đề xuất lựa chọn phương pháp khai phá dữ liệu phù hợp trên tập dữ liệu dịch
bệnh cúm do Google Flu Trends công bố, tìm ra chu kỳ diễn biến của dịch, đưa
ra các dự báo và hỗ trợ định hướng hoạt động y tế dự phòng theo từng thời điểm
trong năm, nhằm có những chính sách và biện pháp phù hợp để hạn chế thiệt hại
của dịch bệnh gây ra.
iv
MỞ ĐẦU
Ngày nay, con người đang phải đối mặt với tình hình dịch bệnh lây nhiễm
hoành hành, bùng phát một cách nhanh chóng. Dịch bệnh ngày càng diễn biến
phức tạp về phạm vi và chủng loại. Thực tế đó, đòi hỏi công tác y tế dự phòng
cần phải được đẩy mạnh, nâng cao nhằm khoanh vùng và hạn chế sự lây lan của
dịch bệnh. Công tác giám sát dịch bệnh lây nhiễm, phân tích và dự báo phục vụ
ra quyết định ngày càng trở nên quan trọng và cần được đẩy mạnh.
Chính từ sự cấp thiết đó, học viên đã chọn đề tài “Khai phá dữ liệu và ứng
dụng trong y tế dự phòng” làm luận văn thạc sĩ của mình, nhằm góp phần công
sức nhỏ bé cho lĩnh vực y tế dự phòng có thêm một số giải pháp phân tích, dự
báo hiệu quả dịch bệnh truyền nhiễm hiện nay. Nội dung luận văn tập trung vào
những phần sau:
Chương 1: Giới thiệu về lĩnh vực y tế dự phòng
Trong chương này giới thiệu tổng quan về lĩnh vực y tế dự phòng, lịch sử
hình thành và phát triển của y tế dự phòng.
Chương 2: Các phương pháp và công cụ khai phá dữ liệu
Nội dung tại chương này xoay quanh khái niệm, tính chất cơ bản của các
phương pháp khai phá dữ liệu phổ biến hiện nay. Qua đó, đề xuất một phương
pháp và công cụ phù hợp khai phá tập dữ liệu dịch bệnh cúm.
Chương 3: Phương pháp phân tích và dự báo với chuỗi dữ liệu thời gian
Đi sâu vào kỹ thuật phân tích chuỗi dữ liệu chuỗi thời gian (time series data)
và áp dụng kỹ thuật này với tập dữ liệu dịch bệnh cúm do Google Flu Trends
công bố trên mô hình ARIMA.
Chương 4: Thực nghiệm và đánh giá
Phân tích và đưa ra kết quả dự báo dựa trên tập dữ liệu Google Flu Trends
công bố dịch bệnh cúm, sử dụng các phương pháp phân tích chuỗi dữ liệu thời
gian và công cụ khai phá dữ liệu.
v
MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG ................................ 1
1.1. Giới thiệu về y tế dự phòng ................................................................................... 1
1.2. Dịch bệnh .............................................................................................................. 1
1.3. Dự báo dịch bệnh trong lĩnh vực y tế dự phòng .................................................... 1
1.4. Thực trạng nghiên cứu dự báo trong y tế dự phòng .............................................. 1
1.5. Mục tiêu nghiên cứu .............................................................................................. 2
CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU ............ 3
2.1. Khai phá dữ liệu .................................................................................................... 3
2.2. Các kỹ thuật khai phá dữ liệu ................................................................................ 3
2.3. Dữ liệu chuỗi thời gian (time series data) ............................................................. 5
2.4. Các công cụ, phần mềm hỗ trợ khai phá dữ liệu ................................................... 5
Tóm tắt chương 2 ......................................................................................................... 6
CHƯƠNG 3. PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO....................................... 7
VỚI CHUỖI DỮ LIỆU THỜI GIAN ........................................................................... 7
3.1. Dữ liệu chuỗi thời gian .......................................................................................... 7
3.2. Tính dừng của dữ liệu chuỗi thời gian ................................................................... 8
3.3. Mô hình ARIMA ................................................................................................... 10
Tóm tắt chương 3 ......................................................................................................... 11
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................ 12
4.1. Mô hình thực nghiệm ............................................................................................ 12
4.2. Mục đích thực nghiệm ........................................................................................... 12
4.3. Tập dữ liệu Google Flu Trends ............................................................................. 12
4.4. Môi trường, cấu hình hệ thống và công cụ ............................................................ 13
4.5. Kết quả thực nghiệm ............................................................................................. 13
4.6. Đánh giá kết quả .................................................................................................... 20
Tóm tắt chương 4 ......................................................................................................... 20
KẾT LUẬN .................................................................................................................. 21
1. Các kết quả đạt được ................................................................................................ 21
2. Hướng nghiên cứu tiếp theo ..................................................................................... 21
TÀI LIỆU THAM KHẢO ............................................................................................ 22
Tiếng Việt..................................................................................................................... 22
Tiếng Anh..................................................................................................................... 22
vi
DANH MỤC CÁC HÌNH VẼ
Hình 2.1. Các bước khai phá dữ liệu ............................................................................... 3
Hình 2.2. Tuyến tính hồi quy với một dự đoán duy nhất ................................................ 4
Hình 2.3. Mô hình hồi quy phi tuyến tính ....................................................................... 4
Hình 2.4. Giao diện phần mềm weka .............................................................................. 5
Hình 2.5. Giao diện SPSS ............................................................................................... 6
Hình 2.6. Giao diện phần mềm R .................................................................................... 6
Hình 3.1. Số liệu diễn biến cúm phía Nam Châu phi từ năm 2006 - 2015 ...................... 7
Hình 3.2. Biểu diễn xu hướng giảm của dữ liệu .............................................................. 7
Hình 3.3. Biểu diễn thay đổi chuỗi thời gian theo từng khoảng thời gian ....................... 7
Hình 3.4. Biểu diễn chu kỳ chuỗi thời gian ..................................................................... 8
Hình 3.5. Sơ đồ chuỗi thời gian với định lượng Y(t) theo thời gian t ............................. 8
Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins ............................................ 11
Hình 4.1. Biểu đồ so sánh dữ liệu dự báo của Google Flu Trends và Trung tâm kiểm
soát và phòng ngừa các chứng bệnh của Mỹ ................................................................... 12
Hình 4.2. Mẫu dữ liệu bệnh cúm của 25 nước trên thế giới được tổng hợp từ 2003 đến
2015 ................................................................................................................................. 13
Hình 4.3. Cài đặt gói thư viện ......................................................................................... 14
Hình 4.4. Nạp dữ liệu ...................................................................................................... 14
Hình 4.5. Tập dữ liệu cúm của Argentina ....................................................................... 14
Hình 4.6. Tập dữ liệu cúm của Argentina năm 2004 ....................................................... 15
Hình 4.7. Diễn biến cúm năm 2004 của Argentina theo tháng ........................................ 15
Hình 4.8. Dữ liệu cúm của năm 2004 Argentina được làm sạch ..................................... 15
Hình 4.9. Diễn biến cúm Argentina năm 2014 được làm sạch ........................................ 16
Hình 4.10. Biểu đồ bệnh cúm của Argentina với dữ liệu được làm mịn ......................... 16
Hình 4.11. Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu hướng và
chu kỳ .............................................................................................................................. 16
Hình 4.12. Mô hình ACF ................................................................................................ 17
Hình 4.13. Mô hình PACF .............................................................................................. 17
Hình 4.14. Mô hình kiểm tra với d = 1 .......................................................................... 17
Hình 4.15. Mô hình ACF với d = 1 ................................................................................ 18
Hình 4.16. Mô hình PACF với d = 1 .............................................................................. 18
Hình 4.17. Mô hình ARIMA (1, 1, 1) ............................................................................... 18
Hình 4.18. Mô hình ARIMA (1, 1, 7) ............................................................................... 19
Hình 4.19. Mô hình dự báo với hệ số (1, 1, 1) ................................................................ 19
Hình 4.20. Mô hình dự báo ............................................................................................. 19
Hình 4.21. Mô hình dự báo ARIMA (0, 2, 0)(0, 0, 1)(7) ................................................ 20
Hình 4.22. Diễn biến dịch bệnh thực tế tại Argentina từ năm 2003 đến 2015 ................ 20
vii
DANH MỤC CÁC BẢNG BIỂU
Bảng 1. Cấu hình phần cứng ........................................................................................ 13
Bảng 2. Các công cụ, phần mềm sử dụng .................................................................... 13
viii
DANH MỤC VIẾT TẮT
TT Viết tắt Tiếng Anh Tiếng Việt
1. ARIMA
Autoregressive integrated
moving average
Tư ̣ hồi quy tićh hơp̣ trung
bình trươṭ
2. ACF Autocorrelation function Chức năng tự tương quan
3. PACF
Partial
autocorrelation plots
Sự tự tương quan thành
phần
4. BI Business intelligence Thông minh nghiệp vụ
5. KDD
Knowledge discovery in
database
Khai phá tri thức trong cơ
sở dữ liệu
6. SPSS
Statistical product and
services solutions
Giải pháp sản phẩm và dịch
vụ thống kê
7. AR Autoregressive Tự hồi quy
8. MA Moving average Trung bình trượt
9. ARMA
Autoregressive moving
average
Trung bình trượt tự hồi quy
10. GDP Gross domestic product Tổng sản phẩm quốc nội
11. CDC
Centers for disease
control and prevention
Trung tâm kiểm soát và
phòng ngừa dịch bệnh
ix
DANH SÁCH CÁC THUẬT NGỮ
TT Thuật ngữ tiếng Anh Nghĩa tiếng Việt
1. Ebola Bệnh do virus Ebola
2. MERS-CoV Hội chứng hô hấp Trung Đông
3.
H5N1, H7N9, H5N6,
H9N2, H5N8
Virus cúm gia cầm H5N1, H7N9, H5N6,
H9N2, H5N8
4. Internet Mạng Internet
5. Petabybe Đơn vị lưu trữ trên máy tính
6. HD Độ phân giải cao hay độ nét cao
7. CPU Bộ vi xử lý trung tâm
8. RAM Bộ nhớ truy cập ngẫu nhiên
9. OS Hệ điều hành
1
CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG
1.1. Giới thiệu về y tế dự phòng
Y tế dự phòng là lĩnh vực y tế thực hiện các biện pháp giám sát, dự
báo, phòng ngừa và kiểm soát dịch bệnh [9].
1.1.1. Lịch sử phát triển của y tế dự phòng
Hippocrates, một bác sĩ người Hy Lạp ở Thế kỷ thứ 5 trước Công nguyên,
đã phân loại các nguyên nhân gây bệnh thành những khía cạnh có liên quan
đến mùa, khí hậu, và điều kiện bên ngoài và những nguyên nhân như thức ăn,
chế độ luyện tập và thói quen không bình thường của mỗi cá nhân [5]. Kỷ
nguyên hiện đại trong y học dự phòng được mở ra vào giữa Thế kỷ 19 với sự
khám phá của Louis Pasteur về vai trò của các vi khuẩn sống như là nguyên
nhân gây ra bệnh nhiễm trùng [9].
1.1.2. Những vai trò của lĩnh vực y tế dự phòng
Lĩnh vực y tế dự phòng có những vai trò cụ thể sau: Giám sát, phát hiện
sớm các bệnh truyền nhiễm, các nguồn bệnh chưa rõ nguyên nhân [1]; Tổ chức
thực hiện các biện pháp phòng, chống và kiểm soát dịch bệnh [1]; Quản lý dữ
liệu và cung cấp thông tin rộng rãi cho xã hội về các bệnh và dịch bệnh truyền
nhiễm [1]; Phòng, chống bệnh không lây nhiễm, bệnh xã hội [1]; Giám sát và
phòng, chống bệnh không lây nhiễm, bệnh xã hội [1]; Thực hiện các hoạt động
phòng, chống yếu tố nguy cơ bệnh không lây nhiễm; triển khai các hoạt động
phòng, chống tác hại của lạm dụng rượu bia và đồ uống có cồn khác [1]; Thực
hiện và kiểm tra, giám sát hoạt động phòng, chống bệnh không lây nhiễm,
bệnh xã hội; thống kê, báo cáo, xây dựng và quản lý cơ sở dữ liệu về bệnh
không lây nhiễm, bệnh xã hội [1]; Nghiên cứu, phát triển và sử dụng vắc xin,
sinh phẩm y tế hỗ trợ phòng ngừa các bệnh truyền nhiễm một cách chủ động
[1]; Hướng dẫn, kiểm tra việc sử dụng vắc xin, sinh phẩm y tế và an toàn tiêm
chủng [1].
1.2. Dịch bệnh
Dịch bệnh là bệnh được lan truyền nhanh chóng và ảnh hưởng đến số
lượng lớn người trong vòng một thời gian rất ngắn [5].
1.3. Dự báo dịch bệnh trong lĩnh vực y tế dự phòng
Hoạt động dự báo hỗ trợ các cơ quan, tổ chức đưa ra những thông tin nhận
định cho tương lai trên cơ sở các thông tin đã có trong quá khứ và hiện tại.
1.4. Thực trạng nghiên cứu dự báo trong y tế dự phòng
Qua tham khảo, nhận thấy các phương pháp dự báo dịch bệnh ban đầu đều
2
dựa trên mô hình lan truyền dịch bệnh, điển hình cho tư tưởng này là mô hình
SIR. Mức độ lan truyền dịch bệnh được xác định như sau:
𝑆 + 𝐼
𝑇
→ 2𝐼 và 𝐼
𝛼
→ 𝑅 (1.1)
1.5. Mục tiêu nghiên cứu
Nghiên cứu tổng quan các phương pháp, kỹ thuật khai phá dữ liệu và tiến
hành thực nghiệm, lựa chọn phương pháp thích hợp với tập dữ liệu dịch bệnh
truyền nhiễm.
Tóm tắt Chương 1
Chương 1 đã giới thiệu tổng quan các vấn đề của dịch bệnh truyền nhiễm,
lịch sử hình thành, phát triển của y tế dự phòng và thực trạng diễn biến dịch
bệnh truyền nhiễm hiện nay. Chương 2 của luận văn sẽ trình bày các phương
pháp và công cụ phổ biến hiện nay phục vụ khai thác dữ liệu, đề xuất lựa chọn
một phương pháp phù hợp nhằm xử lý, phân tích và dự báo tập dữ liệu về dịch
bệnh cúm do Google Flu Trends cung cấp.
3
CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ
KHAI PHÁ DỮ LIỆU
2.1. Khai phá dữ liệu
2.1.1. Khái niệm
Khai phá dữ liệu là quá trình trích xuất thông tin bên trong bộ dữ liệu lớn
để xác định các mẫu và thiết lập các mối quan hệ để giải quyết các vấn đề
thông qua phân tích dữ liệu [6]. Khai phá dữ liệu bao gồm 5 bước sau:
Hình 2.1. Các bước khai phá dữ liệu
2.1.2. Ưu điểm của khai phá dữ liệu với các phương pháp khác
2.1.2.1. Học máy (machine learning)
Các phương pháp trong máy học cần được phát triển để phù hợp với các
yêu cầu và thách thức của khai phá dữ liệu. Trong học máy, thuật ngữ cơ sở dữ
liệu là nói tới một tập các mẫu dữ liệu được lưu trong một tệp.
2.1.2.2. Phương pháp hệ chuyên gia
Các hệ chuyên gia sẽ nắm bắt các tri thức trong một bài toán cụ thể. Các
kỹ thuật thu thập giúp các chuyên gia trong việc khai thác tri thức, mỗi phương
pháp là kỹ thuật xây dựng các tập luật.
2.1.3. Những khó khăn trong khai phá dữ liệu
Khi khai phá dữ liệu gặp phải những thách thức sau đây: Cơ sở dữ liệu
lớn; vấn đề over-fitting; dữ liệu và tri thức được cập nhật, thay đổi; dữ liệu
thiếu và nhiễu; tích hợp với hệ thống.
2.2. Các kỹ thuật khai phá dữ liệu
2.2.1. Hồi quy (Regression)
2.2.1.1. Hồi quy tuyến tính (linear regression)
4
Hình 2.2. Tuyến tính hồi quy với một dự đoán duy nhất
Hồi quy tuyến tính với một dự báo đơn có thể được biểu diễn bằng phương
trình:
𝑦 = 𝜃2𝑥 + 𝜃1 + 𝑒, (1.2)
2.2.1.2. Hồi quy tuyến tính đa biến
Hồi quy tuyến tính đa biến đề cập đến hồi quy tuyến tính với hai hoặc
nhiều biến dự đoán (𝑥1, 𝑥2, , 𝑥𝑛). Khi sử dụng nhiều dự đoán, đường hồi quy
không thể được hiển thị trong không gian hai chiều.
𝑦 = 𝜃1 + 𝜃2𝑥1 + 𝜃3𝑥2 + + 𝜃𝑛𝑥𝑛−1 + 𝑒 (1.3)
2.2.1.3. Hồi quy phi tuyến
Bình thường mối quan hệ giữa x và y không phải luôn được xấp xỉ bằng
một đường thẳng.
Hình 2.3. Mô hình hồi quy phi tuyến tính
2.2.1.4. Hồi quy phi tuyến đa biến
Hồi quy phi tuyến tính đa biến đề cập đến hồi quy phi tuyến với hai hoặc
nhiều yếu tố dự đoán (𝑥1, 𝑥2, , 𝑥𝑛).
5
2.2.2. Kết hợp (Association)
Kỹ thuật của phương pháp là phát hiện và tìm ra trong tập dữ liệu cần khai
phá những mối liên hệ giữa các giá trị [11]. Đầu ra của phương pháp là luật kết
hợp tìm được từ tập dữ liệu ban đầu [11].
2.2.3. Phân lớp (Classification)
Phân lớp là một kỹ thuật khai phá dữ liệu mà gán các mục trong một bộ dữ
liệu để nhằm mục tiêu phân loại [11]. Mục tiêu của phân lớp là dự đoán chính
xác lớp mục tiêu cho từng trường hợp dữ liệu.
2.2.4. Phân cụm (Clustering)
Phân cụm là kỹ thuật tìm ra các cụm dữ liệu có đặc điểm tương tự nhau
trong tập dữ liệu cần khai phá. Các thành viên của một cụm giống nhau hơn so
với các thành viên của các cụm khác.
2.3. Dữ liệu chuỗi thời gian (time series data)
Chúng ta có thể hiểu chuỗi dữ liệu thời gian là một dãy các giá trị phụ
thuộc vào các mốc thời gian, việc phân tích dữ liệu chuỗi thời gian chính là
việc tìm ra mối liên hệ giữa P và tương ứng với giá trị 𝑥(𝑡), ta có công thức
như sau: 𝑃 → 𝑥(𝑡).
2.4. Các công cụ, phần mềm hỗ trợ khai phá dữ liệu
2.4.1. Phân tích số liệu bằng phần mềm Weka
Weka (viết tắt của Waikato Environment for Knowledge Analysis) là một
công cụ khai thác dữ liệu ban đầu được phát triển tại Đại học Waikato tại New
Zealand [12].
Hình 2.4. Giao diện phần mềm weka
2.4.2. Giới thiệu về SPSS (Statistical Product and Services Solutions)
SPSS là phần mềm phục vụ thống kê, với một bộ thư viện lớn các thuật
toán học máy, phân tích văn bản, nguồn mở, tích hợp dễ dàng với những dữ
liệu lớn [13].
6
Hình 2.5. Giao diện SPSS
2.4.3. Phân tích số liệu bằng R
R là một phần mềm được sử dụng cho phân tích dữ liệu, thống kê và vẽ
biểu đồ [14]. R là ngôn ngữ lập trình đa năng, có thể sử dụng cho nhiều mục
đích, tính toán, giải trí, phân tích thống kê phức tạp [14].
Hình 2.6. Giao diện phần mềm R
Tóm tắt chương 2
Chương 2 giới thiệu các phương pháp và công cụ phục vụ khai phá dữ
liệu. Bên cạnh đó, cũng đã đề cập đến chuỗi dữ liệu thời gian để chúng ta hiểu
bản chất của chuỗi dữ liệu thời gian. Chương 3 đi sâu phân tích phương pháp
phân tích hồi quy với chuỗi dữ liệu thời gian làm cơ sở cho việc thực nghiệm.
7
CHƯƠNG 3. PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO
VỚI CHUỖI DỮ LIỆU THỜI GIAN
3.1. Dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian là một dãy giá trị phép đo trên cùng một đối tượng
được ghi nhận theo thời gian [10].
Hình 3.1. Số liệu diễn biến cúm phía Nam Châu phi từ năm 2006 - 2015
Dữ liệu chuỗi thời gian có các thành phần cơ bản như:
Hình 3.2. Biểu diễn xu hướng giảm của dữ liệu
- Thành phần xu hướng: để chỉ xu hướng tăng hay giảm của dữ liệu.
Hình 3.3. Biểu diễn thay đổi chuỗi thời gian theo từng khoảng thời gian
8
- Thành phần mùa (thời vụ): để chỉ chiều hướng tăng hay giảm của giá trị
y được tính theo giai đoạn thời gian (khoảng thời gian ngắn).
Hình 3.4. Biểu diễn chu kỳ chuỗi thời gian
- Thành phần chu kì (dài hạn): biểu thị bằng sự tăng, giảm của dữ liệu
chuỗi thời gian xoay quanh xu hướng.
- Thành phần ngẫu nhiên: Đây là thành phần ngược với chu kỳ, thành phần
ngẫu nhiên chỉ sự thay đổi bất thường của giá trị trong chuỗi thời gian và
thường không dự đoán được sự thay đổi của dữ liệu.
Hình 3.5. Sơ đồ chuỗi thời gian với định lượng 𝐘(𝐭) theo thời gian t
Với sơ đồ Hình 3.5 ta có Yt là giá trị định lượng trên chuỗi thời gian được
tính tại thời điểm t, qua đó ta có thể xác định được các mô hình sau:
- Mô hình cộng: 𝑌𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝐶𝑡 + 𝐼𝑡. (3.1)
- Mô hình nhân: 𝑌𝑡 = 𝑇𝑡𝑆𝑡𝐶𝑡𝐼𝑡. (3.2)
3.2. Tính dừng của dữ liệu chuỗi thời gian
Một tính chất quan trọng của dữ liệu chuỗi thời gian là tính dừng [4]. Một
chuỗi giá trị trên thời gian t là Yt được coi là dừng khi kỳ vọng, phương sai và
hiệp phương sai ở các độ trễ khác nhau giữ nguyên theo diễn biến thời gian
[4]. Chuỗi Yt được coi là dừng khi thỏa mãn:
- 𝐸(𝑌𝑡) = 𝜇(∀𝑡). (3.3)
9
- 𝑉𝑎𝑟(𝑌𝑡) = 𝐸(𝑌𝑡 − 𝜇)
2 = 𝜎2(∀𝑡). (3.4)
- 𝐶𝑜𝑣(𝑌𝑡 , 𝑌𝑡+𝑘) = 𝐸[(𝑌𝑡+𝑘 − 𝜇)(𝑌𝑡 − 𝜇)] = 𝑌𝑘(∀𝑡). (3.5)
3.2.1. Kiểm tra tính dừng chuỗi thời gian
3.2.1.1. Kiểm tra trực quan trên trên đồ thị biểu diễn chuỗi thời gian
Quan sát đồ thị chuỗi dữ liệu thời gian nếu thấy trung bình có xu hướng
tăng hoặc giảm theo từng khoảng thời gian để dự đoán chuỗi là không dừng.
3.2.1.2. Kiểm tra dựa trên sơ đồ tự tương quan và tự tương quan riêng
phần
3.2.1.2.1. Sơ đồ tự tương quan ACF (Autocorelation Function)
Sử dụng dùng hàm tự tương quan ACF, trong đó: độ trễ k ký hiệu bằng ρk,
xác định bằng công thức như sau:
𝐴𝐶𝐹(𝑘) = 𝑝𝑘
𝑐𝑜𝑣(𝑌𝑡, 𝑌𝑡−𝑘)
𝑉𝑎𝑟(𝑌𝑡)
(3.6)
3.2.1.2.2. Sơ đồ tự tương quan riêng phần PACF
Ta sử dụng hàm tương quan PACF để đo độ kết hợp giữa Yt và Yt-k , với
hệ số tương quan riêng ρkk ước lượng theo công thức Durbin:
𝑃𝐴𝐶𝐹(𝑘) = 𝑝𝑘𝑘 =
𝑝𝑘− ∑ 𝑝𝑘−1 𝑗 𝑝𝑘−𝑗
𝑘−1
𝑗=1
1 − ∑ 𝑝𝑘−1 𝑗 𝑝𝑗
𝑘−1
𝑗=1
(3.7)
Nếu chuỗi dừng thì các kk cũng có phân phối chuẩn 𝑁(0, 1 𝑛⁄ ), do đó
kiểm định giả thiết đối với ρkk tương tự như đối với ρk.
3.2.2. Biến đổi chuỗi không dừng thành chuỗi dừng
Với chuỗi thời gian ban đầu không có tính dừng, trước khi xây dựng mô
hình ARIMA ta phải biến chuỗi thành có tính dừng, phương pháp là lấy sai
phân cấp d với d = 1 hoặc d = 2,...
Ta có công thức: 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡, giá trị ut là nhiễu trắng.
Ta có công thức sai phân cấp 1 của yt như sau: 𝐷(𝑌𝑡) = 𝑌𝑡 − 𝑌𝑡−1 = 𝑢𝑡,
trong đó với ut là nhiễu trắng nên 𝐷(𝑌𝑡) là chuỗi dừng.
Nếu lấy sai phân cấp 1 chuỗi thời gian Yt nhưng chưa cho kết quả là chuỗi
dừng thì tiếp tục lấy sai phân cấp 2, 3 Có thể nói, luôn có một giá trị d để sai
10
phân cấp d của Yt là chuỗi dừng. Khi đó, Yt là liên kết bậc d, ký hiệu là I(d).
Sai phân của cấp d được tính như sau:
+ Cấp 1: 𝐷(𝑌𝑡) = 𝑌𝑡 − 𝑌𝑡−1 (3.8)
+ Cấp 2: 𝐷(𝐷(𝑌𝑡)) = 𝐷
2(𝑌𝑡) = (𝑌𝑡 − 𝑌𝑡−1) − (𝑌𝑡−1−𝑌𝑡−2) (3.9)
+ Tương tự như vậy với sai phân cấp d: 𝐷(𝐷𝑑−1(𝑌𝑡)) (3.10)
3.3. Mô hình ARIMA
3.3.1. Mô hình tự hồi quy AR
Ý tưởng mô hình AR(p) là hồi quy số liệu của nó trong quá khứ ở những
chu kì trước.
𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + ⋯ + 𝑎𝑝𝑌𝑡−𝑝 + 𝑢𝑡; (3.11)
Hàm tuyến tính Yt là của chuỗi quan sát dừng những thời điểm trong quá
khứ: Yt-1, Yt-2
- Mô hình AR(1) : 𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑢𝑡 (3.12)
- Mô hình AR(2) : 𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + 𝑢𝑡 (3.13)
3.3.2. Mô hình trung bình trượt MA (Moving Average)
Hàm tuyến tính yt phụ thuộc vào các biến sai số dự báo quá khứ và hiện
tại. Mô hình trung bình trượt là một trung bình trọng số của những sai số mới
nhất.
𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2 + ⋯ + 𝑏𝑞𝑢𝑡−𝑞 (3.14)
- Mô hình MA(1) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1 (3.15)
- Mô hình MA(2) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2 (3.16)
3.3.3. Mô hình trung bình trượt và tự hồi quy ARMA
Yt là quá trình ARMA(1, 1) nếu Y có thể biểu diễn dưới dạng:
Yt = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑢𝑡 + 𝑏0 + 𝑏1𝑢𝑡−1 (u là nhiễu trắng) (3.17)
Tóm lại, Yt là quá trình ARMA (p, q) nếu Yt có thể biểu diễn dưới dạng:
Yt = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + + 𝑎𝑝𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1𝑢𝑡−1 + (3.18)
11
𝑏2𝑢𝑡−2+ . . . + 𝑏𝑞𝑢𝑡−𝑞
3.3.4. Mô hình trung bình trượt tự hồi quy ARIMA
Với bậc tự hồi quy p, số lần lấy sai phân d để chuỗi Yt được xác định là
chuỗi dừng, bậc trung bình trượt q (p và q là bậc tương ứng của chuỗi dừng).
- Trong mô hình ARIMA (p, d, q), khi d = 0 và q = 0 thì ta có AR(p).
- Trong mô hình ARIMA (p, d, q), khi d = 0 và p = 0 thì ta có MA(q).
- Với ARIMA(1,1,1) nghĩa là Yt có sai phân bậc 1 là một chuỗi dừng.
Chuỗi sai phân dừng này có thể biểu diễn dưới dạng ARMA (1,1).
∆𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎0𝑢𝑡 + 𝑎1𝑢𝑡−1 (u là nhiễu trắng) (3.19)
3.3.5. Dự báo dữ liệu chuỗi thời gian
Các bước chính trong phương pháp Box‐Jenkins:
Nhận dang mô
hình
Ước lượng mô
hình
Mô hình
có phù hợp?
Dự báo
Vẽ biểu đồ
chuỗi giá trị
Là chuỗi dừng?
Lấy sai phân của
chuỗi
Điều chỉnh mô
hình
Có
Không
Có
Không
Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins
Tóm tắt chương 3
Chương 3 đã chi tiết phân tích đặc điểm chuỗi dữ liệu chuỗi thời gian, và
dựa vào đặc điểm của dữ liệu chuỗi thời gian để lựa chọn mô hình phân tích
phù hợp ARIMA. Chương 4 tiến hành thực nghiệm tập dữ liệu dịch bệnh cúm
do Google Flu Trends công bố sử dụng R và dựa trên mô hình ARIMA.
12
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Mô hình thực nghiệm
Một công cụ tự hồi quy (auto regressive - AR) hướng tới sử dụng những
giá trị quá khứ trong công thức hồi quy cho chuỗi Y, tham số tự hồi quy p.
𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + ⋯ + 𝑎𝑝𝑌𝑡−𝑝 + 𝑢𝑡 (4.2)
Một công cụ trung bình trượt (moving average - MA) nêu ra lỗi của mô
hình giống như sự kết hợp thành phần lỗi trước đây et.
𝑌𝑡 = 𝑏0 + 𝑒𝑡 + 𝑏1𝑒𝑡−1 + 𝑏2𝑒𝑡−2 + ⋯ + 𝑏𝑞𝑒𝑡−𝑞 (4.3)
Tự hồi quy và công cụ trung bình trượt thể hiện một mô hình ARIMA:
𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + + 𝑎𝑝𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1𝑢𝑡−1
+ 𝑏2𝑢𝑡−2 + . . . + 𝑏𝑞𝑢𝑡−𝑞
(4.4)
4.2. Mục đích thực nghiệm
Dựa trên tập dữ liệu dịch cúm của Google Flu Trends tiến hành thực
nghiệm nhằm phân tích và đưa ra kết quả dự báo.
4.3. Tập dữ liệu Google Flu Trends
Google Flu Trends là một dịch vụ web do Google thực hiện, cung cấp ước
tính về diễn biến của dịch cúm hơn 25 quốc gia, bằng cách thu thập các truy
vấn của công cụ tìm kiếm Google.
Hình 4.1. Biểu đồ so sánh dữ liệu dự báo của Google Flu Trends và
Trung tâm kiểm soát và phòng ngừa các chứng bệnh của Mỹ
13
Hình 4.2. Mẫu dữ liệu bệnh cúm của 25 nước trên thế giới
được tổng hợp từ 2003 đến 2015
Google Flu Trends thu thập số liệu cúm bằng cách xác định địa chỉ IP của
mỗi tìm kiếm, trạng thái truy vấn này đã được nhập có thể được xác định.
log(𝑃) = 𝛽0 + 𝛽1 𝑥 log(Q) + 𝜀 (4.1)
4.4. Môi trường, cấu hình hệ thống và công cụ
4.4.1. Cấu hình phần cứng
Thành phần Chỉ số
CPU Intel Pentium T4400 / 2.2 GHz
RAM 2 x 2 GB
OS Windows 7
Bộ nhớ ngoài 250 GB
Bảng 1. Cấu hình phần cứng
4.4.2. Các công cụ phần mềm sử dụng
TT Tên phần mềm Nguồn
1 R i386 3.4.4 https://www.r-project.org
Bảng 2. Các công cụ, phần mềm sử dụng
4.5. Kết quả thực nghiệm
Nếu thư viện chưa được cài đặt ta tiền hành cài trước khi sử dụng:
(1)
(2)
14
Hình 4.3. Cài đặt gói thư viện
4.5.1. Lựa chọn và xử lý dữ liệu
Kết quả thu được là số liệu công bố dịch cúm của Argentina từ 2003 đến
2015 có 655 bản ghi. Nạp dữ liệu:
Hình 4.4. Nạp dữ liệu
Ta có tập dữ liệu d sau khi được nạp như sau:
Hình 4.5. Tập dữ liệu cúm của Argentina
Bước 1: Lựa chọn dữ liệu
Trong tập dữ liệu được nạp d là dữ liệu từ năm 2003 đến năm 2015.
15
Hình 4.6. Tập dữ liệu cúm của Argentina năm 2004
Ta trích lấy mẫu dữ liệu của Argentina được thu thập vào năm 2004 và xây
dựng sơ đồ diễn biến.
Hình 4.7. Diễn biến cúm năm 2004 của Argentina theo tháng
Tập dữ liệu đầu vào đã đáp ứng nên thực nghiệm của luận văn bỏ qua
Bước 2: Tiền xử lý dữ liệu và chuyển qua Bước 3: Đổi dạng.
Bước 3: Đổi dạng
Sử dụng hàm tsclean(), tập dữ liệu được làm sạch, trong tập dữ liệu mới
được tạo ra có thêm cột clean_scm, là số liệu đã được làm sạch.
Hình 4.8. Dữ liệu cúm của năm 2004 Argentina được làm sạch
Sau khi được xử lý làm sạch dữ liệu, ta nhận được biểu đồ, như sau:
16
Hình 4.9. Diễn biến cúm Argentina năm 2014 được làm sạch
Công thức trung bình trượt MA của số ca mắc cúm m có thể được tính
bằng cách lấy trung bình của chuỗi Y, k khoảng thời gian xung quanh mỗi
điểm:
𝑀𝐴 =
1
𝑚
∑ 𝑌𝑡+𝑗
𝑘
𝑗 = −𝑘 (4.5)
Xác định nhiều mức độ thời vụ (seasonality), ta lập mô hình trung bình
trượt theo 7 ngày (được thể hiện bởi dòng màu xanh).
Hình 4.10. Biểu đồ bệnh cúm của Argentina với dữ liệu được làm mịn
4.5.2. Phân tách dữ liệu
Bước 4: Khai phá dữ liệu
Phân tách chuỗi và loại bỏ tính thời vụ với hàm seasadj(). Xác định tính
chu kỳ của dữ liệu với ts() trong một khoảng thời gian là 7 ngày.
Hình 4.11. Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu
hướng và chu kỳ
17
Sử dụng ADF để kiểm tra tính dừng của chuỗi thời gian, kết quả trả về giá
trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.8648 và lớn hơn 0.05 cho thấy chuỗi không có tính dừng.
Vì vậy, tiếp tục chọn các tham số thứ tự cho mô hình ARIMA.
Hình 4.12. Mô hình ACF
Hình 4.13. Mô hình PACF
Ta thấy, mô hình ACF tại Hình 4.12 và mô hình PACF tại Hình 4.13 các
hệ số tương quan giảm rất chậm về 0, ta có thể kết luận chuỗi không có tính
dừng. Tiếp tục với sai phân 𝑑 = 1 và đánh giá lại. Kiểm tra lại với ACF với
𝑑 = 1. Với 𝑑 = 1 qua phép kiểm tra ADF ta thu được giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 =
0.0471 nhỏ hơn 0.05, vậy có thể kết luận chuỗi đã có tính dừng.
Hình 4.14. Mô hình kiểm tra với 𝐝 = 𝟏
Ta thấy, có sự tương quan tự đáng kể ở độ trễ 1. Tại các Hình 4.15 mô
hình ACF với 𝑑 = 1 và Hình 4.16 mô hình PACF với 𝑑 = 1, ta thấy ACF và
PACF có sự tăng đột biến đáng kể ở độ trễ 1 và giảm dần về 0, đánh giá thấy
chuỗi đáp ứng tính dừng.
18
Hình 4.15. Mô hình ACF với 𝐝 = 𝟏
Hình 4.16. Mô hình PACF với 𝐝 = 𝟏
Bước 5: Trình diễn
Các tham số (1, 1, 1) ta đã có một mô hình dự báo, chúng ta có thể bắt đầu
bằng cách kiểm tra các ô ACF và PACF.
Hình 4.17. Mô hình 𝐀𝐑𝐈𝐌𝐀(𝟏, 𝟏, 𝟏)
Có một mô hình ACF / PACF và các ô mẫu còn lại lặp lại ở độ trễ 7. Điều
này cho thấy mô hình của chúng ta có thể tốt hơn với một đặc tả khác, như
𝑝 = 7 ℎ𝑜ặ𝑐 𝑞 = 7.
19
Hình 4.18. Mô hình ARIMA (1, 1, 7)
Thông qua mô hình R để dự báo h giai đoạn trong tương lai, với tham số h
được xác định theo chu kỳ 30 ngày liên tiếp ghi nhận số liệu cúm.
Hình 4.19. Mô hình dự báo với hệ số (1, 1, 1)
Đường màu xanh nhạt ở trên cho thấy sự phù hợp do mô hình cung cấp.
Hình 4.20. Mô hình dự báo
Tuy nhiên, đường màu xanh đại diện cho dự báo có vẻ rất đơn giản, nó đi
gần với một đường thẳng khá sớm, mà dường như không giống với mô hình
trong quá khứ của chuỗi.
20
Hình 4.21. Mô hình dự báo ARIMA(0, 2, 0)(0, 0, 1)(7)
Cả hai ước tính dự đoán ở trên được cung cấp với độ tin cậy cao: độ tin
cậy 80% được tô bằng màu xanh sẫm hơn và 95% màu xanh nhạt hơn. Dự báo
dài hạn thường sẽ có sự không chắc chắn hơn, vì mô hình sẽ hồi quy Y trong
tương lai dựa trên các giá trị được dự đoán trong quá khứ của chuỗi.
Hình 4.22. Diễn biến dịch bệnh thực tế tại Argentina từ năm 2003 đến
2015
4.6. Đánh giá kết quả
Với số liệu được trình diễn bằng sơ đồ ta có thể thấy rằng diễn biến dịch
bệnh được thay đổi theo thời gian và có chu kỳ diễn biến nhất định. Tại hình
4.19 sơ đồ biểu diễn dịch bệnh cúm mùa của Argentina năm 2004, số ca mắc
được phân bổ như sau: vào mùa những tháng 1, 2, 3, 4 dịch cúm ở mức thấp ;
đến tháng 5, 6, 7, 8, 9 do sự thay đổi thời tiết khiến dịch bệnh tăng vọt và giảm
dần vào cuối năm từ tháng 10, 11, 12. Chu kỳ biến động dịch bệnh cũng được
lặp đi lặp lại từ năm này qua năm khác. Từ phép phân tích trên có thể nhận
thấy chu kỳ tăng, giảm của bệnh dịch qua đó sẽ đưa ra dự báo cho thời diểm
trong tương lai.
Tóm tắt chương 4
Chương 4 luận văn tiến hành thực nghiệm phân tích tập dữ liệu dịch bệnh
cúm của Google Flu Trends trên R, thông qua mô hình ARIMA và đưa ra dự
báo dữ liệu từ tập dữ liệu cúm của Argentina. Với tỷ lệ dự đoán chính xác
95%, có thể thấy độ tin cậy của kết quả dự đoán trong phần thực nghiệm.
2003-02-02 2004-02-15 2005-02-27 2006-03-12 2007-03-25 2008-04-06 2009-04-19 2010-05-02 2011-05-15 2012-05-27 2013-06-09 2014-06-22 2015-07-05
1
0
0
2
0
0
3
0
0
4
0
0
21
KẾT LUẬN
1. Các kết quả đạt được
Để nghiên cứu bài toán ứng dụng khai phá dữ liệu trong y tế dự phòng,
học viên đã tập trung nghiên cứu các khái niệm về y tế dự phòng, thực trạng về
nhu cầu trong việc quản lý, phân tích và dự báo đươc dịch bệnh trên tập số liệu
được báo cáo.
Bên cạnh đó, học viên cũng nghiên cứu, tìm hiểu một số phương pháp
khai phá dữ liệu hiện nay. Cùng với đó là đề xuất một số phương pháp khai dữ
liệu phù hợp với tập dữ liệu dịch bệnh cúm do Google công bố.
Dựa trên nghiên cứu đó luận văn đề xuất một mô hình dự báo dịch bệnh
truyền nhiễm dựa trên tập dữ liệu thời gian. Luận văn cũng tiến hành cài đặt
thực nghiệm một tập dữ liệu được trích xuất trong tập dữ liệu của một quốc
gia. Dựa vào kết quả phân tích, dự báo như đã trình bày trong phần thực
nghiệm, lấy đó làm cơ sở cho cho xây dựng các bài toán dự báo tình hình dịch
bệnh.
2. Hướng nghiên cứu tiếp theo
Trong khuôn khổ luận văn này, tôi mới chỉ dừng lại ở việc phân tích
chuỗi dữ liệu thời gian và đưa ra dự báo dựa vào xu hướng dữ liệu trên thực
nghiệm trong mô hình đó, đánh giá kết quả dự báo trên tập dữ liệu so với số
liệu thực tế.
Trong thời gian tới, tôi sẽ tiếp tục thực nghiệm các tập dữ liệu còn lại
trong tập dữ liệu được công bố, đồng thời xem xét hướng nghiên cứu bổ sung
nhằm phân tích, đánh giá các quy luật diễn biến dịch bệnh cúm trên toàn cầu
dự trên các đặc điểm thời gian, địa lý, điều kiện thời tiết để nâng cao độ chính
xác và giảm thiểu việc bỏ sót các cặp quan hệ trong chuỗi dữ liệu thời gian.
22
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Nguyễn Minh Sơn - Dịch tễ học, Nhà xuất bản Giáo dục 2012.
Tiếng Anh
[2] Centers for Disease Control and Prevention (CDC USA) - Principles
of epidemiology in public health practice, Third edition 2012. 2
[3] Dorland - Dorland's Illustrated Medical Dictionary 32nd Edition,
2011.
[4] Chi-Chen Wang. “A comparision study between fuzzy time series
model and ARIMA model for forecasting Taiwan export”. Expert Systems
with Applications, vol.38, no.8, pp.9296-9304, 2011.
[5] Hippocrates - On airs, waters, and places written 400 B.C.E
(Translated by Francis Adams).
[6] Han, Jiawei, Jian Pei, and Micheline Kamber. Data mining: concepts
and techniques. Elsevier, 2011.
[7] K. Senthamarai Kannan and E. Sakthivel. “Fuzzy Time Series Model
and ARIMA Model – A Comparative Study”. Indian Journal of Applied
Research, vol.4, no.8, pp.624-636, 2014.
[8] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep
learning." Nature 521.7553 (2015): 436-444.
[9] R. Bonita, R. Beaglehole, Tord Kjellström - Basic epidemiology 2nd
edition, World Health Organization.
[10] Shasha, D., High Performance Discovery in Time Series, Berlin:
Springer, ISBN 0387008578, 2004.
[11] Verikas, Antanas, Adas Gelzinis, and Marija Bacauskiene. "Mining
data with random forests: A survey and results of new tests." Pattern
Recognition 44.2 (2011): 330-349.
[12] https://www.cs.waikato.ac.nz
[13] https://www.spss-tutorials.com/spss-what-is-it
[14] https://www.r-project.org
[15] https://www.britannica.com/science/preventive-medicine.
23
PHỤ LỤC
1. Gọi thư viện: ggplot2, forecast, tseries, lubridate.
> library('ggplot2')
> library('forecast')
> library('tseries')
> library(lubridate)
2. Cài đặt thư viện:
> install.packages("lubridate")
3. Nạp tập dữ liệu:
> d<-read.csv("dataArgentina.csv", head=T)
4. Trích xuất dữ liệu của một năm bất kỳ trong tập d với dữ liệu của năm
2004 của Argentina.
> Nam2004 <- d[format(as.Date(d$Date, format = '%m/%d/%Y'),
'%Y')==2004,]
5. Xây dựng sơ đồ diễn biến số liệu năm 2004 của Argentina.
> Nam2004$Date = as.Date(Nam2004$Date)
> ggplot(Nam2004, aes(Date, Argentina))+ geom_line()+
scale_x_date('month')+ ylab("Số ca mắc cúm")+xlab("thời gian")
6. Làm mịn tập dữ liệu:
> count_sc = ts(Nam2004[, c('Argentina')])
> Nam2004$clean_scm = tsclean(count_sc)
7. Vẽ biểu đồ với tập dữ liệu Nam2004 sau khi được xử lý qua hàm
tsclean():
> ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm))
+ylab('Số ca mắc cúm (Cleaned)')
8. Lấy mức trung bình theo những khoảng thời gian, làm mịn để chuỗi trở
nên ổn định hơn và có thể dự đoán được:
> Nam2004$cnt_ma = ma(Nam2004$clean_scm, order=7) #sử dụng số tại cột
clean_scm đã được loại bỏ ngoại lệ
> Nam2004$cnt_ma30 = ma(Nam2004$clean_scm, order=30)
> ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm, colour
24
="Counts")) + geom_line(data = Nam2004, aes(x = Date, y = cnt_ma30,
colour = "Di chuyển trượt hàng tháng")) + ylab('Số ca bệnh mắc')
9. Làm mịn và điều chỉnh chuỗi ban đầu bằng cách loại bỏ tính thời vụ:
> count_sm = ts(na.omit(Nam2004$cnt_ma), frequency=7)
> decomp = stl(count_sm, s.window="periodic")
> deseasonal_scm <- seasadj(decomp)
> plot(decomp)
10. Sử dụng ADF để kiểm tra tính dừng của chuỗi thời gian:
> adf.test(count_sm, alternative = "stationary")
11. Biểu diễn sơ đồ dữ liệu với ACF và PACF:
> Acf(count_sm, main='')
> Pacf(count_sm, main='')
12. Kiểm tra sơ đồ với d = 1:
> count_d1 = diff(deseasonal_scm, differences = 1)
> plot(count_d1)
> adf.test(count_d1, alternative = "stationary")
13. Biểu diễn sơ đồ dữ liệu với ACF và PACF với d = 1:
> Acf(count_d1, main='ACF for Differenced Series')
> Pacf(count_d1, main='PACF for Differenced Series')
14. Biểu diễn mô hình ARIMA:
> auto.arima(deseasonal_scm, seasonal=FALSE)
> fit<-auto.arima(deseasonal_scm, seasonal=FALSE)
> tsdisplay(residuals(fit), lag.max=45, main='(1,1,1) Model Residuals')
> fit2 = arima(deseasonal_scm, order=c(1,1,7))
15. Biểu diễn mô hình dự báo:
> fcast <- forecast(fit2, h=30)
> plot(fcast)
Các file đính kèm theo tài liệu này:
- tom_tat_luan_van_khai_pha_du_lieu_va_ung_dung_trong_y_te_du.pdf