Tiếp cận máy học và hệ chuyên gia để nhận dạng, phát hiện virus máy tính

Giới thiệu đề tài 1.1.1. Lý do chọn đề tài Ngày nay công nghệ thông tin trở thành một lĩnh vực mũi nhọn trong công cuộc phát triển kinh tế xã hội. Cùng với công nghệ sinh học và năng lượng mới, công nghệ thông tin (CNTT) vừa là công cụ, vừa là động lực thúc đẩy quá trình công nghiệp hóa, hiện đại hóa đất nước. Trong giai đoạn hội nhập quốc tế, CNTT giữ vai trò đặc biệt quan trọng trong việc xử lý tính toán dữ liệu, kết nối thông tin liên lạc của các đơn vị tổ chức trong và ngoài nước. Bảo vệ an toàn dữ liệu cho các hệ thống tính toán, giữ vững an ninh mạng, đảm bảo liên lạc thông suốt, duy trì chất lượng phục vụ luôn là vấn đề quan tâm hàng đầu của các nhà quản trị hệ thống. Sự phát triển của Internet tạo điều kiện cho các loại hình xâm nhập luận lý trái phép vào các hệ thống CNTT cả chiều rộng (lây lan trên quy mô toàn thế giới) và chiều sâu (can thiệp vào hạt nhân hệ thống đích). Mỗi ngày các hệ thống mạng phải đối phó với hàng loạt đợt tấn công bằng mã độc (malicious, harmful code) của tin tặc, khiến nhiều hệ thống bị đình trệ, tắc nghẽn và tê liệt; gây thiệt hại không nhỏ. Dự án nghiên cứu về sự phát triển toàn cầu của Viện Hàn lâm Công nghệ Quốc gia Mỹ (National Academy of Engineering, USA - 2008) nhận định vấn đề an ninh thông tin và virus máy tính là một trong 14 thách thức công nghệ lớn nhất của thế kỷ 21 mà nếu giải quyết được, cuộc sống con người sẽ được cải thiện đáng kể [92]. Virus máy tính (từ đây gọi tắt là virus, phân biệt với từ “virút” trong y học) thực sự trở thành mối đe dọa thường xuyên và cấp bách của các hệ thống CNTT hiện nay. Trong bối cảnh đó, đề tài “Tiếp cận Máy học và Hệ chuyên gia để nhận dạng, phát hiện virus máy tính” được tiến hành nhằm góp phần giải quyết vấn đề bảo vệ an toàn dữ liệu cho các hệ thống CNTT ở Việt Nam. 1.1.2. Mục tiêu của đề tài Để phòng chống virus máy tính, các hệ thống CNTT sử dụng các phần mềm chống virus (anti-virus, gọi tắt là AV). Qua khảo sát, phần lớn các AV chỉ phát huy tác dụng trên các mẫu virus xác định, khả năng dự đoán virus mới còn hạn chế nên thường bị động khi có dịch virus bùng phát. Trên cơ sở xác định loại hình nghiên cứu của đề tài là nghiên cứu ứng dụng, mục tiêu của đề tài là tìm giải pháp cho bài toán nhận dạng virus máy tính và lựa chọn mô hình thích hợp để xây dựng Hệ Phòng chống virus máy tính hướng tiếp cận Máy học và Hệ chuyên gia MAVES - Machine Learning Approach to Anti-Virus Expert System (gọi tắt là MAV) với các chỉ tiêu cơ bản: - Nhận dạng nhanh, phát hiện chính xác các trường hợp lây nhiễm, tiềm ẩn của các virus đã biết trên hệ thống đích. - Có khả năng dự báo biến thể virus; ngăn chận kịp thời, chủ động phòng tránh các tình huống lây nhiễm khi hệ thống chưa cập nhật mẫu virus mới. MỤC LỤC DANH MỤC BẢNG BIỂU vi DANH MỤC HÌNH ẢNH vii KÝ HIỆU VÀ VIẾT TẮT ix CHƯƠNG 1 - MỞ ĐẦU 1 1.1. Giới thiệu đề tài 1 1.1.1. Lý do chọn đề tài 1 1.1.2. Mục tiêu của đề tài 2 1.1.3. Các giai đoạn thực hiện đề tài 2 1.2. Đối tượng, phạm vi nghiên cứu của đề tài 3 1.2.1. Virus máy tính và các hệ thống đích 3 1.2.2. Các hệ học và khám phá tri thức 3 1.2.3. Các hệ chuyên gia 4 1.3. Ý nghĩa khoa học và thực tiễn của đề tài 4 1.4. Cấu trúc của luận án 5 CHƯƠNG 2 – CÁC CƠ CHẾ CHẨN ĐOÁN VIRUS MÁY TÍNH VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN 7 2.1. Khảo sát virus máy tính 7 2.2. Các cơ chế chẩn đoán virus máy tính 9 2.2.1. Phát hiện virus dựa vào chuỗi nhận dạng 11 2.2.2. Phát hiện virus dựa vào hành vi 11 2.2.3. Phát hiện virus dựa vào ý định 12 2.3. Các hệ phòng chống virus máy tính 12 2.3.1. Các sản phẩm trong nước 12 2.3.2. Các sản phẩm nước ngoài 13 2.4. Tình hình nghiên cứu virus máy tính 13 2.4.1. Tình hình nghiên cứu, ứng dụng trong nước 14 2.4.2. Tình hình nghiên cứu, ứng dụng ở nước ngoài 15 2.4.3. Các vấn đề mở của công nghệ anti-virus 15 2.5. Hướng giải quyết của đề tài 16 2.5.1. Các luận điểm của đề tài 17 2.5.2. Giải pháp của đề tài 18 2.6. Các hệ cơ sở tri thức 19 2.6.1. Các Hệ chuyên gia 19 2.6.1.1. Cơ sở tri thức 20 2.6.1.2. Động cơ suy diễn 20 2.6.2. Các hệ Khám phá tri thức từ cơ sở dữ liệu 20 2.6.2.1. Giới thiệu 20 2.6.2.2. Tiến trình khám phá tri thức 21 2.6.3. Các Hệ học 22 2.6.3.1. Học giám sát 23 2.6.3.2. Học không giám sát 23 2.6.3.3. Các hình thức học 24 2.6.4. Các nghiên cứu máy học nhận dạng virus máy tính 25 2.6.5. Các nghiên cứu hệ chuyên gia nhận dạng virus máy tính 27 2.7. Tổng kết chương 29 CHƯƠNG 3 – CƠ CHẾ MÁY HỌC CHẨN ĐOÁN VIRUS MÁY TÍNH 30 3.1. Phân hoạch bài toán chẩn đoán virus máy tính 30 3.2. Các độ đo chất lượng chẩn đoán 31 3.3. Cơ chế máy học chẩn đoán virus máy tính 31 3.3.1. Bài toán 1: Chẩn đoán lớp virus C-class 31 3.3.1.1. Phát biểu bài toán 31 3.3.1.2. Tổ chức cơ sở dữ liệu và trích chọn đặc trưng 32 3.3.1.3. Thuật toán chẩn đoán lớp C-class 32 3.3.1.4. Phân tích, đánh giá thuật toán chẩn đoán lớp C-class 33 3.3.2. Bài toán 2: Chẩn đoán lớp virus D-class 34 3.3.2.1. Phát biểu bài toán 34 3.3.2.2. Tổ chức cơ sở dữ liệu 35 3.3.2.3. Tổ chức không gian tìm kiếm 36 3.3.2.4. Trích chọn đặc trưng 37 3.3.2.5. Luật nhận dạng virus lớp D-class 37 3.3.2.6. Thực nghiệm bài toán chẩn đoán lớp D-class 38 3.3.3. Bài toán 3: Chẩn đoán lớp virus B-class 39 3.3.3.1. Phát biểu bài toán 39 3.3.3.2. Tạo lập cơ sở tri thức 40 3.3.3.3. Tổ chức cơ sở dữ liệu 41 3.3.3.4. Trích chọn đặc trưng 41 3.3.3.5. Xây dựng không gian trạng thái 42 3.3.3.6. Cơ chế phân tích 43 3.3.3.7. Đánh giá độ phức tạp và kết quả thực nghiệm 44 3.3.4. Bài toán 4: Chẩn đoán lớp virus E-class 45 3.3.4.1. Phát biểu bài toán 45 3.3.4.2. Tổ chức cơ sở dữ liệu virus, trích chọn đặc trưng 45 3.3.4.3. Xây dựng cơ sở tri thức 46 3.3.4.4. Tổ chức cơ sở dữ liệu thông tin hệ thống 46 3.3.4.5. Thiết kế động cơ suy diễn 47 3.3.4.6. Giải thích thuật toán SID 47 3.3.4.7. Các tác tử hoạt động 49 3.3.4.8. Kết quả thực nghiệm 50 3.3.4.9. Đánh giá phương pháp chẩn đoán lớp virus E-class 51 3.3.5. Bài toán 5: Chẩn đoán lớp virus A-class 52 3.3.5.1. Lược sử vấn đề nhận dạng mã độc 52 3.3.5.2. Phát biểu bài toán 54 3.3.5.3. Tổ chức cơ sở dữ liệu virus 54 3.3.5.4. Biểu diễn dữ liệu virus bằng mô hình không gian vectơ 55 3.3.5.5. Rút trích đặc trưng 55 3.3.5.6. Ước lượng tỷ lệ mã độc 56 3.3.5.7. Ví dụ minh họa bài toán A-class 57 3.3.5.8. Kết quả thực nghiệm 59 3.3.5.9. Bàn luận về phương pháp chẩn đoán lớp A-class 59 3.4. Tổng kết chương 60 CHƯƠNG 4 – THIẾT KẾ XÂY DỰNG HỆ THỐNG VÀ THỰC NGHIỆM .62 4.1. Mô hình tổng quát của hệ 62 4.2. Tổ chức cơ sở tri thức 62 4.2.1. Mô tả đối tượng 62 4.2.2. Luật nhận dạng virus 64 4.3. Giai đoạn Học dữ liệu 65 4.3.1. Trích chọn dữ liệu 65 4.3.2. Phân cụm dữ liệu 65 4.3.2.1. Tổ chức cấu trúc dữ liệu 66 4.3.2.2. Thuật toán ACV gom cụm trên V-Tree 67 4.3.2.3. Đánh giá thuật toán ACV 71 4.3.3. Rút luật phân bố trị thuộc tính 73 4.3.3.1. Rút luật phân cụm trên V-Tree 73 4.3.3.2. Rút luật phân cụm trên ma trận dữ liệu 74 4.4. Giai đoạn Xử lý dữ liệu 76 4.4.1. Phân loại dữ liệu chẩn đoán 79 4.4.1.1. Phân loại đối tượng 79 4.4.1.2. So khớp luật phân nhóm 82 4.4.2. Chẩn đoán virus bằng kỹ thuật hợp nhất dữ liệu 83 4.4.2.1. Tinh chế dữ liệu trong tiến trình khám phá tri thức 83 4.4.2.2. Tinh chế dữ liệu NULL bằng kỹ thuật hợp nhất dữ liệu 83 4.4.2.3. Virus lạ và dữ liệu NULL 84 4.4.2.4. Dự báo virus lạ bằng kỹ thuật hợp nhất dữ liệu 86 4.4.2.5. Kết quả thực nghiệm 88 4.4.2.6. Bàn luận về kỹ thuật DF2RV 90 4.5. Kết quả thực nghiệm 90 4.5.1. Đánh giá hiệu quả nhận dạng virus của MAV 91 4.5.2. Đánh giá tốc độ thực thi của MAV 92 4.6. Tổng kết chương 94 CHƯƠNG 5 - KẾT LUẬN 95 5.1. Những đóng góp mới của đề tài 96 5.2. Hạn chế của đề tài, cách khắc phục 97 5.3. Hướng phát triển tương lai 98 5.4. Đề nghị về các nghiên cứu tiếp theo 99 CÔNG TRÌNH ĐÃ CÔNG BỐ 100 TÀI LIỆU THAM KHẢO 102 PHỤ LỤC 1 – KHẢO SÁT VIRUS MÁY TÍNH 108 PHỤ LỤC 2 – CÁC ĐỊNH DẠNG DỮ LIỆU NHIỄM VIRUS 117 PHỤ LỤC 3 – CÁC TÁC TỬ HOẠT ĐỘNG VÀ THUẬT TOÁN SID 128 PHỤ LỤC 4 - PHÂN TÍCH HỆ THỐNG PHẦN MỀM MAV 133 PHỤ LỤC 5 - PHÂN HỆ MÁY CHỦ MAVSR 137 PHỤ LỤC 6 - PHÂN HỆ MÁY TRẠM MAVCL 148

32 trang | Chia sẻ: lvcdongnoi | Lượt xem: 2798 | Lượt tải: 4

Bạn đang xem trước 20 trang tài liệu Tiếp cận máy học và hệ chuyên gia để nhận dạng, phát hiện virus máy tính, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

in cậy sau mỗi lần thí nghiệm - Tính giá trị trung bình các độ đo chất lượng (Bảng 3.2) - 34 - Bảng 3.2: Kết quả thực nghiệm bài toán chẩn đoán lớp virus C-class Lần Số virus thử nghiệm Số virus cập nhật Số virus phát hiện Số virus cảnh báo Số virus bỏ sót Độ chính xác (%) Độ dự báo (%) Độ tin cậy (%) 1 1564 1042 1035 31 498 99.33 5.86 68.16 2 1452 968 958 23 471 98.97 4.66 67.56 3 1572 1048 1040 32 500 99.24 6.02 68.19 4 1315 877 868 19 428 99.01 4.25 67.45 5 1389 926 914 20 455 98.70 4.21 67.24 Trung bình: 99.05 5.00 67.72 Thuật toán có độ chính xác cao (99.05%). Tỷ lệ lỗi do các mẫu virus thử nghiệm có sự ghép nối mã lệnh (phát hiện virus thứ nhất trước khi truy vấn trọn vẹn virus thứ hai). Tuy nhiên với tỷ lệ dự báo 5% (chủ yếu là gọi sai tên virus), thuật toán c-Diagnose khó đưa ra khẳng định dương khi chẩn đoán các virus mới (là các mẫu virus chưa cập nhật trong CSDL SC). Khi tập mẫu virus text đủ lớn, có thể bổ sung các mô hình học tiên tiến khác trên lớp dữ liệu văn bản text. 3.3.2. Bài toán 2: Chẩn đoán lớp virus D-class 3.3.2.1. Phát biểu bài toán D-class là lớp các virus macro lây vào tư liệu Microsoft Office, loại virus lợi dụng tập mã lệnh VBA (Visual Basic Application) để thực hiện các hoạt động lây nhiễm trên môi trường ứng dụng MSOffice [66]. Thông thường, các macro thi hành khi người dùng kích hoạt bằng lệnh Run. Không đợi (và không bao giờ đợi) ra lệnh, các virus macro tự thi hành nhờ các trigger thực thi tự động (như AutoExec) khi người dùng mở tư liệu MS Office. Hình 3.2 phân loại các đối tượng chẩn đoán thuộc lớp tư liệu MSOffice. Phân loại này cho thấy chỉ đối tượng nào có macro mới có nguy cơ nhiễm virus macro. Trong mô hình học khám phá tương đồng, các hàm R nhận dạng có dạng: (Xi = Vi) ^…^ (Xk = Vk) Trong đó mỗi Xj là các biến, Vj là các giá trị có thể có của các biến này, các phép tuyển của những giá trị có thể có, hoặc tập của những giá trị này. Theo quy ước, khi một biến mang tất cả các giá trị có thể có của nó trong một hàm nhận dạng - 35 - thì nó có thể được lược bỏ. Một hàm nhận dạng có trị TRUE đối với đối tượng chẩn đoán dObject khi các giá trị của các biến của dObject là một trong những hàm đó. Lúc đó ta nói rằng hàm nhận dạng được đối tượng dObject. Nếu không nhận dạng được đối tượng (hàm trả về trị FALSE), ta nói rằng hàm loại bỏ đối tượng này. Trong không gian chẩn đoán N đối tượng, khi hàm R nhận dạng nhiều hơn một đối tượng, tập con của các giá trị mà nó nhận dạng gọi là được nhận dạng bởi R. Ngược lại, cho một tập con các đối tượng, ta có thể tạo một hàm nhận dạng được phát sinh bởi tập con này bằng cách lấy phép tuyển các giá trị của các biến của chúng [9]. Ứng với mỗi đối tượng chẩn đoán dObject trong không gian SD, hệ sẽ xây dựng các hàm nhận dạng R sao cho có thể nhận dạng (và phân loại) các đối tượng có nhiễm virus macro hay không. Nếu có thì nhiễm virus macro đã biết nào (thuộc một trong các con Vj nào của nút “Virus macro”). Nếu không xác định được giá trị Vj cụ thể, có thể kết luận dObject nhiễm một loại virus macro mới. Cuối cùng, rút luật nhận dạng để bổ sung vào CSDL và CSTT của hệ. 3.3.2.2. Tổ chức cơ sở dữ liệu Mẫu virus macro trong CSDL SD của bài toán D-class được tổ chức như sau: MacroVirus = Trong đó thuộc tính Tập macro chứa danh sách các macro của virus. Lấy ví dụ, tập macro của virus Concept là chuỗi các macro name dạng: “AutoOpen, PayLoad, Vclose, AutoExit” Tư liệu Office Có macro Không macro Chờ thi hành Tự chạy Người dùng Virus macro Hình 3.2: Phân loại tư liệu MSOffice - 36 - Khi xử lý đối tượng (là virus mẫu hay đối tượng chẩn đoán), hệ sẽ trích ra danh sách các macro name của đối tượng rồi cập nhật vào CSDL (đối với mẫu virus) hoặc phân tích và phát hiện mối nguy hiểm tiềm ẩn (đối với đối tượng cần chẩn đoán). Bằng cách này, quá trình tổ chức không gian tìm kiếm và trích chọn đặc trưng tập mẫu virus (trên máy chuyên gia ở giai đoạn học) và đối tượng chẩn đoán (trên máy người dùng ở giai đoạn xử lý) là như nhau. 3.3.2.3. Tổ chức không gian tìm kiếm Mục tiêu của quá trình trích chọn đặc trưng nhằm khẳng định các phát biểu “dObject là tư liệu MSOffice” và “dObject có macro tự chạy”. Đầu tiên, tiến hành phân loại đối tượng theo đặc trưng dữ liệu (DOC, XLS hay PPT) và xác định các định dạng con (sub-format) cho từng phiên bản MSOffice. Kế tiếp, đọc và phân tích danh sách macro cho từng khối (paragraph) dữ liệu 512-bytes của dObject (xem Phụ lục 2). Cuối cùng, ánh xạ các khối dữ liệu có macro vào không gian tìm kiếm. Với mỗi đối tượng chẩn đoán dObject, không gian tìm kiếm được tổ chức dưới dạng ma trận vectơ XD(idx, mCount, mList) như hình 3.3, trong đó: - idx: số thứ tự paragraph - mCount: số macro có trong paragraph (mCount>0) - mList: danh sách mCount macro của paragraph Danh sách liên kết các macro của mỗi paragraph được tổ chức như sau: - mName: tên macro - mType: có tự thi hành hay không (true/false) - next: trỏ đến macro kế (macro cuối cùng, next = nil) idx mCount mList1 Macro1 mType next (…) MacroN mType nil … … … … … … … idxk mCountk mListk Macrok mType nil Hình 3.3: Không gian chẩn đoán dữ liệu lớp D-class - 37 - 3.3.2.4. Trích chọn đặc trưng Tập hành vi macro là nguyên liệu xây dựng các hàm nhận dạng. Thuật giải trích chọn tập MacroSet của dObject từ không gian chẩn đoán XD như sau: • Khởi tạo tập MacroSet rỗng • Đối với mỗi phần tử thuộc ma trận chẩn đoán XD, thực hiện: - Duyệt mCount macro - Nếu macro hiện tại là mới, đưa vào danh sách MacroSet (Hình 3.4). Trong thuật toán trích chọn tập hành vi virus macro ở hình 3.4, các lệnh (1), (3) và (8) có độ phức tạp O(1). Độ phức tạp của thuật toán phụ thuộc vào các lệnh (2) và (4). Trung bình mỗi virus macro có khoảng 10 hành vi (và cũng từng ấy số hành vi nhiều nhất trong mỗi paragraph). Hơn nữa, kích thước của các đối tượng chẩn đoán có thể lên đến hàng trăm MB nên i>>j. Vì vậy, độ phức tạp của lệnh (4) xấp xỉ O(1). Do đó độ phức tạp của thuật toán là O(n). (1) MacroSet ← ∅ (2) FOR i = 1 TO SizeOf(X) DO (3) aMacro ← X[i].mList (4) FOR j = 1 TO X[i].mCount DO (5) IF (aMacro.Nextnil) AND (Pos(aMacro.Name, MacroSet)=0) (6) THEN Insert(MacroSet, aMacro.Name) (7) ENDIF (8) aMacro ← aMacro.Next (9) ENDFOR (10) ENDFOR Hình 3.4: Thuật toán trích chọn tập hành vi chẩn đoán lớp D-class 3.3.2.5. Luật nhận dạng virus lớp D-class Trong hệ MAV, các hàm R nhận dạng đối tượng chẩn đoán thuộc lớp tư liệu MSOffice được cài đặt như sau: - 38 - X1 = Tư liệu MSOffice (True/False) X2 = Có macro (True/False) X3 = Macro tự chạy (True/False) X4 = Nhiễm virus macro (True/False) X5 = Macro 1 (True/False) X6 = Macro 2 (True/False) (…) Hàm nhận dạng đối tượng dObject có chứa virus macro đã biết (là một trong n virus macro đã cập nhật) có dạng: R: (X1= true) ^ (X2=true) ^ (X3 = true) ^ (X4 =true) ^ (X4+i =true) ∀ i = 1..n Luật nhận dạng virus macro M được phát biểu như sau: Luật 1: IF dObject là tư liệu MSOffice AND dObject có macro AND Macro này thuộc loại tự chạy THEN dObject là nguy hiểm Luật 2: IF dObject là nguy hiểm AND Macro có tên là Macro i (i=1..n) THEN Đối tượng nhiễm virus macro M[i] Luật nhận dạng virus macro mới được phát biểu như sau: Luật 3: IF dObject là nguy hiểm AND dObject không chứa các macro tự tạo THEN dObject nhiễm virus macro mới Luật thực thi khi chẩn đoán đối tượng nhiễm virus macro như sau: Luật 4: IF dObject nhiễm virus macro M[i] OR dObject nhiễm virus macro mới AND Người dùng đồng ý xóa macro THEN Loại trừ macro của dObject 3.3.2.6. Thực nghiệm bài toán chẩn đoán lớp D-class Áp dụng quy trình thực nghiệm như đối với bài toán C-class, kết quả nhận được trình bày trong bảng 3.3. - 39 - Bảng 3.3: Kết quả thực nghiệm bài toán chẩn đoán lớp virus D-class Lần Số virus thử nghiệm Số virus cập nhật Số virus phát hiện Số virus cảnh báo Số virus bỏ sót Độ chính xác (%) Độ dự báo (%) Độ tin cậy (%) 1 4256 2837 2793 1378 85 98.45 94.19 98.00 2 4122 2748 2702 1325 95 98.33 93.31 97.70 3 3946 2631 2597 1286 63 98.72 95.33 98.40 4 3678 2452 2431 1185 62 99.14 95.03 98.31 5 4320 2880 2849 1411 60 98.92 95.92 98.61 Trung bình: 98.71 94.76 98.21 Kết quả này cho thấy mô hình học tương đồng của bài toán D-class dự báo được 94.76% mẫu virus macro trên tập dữ liệu thử nghiệm. Tỷ lệ thất bại do các mẫu dữ liệu có mật khẩu và các trường hợp macro virus chen vào các macro tự tạo. Hướng giải quyết là thiết lập bộ tinh chỉnh luật dưới dạng tùy chọn điều khiển trạng thái các mệnh đề “dObject không chứa các macro tự tạo” và “Đồng ý xóa macro”. 3.3.3. Bài toán 3: Chẩn đoán lớp virus B-class 3.3.3.1. Phát biểu bài toán Lớp B-class chứa các boot virus lây vào các MTKĐ trên sector đầu tiên của đĩa mềm khởi động (xem Phụ lục 1). Có hai vấn đề cần giải quyết là (i) nhận dạng các boot virus cũ và (ii) phát hiện các boot virus mới trên MTKĐ. Dù được định dạng (format) dưới bất kỳ HĐH nào, các MTKĐ trên đĩa đều có nhiệm vụ tìm và tải các mô-đun khởi động sơ cấp của HĐH vào bộ nhớ rồi trao quyền để máy tính tiếp tục quá trình khởi động. Nếu một MTKĐ nào thực hiện các tác vụ lạ, nó không phải là MTKĐ hợp lệ và có thể là boot virus mới. Bài toán chẩn đoán B-class được giải quyết theo hướng phân tích hành vi [12] như sau: • Tổ chức hai CSDL dữ liệu: CSDL thứ nhất chứa thông tin về các boot virus đã cập nhật. CSDL thứ hai chứa các MTKĐ sạch phổ biến của các hệ điều hành. • Cung cấp các tập miền (domain theory) mô tả hành vi đối tượng trong hai CSDL nói trên. Tập miền thứ nhất định nghĩa các hành vi cơ bản của boot virus. Tập miền thứ hai mô tả các tác vụ thực hiện chức năng cơ bản của MTKĐ của các HĐH. Các tập miền được biểu diễn dưới dạng luật. - 40 - • Tải đối tượng chẩn đoán bObject vào không gian quan sát đồ thị hóa. • Phân tích hành vi, phân loại đối tượng chẩn đoán bObject: - Áp dụng các thuật giải tìm kiếm và suy luận trên không gian quan sát. - Nếu dữ liệu phản ánh các mô tả của tập miền thứ nhất, thông báo tình trạng nhiễm virus của bObject, xử lý bệnh, báo cáo kết quả, kết thúc. - Nếu dữ liệu phản ánh các mô tả của tập miền thứ hai, kết luận về tình trạng an toàn của MTKĐ, kết thúc quá trình. - Ngoài ra, thông báo về tình trạng khác thường của bObject (virus mới, device driver, sector hỏng, định dạng lạ…) • Kết thúc quá trình, bổ sung thông tin đối tượng vào các CSDL tương ứng (boot virus lạ vào CSDL thứ nhất, MTKĐ sạch vào CSDL thứ hai). 3.3.3.2. Tạo lập cơ sở tri thức Hành vi (act) là tập hợp các chỉ thị máy thực hiện một tác vụ, ví dụ đọc một cung đĩa chỉ định vào vùng nhớ ở địa chỉ xác định. Một cách đệ quy, hành vi được hình thành từ tập các hành vi khác (gọi là hành vi cơ bản – basic act). Tri thức chuyên gia được biểu diễn dưới dạng luật với ngữ nghĩa: IF Hành vi p1 AND Hành vi p2 AND (…) AND Hành vi pn THEN Hành vi/Kết luận Q Trong đó pi là hành vi cơ bản thứ i, Q là hành vi ở mức tổng quát. Trong một số trường hợp, Q là hành vi cơ bản của các hành vi tổng quát nào đó. Ở mức suy diễn cuối cùng, Q là kết luận về tình trạng của MTKĐ [62]. Về mặt tổ chức, các hành vi cơ sở được xây dựng thành các lớp luật con. Các hành vi này là sự kiện trả lại giá trị luận lý, hoặc kết quả của biểu thức tính toán. Lấy ví dụ, khái niệm ‘Is a boot virus’ được định nghĩa qua các hành vi cơ bản: - Lấy kích thước bộ nhớ, và - Giảm kích thước bộ nhớ, và - 41 - - Đặt lại kích thước bộ nhớ cho hệ điều hành, và - Tách vùng nhớ chứa virus ra khỏi phạm vi kiểm soát của hệ thống, và - Chuyển mã lệnh virus vào vùng nhớ này… Tập tri thức hành vi boot virus được mô tả dưới dạng luật như sau: Boot virus ← GetMemSize, DecMemSize, SetMemSize, SetMemVi, MovViCode GetMemSize ← ReadMem, GetValue DecMemSize ← SetNewSize, WriteMem (…) 3.3.3.3. Tổ chức cơ sở dữ liệu Khác với các virus phổ biến lưu mã lệnh trong tổ chức file, boot virus chèn mã lệnh vào MTKĐ trên sector đầu tiên của đĩa (xem Phụ lục 2, Cấu trúc mẫu tin khởi động). Các mẫu tin boot virus trong CSDL SB có dạng: BootVirus = Thuộc tính Kích thước nhận các giá trị là bội số của độ dài sector (512 byte). Thuộc tính Tập chỉ thị chứa mã thi hành của boot virus, gồm hai phần mã nhảy 3- byte (nhảy ngang qua bảng thông số đĩa) và mã kích hoạt. Do mỗi sector đĩa dài 512 byte nên lệnh nhảy đầu MTKĐ chỉ có thể là nhảy gần (jump short) dưới 128 byte (mã E8) hoặc trên 128 byte (mã E9). Địa chỉ offset phần mã kích hoạt được định vị ngay sau lệnh nhảy bằng cách cộng thêm 2 (đối với E8) hoặc 3 byte (đối với E9) vào byte thứ hai của mã nhảy (ví dụ mã nhảy E85890, offset mã kích hoạt là 5A). 3.3.3.4. Trích chọn đặc trưng Mục tiêu của bước này nhằm tái hiện các hành vi của đối tượng trong thế giới thực. Đầu tiên, sử dụng một bảng tra chỉ thị dạng để dịch ngược các lệnh thi hành từ Tập chỉ thị. Kế tiếp, phân tích nội dung mã lệnh của đối tượng để xây dựng tập các tiền đề trong luật. Cuối cùng, tổ chức tập luật kết quả cho bước phân tích hành vi tiếp theo. Bảng tra chỉ thị dùng để cung cấp thông tin thông dịch (interpreter) ý nghĩa mã lệnh và định vị offset mã lệnh tiếp theo trong chuỗi mã thi hành của đối tượng. Ví dụ luật GetMemSize mô tả hành vi Lấy kích thước bộ nhớ như sau: - 42 - NẾU Code = $8B //mã chỉ thị MOV Và NextCode = $07 //mã chỉ thị MOV AX,[BX] Và BX = $0413 //BX: index register Và DS = 0 //DS: segment register THÌ Lấy kích thước bộ nhớ Với cách tổ chức này, tập tri thức mô tả hành vi của boot virus là rất phong phú. Trong ví dụ trên, luật này chỉ mới mô tả các hành vi: - Có sử dụng AX làm ValueRegister mà chưa xét các BX, CX, DX, SI, DI… - Có sử dụng BX làm IndexRegister mà chưa xét SI, DI, BP… - Có sử dụng DS làm SegmentRegister mà chưa xét ES, SS… Tương tự, một tập tri thức hành vi của các MTKĐ sạch cũng được xây dựng làm cơ sở đối chiếu cho quá trình chẩn đoán bObject. 3.3.3.5. Xây dựng không gian trạng thái Trong kiến trúc IBM-PC, MTKĐ được ROM-BIOS nạp vào địa chỉ (0000:$7C00) nên các địa chỉ tham chiếu trong MTKĐ đều được xác định tuyệt đối. Để phát hiện các hành vi của boot virus trong bộ nhớ ở chế độ thực, một máy ảo (virtual machine) [13] được sử dụng với các đặc tính kỹ thuật cơ bản như sau: • Bộ chỉ thị: bộ chỉ thị của máy ảo tương thích với bộ chỉ thị của máy PC dùng họ vi xử lý 80x86/Pentium trong chế độ thực (không gồm các chỉ thị ở mức hệ điều hành, vốn chưa sử dụng trong quá trình khởi động máy). • Bộ xử lý lệnh: tương thích với cơ chế lấy/phân tích lệnh của bộ vi xử lý Intel 80x86/Pentium trong chế độ thực. Các chỉ thị của bộ xử lý lệnh được chia làm hai nhóm: các lệnh tuần tự và các lệnh nhảy. Khi gặp lệnh nhảy, một hàm lượng giá đặc biệt sẽ được triệu gọi để lựa chọn hướng xử lý tiếp theo. • Bộ nhớ làm việc: bao gồm bộ nhớ cho trình và bộ nhớ dữ liệu. • Bộ nhớ cho trình là không gian trạng thái của môtơ suy diễn trên máy thực. Để bảo vệ máy thực, một hàm ánh xạ chuyển đổi địa chỉ tương đối trên máy ảo thành địa chỉ luận lý tương ứng trên máy thật. Bộ nhớ cho trình cũng chứa các biến bộ nhớ “thanh ghi” và “cờ hiệu” giống như cách tổ chức của CPU. - 43 - • Bộ nhớ dữ liệu được tổ chức dưới dạng ngăn xếp. Dữ liệu của các chương trình con (địa chỉ lệnh đang thực hiện, địa chỉ trỏ đến lệnh sẽ thực thi, địa chỉ trở về…) sẽ được xếp chồng vào ngăn xếp của máy ảo theo nguyên tắc LIFO. Không gian trạng thái được tổ chức dưới dạng cây nhị phân [14] như sau: - Nút gốc đặc tả sự kiện kích hoạt điểm vào lệnh đầu tiên - Nhánh đặc tả tình huống thực hiện các lệnh tuần tự - Nút con đặc tả các biến cố rẽ hướng thực hiện của các lệnh nhảy - Nút lá đặc tả điểm dừng (khi kết thúc chẩn đoán hoặc phát hiện boot virus) Đối với các lệnh lặp, xử lý chu trình như một lệnh đơn tuần tự với cây nhị phân cục bộ trong lòng chu trình (Hình 3.5). 3.3.3.6. Cơ chế phân tích Dựa vào các tập luật mô tả hành vi để phát hiện các thao tác của boot virus, quá trình lần vết trên cây thực hiện theo phương pháp tìm kiếm với tri thức bổ sung [63]. Khi duyệt cây, hành vi của bObject được thu thập dần vào danh sách tác vụ. Mỗi lần cập nhật hành vi, bộ phân tích sẽ đánh giá danh sách này đã hội đủ các hành vi kết luận (đạt đến mức khái niệm) hay chưa để quyết định duyệt tiếp hay dừng. Khi duyệt đến nút (biến cố rẽ nhánh), bộ xử lý lệnh máy ảo sẽ gọi một hàm lượng giá “thanh ghi cờ” để quyết định hướng rẽ nhánh thực hiện (Hình 3.6). Nếu phát hiện virus mới, hệ sẽ tự trích chọn đặc trưng của MTKĐ nhiễm rồi bổ sung vào CSDL để chẩn đoán các MTKĐ khác trong tương lai. Begin Hình 3.5: Cây chỉ thị nhị phân tìm kiếm - 44 - 3.3.3.7. Đánh giá độ phức tạp và kết quả thực nghiệm Giả sử cây chỉ thị nhị phân có n nút. Do chỉ duyệt trên một nhánh nào đó của cây nhị phân nên mỗi lần duyệt, số nút giảm đi một nửa. Trong trường hợp xấu nhất, thuật giải tìm kiếm phải thực hiện i lần sao cho 2i = n, tức là i = logn. Do đó, độ phức tạp của thuật giải xử lý lệnh của máy ảo có độ phức tạp là O(logn). Trong thực nghiệm, máy ảo chẩn đoán B-class của MAV có: - Bộ nhớ làm việc 64 KB RAM - 256 vector ngắt 4-byte đặt tại địa chỉ 0000:0000 của máy ảo - 512 byte thông tin điều khiển của máy ảo, timer cục bộ… - Các biến nhớ đóng vai trò của các thanh ghi gồm cờ nhớ, AX, BX, CX, DX, CS, ES, DS, SS, SP, BP, DI, SI và IP. - Bộ chỉ thị và bộ xử lý lệnh tương thích CPU 80x86/Pentium Để máy ảo hoạt động trên HĐH Windows32, MAV xây dựng thêm một hàm ánh xạ địa chỉ bộ nhớ giữa hai cơ chế định vị địa chỉ tương đối (segment:offset) của MSDOS và định vị địa chỉ bộ nhớ phẳng (flat memory) của Windows 32. Bảng 3.4: Kết quả thực nghiệm bài toán chẩn đoán lớp virus B-class Lần Số virus thử nghiệm Số virus cập nhật Số virus phát hiện Số virus cảnh báo Số virus bỏ sót Độ chính xác (%) Độ dự báo (%) Độ tin cậy (%) 1 180 120 118 55 7 98.33 88.71 96.11 2 174 116 114 51 9 98.28 85.00 94.83 3 184 123 119 57 8 97.01 87.69 95.65 4 168 112 110 49 9 98.21 84.48 94.64 5 178 119 116 53 9 97.75 85.48 94.94 Trung bình: 97.92 86.27 95.24 Hình 3.6: Hàm bổ sung tri thức Heuristic function (1) (2) (3) - 45 - Kết quả thực nghiệm (bảng 3.4) cho thấy bài toán B-class có độ tin cậy trên 95%. Các trường hợp nhầm tên do các virus sử dụng cùng tập lệnh khởi động nhưng điểm vào lệnh khác nhau. Các mẫu thất bại do virus sử dụng kỹ thuật mã hóa phức tạp (số vòng lặp giải mã lớn gây tràn ngăn xếp máy ảo). Chỉ sử dụng tập miền, bài toán B-class có thể dự báo boot virus không cần CSDL virus mẫu. Tuy nhiên nhược điểm của phương pháp này là phức tạp trong cài đặt. 3.3.4. Bài toán 4: Chẩn đoán lớp virus E-class 3.3.4.1. Phát biểu bài toán Lớp E-class chứa các file virus lây vào tập thi hành (COM, EXE…)[5]. Với mỗi đối tượng eObject, nhiệm vụ của bài toán là (i) nhận dạng các file virus đã biết và (ii) dự báo khả năng eObject nhiễm một loại file virus lạ nào đó. Nhiệm vụ thứ nhất sử dụng mẫu nhận dạng virus do chuyên gia cập nhật thủ công [46]. Nhiệm vụ thứ hai được giải quyết bằng mô hình kết hợp CSDL (chứa thông tin đối tượng chẩn đoán) và CSTT (chứa tập luật nhận dạng virus). Mô hình AMKBD (Association Model of Knowledge Base and Database) [55] cho phép phối hợp linh hoạt các phương pháp chẩn đoán truyền thống và chẩn đoán dựa trên luật để giải quyết đồng thời hai nhiệm vụ cơ bản của bài toán chẩn đoán E-class. 3.3.4.2. Tổ chức cơ sở dữ liệu virus, trích chọn đặc trưng Cơ sở dữ liệu SE chứa các mẫu tin mô tả file virus dạng: FileVirus = Trong đó thuộc tính Kích thước chứa độ dài phần mã lệnh virus ghép vào chủ thể, Tập hành vi chứa các độ dời kỹ thuật của virus và nội dung mã lệnh virus ở điểm vào lệnh IP (instruction pointer) của file EXE (Phụ lục 1). Độ dời kỹ thuật là khoảng cách tương đối của virus so với cuối file (đối với loại virus ghép đuôi), đầu file (đối với loại chèn đầu) hoặc cả hai (đối với loại định vị buffer). Điểm vào lệnh IP và chuỗi mã lệnh virus được tự động trích chọn nhờ các thủ tục phân tích header file thi hành trong giai đoạn học (xem Phụ lục 2, Các định dạng tập tin thi hành). - 46 - 3.3.4.3. Xây dựng cơ sở tri thức Ngoài CSDL virus SE sẵn có, thông tin ban đầu về đối tượng chẩn đoán là hoàn toàn trống rỗng. Vì vậy hệ phải tự sản sinh dữ liệu cung cấp cho quá trình chẩn đoán. Bài toán chẩn đoán E-class sử dụng hai tập luật cơ bản (Bảng 3.5): - Tập luật RS1: mô tả các biến cố phát sinh do hành vi của file virus - Tập luật RS2: giải thích sự thay đổi nội dung đối tượng dựa vào các dấu vết của file virus để lại tại “hiện trường”. Bảng 3.5: Các luật cơ bản chẩn đoán file virus lạ Lớp Luật Tiền đề Hệ quả R11 Nếu có tình huống mở file để ghi Thì file sẽ bị thay đổi R12 Nếu có tình huống đổi thuộc tính của file Thì file sẽ bị thay đổi R13 Nếu có tình huống đổi ngày tháng của file Thì file sẽ bị thay đổi R14 Nếu có tình huống đọc thuộc tính của file Và file không bị thay đổi Thì file đáng ngờ R15 Nếu có tình huống mở file Và file không bị thay đổi Thì file đáng ngờ RS1 R16 Nếu có tình huống đọc ngày tháng của file Và file không bị thay đổi Thì file đáng ngờ R21 Nếu thuộc tính file bị thay đổi Thì file đã thay đổi R22 Nếu ngày tháng file bị thay đổi Thì file đã thay đổi RS2 R23 Nếu kích thước file bị thay đổi Thì file đã thay đổi 3.3.4.4. Tổ chức cơ sở dữ liệu thông tin hệ thống Để cung cấp dữ liệu cho quá trình suy diễn, MAV sử dụng CSDL VerifyDB chứa thông tin đối tượng chẩn đoán với lược đồ quan hệ như sau: ĐỐITƯỢNG (ĐỐI_TƯỢNG, TÊN, ĐỊA_CHỈ, KIỂU, KÍCH_THƯỚC, THUỘC_TÍNH, NGÀY_THÁNG) PHIÊNBẢN(PHIÊN_BẢN, NGÀY_PHÁT_HÀNH, SỐ_VIRUS) LỊCHQUÉT(#PHIÊN_BẢN, #ĐỐI_TƯỢNG, NGÀY_QUÉT) Trong lược đồ quan hệ CSDL VerifyDB, ĐỐI_TƯỢNG, PHIÊN_BẢN là khóa chính của các quan hệ ĐỐITƯỢNG và PHIÊNBẢN. Bộ khóa ngoại PHIÊN_BẢN và ĐỐI_TƯỢNG tạo thành khóa chính của quan hệ LỊCHQUÉT (Hình 3.7). - 47 - 3.3.4.5. Thiết kế động cơ suy diễn Cơ chế Tìm kiếm – Suy diễn – Chẩn đoán (SID, Searching – Inferring – Diagnosing) dựa vào nguyên lý học tình huống như sau: - Đối với tập dữ liệu lạ, tiến hành kiểm tra chẩn đoán bệnh cũ, đồng thời ghi nhận tri thức về “cộng đồng dịch tể” mới tiếp xúc này. - Khi đã có “thông tin sức khỏe” (tri thức bệnh học), thường xuyên giám sát cộng đồng về mặt “vệ sinh dịch tể”. - Khi phát sinh tình huống cá thể lạ gia nhập cộng đồng, cần kiểm tra “sức khỏe” của đối tượng mới xuất hiện để hạn chế việc nhiễm bệnh từ bên ngoài. - Khi có dịch, không cần thực hiện toàn bộ các xét nghiệm bệnh lý mà chỉ cần kiểm tra từng cá thể xem có mắc bệnh mới hay không (Hình 3.8). 3.3.4.6. Giải thích thuật toán SID Phần đầu của thuật toán SID (xem Phụ lục 3) gồm các lệnh khởi tạo không gian tìm kiếm (dòng 1), tích hợp tri thức chẩn đoán cho CSTT (dòng 2) và phân lớp các điểm dữ liệu có thể nhiễm vào CLASS_1, các điểm sạch vào CLASS_2 (dòng 3). Phần thân chứa vòng lặp (dòng 4) quét các điểm dữ liệu trong CLASS_1. Ứng với mỗi điểm dữ liệu eObject, SID thực hiện các thao tác: - Tìm trong CSDL thông tin về đối tượng chẩn đoán (dòng 5). - Nếu không thấy (dòng 6), kiểm tra virus (dòng 8), xử lý bệnh (dòng 9) và báo cáo (dòng 10). Sau đó cập nhật CSDL chẩn đoán (dòng 12, 13). - Ngược lại, đây là đối tượng đã xử lý (dòng 11). Cần kiểm tra 3 trường hợp: Hình 3.7: Mô hình quan hệ cơ sở dữ liệu VerifyDB - 48 - Hình 3.8: Lưu đồ chẩn đoán đối tượng E-class Kiểm tra virus Kết thúc Đ S Dữ liệu không đổi kể từ lần kiểm tra gần đây với version cũ Dữ liệu đã thay đổi kể từ lần kiểm tra gần đây với version cũ Tìm eObject trong VerifyDB eObject ∈ VerifyDB ? Dữ liệu đã thay đổi kể từ lần kiểm tra gần nhất cùng version Bắt đầu eObject Do virus ? Chất vấn Do user ? Xử lý bệnh Cập nhật CSDL Cô lập eObject Phát hiện ? Xử lý bệnh Cập nhật CSDL Kiểm tra virus Phát hiện ? Do virus ? Chất vấn Do user ? Xử lý bệnh Cập nhật CSDL Cô lập eObject Báo cáo Đ S Đ S Đ S Đ Đ S S S Đ Đ S Đ S Đ Cập nhật CSDL S Kiểm tra virus Phát hiện ? Đ S - 49 - • Trường hợp 1: Dữ liệu đã thay đổi kể từ lần kiểm tra cùng version gần nhất (dòng 15). Cảnh báo (dòng 16). Tương tác hội thoại, thu nhận tri thức: - Do virus (dòng 17): xử lý bệnh, báo cáo, cập nhật, tăng trưởng CSTT - Do con người (dòng 22): cập nhật dữ liệu chẩn đoán - Chưa xác định (dòng 24): khóa đối tượng, báo cáo, tăng trưởng CSTT • Trường hợp 2: Dữ liệu không đổi kể từ lần kiểm tra gần đây với version cũ (dòng 30). Kiểm tra lại để phát hiện các virus mới cập nhật. Nếu phát hiện (dòng 32), xử lý virus và cập nhật lại thông tin chẩn đoán (dòng 36). • Trường hợp 3: Dữ liệu đã thay đổi kể từ lần kiểm tra gần đây với version cũ (dòng 39). Kiểm tra lại (dòng 41), nếu phát hiện virus xử lý giống như trường hợp 2. Ngược lại, xử lý như trường hợp 1 (dòng 46, 47 đến dòng 58). 3.3.4.7. Các tác tử hoạt động Các luật RS1 chỉ phát huy trong thời gian rất ngắn (khoảng vài miligiây của tiến trình xử lý), trong khi các luật RS2 có hiệu quả trong thời gian dài (từ vài giây đến hàng tháng, thậm chí hàng năm tùy theo tốc độ lây của virus và tần suất sử dụng hệ thống). Các tình huống phát sinh trong lớp luật RS1 thuộc loại “kiến thức tức thời” (instant knowledge), dễ bị phủ lấp bởi vô số các tình huống khác của hệ thống. Ngược lại, các thay đổi trên đối tượng thể hiện trong lớp luật RS2 thuộc loại “kiến thức dài lâu” (permanent knowledge) bền vững theo thời gian. Để thu thập thông tin cho CSDL VerifyDB, MAV sử dụng cơ chế đa tác tử (multi-agent mechanism) với hai tác tử VSA (Virus Scanning Agent) và VAA (Virus Autoprotect Agent) [56]. Hoạt động ở mức nền trước (foreground), VSA có nhiệm vụ quét virus, thu thập kiến thức dài lâu và giải thích các thay đổi của hệ thống dựa vào lớp luật RS2. Ở mức nền sau (background), VAA chạy thường trực [19] nhằm đón bắt các kiến thức tức thời (tình huống phát sinh trên đối tượng) dựa vào lớp luật RS1. Cả hai tác tử sử dụng chung động cơ suy diễn SID và tương tác nhau, tránh tranh chấp tiến trình hệ thống [37]. Ví dụ, trước khi VSA phát sinh tình huống WriteFile, nó gửi một thông điệp báo cho VAA yêu cầu bỏ qua tình huống này. Khi VAA xử lý xong một đối tượng, nó thông báo cho VSA không cần kiểm tra đối tượng đó (xem Phụ lục 3). - 50 - 3.3.4.8. Kết quả thực nghiệm Tập dữ liệu thực nghiệm X có 56100 mẫu thử với dung lượng tổng cộng 8.000.000 KB. Máy tính thử nghiệm sử dụng CPU Intel Celeron 2,4 GHz với 512 MB bộ nhớ, HĐH Windows XP Professional. Các bước thực hiện như sau: - Đo thời gian chạy MAV nhiều lần trên tập X không sử dụng SID. Lúc này hệ hoạt động như một AV thông thường, tạm gọi là PreMAV. - Đo thời gian chạy MAV nhiều lần trên tập X có sử dụng SID. - Đo thời gian chạy của các AV thử nghiệm nhiều lần trên cùng tập X. - Tổng hợp, phân tích số liệu, đối chiếu kết quả. Các anti-virus thử nghiệm gồm Norton Antivirus (Symantec, Mỹ) [89], ScanVirus (McAfee, Mỹ) [80] và BKAV (BKIS, Việt Nam) [93]. Phân tích số liệu phân bố chi phí thời gian thực hiện trên cùng bộ dữ liệu của các AV thử nghiệm (bảng 3.6 và biểu đồ ở hình 3.9), có thể thấy: - Ngoại trừ MAV, đường biểu diễn của các hệ thử nghiệm (kể cả PreMAV) gần như là các đường thẳng bất biến theo thời gian. Điều này chứng tỏ các hệ trên chưa có khả năng học (các AV tốn thời gian không cần thiết cho việc quét đi quét lại tập dữ liệu đã từng thao tác). - Đường biểu diễn của MAV giảm mạnh sau lần chạy đầu tiên. Ở các lần chạy sau, đường biểu diễn của hệ giảm chậm đến giá trị hằng số, chứng tỏ quá trình vận dụng kiến thức của MAV có xu hướng đạt đến trạng thái ổn định khi hệ đã tích lũy đủ kiến thức cần thiết. - Sử dụng SID, MAV phải tốn thời gian cho các lệnh select, insert và update để tìm kiếm và tích lũy kiến thức. Nỗ lực này tốn 838 – 772 = 66 giây (chiếm 8.55% thời gian so với không sử dụng SID). Tuy nhiên phí tổn này rất đáng giá vì nó giúp MAV tiết kiệm thời gian đến 12 lần ở các lần chạy sau so với không sử dụng SID: ( ) ( ) 273,1259 776 54 764 61 779 74 769 4 11 1 =⎟⎠ ⎞⎜⎝ ⎛ +++=∑ = N i i i MAVCost preMAVCost N - 51 - Bảng 3.6: Thời gian chạy của các hệ anti-virus thử nghiệm trên cùng tập mẫu Anti-virus Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 BKAV 245 248 247 248 246 PreMAV 772 769 779 764 766 MAV 838 74 61 59 59 NAV 1365 1347 1315 1317 1320 SCAN 1506 1450 1462 1488 1475 3.3.4.9. Đánh giá phương pháp chẩn đoán lớp virus E-class Dựa vào nguyên lý nhận dạng hướng ý định (intention-based approach), bài toán E-class sử dụng thuật toán SID học tình huống trên tập dữ liệu quan sát bằng mô hình AMKBD. Công tác đánh giá bài toán được thực hiện theo quy trình sau: Đầu tiên, gỡ các mẫu F-virus trong CSDL SE của MAV. Tiếp theo, cho virus nhiễm vào máy ảo VMWare Workstation ver 5.5.3 đã cài sẵn MAV trong trạng thái vô hiệu tác tử. Sau đó kích hoạt MAV, quét hệ thống và ghi nhận số cảnh báo (chưa biết tên chính xác). Cuối cùng, phục hồi CSDL SE cho MAV, đếm số tập tin được phát hiện nhiễm (biết tên virus chính xác), đối chiếu với số tập tin thực nhiễm và tính toán kết quả thực nghiệm (Bảng 3.7). Hình 3.9: Biểu đồ so sánh chi phí thời gian của các hệ AV thử nghiệm - 52 - Bảng 3.7: Kết quả thực nghiệm bài toán chẩn đoán lớp virus E-class Lần Số tập tin thực nhiễm Số virus cập nhật Số virus phát hiện chính xác Số tập tin được cảnh báo Số tập nhiễm bị bỏ sót Độ chính xác (%) Độ dự báo (%) Độ tin cậy (%) 1 1792 112 107 1668 17 95.54 98.99 99.05 2 1578 108 100 1467 11 92.59 99.26 99.30 3 1625 100 95 1512 18 95.00 98.82 98.89 4 1723 110 105 1602 16 95.45 99.01 99.07 5 1682 105 98 1569 15 93.33 99.05 99.11 Trung bình: 94.38 99.03 99.09 Mặc dù có độ tin cậy cao nhưng phương pháp này cũng còn một số hạn chế: - Một số F-virus tự kết xuất sâu trình ra hệ thống đích, khiến thủ tục SID không tìm thấy đối tượng mới trong CSDL VerifyDB nên bỏ sót mã độc. - Khi tác tử canh phòng bị vô hiệu (stop/disable), hệ sẽ không phát hiện được các virus sử dụng kỹ thuật buffering và khôi phục trạng thái file sau khi nhiễm. - Khi hệ thống thay đổi, AMKBD sẽ gây bối rối cho người dùng ít kinh nghiệm. - Hệ thống đã nhiễm một loại file virus lạ trước khi cài đặt MAV. Để khắc phục các hạn chế trên, có thể thực hiện các biện pháp sau: - Kết hợp bài toán E-class với bài toán chẩn đoán sâu trình. - Thiết kế tác tử canh phòng dạng dịch vụ (service) chạy thường trực - Hướng dẫn người dùng cập nhật thông tin cho CSDL VerifyDB sau khi nâng cấp phần mềm (chỉ phù hợp cho người dùng am hiểu). 3.3.5. Bài toán 5: Chẩn đoán lớp virus A-class 3.3.5.1. Lược sử vấn đề nhận dạng mã độc Lớp A-class chứa các virus có định dạng ứng dụng (Phụ lục 1 và 2). Ngoại trừ file virus đã được tách ra xử lý riêng trong bài toán E-class, lớp này chứa các đối tượng thực thi độc lập (stand alone program) thuộc các loại trojan horse/worm [67] như germs, dropper, injector, rootkit, intruder, zombie…, kể cả các ứng dụng độc hại như adware, spyware, pornware…, gọi chung là phần mềm độc (malware). - 53 - Nhận dạng malware là vấn đề mở của các anti-virus hiện nay [33]. Khác với file virus khi lây nhiễm luôn để lại dấu vết trên vật chủ, malware là tập thi hành độc lập nên rất khó phân biệt với các ứng dụng hợp thức. Để nhận dạng malware, các tiếp cận truyền thống thường dịch ngược (disassembe) mã đích (target code) để phân tích hành vi [43]. Tuy nhiên nếu đối tượng được mật hóa (encrypted) bằng các công cụ nén ứng dụng như Petite, Aspack, Pklite hoặc UPX (Ultimate Packer for eXecutables), việc nhận dạng mã độc sẽ rất khó khăn và phức tạp [65]. Thay vì phân tích thủ công từng chỉ thị mã độc, tiếp cận mô tả đặc điểm tổng quát hướng heuristic (heuristic-based generic description) [50] sử dụng máy ảo để giám sát quá trình thi hành mẫu chẩn đoán và ‘tóm lấy’ (capture) đoạn mã nhận dạng của virus khi quá trình tự giải mã (decryption) hoàn tất [69]. Ưu điểm của kỹ thuật này là không phụ thuộc vào thuật toán mã hóa/giải mã của công cụ nén. Tuy nhiên do cài đặt phức tạp, tiêu hao tài nguyên và chạy chậm nên kỹ thuật chẩn đoán sâu trình bằng máy ảo chỉ thích hợp cho các hệ thống có cấu hình đủ mạnh. Các sâu trình mật hóa sử dụng một thủ tục khởi tạo để giải mã phần lớn chương trình của nó [58]. Việc mã hóa và giải mã có thể trải qua nhiều giai đoạn gối nhau: dữ liệu ở giai đoạn này là mã lệnh giải mã ở các giai đoạn sau. Do đó, ngoại trừ thủ tục khởi tạo (có kích thước rất nhỏ), phần lớn nội dung sâu trình đều được “đóng gói” dưới dạng dữ liệu mật hóa nhằm làm nản lòng các chuyên viên phân tích virus của các hãng bảo mật. Trong bối cảnh các loại mã độc được sản xuất ồ ạt, cùng với sự xuất hiện ngày càng nhiều các phần mềm mật hóa phức tạp, việc phân tích ngữ nghĩa tập chỉ thị không còn hiệu quả. Trong các nghiên cứu gần đây, một số tác giả đề xuất hướng giải quyết bài toán nhận dạng malware bằng mô hình ‘epsilon-gamma-pi’ (exploit– data control–payload). Đầu tiên, phân tích sâu trình thành ba bộ phận có chức năng xác định [35], sau đó tách phần giống nhau cơ bản của các sâu trình (epsilon và pi) rồi tập trung xử lý phần gamma khác biệt (chiếm khối lượng lớn nhất của sâu trình). Trong luận án này, ý tưởng xử lý mã độc như các luồng dữ liệu nguy hiểm còn được vận dụng trong mô hình không gian véctơ, được trình bày ngay sau đây. - 54 - 3.3.5.2. Phát biểu bài toán Mục tiêu của bài toán chẩn đoán lớp A-class là (i) kiểm tra xem đối tượng aObject có phải là malware hay không. Nếu không, hệ phải (ii) đưa ra dự báo aObject có thể thuộc nhóm malware nào hay không, tỷ lệ mã độc là bao nhiêu. Gọi wRate∈(0,1] là tỷ lệ mã độc của aObject, λ∈[0,1] là hằng số ngưỡng an toàn cho trước, bài toán được phát biểu như sau: Vào: - Đối tượng chẩn đoán aObject - Cơ sở dữ liệu virus A-class (SA) - Quy luật phân nhóm virus trong CSDL SA Ra: - wRate = 1, kết luận aObject là known malware - wRate ≥ λ, dự báo aObject là unknown malware Ngoài CSDL virus SA, bài toán A-class còn sử dụng tập luật phân nhóm virus để phân hoạch trước các lớp dữ liệu khả dĩ mà aObject có thể thuộc về. Sau đó quá trình xử lý sẽ ước lượng độ đồng dạng dữ liệu của aObject so với từng virus trong các lớp dữ liệu đã phân hoạch để gán đối tượng vào một trong các lớp này. Phương pháp phân nhóm virus trong CSDL SA sẽ được trình bày trong Chương 4. 3.3.5.3. Tổ chức cơ sở dữ liệu virus Giống như bài toán E-class, đối tượng chẩn đoán của bài toán A-class là các tập tin thi hành. Do đó các mẫu virus trong CSDL SA sẽ có dạng: Malware = Trong MAV, CSDL SA là một bảng dữ liệu 300 cột. Bốn thuộc tính đầu có công dụng giống như các bài toán C, D và E (dùng cho mô hình AMKBD). Thuộc tính Tập đặc trưng được chia làm hai nhóm 40 cột và 256 cột. - 40 cột đầu (kiểu word/dword) chứa đặc trưng thi hành như FileSize, FileType, FileAttribute, MachineWord, NumberOfSections… (xem Phụ lục 2). Phần này dùng cho quá trình phân nhóm virus ở giai đoạn học (Chương 4). - 256 cột kế (kiểu word) chứa số lần xuất hiện của 256 từ máy 8-bit của virus: a0, a1, a2,…, a255. Phần này dùng cho bài toán A-class và Null hóa (Chương 4). - 55 - 3.3.5.4. Biểu diễn dữ liệu virus bằng mô hình không gian vectơ Mô hình không gian vectơ (KGVT) dùng phân loại văn bản do Gerard Salton và cộng sự đề xướng [30], về sau mở rộng cho phân loại ảnh [61][70]. Trong mô hình này, các từ phân biệt của văn bản được tổ chức thành các cột trên ma trận. Giá trị của các ô chứa số lần xuất hiện của từ tương ứng (gọi là tần suất của từ). Xét virus như một tập dữ liệu ‘văn bản’, bài toán A-class biểu diễn các ‘từ virus’, tìm độ tương đồng dữ liệu của đối tượng so với các nhóm virus, rồi ước lượng tỷ lệ xuất hiện từ virus trong đối tượng để dự báo virus mới. Đầu tiên, dữ liệu được tổ chức thành v từ phân biệt để có w = (w1, w2,…, wv). Kế tiếp, biểu diễn mỗi virus trong CSDL dưới dạng vectơ di = (wi1, wi2,…, wiv), trong đó wik là tần suất của từ thứ k trong bộ dữ liệu kiểm tra. Sau đó ánh xạ các vectơ virus vào ‘ma trận từ - tài liệu’ (word-document matrix) hai chiều. Mỗi hàng ứng với một bộ dữ liệu virus mẫu. Mỗi cột ứng với một từ duy nhất. Theo Gerard Salton, có thể chọn từ đơn (single term) hoặc phức hợp (complex entities) nhưng phương án từ đơn là tổng quát hơn. Như vậy có thể chọn từ virus theo byte, word hay dword. Khi số bit của từ máy (machine word) càng cao thì số cột ma trận càng nhiều (256, 65.536 hay 4.294.967.296 cột). MAV sử dụng từ 8 bit (256 trạng thái), kiểu word (có thể lưu tối đa 65.536 tần suất từ). 3.3.5.5. Rút trích đặc trưng Quá trình rút trích đặc trưng sử dụng nguyên lý Tần suất từ - Tần suất tài liệu nghịch đảo TF-IDF (Term Frequency-Inverse Document Frequency) [34]. Các từ phân biệt là các đặc trưng, TF-IDF là đại lượng đo lường sự xuất hiện của các từ này. Mục tiêu của bài toán là tính độ đồng dạng mã độc giữa đối tượng chẩn đoán aObject (ký hiệu M) và các nhóm virus f trong tập A. Đầu tiên, M được biểu diễn dưới dạng vectơ tần suất từ F(M), trong đó mỗi thành phần F(M,w) biểu diễn số lần (0..65536) từ w xuất hiện trong M. Tiếp theo, tính W(f,w) trọng số các từ trong từng tập f. Cuối cùng, chọn trong tập f (tập có tỷ lệ đồng dạng dữ liệu với M cao nhất) mẫu đại diện gần với M nhất, đối sánh hằng số ngưỡng λ để có kết luận cuối cùng. - 56 - Đại lượng FF(f,w) gọi là tần suất phân đoạn (fractional frequency) của từ w trong số các virus có trong tập f, là số lần xuất hiện của từ w trong tập f chia cho tổng số từ có trong f : ∑ ∈ = fw wfF wfFwfFF ' )',( ),(),( (3.1) Đại lượng tần suất từ TF (term frequency) được định nghĩa là: TF(f, w) = ),( ),( wAFF wfFF (3.2) Trong đó A ⊇ f (A là nhóm virus cha của f trong bài toán phân cụm CSDL virus), FF(A,w) là số lần từ w xuất hiện trong A. Gọi tần suất tài liệu (document frequency) DF(w) là đại lượng tính bằng số nhóm virus có từ w xuất hiện ít nhất 1 lần chia cho tổng số các tập dữ liệu (số con của A), trọng số W(f,w) của các từ trong tập f được tính theo công thức: W(f,w) = 2)( ),( wDF wfTF (3.3) 3.3.5.6. Ước lượng tỷ lệ mã độc Nguyên lý TF-IDF ước lượng độ đồng dạng dữ liệu (similarity measure) theo công thức: SIM(M, f) = ∑∑ ∑ ∈∈ ∈ MwMw Mw wfWwMF wfWwMF )),(),,(min( ),(),( (3.4) Tiếp theo, điểm chẩn đoán M sẽ được gán vào tập f có SIM lớn nhất. Sau đó tính tỷ lệ mã độc wRate của M so với các mẫu virus trong f để đối sánh ngưỡng và xác định virus có số từ giống với số từ của M nhất. Giá trị này được tính bằng tỷ số giữa số lần xuất hiện của từ w trong fk và tổng số từ của fk. Tức là: wRatei(M, vi) = FF(vi, w) ∀ vi là mẫu virus thứ i trong tập f (3.5) Cuối cùng, chọn wRatei lớn nhất. Nếu: - wRate = 1, kết luận M là mã độc - wRate ≥ λ, dự báo M chứa (wRate ×100) % mã độc của virus vi [3]. - 57 - 3.3.5.7. Ví dụ minh họa bài toán A-class Xét bài toán A-class áp dụng mô hình không gian vectơ như sau: - CSDL virus A chứa 12 mẫu virus đã được quá trình phân cụm (ở giai đoạn học) tách thành 3 nhóm f1, f2 và f3 (Bảng 3.8). - Ngưỡng an toàn cho trước λ = 0.85. - Mẫu dữ liệu M = 6E, 72, 0D, 0A, 79, 75, 76, 75, 65, 6C, 6E, 74, 62, 67, 6C, EB Yêu cầu đặt ra là xác định xem M có phải là virus mới không, nếu có thì thuộc nhóm nào (f1, f2 hay f3), độ tương đồng dữ liệu và tỷ lệ mã độc là bao nhiêu. Đầu tiên, căn cứ vào các từ sử dụng của M (13 từ), các mẫu virus trong CSDL được tổ chức thành các vector tần suất 13 từ. Sau đó ánh xạ các vectơ này vào ma trận từ-tài liệu như hình 3.10. Kế tiếp, tính tần suất tài liệu DF(w) của các từ w. Do có ba tập f nên các giá trị DF(w) là số tập f có từ w xuất hiện ít nhất một lần chia cho 3. Sau đó tính tần suất phân đoạn FF(f,w) của các từ w trong từng tập f, là số lần xuất hiện của từ w trong từng tập f chia cho tổng số từ có trong tập đó (số từ sử dụng của f1, f2 và f3 tương ứng là 19, 23 và 26). Tính tiếp các giá trị FF(A,w), là số lần xuất hiện w trong toàn bộ các mẫu. Sau đó tính trọng số W(f,w) của các từ w trên từng tập f , rồi tính các bộ giá trị tử số trong công thức (3.3) cho các từ w trong từng tập f (Bảng 3.9). Bảng 3.8: Các nhóm virus trong CSDL và mẫu dữ liệu chẩn đoán f stt a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 1 E9 96 00 00 00 0D 0A 76 75 75 76 65 6C 6E 74 63 2 E9 96 00 00 00 0D 0A 79 75 75 76 65 6C 6E 74 62 3 EB 72 0D 0A 79 75 75 76 65 6C 6E 74 62 67 66 6B 1 4 EB 4C 0D 0A 79 75 75 76 65 6C 6E 74 62 67 66 6B 5 68 60 10 40 00 9C 60 E8 00 00 00 00 5D 81 ED 0C 6 60 E8 01 00 00 00 E8 83 C4 04 E8 01 00 00 00 E9 7 60 E8 09 00 00 00 86 26 04 00 E9 06 02 00 00 33 2 8 60 E8 09 00 00 00 EC EB 00 00 E9 06 02 00 00 33 9 55 51 59 5B 56 EB 02 E8 84 57 5E 5E F7 D6 F7 D6 10 55 8B EC EB E9 00 00 00 00 00 EB 0C 00 00 00 00 11 55 8B EC 6A FF 68 58 A6 42 00 68 5A 5B 42 00 64 3 12 55 8B EC 6A FF 68 30 57 41 00 68 00 1E 41 00 64 ? M 6E 72 0D 0A 79 75 76 75 65 6C 6E 74 62 67 6C EB - 58 - 0A 0D 62 65 67 6C 6E 72 74 75 76 79 EB 1 1 0 1 0 1 1 0 1 2 2 0 0 1 1 1 1 0 1 1 0 1 2 1 1 0 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 0 1 2 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Hình 3.10: Ma trận từ-tài liệu của CSDL virus mẫu Bảng 3.9: Số liệu tính toán trên ví dụ mẫu bài toán A-class w F (M,w) DF (w) DF (w)2 FF(f1,w) FF(f2,w) FF(f3,w) FF (A,w) W(f1,w) W(f2,w) W(f3,w) TSf1 TSf2 TSf3 0A 1 1/3 0.111 4/19=0.2105 0/23=0 0/26=0 4 0.4737 0 0 0.4737 0 0 0D 1 1/3 0.111 4/19=0.2105 0/23=0 0/26=0 4 0.4737 0 0 0.4737 0 0 62 1 1/3 0.111 3/19=0.1579 0/23=0 0/26=0 3 0.4737 0 0 0.4737 0 0 65 1 1/3 0.111 4/19=0.2105 0/23=0 0/26=0 4 0.4737 0 0 0.4737 0 0 67 1 1/3 0.111 2/19=0.1053 0/23=0 0/26=0 2 0.4737 0 0 0.4737 0 0 6C 2 1/3 0.111 4/19=0.2105 0/23=0 0/26=0 4 0.4737 0 0 0.9474 0 0 6E 2 1/3 0.111 4/19=0.2105 0/23=0 0/26=0 4 0.4737 0 0 0.9474 0 0 72 1 1/3 0.111 1/19=0.0526 0/23=0 0/26=0 1 0.4737 0 0 0.4737 0 0 74 1 1/3 0.111 4/19=0.2105 0/23=0 0/26=0 4 0.4737 0 0 0.4737 0 0 75 2 1/3 0.111 8/19=0.4211 0/23=0 0/26=0 8 0.4737 0 0 0.9474 0 0 76 1 1/3 0.111 5/19=0.2632 0/23=0 0/26=0 5 0.4737 0 0 0.4737 0 0 79 1 1/3 0.111 3/19=9.1579 0/23=0 0/26=0 3 0.4737 0 0 0.4737 0 0 EB 1 3/3 1.000 2/19=0.1053 1/23= 0.0435 3/26= 0.1875 6 0.0175 0.0072 0.0313 0.0175 0.007 0.0313 ∑F(M,w)=16 ∑W(f,w)= 5.7018 0.0072 0.0313 ∑F(M,w)W(f,w)= 7.123 0.0072 0.0313 Độ tương đồng dữ liệu của M so với các mẫu virus trong mỗi tập f là: SIM(M, f1) = 7.123 / min(16, 5.7018) = 1.2492 SIM(M, f2) = 0.0072 / min(16, 0.0072) = 1.0000 SIM(M, f3) = 0.0313 / min(16, 0.0313) = 1.0000 Kết quả cho thấy M cần được gán vào f1, nhóm có độ tương đồng dữ liệu cao nhất so với hai nhóm còn lại. Công việc tiếp theo là tính tỷ lệ mã độc của M so với các mẫu virus trong f1, đối sánh ngưỡng an toàn λ và thông báo kết quả. - 59 - Theo công thức 3.5, wRatei là tỷ số giữa số lần xuất hiện của từ w trong mẫu virus thứ i và tổng số từ có trong mẫu đó. Kết quả tính toán nhận được: - Mẫu 1 có 11 từ, sử dụng 8 từ của M nên wRate1(M, v1)= 8/11 = 0.727 - Mẫu 2 có 12 từ, sử dụng 10 từ của M nên wRate2(M, v2) = 10/12 = 0.833 - Mẫu 3 có 15 từ, sử dụng 13 từ của M nên wRate3(M, v3) = 13/15 = 0.866 - Mẫu 4 có 15 từ, sử dụng 12 từ của M nên wRate4(M, v4) = 12/15 = 0.8 Trong 4 mẫu virus thuộc nhóm f1, M gần với mẫu thứ ba nhất (có wRate lớn nhất). Đối chiếu với ngưỡng an toàn cho trước (λ= 85%), có thể kết luận M là biến thể của virus thứ ba trong CSDL với tỷ lệ mã độc là 86.6 %. 3.3.5.8. Kết quả thực nghiệm Với λ= 0.9, bảng 3.10 cho thấy mô hình KGVT khá phù hợp cho bài toán phân loại mã độc. Tỷ lệ thất bại thuộc về các điểm dữ liệu không thuộc nhóm virus nào. Vấn đề này sẽ được giải quyết bằng kỹ thuật hợp nhất dữ liệu ở Chương 4. Bảng 3.10: Kết quả thực nghiệm bài toán chẩn đoán lớp virus A-class Lần Số virus thử nghiệm Số virus cập nhật Số virus phát hiện Số virus cảnh báo Số virus bỏ sót Độ chính xác (%) Độ dự báo (%) Độ tin cậy (%) 1 1335 890 874 292 169 98.20 63.34 87.34 2 1238 825 801 276 161 97.00 63.10 86.96 3 1316 877 860 284 172 98.02 62.28 86.93 4 1298 865 852 278 168 98.50 62.38 87.08 5 1327 885 866 284 177 97.90 61.62 86.67 Trung bình: 97.92 62.54 87.00 3.3.5.9. Bàn luận về phương pháp chẩn đoán lớp A-class Trong mô hình KGVT, “từ” là phần tử cơ bản của văn bản. Tập hợp các từ mẫu dùng phân loại văn bản gọi là “túi từ” (bag-of-words) [23]. Trong các bài toán phân loại ảnh, khái niệm “từ” được cải biên cùng với thuật ngữ keyblock [44], “túi từ” trở thành “túi mảnh ảnh” (bag-of-keypoints) [29]. Quan niệm malware như một tập dữ liệu phi ngữ nghĩa các từ máy, thuật ngữ “túi từ” của mô hình KGVT trong bài toán A-class có thể hiểu là “túi từ máy” (bag-of-machine words). - 60 - Một trong những trở ngại của mô hình KGVT là chi phí tính toán. Dễ nhận thấy rằng khi wRate = 1, bài toán A-class quay về bài toán chuỗi mã. Do đó để giảm tải quá trình xử lý ma trận dữ liệu, có thể loại bớt các trường hợp chắc chắc nhiễm bằng kỹ thuật chuỗi mã trước khi áp dụng bài toán A-class. Chi phí của mô hình KGVT gồm (i) chi phí tính toán (đếm số từ của M xuất hiện trong các lớp) và (ii) chi phí cập nhật ma trận dữ liệu. Thứ nhất, do tần suất từ của các mẫu virus trong CSDL đã được tính ở giai đoạn học (trên máy chủ) nên chỉ cần chuyển số liệu này cho giai đoạn xử lý (trên máy trạm). Thứ hai, ma trận từ-tài liệu có 256 cột kiểu word nên chi phí cập nhật hàng ma trận chỉ tương đương với chi phí thao tác append một chuỗi unicode vào mảng string16 dài 512 byte của các ngôn ngữ lập trình. Hơn nữa, khi kết hợp mô hình KGVT với mô hình AMKBD theo nguyên tắc ‘không học lại những gì đã biết’, bài toán A-class chỉ tốn chi phí cho thao tác cập nhật ma trận dữ liệu vào lần chạy đầu tiên trên máy trạm. 3.4. Tổng kết chương Cơ chế máy học chẩn đoán virus máy tính gồm năm bài toán: Bài toán thứ nhất chẩn đoán lớp virus C-class theo nguyên lý học vẹt cho các điểm dữ liệu ASCII-7bit, đối tượng lây của các loại sâu và file virus. Đây là mô hình kinh điển của các AV hướng chuỗi mã với thuật toán tìm kiếm tuần tự. Mặc dù khả năng dự báo không cao (5%) nhưng nhờ có độ chính xác rất cao (99.05%) nên kỹ thuật chuỗi mã vẫn được sử dụng để bổ khuyết cho các kỹ thuật khác. Bài toán thứ hai chẩn đoán lớp virus D-class theo nguyên lý học tương tự cho các điểm dữ liệu MSOffice, đối tượng lây của các loại virus macro. Đầu tiên, không gian chẩn đoán được tổ chức dưới dạng một vector động các con trỏ tham chiếu đến danh sách macro trong từng paragraph của đối tượng chẩn đoán. Tiếp theo một thuật giải duyệt mảng sẽ thu thập danh sách macro và phân tích tập hành vi các macro có trong danh sách. Cuối cùng, xây dựng các hàm nhận dạng hành vi macro và tiến hành chẩn đoán bệnh cho đối tượng. Bài toán thứ ba chẩn đoán lớp virus B-class theo nguyên lý học chỉ dẫn dựa vào tập miền định nghĩa khái niệm, áp dụng cho các MTKĐ là vật chủ của các loại - 61 - boot virus. Không gian tìm kiếm được tổ chức dưới dạng cây nhị phân cài đặt trên vùng nhớ ứng dụng của một máy ảo chẩn đoán có kiến trúc máy tính sử dụng CPU 80x86/Pentium. Một thuật giải tìm kiếm với tri thức bổ sung có nhiệm vụ thu thập và phân tích hành vi đối tượng trong ngăn xếp máy ảo để phát hiện boot virus Bài toán thứ tư chẩn đoán lớp virus E-class theo nguyên lý học tình huống dựa trên mô hình kết hợp CSDL và CSTT để phát hiện tình huống thay đổi trạng thái của đối tượng thi hành thông qua cơ chế đa tác tử. Chạy ở mức nền trước, tác tử duyệt quét VSA thu thập thông tin đối tượng lưu vào CSDL VerifyDB. Ở mức nền sau, tác tử canh phòng VAA liên tục giám sát hệ thống. Khi có tình huống truy xuất đối tượng, VAA sẽ thu thập thông tin, truy vấn trên CSDL VerifyDB, đối chiếu với tập luật nhận dạng và phát cảnh báo. Phân tích tri thức quyết định của người dùng, hệ sẽ phục hồi nội dung/trạng thái đối tượng theo hướng tiếp cận ý định. Bài toán thứ năm chẩn đoán lớp A-virus theo nguyên lý học quy nạp sử dụng mô hình không gian vector chẩn đoán các loại mã độc. Đầu tiên mẫu dữ liệu M được biểu diễn thành các từ phân biệt. Ứng với mỗi từ, biểu diễn các mẫu virus trong CSDL dưới dạng ma trận từ-tài liệu có n cột, p hàng. Tiếp theo, quá trình rút trích đặc trưng sử dụng nguyên lý TF-IDF để tính trọng số các từ trong các nhóm virus. Sau đó tính độ tương đồng dữ liệu SIM của điểm chẩn đoán M so với các nhóm rồi chọn nhóm có SIM cao nhất. Cuối cùng tính tỷ lệ mã độc của M so với các mẫu virus trong nhóm để chọn ra mẫu có giá trị wRate lớn nhất. Nếu wRate vượt quá ngưỡng λ, có thể kết luận M là biến thể của mẫu virus này (mẫu có số từ giống với số từ của M nhiều nhất), là virus gần với đối tượng chẩn đoán nhất. Dựa vào đặc điểm dữ liệu từng lớp virus, việc lựa chọn bài toán học cho các lớp hướng đến tính hiệu quả, phù hợp với thực tiễn sử dụng và bối cảnh nghiên cứu của đề tài. Khi có những thay đổi sâu sắc trên các lớp virus (ví dụ như các mô tả lớp, hành vi, đặc trưng dữ liệu…), có thể lựa chọn các bài toán học khác tốt hơn. Chương 4 tiếp theo sẽ trình bày phương pháp thiết kế hệ thống qua ba giai đoạn tương ứng với ba mức xử lý của một hệ chuyên gia. Trong đó, thành phần hạt nhân của hệ sẽ chứa năm lớp bài toán đã xây dựng trong chương này.

Các file đính kèm theo tài liệu này:

6.pdf
7.pdf
8.pdf
9.pdf
Do an TS May hoc va he chuyen gia Truong Minh Nhat Quang.part1.rar