Luận án Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

Với miền ứng dụng rủi ro tín dụng, số lượng đặc trưng là không quá nhiều nhưng số lượng bản ghi là tương đối lớn so với số đặc trưng. Nhiệm vụ là phải loại bỏ các đặc trưng không liên quan, dư thừa và tìm ra các đặc trưng tốt cho quá trình phân lớp. Chúng tôi đã sử dụng phương pháp lựa chọn đặc trưng FRFE và bộ phân lớp rừng ngẫu dựa trên cơ chế phân tán và song song để xây dựng mô hình đánh giá tín dụng. Các kết quả thực nghiệm cho thấy độ chính xác phân lớp sử dụng các đặc trưng lựa chọn bởi phương pháp đề xuất được cải thiện tương đối khả quan. Tiêu chí xếp hạng các đặc trưng được đề xuất nhằm giúp cải tiến độ chính xác cũng như làm giảm thời gian thực hiện của các kỹ thuật phân lớp. Ngoài ra, thời gian chạy đã được giảm xuống đáng kể do áp dụng các thủ tục xử lý song song. Với việc phân tích dữ liệu ung thư có số lượng đặc trưng lớn hơn so với số bản ghi, chúng tôi đã đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA nhằm làm giảm số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề xuất của chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ bản. Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánh kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác. Thực nghiệm cho thấy C-KPCA cho kết quả ổn định và tốt hơn so với các phương pháp khác trong một số trường hợp. Hướng nghiên cứu tiếp theo Các kết quả nghiên cứu về lựa chọn đặc trưng mới tập trung xây dựng hàm đánh giá chủ yếu dựa trên độ chính xác của các bộ phân lớp. Trong một số nghiên cứu gần đây cho thấy việc sử độ đo AUC là tốt hơn so với độ chính xác khi phân tích trên bộ dữ liệu đa lớp hoặc không cân bằng, mặc dù trong hàm đánh giá chúng tôi cũng đã sử dụng độ đo này tuy nhiên mức độ ảnh hưởng của nó chưa được đánh giá một cách độc lập. Do đó, trong các nghiên cứu tiếp theo, chúng tôi dự kiến sẽ tiến hành khảo sát kỹ sự ảnh hưởng của độ đo AUC nhằm tăng hiệu năng của hàm đánh giá.

119 trang | Chia sẻ: yenxoi77 | Lượt xem: 390 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ờng hợp này bao gồm hai bước: 74 - Bước 1: Sử dụng một ánh xạ phi tuyến  (trường hợp đặc biệt là hàm tuyến tính kiểu hàm phạt) chuyển biểu diễn dữ liệu thuộc D từ không gian 𝑅𝑛 sang không gian 𝑅𝑚 mà theo biểu diễn đó tập dữ liệu D là khả tách tuyến tính. - Bước 2: Thực hiện thuật toán phân lớp SVM trên tập dữ liệu D theo biểu diễn dữ liệu mới trong không gian 𝑅𝑚. Khi đó, một thuật toán rút gọn đặc trưng phù hợp (chẳng hạn PCA) cũng sẽ được áp dụng.. Hình 3.3 [21] mô tả việc chuyển dạng dữ liệu đối với tập dữ liệu D để nó không khả tách tuyến tính khi biểu diễn trong không gian 𝑅𝑛 thành khả tách tuyến tính khi biểu diễn trong không gian 𝑅𝑚. Hình 3.3 Chuyển dữ liệu sang không gian có chiều lớn hơn[21] Khi áp dụng mô hình phân lớp SVM, dữ liệu đầu vào được chuyển dạng theo ánh xạ  đã chọn và giải pháp rút gọn đặc trưng (chẳng hạn PCA) được tiến hành trên dữ liệu sau khi chuyển dạng. Theo phương pháp hàm nhân, hàm chuyển dạng biểu diễn dữ liệu được tiến hành dựa trên các hàm nhân như được giới thiệu sơ bộ sau đây. 3.3.2.2 Một số hàm nhân phổ biến Các hàm nhân thường được dùng là hàm nhân tuyến tính, hàm nhân đa thức, hàm nhân RBF và Sigmoid 75 Hàm nhân tuyến tính [40] được mô tả như sau: 𝑘(𝑥𝑖 , 𝑥𝑗) = (𝑥𝑖 𝑇𝑥𝑗) + 𝑐 (3.1) Nhân tuyến tính chỉ có một tham số là c. Hàm nhân này thực hiện tương đối tốt và nhanh trên bộ dữ liệu có thể phân tách tuyến tính, tuy nhiên hầu hết dữ liệu trong các bài toán thực tế là khó phân tách tuyến tính. Hàm nhân đa thức [40] được mô tả như sau: 𝑘(𝑥𝑖 , 𝑥𝑗) = (𝛾𝑥𝑖 𝑇𝑥𝑗 + 𝑟) 𝑑 , 𝛾 > 0 (3.2) Trong số các hàm nhân thì hàm nhân đa thức có số lượng tham số nhiều hơn cả. Ngoài tham số C và γ còn có hai tham số quan trọng khác là bậc d và r. Tham số d cần phải được lựa chọn cẩn thận vì nếu d quá lớn thì giá trị của kernel sẽ là vô hạn hoặc bằng 0. Hàm nhân RBF [40] còn gọi là Gaussian hay RBF có dạng: 𝑘(𝑥𝑖 , 𝑥𝑗) = 𝑒𝑥𝑝 (− 1 2𝛼2 ‖𝑥𝑖 − 𝑥𝑗‖) (3.3) Hoặc có thể thay bằng dạng: 𝑘(𝑥𝑖 , 𝑥𝑗) = exp (−𝛾‖𝑥𝑖 − 𝑥𝑗‖ 2 ) (3.4) RBF được sử dụng phổ biến bởi nó có khả năng phân lớp dữ liệu phi tuyến. Số lượng tham số ít hơn so với các hàm nhân khác, tham số 𝛾 ảnh hưởng nhiều tới hiệu năng của nhân. Hàm nhân Sigmoid [40] được mô tả như sau: 𝑘(𝑥𝑖 , 𝑥𝑗) = 𝑡𝑎𝑛ℎ(𝛾𝑥𝑖 𝑇𝑥𝑗 + 𝑐), 𝛾 > 0 (3.5) Hai tham số cần lựa chọn của hàm nhân này là γ và c. 3.3.2.3 Kernel PCA[80] Phân tích thành phần chính dựa trên hàm nhân (KPCA) là một cách tiếp cận hiệu quả nhờ việc xây dựng một không gian đặc trưng mới có số chiều cao hơn bằng cách sử dụng hàm phi tuyến 𝜇(𝑥𝑡), 𝑧 = 𝜇(𝑥𝑡) và phân tích thành phần chính (PCA) thực hiện tương tự như áp dụng PCA phi tuyến trong không gian ban đầu. 76 Cho trước một tập các dữ liệu 𝑥𝑖 ∈ 𝑅 𝑝, 𝑖 = 1, , 𝑛, không gian dữ liệu phi tuyến ban đầu được ánh xạ sang không gian đặc trưng mới F bởi ánh xạ ∅: 𝑅𝑝 → 𝐹 Khi thực hiện ánh xạ, giả sử xảy ra vấn đề dữ liệu bị tập trung trong không gian mới là ∑ ∅(𝑥𝑖) 𝑛 𝑖−1 = 0. Trong F ma trận hiệp phương sai có dạng: 𝐶 = 1 𝑛 ∅(𝑥𝑗)∅ 𝑇(𝑥𝑗) 𝑛 𝑗−1 (3.6) Cần tìm kiếm một giá trị riêng 𝜆 ≥ 0 và véc tơ riêng khác không 𝑣 ∈ 𝐹\{0} thỏa mãn 𝐶𝑣 = 𝜆𝑣 trong khoảng {∅(𝑥𝑗)}𝑖−1 𝑛 . Thứ nhất, xét tập các phương trình: 〈∅(𝑥𝑗), 𝐂v〉 = λ〈∅(𝑥𝑗), v〉 (3.7) Với tất cả j=1,,n, trong đó 〈. , . 〉 là tích vô hướng được xác định trong F. Thứ hai, tồn tại hệ số αi, i=1,,n, sao cho: 𝑣 = 𝛼𝑖∅(𝑥𝑖) 𝑛 𝑖−1 (3.8) Kết hợp công thức (3.7) và (3.8), từ đó có được hai kết quả của bài toán giá trị riêng cho các giá trị riêng khác không: Kα=n λ α (3.9) Trong đó 𝑲 = (𝐾(𝑥𝑖 , 𝑥𝑗)) 𝑖, 𝑗 = 1, . . , 𝑛 là tập ma trận hàm nhân; 𝑲 là một hàm nhân mà tích vô hướng trong F thoả mãn 〈∅(𝑥𝑖), ∅(𝑥𝑗)〉 = 𝐾(𝑥𝑖 , 𝑥𝑗) với 𝜆1 ≥ 𝜆12 ≥. . ≥ 𝜆𝑛là giá trị riêng của 𝑲 và α 1, , α𝑛 là tập các véc tơ riêng được chuẩn hóa tương ứng, với 𝜆𝑟 là giá trị riêng cuối cùng khác 0. Để trích xuất thành phần chính, cần tính toán phép chiếu lên véc tơ riêng v𝑗 trong F, j=1,,r. Nếu x là điểm kiểm tra, với một ảnh ∅(x) trong F tương ứng thì: 〈v𝑗 , ∅(𝑥)〉 = ∝𝑖 𝑗 𝑛 𝑖−1 𝐾(𝑥𝑖 , 𝑥) (3.10) Trong đó thành phần chính phi tuyến thứ j tương ứng với ∅ 77 3.3.3 Xây dựng hàm nhân tùy chọn Một số ký hiệu và định nghĩa: Ma trận nửa xác định dương[39]: (positive semi-definite matrix): Một ma trận 𝐾𝑀×𝑀 được gọi là nửa xác định dương nếu bất cứ dạng toàn phương 𝒓 𝑇𝐾𝒓 nào trên K đều không âm, nghĩa là với mọi 𝑟𝑖 ∈ ℝ, 𝑖 = 1, . . , 𝑀 ta có 𝑟𝑖𝑟𝑗𝐾𝑖𝑗 𝑀 𝑖,𝑗=1 𝑐 ≥ 0 (3.11) Hàm nửa xác định dương[39]: Một hàm kernel 𝐾: X ×→ ℝ được gọi là nửa xác định dương nếu nó thoả mãn - Đối xứng - Với mọi tập {𝑥1, . . , 𝑥𝑀 ∈ X}, ma trận K được tạo thành với 𝐾𝑖𝑗 = 𝑘(𝑥𝑖 , 𝑥𝑗) là nửa xác định dương. Định lý Mercer [39]: Một hàm 𝐾(𝑥, 𝑦) là một hàm nhân hợp lệ nếu nó thỏa mãn hai điều kiện sau: - Đối xứng: 𝐾(𝑥, 𝑦) = 𝐾(𝑦, 𝑥) - Nửa xác định dương: 𝐾(𝑥, 𝑥) ≥ 0 Nello Cristianini và John Shawe-Taylor [21] chỉ ra một số cách để xây dựng một hàm nhân mới. Cách xây dựng hàm nhân mới được trình bày trong bổ đề dưới đây. Bổ đề 3.1 Giả sử K1 và K2 là các hàm nhân trên 𝑋 ∗ 𝑋, 𝑋 ⊆ 𝑅𝑛, 𝑎 ∈ 𝑅+, 𝑓(∙) là một hàm tính toán giá trị thực trên X 𝜙: 𝑋 → ℝ𝑚 Với K3 là một hàm nhân trên ℝ 𝑚 ×ℝ𝑚 và B là một ma trận nửa xác định dương (positive semi-definite) n*n . Khi đó hàm trên X là các hàm nhân: 1 2 1 1 2 3 1. ( , ) ( , ) ( , ) 2. ( , ) * ( , ) 3. ( , ) ( , ) * ( , ) 4. ( , ) ( )* ( ) 5. ( , ) ( ( ), ( )) 6. ( , ) ' K x z K x z K x z K x z a K x z K x z K x z K x z K x z f x f z K x z K x z K x z x Bz          78 Trong luận án này chúng tôi sử dụng bổ đề 3.1 để xây dựng hàm nhân mới. Bổ đề này đã được chứng minh trong tài liệu [21]. Cách xây dựng hàm nhân phức tạp hơn dựa trên các hàm nhân khác được dựa trên nguyên lý của bổ đề này. Cụ thể, một hàm nhân mới được tạo ra bằng cách kết hợp các hàm nhân khác sử dụng các toán tử như sau: 𝐾𝑐 = 𝛼1(𝐾1) ∘ 𝛼2(𝐾2) ∘ ⋯∘ 𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.12) Trong đó: {𝐾𝑖 | i =1, , m} là tập các hàm nhân dùng để kết hợp. 𝛼𝑖 : là các hệ số của mỗi hàm nhân. và ◦ biểu diễn một toán tử giữa hai hàm nhân (cộng và nhân). Chứng minh 𝑲𝒄 là một hàm nhân hợp lệ Theo mệnh đề Mercer 𝐾𝑐 là một hàm nhân hợp lệ nếu thỏa mãn: - 𝐾𝑐 đối xứng - 𝐾𝑐 nửa xác định dương Thật vậy: Trường hợp 1: ◦ biểu diễn toán tử cộng (+) giữa hai hàm nhân Khi đó hàm nhân 𝐾𝑐 có dạng: 𝐾𝑐 = 𝛼1(𝐾1) + 𝛼2(𝐾2) + ⋯+𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.13) Chứng minh: a. 𝑲𝒄 là đối xứng Với mọi hàm nhân 𝐾𝒊(𝑥, 𝑦) hợp lệ có 𝐾𝒊(𝑥, 𝑦) = 𝐾𝒊(𝑦, 𝑥), 𝑖 = 1𝑚 (3.14) Có 𝐾𝒄(𝑥, 𝑦) = 𝛼𝑖𝐾𝒊(𝑥, 𝑦) 𝒎 𝒊=𝟏 (3.15) Do (3.14) ta có 79 𝐾𝒄(𝑥, 𝑦) = 𝛼𝑖𝐾𝒊(𝑦, 𝑥) 𝒎 𝒊=𝟏 (3.16) 𝛼𝑖𝐾𝒊(𝑦, 𝑥) = 𝐾𝒄(𝑦, 𝑥) 𝒎 𝒊=𝟏 (3.17) 𝐾𝒄(𝑥, 𝑦) = 𝐾𝒄(𝑦, 𝑥) (3.18) Nên 𝑲𝒄 là đối xứng. b. 𝑲𝒄 ≥ 𝟎 Với mọi x, x’: 𝐾𝑖(𝑥, 𝑥′) ≥ 0 ∀ 𝑖 = 1. . 𝑚 Do giả thiết 𝛼𝑖 ≥ 0, ∀𝑖 nên 𝛼𝑖(𝐾𝑖) ≥ 0, 𝑖 = 1𝑚 (3.19) Từ (3.18) và (3.19) và ta có 𝐾𝑐 = 𝛼1(𝐾1) + 𝛼2(𝐾2) + ⋯+𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.20) thỏa mãn tính chất đối xứng và bán định dương nên 𝐾𝑐 là một hàm nhân hợp lệ. Trường hợp 2: ◦ biểu diễn toán tử nhân (*) giữa hai hàm nhân Khi đó hàm nhân 𝐾𝑐 có dạng: 𝐾𝑐 = 𝛼1(𝐾1) ∗ 𝛼2(𝐾2) ∗ ⋯ ∗ 𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.21) 𝐾𝑐 là một hàm nhân hợp lệ Chứng minh: a. 𝑲𝒄 là đối xứng Với mọi hàm nhân 𝐾𝒊(𝑥, 𝑦) hợp lệ có 𝐾𝒊(𝑥, 𝑦) = 𝐾𝒊(𝑦, 𝑥), 𝑖 = 1𝑚 (3.22) Có 80 𝐾𝒄(𝑥, 𝑦) =∏𝛼𝑖𝐾𝒊(𝑥, 𝑦) 𝒎 𝒊=𝟏 (3.23) Do (3.13) ta có 𝐾𝒄(𝑥, 𝑦) =∏𝛼𝑖𝐾𝒊(𝑦, 𝑥) 𝒎 𝒊=𝟏 (3.24) ∏𝛼𝑖𝐾𝒊(𝑦, 𝑥) 𝒎 𝒊=𝟏 = 𝐾𝒄(𝑦, 𝑥) (3.25) 𝐾𝒄(𝑥, 𝑦) = 𝐾𝒄(𝑦, 𝑥) (3.26) Nên 𝑲𝒄 là đối xứng. b. 𝑲𝒄 ≥ 𝟎 Với mọi x, x’: 𝐾𝑖(𝑥, 𝑥′) ≥ 0 ∀ 𝑖 = 1. . 𝑚 Do giả thiết 𝛼𝑖 ≥ 0, ∀𝑖 nên 𝛼𝑖(𝐾𝑖) ≥ 0, 𝑖 = 1𝑚 (3.27) Từ (3.26) và (3.27) và ta có 𝐾𝑐 = 𝛼1(𝐾1) ∗ 𝛼2(𝐾2) ∗ ⋯ ∗ 𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.28) thỏa mãn tính chất đối xứng và bán định dương nên 𝐾𝑐 là một hàm nhân hợp lệ. Trường hợp 3: ◦ biểu diễn toán tử cộng (+) hoặc toán tử nhân (*) giữa hai hàm nhân. Khi đó hàm nhân 𝐾𝑐 có dạng: 𝐾𝑐 = 𝛼1(𝐾1) + 𝛼2(𝐾2) ∗ ⋯+𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.29) 𝐾𝑐 cũng là một hàm nhân hợp lệ. Chứng minh: 81 Giả sử K1, K2 là các hàm nhân hợp lệ được kết hợp bằng toán tử cộng (+) hoặc nhân (*) Trường hợp 3.1: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 toán tử nhân (*) và các toán tử còn lại là toán tử cộng (+) Ta xây dựng các hàm nhân mới có dạng: 𝐾∗ = 𝛼1𝐾1 ∗ 𝛼2𝐾2 Khi đó 𝐾𝑐 có dạng 𝐾𝑐 = 𝛼1(𝐾1) + 𝛼∗(𝐾∗) + ⋯+𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.30) Chứng minh tương tự trường hợp 1: ta có 𝐾𝑐là một hàm nhân hợp lệ. Trường hợp 3.2: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 toán tử cộng (+) và các toán tử còn lại là toán tử cộng (*) Ta xây dựng các hàm nhân mới có dạng: 𝐾+ = 𝛼1𝐾1 + 𝛼2𝐾2 Khi đó 𝐾𝑐 có dạng 𝐾𝑐 = 𝛼1(𝐾1) ∗ 𝛼+(𝐾+) ∗ ⋯∗ 𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.31) Chứng minh tương tự trường hợp 2: ta có 𝐾𝑐 là một hàm nhân hợp lệ. Trường hợp 3.3: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 toán tử chia (/) và các toán tử còn lại là toán tử cộng (+) hoặc toán tử (*) Ta cần chứng minh: 1 𝐾(𝑥, 𝑦)⁄ là đối xứng với mọi hàm nhân K Thật vậy: 𝐾(𝑥, 𝑦) = 1 𝐾′(𝑥, 𝑦) = 1 𝐾′(𝑦, 𝑥) = 𝐾(𝑦, 𝑥) (3.32) Mặt khác 𝐾𝑖 ≥ 0 ∀ 𝑖 = 1. .𝑚 Chứng minh tương tự trường hợp 1 và 2: ta có 𝐾𝑐 là một hàm nhân hợp lệ. Độ phức tạp tính toán của kỹ thuật trích xuất đặc trưng đề xuất là độ phức tạp tính toán của phương pháp KPCA và độ phức tạp khi kết hợp các hàm nhân. Theo nghiên cứu [31], trong pha kiểm tra để đánh giá hàm nhân mất thời gian tính toán là 𝛰(𝑛𝑑). Do đó, độ phức tạp tính toán về thời gian là của kỹ thuật đề xuất 𝛰(𝑛2 + 𝑛𝑑) 82 3.4 Thực nghiệm và kết quả 3.4.1 Thiết lập thực nghiệm Phương pháp đề xuất của chúng tôi được thực hiện trên ngôn ngữ R( và thực nghiệm trên hiện trên máy tính laptop (bộ vi xử lý core i7 2.7GHz và 8G Ram) với một số bộ dữ liệu ung thư bao gồm: ung thư ruột kết (colon tumor), ung thư bạch cầu (leukemia), máu trắng (lymphoma) và ung thư tuyến tiền liệt (prostate). Chúng tôi sử dụng kết quả phân lớp bằng phương pháp KPCA làm cơ sở để so sánh với kết quả của phương pháp đề xuất trên cùng một bộ dữ liệu ung thư. Chúng tôi sử dụng ba loại hàm nhân như trong Bảng 3.2 để thực hiện kết hợp bằng các toán tử cộng và nhân. Bảng 3.2 Các hàm nhân được sử dụng Hàm nhân Công thức Ký hiệu Radial(RBF) exp (−𝛾‖𝑥𝑖 − 𝑥𝑗‖ 2 ) K1 Polynomial (𝛾𝑥𝑖 𝑇𝑥𝑗 + 𝑟) 𝑑 , 𝛾 > 0 K2 Sigmoid 𝑡𝑎𝑛ℎ(𝛾𝑥𝑖 𝑇𝑥𝑗 + 𝑐), 𝛾 > 0 K3 Bộ phân lớp: trong quá trình thực nghiệm chúng tôi thực hiện phân lớp dữ liệu ung thư sử dụng hai bộ phân lớp là Random forest và SVM với kiểm chứng chéo 10 lần. Các tham số của bộ phân lớp SVM được thiết lập với C=1 và các tham số khác có giá trị mặc định. Còn các tham số của bộ phân lớp Random forest được thiết lập với số cây ntree=100, các tham số khác để mặc định. Các độ đo được sử dụng để đánh giá hiệu năng là AUC, độ chính xác, độ phủ như đã trình bày ở chương 1. 3.4.2 Dữ liệu thực nghiệm Hiện nay có một số bộ dữ liệu được công bố trong các nghiên cứu về phân tích dữ liệu ung thư. Trong số các bộ dữ liệu đó, chúng tôi đã lựa chọn ra bốn bộ dữ liệu ung thư để sử dụng thực nghiệm là: bộ dữ liệu ung thư ruột kết (Colon Tumor), bộ 83 dữ liệu bạch cầu (Leukemia), bộ dữ liệu máu trắng (Lymphoma) và bộ dữ liệu ung thư tuyến tiền liệt (Prostate) như trong Bảng 3.3 Bảng 3.3 Tổng hợp các bộ dữ liệu ung thư được sử dụng trong thực nghiệm Tên bộ dữ liệu Số thuộc tính Số mẫu Số lớp Bài toán cần giải quyết Colon 2000 62 2 Phát hiện ung thư ruột kết Leukemia 7129 72 2 Phát hiện bệnh bạch cầu cấp tính Lymphoma 2647 77 2 Phát hiện máu trắng Prostate 2135 102 2 Phát hiện khối u tiền liệt tuyến Bộ dữ liệu ung thư ruột kết (Colon Tumor) được tạo thành từ 2000 đặc trưng trong đó có 40 mẫu bị bệnh và 22 mẫu bình thường. Bộ dữ liệu này có sẵn trên trang web: Chúng tôi thực hiện việc tiền xử lý dữ liệu ung thư và tạo ra một bộ dữ liệu được chuẩn hóa. Bộ dữ liệu bạch cầu (Leukemia) được tạo thành bởi 7129 đặc trưng, trong đó các mẫu thuộc hai lớp bạch cầu: 47 trường hợp thuộc loại (ALL), 25 trường hợp thuộc loại (AML). Dữ liệu có thể được tải về từ trang web Dữ liệu được tiền xử lý trước khi phân tích. Bộ dữ liệu máu trắng (Lymphoma) có được từ việc nghiên cứu biểu hiện gen của ba khối máu trắng: B-cell (B-CLL), nang lymphoma (FL) và u khuếch tán lớn B- cell lymphoma (DLCL). Trong số 96 mẫu, chúng tôi chọn ra 77 mẫu chứa 2647 đặc trưng thuộc hai lớp: 19 mẫu FL và 58 mẫu thuộc loại DLCL. Bộ dữ liệu này có thể lấy về tại Sau khi tiền xử lý dữ liệu, bộ dữ liệu được biến đổi và chuẩn hóa cho quá trình phân tích. Bộ dữ liệu ung thư tuyến tiền liệt (Prostate) có 2135 đặc trưng với 102 mẫu. Trong số đó có 52 mẫu bệnh chiếm tỉ lệ 51%. Các trường hợp bình thường là 49% với 50 mẫu. Dữ liệu có thể được tải về từ trang genome.wi.mit.edu/mpr/prostate. 84 3.4.3 Kết quả thực nghiệm Trong quá trình thực nghiệm chúng tôi kết hợp và lựa chọn hàm nhân tốt nhất cho KPCA sau đó tiến hành phân lớp dữ liệu được trích xuất, việc so sánh hiệu năng phân lớp được chia làm ba mục: (1)Sử dụng tất cả các đặc trưng (2) Sử dụng các đặc trưng được trích xuất bởi KPCA (hàm nhân RBF) (3) Sử dụng các đặc trưng được trích xuất bởi C-KPCA (hàm nhân kết hợp). Kết quả thực nghiệm trên từng bộ dữ liệu ung thư như sau: 3.4.3.1 Bộ dữ liệu ung thư ruột kết Trong quá trình thực nghiệm để trích xuất ra các đặc trưng bằng KPCA, chúng tôi lựa chọn và kết hợp ba hàm nhân như mô tả trong Bảng 3.2. Kết quả độ chính xác phân lớp trong quá trình huấn luyện và đánh giá để chọn ra hàm nhân tốt nhất được thể hiện trong Bảng 3.4. Bảng 3.4 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư ruột kết Số đặc trưng Hàm nhân K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3 3 89,27 74,81 81,53 87,58 5 88,87 84,74 87,66 88,31 10 92,34 84,72 90,48 91,94 15 93,55 87,15 91,94 92,18 20 94,52 86,83 92,82 91,94 50 88,06 86,50 90,08 86,85 100 86,53 86,39 89,03 81,61 200 85,24 89,49 82,34 85,10 500 83,50 88,71 82,26 82,42 Kết quả cho thấy việc kết hợp các hàm nhân sử dụng toán tử + cho kết quả cao hơn so với các cách kết hợp khác trong nhiều trường hợp. So sánh hàm nhân tùy chọn với các hàm nhân cơ bản có kết quả như trong Bảng 3.5: 85 Bảng 3.5 So sánh hàm nhân mới với hàm nhân cơ sở trên dữ liệu ung thư ruột kết Số đặc trưng Hàm nhân K1(Rbf) K2 (Poly) K3(Sigmoid) Combined 3 87,10 88,15 90,81 89,27 5 87,42 88,87 88,87 88,87 10 91,94 92,10 92,10 92,34 15 91,94 93,55 93,23 93,55 20 92,26 93,63 93,32 94,52 50 86,85 92,26 86,85 88,06 100 83,23 81,69 85,48 86,53 200 84,03 85,48 82,74 85,24 500 81,21 82,90 84,19 83,50 Với số lượng đặc trưng được trích xuất bằng phương pháp C-KPCA (sử dụng hàm nhân tùy chọn K1+K2+K3) là 3 thì độ chính xác cao hơn phương pháp KPCA sử dụng hàm nhân Rbf và hàm nhân đa thức. Với số lượng đặc trưng được trích xuất là 5, 10, 15, 20 thì phương pháp C-KPCA luôn cho độ chính xác cao hơn so với việc sử dụng từng hàm nhân. Kết quả thực nghiệm so sánh độ chính xác phân lớp sử dụng các đặc trưng được trích xuất bởi C-KPCA với số đặc trưng 3, 5, 10, 15, 20, 50, 100, 200 được thể hiện dưới Hình 3.4 Hình 3.4 Độ chính xác phân lớp với bộ dữ liệu ung thư ruột kết 86 Kết quả Hình 3.4 cho thấy trong quá trình huấn luyện (train) và đánh giá (validate) với số đặc trưng trong khoảng từ 10-20 đặc trưng thì phương pháp C-KPCA sử dụng hàm nhân tùy chọn cho độ chính xác cao hơn so với việc sử dụng các hàm nhân cơ bản. Độ chính xác phân lớp khi kiểm tra (test) bằng bộ phân lớp rừng ngẫu nhiên và máy vector hỗ trợ sử dụng tất cả các đặc trưng được so sánh với việc sử dụng 20 đặc trưng trích xuất bởi KPCA và C-KPCA thể hiện trong Bảng 3.6 Bảng 3.6 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư ruột kết Độ đo Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM RF SVM AUC 84,5 83,6 85,5 82,6 86,6 88,2 Accuracy 82,3 85,5 82,3 85,5 79,0 88,7 Precision 82,0 85,4 82,0 85,4 79,2 88,9 Recall 82,3 85,5 82,3 85,5 79,0 88,7 Độ chính xác phân lớp sử dụng 20 đặc trưng được trích xuất bằng phương pháp C-KPCA cho kết quả cao hơn và ổn định hơn so với việc phân lớp sử dụng toàn bộ các đặc trưng. Ngoài ra phương pháp đề xuất cũng cho kết quả phân lớp SVM cao hơn phương pháp KPCA sử dụng hàm nhân cơ sở. 3.4.3.2 Bộ dữ liệu bạch cầu Chúng tôi lựa chọn, kết hợp ba hàm nhân và áp dụng trên bộ dữ liệu ung thư bạch cầu. Kết quả độ chính xác phân lớp trong quá trình huấn luyện và đánh giá để chọn ra hàm nhân tốt nhất được thể hiện trong Bảng 3.6. Bảng 3.7 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư bạch cầu Số đặc trưng Hàm nhân K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3 3 78,13 84,91 73,82 75,21 5 81,81 84,46 75,56 81,88 10 92,71 78,67 81,94 89,44 15 90,28 80,62 87,50 90,00 20 90,76 82,90 89,10 90,14 50 91,94 83,00 90,28 88,33 100 93,82 83,28 86,04 84,38 200 92,85 84,47 82,50 83,96 500 92,78 86,08 82,71 87,08 87 Kết quả cũng cho thấy việc kết hợp các hàm nhân sử dụng toán tử + cho kết quả cao hơn so với các cách kết hợp khác trong nhiều trường hợp. So sánh hàm nhân tùy chọn với các hàm nhân cơ bản có kết quả như trong Bảng 3.8 và Hình 3.5 Bảng 3.8 So sánh với hàm nhân cơ sở trên bộ dữ liệu ung thư bạch cầu Số đặc trưng Hàm nhân K1(Rbf) K2(Poly) K3(Sigmoid) Combined 3 78,96 85,56 81,81 78,13 5 76,39 89,86 88,61 81,81 10 82,92 90,21 88,89 92,71 15 83,06 89,10 90,14 90,28 20 84,58 90,21 88,33 90,76 50 83,47 88,19 86,25 91,94 100 86,94 80,23 86,67 93,82 200 81,53 81,04 89,72 92,85 500 82,36 82,99 90,56 92,78 Hình 3.5 Độ chính xác phân lớp với bộ dữ liệu ung thư bạch cầu 88 Kết quả cho thấy, với số đặc trưng là 3 và 5 được trích xuất từ phương pháp KPCA gốc cho độ chính xác cao hơn các đặc trưng trích xuất bởi phương pháp C- KPCA trong một số trường hợp. Với số đặc trưng từ 10 trở lên thì phương pháp C- KPCA của chúng tôi cho kết quả cao hơn hẳn. Tiến hành kiểm tra (test) hiệu năng phân lớp sử dụng tất cả các đặc trưng so với việc sử dụng 20 đặc trưng trích xuất bởi KPCA và C-KPCA được thể hiện trong Bảng 3.9 Bảng 3.9 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư bạch cầu Độ đo Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM RF SVM AUC 81,8 77,77 74,6 75,9 76,8 67,5 Accuracy 77,8 81,94 72,2 81,9 76,4 72,2 Precision 80,8 81,8 71,1 82,8 75,9 71,4 Recall 77,8 81,94 72,2 81,9 76,4 72,2 Bảng cho thấy phương pháp đề xuất C-KPCA trích xuất ra 20 đặc trưng cho kết quả không cao hơn so với việc sử dụng toàn bộ các đặc trưng. Lý do là bộ dữ liệu này có hơn 7000 đặc trưng, việc trích xuất 20 đặc trưng chưa đủ thông tin để phân lớp cho độ chính xác cao. Ngoài ra phương pháp đề xuất cũng cho kết quả phân lớp Random forest cao hơn phương pháp KPCA sử dụng hàm nhân mặc định. 3.4.3.3 Bộ dữ liệu máu trắng Chúng tôi tiếp tục tiến hành việc lựa chọn, kết hợp ba hàm nhân và áp dụng trên bộ dữ liệu lymphoma. Kết quả độ chính xác phân lớp trong quá trình huấn luyện và đánh giá để chọn ra hàm nhân tốt nhất được thể hiện trong bảng. Bảng 3.10 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư máu trắng Số đặc trưng Hàm nhân K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3 3 87,27 77,50 89,48 89,68 5 98,70 76,00 98,57 98,44 10 98,64 82,84 97,40 97,40 15 98,57 87,90 97,40 97,79 20 100,00 90,62 100,00 100,00 50 99,81 93,27 97,21 97,34 100 81,56 93,76 86,36 80,06 200 88,12 96,91 88,25 84,22 500 87,40 87,31 84,48 83,31 89 Tương tự như hai bộ dữ liệu trước, kết quả cho thấy việc kết hợp các hàm nhân sử dụng toán tử + cho kết quả cao hơn so với các cách kết hợp khác trong nhiều trường hợp. So sánh hàm nhân tùy chọn với các hàm nhân cơ bản có kết quả như sau: Bảng 3.11 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu máu trắng Số đặc trưng Hàm nhân K1(Rbf) K2(Poly) K3(Sigmoid) Combined 3 87,79 86,75 87,27 87,27 5 98,70 98,70 98,70 98,70 10 98,25 97,92 98,70 98,64 15 99,94 99,42 100,00 98,57 20 100,00 100,00 100,00 100,00 50 96,88 96,30 98,70 99,81 100 77,01 76,75 82,73 81,56 200 85,06 85,58 89,87 88,12 500 83,90 83,25 94,68 87,40 Hình 3.6 Độ chính xác phân lớp với bộ dữ liệu lymphoma 90 Kết quả trong Hình 3.6 cho thấy trong quá trình huấn luyện (train) và đánh giá (validation) với số đặc trưng trong khoảng từ 10-50 đặc trưng thì phương pháp C- KPCA sử dụng hàm nhân tùy chọn cho độ chính xác cao hơn so với việc sử dụng các hàm nhân cơ bản. Độ chính xác phân lớp khi kiểm tra (test) bằng bộ phân lớp rừng ngẫu nhiên (RF) và máy vector hỗ trợ (SVM) sử dụng tất cả các đặc trưng được so sánh với việc sử dụng 20 đặc trưng trích xuất bởi KPCA và C-KPCA thể hiện trong Bảng 3.12 Bảng 3.12 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu lymphoma Độ đo Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM RF SVM AUC 97,2 88 98,5 96,5 99,6 96,5 Accuracy 88,3 93,5 93,5 97,4 93,5 97,4 Precision 89,9 93,5 93,5 97,4 94 97,4 Recall 88,3 93,5 93,5 97,4 93,5 97,4 3.4.3.4 Bộ dữ liệu ung thư tuyến tiền liệt Cuối cùng, chúng tôi tiến hành lựa chọn, kết hợp ba hàm nhân và áp dụng trên bộ dữ liệu ung thư tuyến tiền liệt. Kết quả độ chính xác phân lớp trong quá trình huấn luyện và đánh giá để chọn ra hàm nhân tốt nhất được thể hiện trong bảng. Bảng 3.13 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư tuyến tiền liệt Số đặc trưng Hàm nhân K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3 3 82,89 84,25 68,73 65,88 5 88,28 84,30 86,03 89,17 10 95,00 84,81 94,12 94,41 15 94,31 84,81 94,12 94,12 20 97,11 87,34 94,41 96,08 50 99,10 87,34 95,88 99,80 100 100,00 86,52 96,13 99,02 200 100,00 88,58 100,00 95,44 500 98,48 86,90 100,00 98,48 91 Tương tự như các bộ dữ liệu trước, kết quả cho thấy việc kết hợp các hàm nhân sử dụng toán tử + cho kết quả cao hơn so với các cách kết hợp khác trong nhiều trường hợp. So sánh hàm nhân tùy chọn với các hàm nhân cơ bản có kết quả như sau: Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thư tiền liệt tuyến Số đặc trưng Hàm nhân K1(Rbf) K2(Poly) K3(Sigmoid) Combined 3 0.8755 0.8745 0.8745 0.8289 5 0.9123 0.9299 0.9275 0.8828 10 0.9412 0.9515 0.9510 0.9520 15 0.9451 0.9623 0.9637 0.9641 20 0.9426 0.9804 0.9745 0.9711 50 0.9755 0.9902 0.9902 0.9910 100 0.9593 1.0000 1.0000 1.0000 200 1.0000 0.9377 0.9686 1.0000 500 1.0000 0.9078 0.9245 0.9848 Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thư tuyến tiền liệt 92 Với bộ ung thư tuyến tiền liệt, việc sử dụng các đặc trưng trích xuất bởi C- KPCA cho độ chính xác phân lớp ngang bằng hoặc cao hơn trong một số trường hợp so với việc sử dụng các hàm nhân cơ bản. Bảng 3.15 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư tuyến tiền liệt Độ đo Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM RF SVM AUC 92,8 90,2 93,8 91,2 91 91,3 Accuracy 90,2 90,2 83,3 91,2 86,3 91,2 Precision 90,3 90,3 83,5 91,3 86,3 91,2 Recall 90,2 90,2 83,3 91,2 86,3 91,2 Tiến hành so sánh hiệu năng phân lớp với bốn bộ dữ liệu ung thư cho kết quả như Hình 3.8 93 Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thư 94 Trong các thực nghiệm thực hiện trên bốn bộ dữ liệu ung thư nói trên, phương pháp C-KPCA với hàm nhân được đề xuất thường xuyên cho độ chính xác dự đoán cao hơn so với phương pháp KPCA truyền thống sử dụng hàm nhân cơ sở. Có thể thấy phương pháp C-KPCA cho kết quả ổn định hơn. Bảng 3.16 So sánh phương pháp đề xuất(C-KPCA) với các phương pháp lựa chọn đặc trưng khác Colon Tumor Leukemia Lymphoma Prostate Phương pháp Số đặc trưng Độ chính xác Số đặc trưng Độ chính xác Số đặc trưng Độ chính xác Số đặc trưng Độ chính xác PLSDR [52] 20 83,5 20 97,1 20 93,0 20 91,7 GEM [38] 8 91,2 3 91,5 5 93,3 - IWSS3-MB-NB [92] 5,2 86 6,4 97,1 - - 5,6 91,1 DRF0-CFS [13] 10 90,0 13 91,18 11 93,33 113 85,29 BDE-SVMRankf [7] 4 75 6 82,4 3 92,9 3 97,1 C-KPCA 15 90,3 20 72,2 5 96,1 15 92,2 Bảng 3.16 thể hiện độ chính xác phân lớp của phương pháp đề xuất và các phương pháp lựa chọn đặc trưng phổ biến hiện nay. Với bộ dữ liệu ung thư ruột kết, việc phân lớp sử dụng 15 đặc trưng được trích xuất bằng phương pháp C-KPCA của chúng tôi cho độ chính xác cao hơn bốn phương pháp khác là: PLSDR [52], IWSS3- MB-NB [92], DRF0-CFS [13] và BDE-SVMRankf [7]. Trong khi đó, với bộ dữ liệu bạch cầu thì kết quả không được cao bằng các phương pháp khác do bộ dữ liệu này không phù hợp với phương pháp trích xuất đặc trưng của chúng tôi. So sánh trên bộ dữ liệu máu trắng và ung thư tiền liệt tuyến, cho thấy chỉ với 5 và 15 đặc trưng được trích xuất thì độ chính xác của phương pháp đề xuất luôn cao hơn phương pháp khác. Chúng tôi cũng so sánh kết quả của phương pháp C-KPCA với kết quả của các mô hình trích chọn đặc trưng dựa trên học thưa như Lasso, SRC-LatLRR [28], HLR [42]. Kết quả được thể hiện trong Bảng 3.17 và Bảng 3.18. 95 Bảng 3.17 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Colon và Prostate Phương pháp Colon Tumor Prostate SVM 85,48 91,18 LASSO 85.48 91.91 SRC 85.48 94,85 SRC-LatLRR 90.32 94,12 C-KPCA 90,3 92,2 Kết quả trong Bảng 3.17 cho thấy với bộ dữ liệu Colon tumor, phương pháp C-KPCA cho độ chính xác tương đương phương pháp SRC-LatLRR và cao hơn ba phương pháp SVM, LASSO và SRC. Còn với bộ dữ liệu Prostate, phương pháp C- KPCA cho kết quả cao hơn hai phương pháp SVM và LASSO. Bảng 3.18 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Lymphoma và Prostate Phương pháp Lymphoma Prostate LASSO 91,11 92,40 L1/2 91,2 92.18 SCAD-L2 92,99 91,33 HLR 94,23 93,68 C-KPCA 96,1 92,2 Phương pháp C-KPCA cho kết quả cao hơn các phương pháp khác khi so sánh với bộ dữ liệu Lymphoma. Từ các kết quả trên có thể thấy phương pháp C-KPCA thực hiện trích xuất đặc trưng và cho kết quả phân tốt với nhiều bộ dữ liệu ung thư. 96 3.5 Kết luận chương Trong chương này, chúng tôi tập trung vào việc tìm hiểu cách tiếp cận hàm nhân và đề xuất phương pháp C-KPCA sử dụng hàm nhân mới được kết hợp từ các hàm nhân cơ bản khác. Hiệu quả và độ tin cậy của hàm nhân mới này được xác định thông qua thực nghiệm. Cụ thể, phương pháp đề xuất được thực nghiệm trên bốn bộ dữ liệu ung thư đang được dùng phổ biến hiện nay. So sánh kết quả phân lớp sử dụng hàm nhân tùy chọn và ba hàm nhân cơ sở khác cho thấy hàm nhân của chúng tôi thường xuyên cho độ chính xác cao hơn Kết quả cho thấy độ chính xác phân lớp sử dụng các đặc trưng được trích xuất bởi C-KPCA được cải thiện so với phương pháp KPCA sử dụng các hàm nhân cơ bản và một số phương pháp lựa chọn đặc trưng đã được đề xuất trước đây. 97 KẾT LUẬN Với miền ứng dụng rủi ro tín dụng, số lượng đặc trưng là không quá nhiều nhưng số lượng bản ghi là tương đối lớn so với số đặc trưng. Nhiệm vụ là phải loại bỏ các đặc trưng không liên quan, dư thừa và tìm ra các đặc trưng tốt cho quá trình phân lớp. Chúng tôi đã sử dụng phương pháp lựa chọn đặc trưng FRFE và bộ phân lớp rừng ngẫu dựa trên cơ chế phân tán và song song để xây dựng mô hình đánh giá tín dụng. Các kết quả thực nghiệm cho thấy độ chính xác phân lớp sử dụng các đặc trưng lựa chọn bởi phương pháp đề xuất được cải thiện tương đối khả quan. Tiêu chí xếp hạng các đặc trưng được đề xuất nhằm giúp cải tiến độ chính xác cũng như làm giảm thời gian thực hiện của các kỹ thuật phân lớp. Ngoài ra, thời gian chạy đã được giảm xuống đáng kể do áp dụng các thủ tục xử lý song song. Với việc phân tích dữ liệu ung thư có số lượng đặc trưng lớn hơn so với số bản ghi, chúng tôi đã đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA nhằm làm giảm số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề xuất của chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ bản. Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánh kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác. Thực nghiệm cho thấy C-KPCA cho kết quả ổn định và tốt hơn so với các phương pháp khác trong một số trường hợp. Hướng nghiên cứu tiếp theo Các kết quả nghiên cứu về lựa chọn đặc trưng mới tập trung xây dựng hàm đánh giá chủ yếu dựa trên độ chính xác của các bộ phân lớp. Trong một số nghiên cứu gần đây cho thấy việc sử độ đo AUC là tốt hơn so với độ chính xác khi phân tích trên bộ dữ liệu đa lớp hoặc không cân bằng, mặc dù trong hàm đánh giá chúng tôi cũng đã sử dụng độ đo này tuy nhiên mức độ ảnh hưởng của nó chưa được đánh giá một cách độc lập. Do đó, trong các nghiên cứu tiếp theo, chúng tôi dự kiến sẽ tiến hành khảo sát kỹ sự ảnh hưởng của độ đo AUC nhằm tăng hiệu năng của hàm đánh giá. 98 Các kết quả nghiên cứu về trích xuất đặc trưng mới chỉ dừng lại ở việc kết hợp thủ công các hàm nhân cơ bản để có được hàm nhân mới cho KPCA trong phân tích dữ liệu ung thư. Chúng tôi sẽ khảo sát và nghiên cứu tìm hiểu việc ứng dụng kỹ thuật học máy nhằm tự động xây dựng hàm nhân mới dựa trên việc kết hợp các hàm nhân cơ bản phù hợp với từng loại dữ liệu cần phân tích. 99 DANH MỤC CÔNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN Tạp chí quốc tế: [SANGHV1]. Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan. (2016). “A Novel Credit Scoring Prediction Model based on Feature Selection Approach and Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20), May 2016. (Scopus4) [SANGHV2]. Ha Van Sang, Nguyen Ha Nam, & Bao, H. N. T. (2017). A hybrid feature selection method for credit scoring. EAI Endorsed Trans. Context- Aware Syst. & Appl., 4(11), e2. (DBLP5) Hội thảo quốc tế: [SANGHV3]. Van-Sang Ha and Ha-Nam Nguyen (2016). “Credit scoring with a feature selection approach based deep learning”, in MATEC Web of Conferences, vol. 54, p. 05004.(Scopus) [SANGHV4]. Van-Sang Ha and Ha-Nam Nguyen. (2016). “C-KPCA: Custom Kernel PCA for Cancer Classification”, in Machine Learning and Data Mining in Pattern Recognition: 12th International Conference, MLDM 2016, Springer International Publishing, pp. 459–467(Scopus; DBLP) [SANGHV5]. Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive Feature Elimination for Credit Scoring”, in Nature of Computation and Communication: Second International Conference, ICTCC 2016, Springer International Publishing, pp. 133–142.(Scopus; DBLP) 4 https://www.scopus.com/authid/detail.uri?authorId=57190294285 5 TÀI LIỆU THAM KHẢO Tiếng Việt [1]. • Định, V. V. (2016). Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai. Luận án tiến sĩ, Học viện Khoa học và Công nghệ. [2]. • Dương, H. Đ. (2015). Một số phương pháp trích chọn đặc trưng và phát hiện đám cháy qua dữ liệu ảnh. Luận án tiến sĩ, Học viện Kỹ thuật Quân sự. [3]. • Hương, N. T. L. (2016). Rút gọn thuộc tính trong bảng quyết định động theo tiếp cận tập thô. Luận án tiến sĩ, Học viện Khoa học và Công nghệ. Tiếng Anh [4]. Abdou, H., & Pointon, J. (2011). Credit scoring, statistical techniques and evaluation criteria : a review of the literature. Intelligent Systems in Accounting, Finance and Management, 18(2–3), 59–88. [5]. Agarwal, B., & Namita, M. (2016). Prominent Feature Extraction for Sentiment Analysis. Springer International. [6]. Alter, O., Brown, P. O., & Botstein, D. (2000). Singular value decomposition for genome-wide expression data processing and modeling. Proceedings of the National Academy of Sciences of the United States of America, 97(18), 10101–6. [7]. Apolloni, J., Leguizamón, G., & Alba, E. (2016). Two hybrid wrapper-filter feature selection algorithms applied to high-dimensional microarray experiments. Applied Soft Computing Journal, 38, 922–932. [8]. Aziz, R., Verma, C. K., & Srivastava, N. (2017). Dimension reduction methods for microarray data: a review. AIMS Bioengineering, 4(2), 179–197. [9]. Bae, C., Yeh, W. C., Chung, Y. Y., & Liu, S. L. (2010). Feature selection with Intelligent Dynamic Swarm and rough set. Expert Systems with Applications, 37(10), 7026–7032. [10]. Bair, E., Hastie, T., Paul, D., & Tibshirani, R. (2006). Prediction by supervised principal components. Journal of the American Statistical Association, 101(473), 119– 137. [11]. Bellotti, T., & Crook, J. (2009). Support vector machines for credit scoring and discovery of significant features. Expert Systems with Applications, 36(2 PART 2), 3302–3308. [12]. Benabdeslem, K., & Hindawi, M. (2014). Efficient semi-supervised feature selection: Constraint, relevance, and redundancy. IEEE Transactions on Knowledge and Data Engineering, 26(5), 1131–1143. [13]. Bolón-Canedo, V., Sánchez-Maroño, N., & Alonso-Betanzos, a. (2015). Distributed feature selection: An application to microarray data classification. Applied Soft Computing, 30, 136–150. [14]. Borg, I., & Groenen, P. (2005). Modern Multidimensional Scaling: Theory and Applications. In Chapter 10 (pp. 100–131). [15]. Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32. [16]. Cai, X., Nie, F., & Huang, H. (2007). Exact Top- k Feature Selection via l2,0-Norm Constraint. Ijcai, 1240–1246. [17]. Cangelosi, R., & Goriely, A. (2007). Component retention in principal component analysis with application to cDNA microarray data. Biology Direct, 2. [18]. Chen, W. C., Tseng, S. S., & Hong, T. P. (2008). An efficient bit-based feature selection 101 method. Expert Systems with Applications, 34(4), 2858–2869. [19]. Chen, X., Wang, L., Smith, J. D., & Zhang, B. (2008). Supervised principal component analysis for gene set enrichment of microarray data with continuous or survival outcomes. Bioinformatics, 24(21), 2474–2481. [20]. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273–297. [21]. Cristianini, N., & Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel based learning methods. Ai Magazine. [22]. Dawson, K., Rodriguez, R. L., & Malyj, W. (2005). Samle phenotype clusters in high- density oligonucleotide microarray data sets are revealed using Isomap, a nonlinear algorithm. BMC Bioinformatics, 6. [23]. Diao, R., & Parthaláin, N. S. Mac. (2014). Feature Selection with Harmony Search and its Applications. PhD Thesis, Aberystwyth University. [24]. Du, L., & Shen, Y. (2015). Unsupervised Feature Selection with Adaptive Structure Learning. International Conference on Knowledge Discovery and Data Mining, 209– 218. [25]. Ehler, M., Rajapakse, V. N., Zeeberg, B. R., Brooks, B. P., Brown, J., Czaja, W., & Bonner, R. F. (2011). Nonlinear gene cluster analysis with labeling for microarray gene expression data in organ development. In BMC Proceedings (Vol. 5). [26]. Eyben, F. (2016). Real-time Speech and Music Classification by Large Audio Feature Space Extraction. Springer International. [27]. Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861–874. [28]. Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q. (2014). Sparse Representation for Tumor Classification Based on Feature Extraction Using Latent Low-Rank Representation. BioMed Research International, 2014, 1–7. [29]. Ghaemi, M., & Feizi-Derakhshi, M.-R. (2016). Feature selection using Forest Optimization Algorithm. Pattern Recognition, 60, 121–129. [30]. Ghamisi, P., & Benediktsson, J. A. (2015). Feature selection based on hybridization of genetic algorithm and particle swarm optimization. IEEE Geoscience and Remote Sensing Letters, 12(2), 309–313. [31]. Ghashami, M., & Perry, D. J. (2016). Streaming Kernel Principal Component Analysis, 41, 1365–1374. [32]. Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157–1182. [33]. Guyon, I., & Elisseeff, A. (2006). An Introduction to Feature Extraction. Feature Extraction - Foundations and Applications, 207(10), 740. [34]. Hall, M. a. (1999). Correlation-based Feature Selection for Machine Learning. Methodology. PhD Thesis, University of Waikato. [35]. Hall, M., & Smith, L. a. (1999). Feature Selection for Machine Learning : Comparing a Correlation-based Filter Approach to the Wrapper CFS : Correlation-based Feature. International FLAIRS Conference, 5. [36]. Hara, S., & Maehara, T. (2017). Enumerate Lasso Solutions for Feature Selection. Aaai, 1985–1991. [37]. Harikrishna, S., Farquad, M. A. H., & Shabana. (2012). Credit Scoring Using Support Vector Machine: A Comparative Analysis. Advanced Materials Research, 433–440, 6527–6533. 102 [38]. Hernandez Hernandez, J., Duval, B., & Hao, J.-K. (2007). A Genetic Embedded Approach for Gene Selection and Classification of Microarray Data. In Evolutionary Computation,Machine Learning and Data Mining in Bioinformatics (Vol. 4447, pp. 90–101). [39]. Hochstadt, H. (1989). Integral equations. New York: A Wiley-Interscience Publication. [40]. Hofmann, T., Schölkopf, B., & Smola, A. J. (2008). Kernel methods in machine learning. The Annals of Statistics, 36(3), 1171–1220. [41]. Hua, J., Tembe, W. D., & Dougherty, E. R. (2009). Performance of feature-selection methods in the classification of high-dimension data. Pattern Recognition, 42(3), 409– 424. [42]. Huang, H. H., Liu, X. Y., & Liang, Y. (2016). Feature selection and cancer classification via sparse logistic regression with the hybrid L1/2 +2regularization. PLoS ONE, 11(5), 1–15. [43]. Jian, L., Li, J., Shu, K., & Liu, H. (2016). Multi-label informed feature selection. In IJCAI International Joint Conference on Artificial Intelligence (Vol. 2016–Janua, pp. 1627–1633). [44]. Jiao, N., Miao, D., & Zhou, J. (2010). Two novel feature selection methods based on decomposition and composition. Expert Systems with Applications, 37(12), 7419–7426. [45]. Jonnalagadda, S., & Srinivasan, R. (2008). Principal components analysis based methodology to identify differentially expressed genes in time-course microarray data. BMC Bioinformatics, 9. [46]. Jung, M., & Zscheischler, J. (2013). A guided hybrid genetic algorithm for feature selection with expensive cost functions. In Procedia Computer Science (Vol. 18, pp. 2337–2346). [47]. Karhunen, J., Hyvarinen, A., Vigario, R., Hurri, J., & Oja, E. (1997). Applications of neural blind separation to signal and image processing. In 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (Vol. 1, pp. 131–134). [48]. Kennedy, J., & Eberhart, R. (1995). Particle swarm optimization. Neural Networks, 1995. Proceedings., IEEE International Conference on, 4, 1942–1948 vol.4. [49]. Koutanaei, F. N., Sajedi, H., & Khanbabaei, M. (2015). A hybrid data mining model of feature selection algorithms and ensemble learning classifiers for credit scoring. Journal of Retailing and Consumer Services, 27, 11–23. [50]. Lee, C.-P., & Leu, Y. (2011). A novel hybrid feature selection method for microarray data analysis. Applied Soft Computing, 11(4), 208–213. [51]. Lee, C., & Lee, G. G. (2006). Information gain and divergence-based feature selection for machine learning-based text categorization. Information Processing and Management. [52]. Li, G. Z., Zeng, X. Q., Yang, J. Y., & Yang, M. Q. (2007). Partial Least Squares Based Dimension Reduction with Gene Selection for Tumor Classification. 2007 IEEE 7th International Symposium on BioInformatics and BioEngineering. [53]. Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang, J., & Liu, H. (2016). Feature Selection: A Data Perspective, 1–73. [54]. Li, Y., Chen, C. Y., & Wasserman, W. W. (2015). Deep feature selection: Theory and application to identify enhancers and promoters. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 9029, pp. 205–217). 103 [55]. Liang, D., Tsai, C.-F., & Wu, H.-T. (2015). The effect of feature selection on financial distress prediction. Knowledge-Based Systems, 73, 289–297. [56]. Liang Sun, Shuiwang Ji, J. Y. (2013). Multi-Label Dimensionality Reduction. Chapman and Hall/CRC. [57]. Lin, W. Y., Hu, Y. H., & Tsai, C. F. (2012). Machine learning in financial crisis prediction: A survey. IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews. [58]. Ling, Y., Cao, Q. Y., & Zhang, H. (2011). Application of the PSO-SVM model for credit scoring. Proceedings - 2011 7th International Conference on Computational Intelligence and Security, CIS 2011, 47–51. [59]. Liu, H., & Motoda, H. (1998). Feature Selection for Knowledge Discovery and Data Mining. Springer US. [60]. Liu, X., Tosun, D., Weiner, M. W., & Schuff, N. (2013). Locally linear embedding (LLE) for MRI based Alzheimer’s disease classification. NeuroImage, 83, 148–157. [61]. Liu, Y., & Schumann, M. (2005). Data mining feature selection for credit scoring models. Journal of the Operational Research Society, 56(9), 1099–1108. [62]. M., K., A., S., & S., O. (2002). Analysis of DNA microarray data using self-organizing map and kernel based clustering. {ICONIP}’02. Proceedings of the 9th International Conference on Neural Information Processing. Computational Intelligence for the {E}- Age, 2, 755–759. [63]. Maldonado, S., & Weber, R. (2009). A wrapper method for feature selection using Support Vector Machines. Information Sciences, 179(13), 2208–2217. [64]. Meyer, P. E., Schretter, C., & Bontempi, G. (2008). Information-Theoretic Feature Selection in Microarray Data Using Variable Complementarity. IEEE Journal of Selected Topics in Signal Processing, 2(3), 261–274. [65]. Mylonakis, J., & Diacogiannis, G. (2010). Evaluating the likelihood of using linear discriminant analysis as a commercial bank card owners credit scoring model. International Business Research, 3(2), 9–21. [66]. Nakariyakul, S., & Casasent, D. P. (2009). An improvement on floating search algorithms for feature subset selection. Pattern Recognition, 42(9), 1932–1940. [67]. Nello Cristianini, J. S.-T. (2000). An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press. [68]. Nixon, M., & Aguado, A. (2012). Feature Extraction and Image Processing for Computer Vision. Feature Extraction & Image Processing for Computer Vision, Second Edition. [69]. Nziga, J. (2015). Incremental Sparse-PCA Feature Extraction For Data Streams. PhD Thesis, Nova Southeastern University. [70]. Oreski, S., & Oreski, G. (2014). Genetic algorithm-based heuristic for feature selection in credit risk assessment. Expert Systems with Applications, 41(4), 2052–2064. [71]. Orsenigo, C., & Vercellis, C. (2012). An effective double-bounded tree-connected Isomap algorithm for microarray data classification. Pattern Recognition Letters, 33(1), 9–16. [72]. Park, C. H., & Lee, M. (2008). On applying linear discriminant analysis for multi- labeled problems. Pattern Recognition Letters, 29(7), 878–887. [73]. Pawlak, Z. (1996). Rough sets: Theoretical aspects of reasoning about data. Control Engineering Practice. [74]. Peng, H., & Fan, Y. (2016). Direct Sparsity Optimization Based Feature Selection for 104 Multi-Class Classification. Ijcai, 1918–1924. [75]. Peng, H., & Fan, Y. (2017). A General Framework for Sparsity Regularized Feature Selection via Iteratively Reweighted Least Square Minimization. Proceedings of the 31th Conference on Artificial Intelligence (AAAI 2017), 2471–2477. [76]. Peng, H., Long, F., & Ding, C. (2005). Feature selection based on mutual information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(8), 1226–1238. [77]. Peng, Y., Wu, Z., & Jiang, J. (2010). A novel feature selection approach for biomedical data classification. Journal of Biomedical Informatics, 43(1), 15–23. [78]. Piramuthu, S. (2006). On preprocessing data for financial credit risk evaluation. Expert Systems with Applications. [79]. Roy, D., Murty, K. S. R., & Mohan, C. K. (2015). Feature selection using Deep Neural Networks. In 2015 International Joint Conference on Neural Networks (IJCNN) (pp. 1–6). [80]. Schölkopf, B., Smola, A., & Müller, K.-R. (1998). Nonlinear Component Analysis as a Kernel Eigenvalue Problem. Neural Computation, 10(5), 1299–1319. [81]. Soliz, P., Russell, S. R., Abramoff, M. D., Murillo, S., Pattichis, M., & Davis, H. (2008). Independent Component Analysis for Vision-inspired Classification of Retinal Images with Age-related Macular Degeneration. 2008 IEEE Southwest Symposium on Image Analysis and Interpretation, 65–68. [82]. Soufan, O., Kleftogiannis, D., Kalnis, P., & Bajic, V. B. (2015). DWFS: A wrapper feature selection tool based on a parallel Genetic Algorithm. PLoS ONE, 10(2). [83]. Stańczyk, U., & Jain, L. C. (2015). Feature Selection for Data and Pattern Recognition. Studies in Computational Intelligence (Vol. 584). [84]. Sun, Y. (2007). Iterative RELIEF for feature weighting: Algorithms, theories, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6), 1035–1051. [85]. Swiniarski, R. W., & Skowron, A. (2003). Rough set methods in feature selection and recognition. Pattern Recognition Letters, 24(6), 833–849. [86]. Tang, J., Alelyani, S., & Liu, H. (2014). Feature Selection for Classification: A Review. Data Classification: Algorithms and Applications, 37–64. [87]. Tenenbaum, J. B., de Silva, V., & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. Science (New York, N.Y.), 290(5500), 2319–23. [88]. Thomas, L. C. (2009). Consumer credit models: Pricing, profit and portfolios. Consumer Credit Models: Pricing, Profit and Portfolios. [89]. Unler, A., Murat, A., & Chinnam, R. B. (2011). Mr2PSO: A maximum relevance minimum redundancy feature selection method based on swarm intelligence for support vector machine classification. Information Sciences, 181(20), 4625–4641. [90]. Verónica Bolón-Canedo, Noelia Sánchez-Maroño, A. A.-B. (2015). Feature Selection for High-Dimensional Data. Springer International. [91]. Villacampa, O. (2015). Feature Selection and Classification Methods for Decision Making: A Comparative Analysis. Nova Southeastern University. PhD Thesis, Nova Southeastern University. [92]. Wang, A., An, N., Chen, G., Yang, J., Li, L., & Alterovitz, G. (2014). Incremental wrapper based gene selection with Markov blanket. 2014 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). 105 [93]. Wang, H., Xu, Q., & Zhou, L. (2015). Large unbalanced credit scoring using lasso- logistic regression ensemble. PLoS ONE, 10(2). [94]. Wang, J., Guo, K., & Wang, S. (2010). Rough set and Tabu search based feature selection for credit scoring. Procedia Computer Science, 1(1), 2425–2432. [95]. Wang, J., Hedar, A.-R., Wang, S., & Ma, J. (2012). Rough set and scatter search metaheuristic based feature selection for credit scoring. Expert Systems with Applications, 39(6), 6123–6128. [96]. Wei, X., & Yu, P. S. (2016). Unsupervised Feature Selection by Preserving Stochastic Neighbors, 51(6), 995–1003. [97]. Xie, J., & Wang, C. (2011). Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications, 38(5), 5809–5815. [98]. Xu, Z., Huang, G., Weinberger, K. Q., & Zheng, A. X. (2014). Gradient boosted feature selection. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’14, 522–531. [99]. Yang, J., Frangi, A. F., Yang, J. Y., Zhang, D., & Jin, Z. (2005). KPCA plus LDA: A complete kernel fisher discriminant framework for feature extraction and recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(2), 230–244. [100]. Yao, P. Y. P. (2009). Feature Selection Based on SVM for Credit Scoring. 2009 International Conference on Computational Intelligence and Natural Computing, 2, 44–47. [101]. Yusta, S. C. (2009). Different metaheuristic strategies to solve the feature selection problem. Pattern Recognition Letters, 30(5), 525–534. [102]. Zainudin, M., Sulaiman, M., Mustapha, N., Perumal, T., Nazri, A., Mohamed, R., & Manaf, S. (2017). Feature Selection Optimization using Hybrid Relief-f with Self- adaptive Differential Evolution. International Journal of Intelligent Engineering and Systems, 10(3), 21–29. [103]. Zhang, M. L., Peña, J. M., & Robles, V. (2009). Feature selection for multi-label naive Bayes classification. Information Sciences, 179(19), 3218–3229. [104]. Zhao, L., Hu, Q., & Wang, W. (2015). Heterogeneous Feature Selection with Multi- Modal Deep Neural Networks and Sparse Group LASSO. IEEE Transactions on Multimedia, 17(11), 1936–1948. [105]. Zhou, S. (2003). Probabilistic analysis of kernel principal components: mixture modeling and classification. IEEE Transactions on Pattern Analysis, (i), 1–26.

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_cai_tien_cac_ky_thuat_rut_gon_dac_trung_c.pdf