Với miền ứng dụng rủi ro tín dụng, số lượng đặc trưng là không quá nhiều
nhưng số lượng bản ghi là tương đối lớn so với số đặc trưng. Nhiệm vụ là phải loại
bỏ các đặc trưng không liên quan, dư thừa và tìm ra các đặc trưng tốt cho quá trình
phân lớp. Chúng tôi đã sử dụng phương pháp lựa chọn đặc trưng FRFE và bộ phân
lớp rừng ngẫu dựa trên cơ chế phân tán và song song để xây dựng mô hình đánh giá
tín dụng. Các kết quả thực nghiệm cho thấy độ chính xác phân lớp sử dụng các đặc
trưng lựa chọn bởi phương pháp đề xuất được cải thiện tương đối khả quan. Tiêu chí
xếp hạng các đặc trưng được đề xuất nhằm giúp cải tiến độ chính xác cũng như làm
giảm thời gian thực hiện của các kỹ thuật phân lớp. Ngoài ra, thời gian chạy đã được
giảm xuống đáng kể do áp dụng các thủ tục xử lý song song.
Với việc phân tích dữ liệu ung thư có số lượng đặc trưng lớn hơn so với số bản
ghi, chúng tôi đã đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA nhằm làm giảm
số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề xuất của
chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ
bản. Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánh kết
quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với một số
phương pháp lựa chọn đặc trưng phổ biến khác. Thực nghiệm cho thấy C-KPCA cho
kết quả ổn định và tốt hơn so với các phương pháp khác trong một số trường hợp.
Hướng nghiên cứu tiếp theo
Các kết quả nghiên cứu về lựa chọn đặc trưng mới tập trung xây dựng hàm
đánh giá chủ yếu dựa trên độ chính xác của các bộ phân lớp. Trong một số nghiên
cứu gần đây cho thấy việc sử độ đo AUC là tốt hơn so với độ chính xác khi phân tích
trên bộ dữ liệu đa lớp hoặc không cân bằng, mặc dù trong hàm đánh giá chúng tôi
cũng đã sử dụng độ đo này tuy nhiên mức độ ảnh hưởng của nó chưa được đánh giá
một cách độc lập. Do đó, trong các nghiên cứu tiếp theo, chúng tôi dự kiến sẽ tiến
hành khảo sát kỹ sự ảnh hưởng của độ đo AUC nhằm tăng hiệu năng của hàm đánh
giá.
119 trang |
Chia sẻ: yenxoi77 | Lượt xem: 517 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ờng hợp này bao gồm hai bước:
74
- Bước 1: Sử dụng một ánh xạ phi tuyến (trường hợp đặc biệt là hàm tuyến tính
kiểu hàm phạt) chuyển biểu diễn dữ liệu thuộc D từ không gian 𝑅𝑛 sang không
gian 𝑅𝑚 mà theo biểu diễn đó tập dữ liệu D là khả tách tuyến tính.
- Bước 2: Thực hiện thuật toán phân lớp SVM trên tập dữ liệu D theo biểu diễn
dữ liệu mới trong không gian 𝑅𝑚. Khi đó, một thuật toán rút gọn đặc trưng phù
hợp (chẳng hạn PCA) cũng sẽ được áp dụng..
Hình 3.3 [21] mô tả việc chuyển dạng dữ liệu đối với tập dữ liệu D để nó không
khả tách tuyến tính khi biểu diễn trong không gian 𝑅𝑛 thành khả tách tuyến tính khi
biểu diễn trong không gian 𝑅𝑚.
Hình 3.3 Chuyển dữ liệu sang không gian có chiều lớn hơn[21]
Khi áp dụng mô hình phân lớp SVM, dữ liệu đầu vào được chuyển dạng theo
ánh xạ đã chọn và giải pháp rút gọn đặc trưng (chẳng hạn PCA) được tiến hành trên
dữ liệu sau khi chuyển dạng.
Theo phương pháp hàm nhân, hàm chuyển dạng biểu diễn dữ liệu được tiến
hành dựa trên các hàm nhân như được giới thiệu sơ bộ sau đây.
3.3.2.2 Một số hàm nhân phổ biến
Các hàm nhân thường được dùng là hàm nhân tuyến tính, hàm nhân đa thức,
hàm nhân RBF và Sigmoid
75
Hàm nhân tuyến tính [40] được mô tả như sau:
𝑘(𝑥𝑖 , 𝑥𝑗) = (𝑥𝑖
𝑇𝑥𝑗) + 𝑐 (3.1)
Nhân tuyến tính chỉ có một tham số là c. Hàm nhân này thực hiện tương đối
tốt và nhanh trên bộ dữ liệu có thể phân tách tuyến tính, tuy nhiên hầu hết dữ liệu
trong các bài toán thực tế là khó phân tách tuyến tính.
Hàm nhân đa thức [40] được mô tả như sau:
𝑘(𝑥𝑖 , 𝑥𝑗) = (𝛾𝑥𝑖
𝑇𝑥𝑗 + 𝑟)
𝑑
, 𝛾 > 0 (3.2)
Trong số các hàm nhân thì hàm nhân đa thức có số lượng tham số nhiều hơn
cả. Ngoài tham số C và γ còn có hai tham số quan trọng khác là bậc d và r. Tham số
d cần phải được lựa chọn cẩn thận vì nếu d quá lớn thì giá trị của kernel sẽ là vô hạn
hoặc bằng 0.
Hàm nhân RBF [40] còn gọi là Gaussian hay RBF có dạng:
𝑘(𝑥𝑖 , 𝑥𝑗) = 𝑒𝑥𝑝 (−
1
2𝛼2
‖𝑥𝑖 − 𝑥𝑗‖) (3.3)
Hoặc có thể thay bằng dạng:
𝑘(𝑥𝑖 , 𝑥𝑗) = exp (−𝛾‖𝑥𝑖 − 𝑥𝑗‖
2
) (3.4)
RBF được sử dụng phổ biến bởi nó có khả năng phân lớp dữ liệu phi tuyến.
Số lượng tham số ít hơn so với các hàm nhân khác, tham số 𝛾 ảnh hưởng nhiều tới
hiệu năng của nhân.
Hàm nhân Sigmoid [40] được mô tả như sau:
𝑘(𝑥𝑖 , 𝑥𝑗) = 𝑡𝑎𝑛ℎ(𝛾𝑥𝑖
𝑇𝑥𝑗 + 𝑐), 𝛾 > 0 (3.5)
Hai tham số cần lựa chọn của hàm nhân này là γ và c.
3.3.2.3 Kernel PCA[80]
Phân tích thành phần chính dựa trên hàm nhân (KPCA) là một cách tiếp cận
hiệu quả nhờ việc xây dựng một không gian đặc trưng mới có số chiều cao hơn bằng
cách sử dụng hàm phi tuyến 𝜇(𝑥𝑡), 𝑧 = 𝜇(𝑥𝑡) và phân tích thành phần chính (PCA)
thực hiện tương tự như áp dụng PCA phi tuyến trong không gian ban đầu.
76
Cho trước một tập các dữ liệu 𝑥𝑖 ∈ 𝑅
𝑝, 𝑖 = 1, , 𝑛, không gian dữ liệu phi
tuyến ban đầu được ánh xạ sang không gian đặc trưng mới F bởi ánh xạ ∅: 𝑅𝑝 → 𝐹
Khi thực hiện ánh xạ, giả sử xảy ra vấn đề dữ liệu bị tập trung trong không gian mới
là ∑ ∅(𝑥𝑖)
𝑛
𝑖−1 = 0. Trong F ma trận hiệp phương sai có dạng:
𝐶 =
1
𝑛
∅(𝑥𝑗)∅
𝑇(𝑥𝑗)
𝑛
𝑗−1
(3.6)
Cần tìm kiếm một giá trị riêng 𝜆 ≥ 0 và véc tơ riêng khác không 𝑣 ∈ 𝐹\{0}
thỏa mãn 𝐶𝑣 = 𝜆𝑣 trong khoảng {∅(𝑥𝑗)}𝑖−1
𝑛
.
Thứ nhất, xét tập các phương trình:
〈∅(𝑥𝑗), 𝐂v〉 = λ〈∅(𝑥𝑗), v〉 (3.7)
Với tất cả j=1,,n, trong đó 〈. , . 〉 là tích vô hướng được xác định trong F.
Thứ hai, tồn tại hệ số αi, i=1,,n, sao cho:
𝑣 = 𝛼𝑖∅(𝑥𝑖)
𝑛
𝑖−1
(3.8)
Kết hợp công thức (3.7) và (3.8), từ đó có được hai kết quả của bài toán giá trị
riêng cho các giá trị riêng khác không:
Kα=n λ α (3.9)
Trong đó 𝑲 = (𝐾(𝑥𝑖 , 𝑥𝑗)) 𝑖, 𝑗 = 1, . . , 𝑛 là tập ma trận hàm nhân; 𝑲 là một
hàm nhân mà tích vô hướng trong F thoả mãn 〈∅(𝑥𝑖), ∅(𝑥𝑗)〉 = 𝐾(𝑥𝑖 , 𝑥𝑗) với 𝜆1 ≥
𝜆12 ≥. . ≥ 𝜆𝑛là giá trị riêng của 𝑲 và α
1, , α𝑛 là tập các véc tơ riêng được chuẩn hóa
tương ứng, với 𝜆𝑟 là giá trị riêng cuối cùng khác 0. Để trích xuất thành phần chính,
cần tính toán phép chiếu lên véc tơ riêng v𝑗 trong F, j=1,,r. Nếu x là điểm kiểm
tra, với một ảnh ∅(x) trong F tương ứng thì:
〈v𝑗 , ∅(𝑥)〉 = ∝𝑖
𝑗
𝑛
𝑖−1
𝐾(𝑥𝑖 , 𝑥) (3.10)
Trong đó thành phần chính phi tuyến thứ j tương ứng với ∅
77
3.3.3 Xây dựng hàm nhân tùy chọn
Một số ký hiệu và định nghĩa:
Ma trận nửa xác định dương[39]: (positive semi-definite matrix): Một ma trận
𝐾𝑀×𝑀 được gọi là nửa xác định dương nếu bất cứ dạng toàn phương 𝒓
𝑇𝐾𝒓 nào trên
K đều không âm, nghĩa là với mọi 𝑟𝑖 ∈ ℝ, 𝑖 = 1, . . , 𝑀 ta có
𝑟𝑖𝑟𝑗𝐾𝑖𝑗
𝑀
𝑖,𝑗=1 𝑐
≥ 0 (3.11)
Hàm nửa xác định dương[39]: Một hàm kernel 𝐾: X ×→ ℝ được gọi là nửa xác định
dương nếu nó thoả mãn
- Đối xứng
- Với mọi tập {𝑥1, . . , 𝑥𝑀 ∈ X}, ma trận K được tạo thành với 𝐾𝑖𝑗 = 𝑘(𝑥𝑖 , 𝑥𝑗) là
nửa xác định dương.
Định lý Mercer [39]: Một hàm 𝐾(𝑥, 𝑦) là một hàm nhân hợp lệ nếu nó thỏa mãn hai
điều kiện sau:
- Đối xứng: 𝐾(𝑥, 𝑦) = 𝐾(𝑦, 𝑥)
- Nửa xác định dương: 𝐾(𝑥, 𝑥) ≥ 0
Nello Cristianini và John Shawe-Taylor [21] chỉ ra một số cách để xây dựng một hàm
nhân mới. Cách xây dựng hàm nhân mới được trình bày trong bổ đề dưới đây.
Bổ đề 3.1 Giả sử K1 và K2 là các hàm nhân trên 𝑋 ∗ 𝑋, 𝑋 ⊆ 𝑅𝑛, 𝑎 ∈ 𝑅+, 𝑓(∙) là một
hàm tính toán giá trị thực trên X
𝜙: 𝑋 → ℝ𝑚
Với K3 là một hàm nhân trên ℝ
𝑚 ×ℝ𝑚 và B là một ma trận nửa xác định dương
(positive semi-definite) n*n . Khi đó hàm trên X là các hàm nhân:
1 2
1
1 2
3
1. ( , ) ( , ) ( , )
2. ( , ) * ( , )
3. ( , ) ( , ) * ( , )
4. ( , ) ( )* ( )
5. ( , ) ( ( ), ( ))
6. ( , ) '
K x z K x z K x z
K x z a K x z
K x z K x z K x z
K x z f x f z
K x z K x z
K x z x Bz
78
Trong luận án này chúng tôi sử dụng bổ đề 3.1 để xây dựng hàm nhân mới.
Bổ đề này đã được chứng minh trong tài liệu [21]. Cách xây dựng hàm nhân phức tạp
hơn dựa trên các hàm nhân khác được dựa trên nguyên lý của bổ đề này. Cụ thể, một
hàm nhân mới được tạo ra bằng cách kết hợp các hàm nhân khác sử dụng các toán tử
như sau:
𝐾𝑐 = 𝛼1(𝐾1) ∘ 𝛼2(𝐾2) ∘ ⋯∘ 𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.12)
Trong đó:
{𝐾𝑖 | i =1, , m} là tập các hàm nhân dùng để kết hợp.
𝛼𝑖 : là các hệ số của mỗi hàm nhân.
và ◦ biểu diễn một toán tử giữa hai hàm nhân (cộng và nhân).
Chứng minh 𝑲𝒄 là một hàm nhân hợp lệ
Theo mệnh đề Mercer 𝐾𝑐 là một hàm nhân hợp lệ nếu thỏa mãn:
- 𝐾𝑐 đối xứng
- 𝐾𝑐 nửa xác định dương
Thật vậy:
Trường hợp 1: ◦ biểu diễn toán tử cộng (+) giữa hai hàm nhân
Khi đó hàm nhân 𝐾𝑐 có dạng:
𝐾𝑐 = 𝛼1(𝐾1) + 𝛼2(𝐾2) + ⋯+𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.13)
Chứng minh:
a. 𝑲𝒄 là đối xứng
Với mọi hàm nhân 𝐾𝒊(𝑥, 𝑦) hợp lệ có
𝐾𝒊(𝑥, 𝑦) = 𝐾𝒊(𝑦, 𝑥), 𝑖 = 1𝑚 (3.14)
Có
𝐾𝒄(𝑥, 𝑦) = 𝛼𝑖𝐾𝒊(𝑥, 𝑦)
𝒎
𝒊=𝟏
(3.15)
Do (3.14) ta có
79
𝐾𝒄(𝑥, 𝑦) = 𝛼𝑖𝐾𝒊(𝑦, 𝑥)
𝒎
𝒊=𝟏
(3.16)
𝛼𝑖𝐾𝒊(𝑦, 𝑥) = 𝐾𝒄(𝑦, 𝑥)
𝒎
𝒊=𝟏
(3.17)
𝐾𝒄(𝑥, 𝑦) = 𝐾𝒄(𝑦, 𝑥) (3.18)
Nên 𝑲𝒄 là đối xứng.
b. 𝑲𝒄 ≥ 𝟎
Với mọi x, x’: 𝐾𝑖(𝑥, 𝑥′) ≥ 0 ∀ 𝑖 = 1. . 𝑚
Do giả thiết 𝛼𝑖 ≥ 0, ∀𝑖 nên
𝛼𝑖(𝐾𝑖) ≥ 0, 𝑖 = 1𝑚 (3.19)
Từ (3.18) và (3.19) và ta có
𝐾𝑐 = 𝛼1(𝐾1) + 𝛼2(𝐾2) + ⋯+𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.20)
thỏa mãn tính chất đối xứng và bán định dương nên 𝐾𝑐 là một hàm nhân hợp
lệ.
Trường hợp 2: ◦ biểu diễn toán tử nhân (*) giữa hai hàm nhân
Khi đó hàm nhân 𝐾𝑐 có dạng:
𝐾𝑐 = 𝛼1(𝐾1) ∗ 𝛼2(𝐾2) ∗ ⋯ ∗ 𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.21)
𝐾𝑐 là một hàm nhân hợp lệ
Chứng minh:
a. 𝑲𝒄 là đối xứng
Với mọi hàm nhân 𝐾𝒊(𝑥, 𝑦) hợp lệ có
𝐾𝒊(𝑥, 𝑦) = 𝐾𝒊(𝑦, 𝑥), 𝑖 = 1𝑚 (3.22)
Có
80
𝐾𝒄(𝑥, 𝑦) =∏𝛼𝑖𝐾𝒊(𝑥, 𝑦)
𝒎
𝒊=𝟏
(3.23)
Do (3.13) ta có
𝐾𝒄(𝑥, 𝑦) =∏𝛼𝑖𝐾𝒊(𝑦, 𝑥)
𝒎
𝒊=𝟏
(3.24)
∏𝛼𝑖𝐾𝒊(𝑦, 𝑥)
𝒎
𝒊=𝟏
= 𝐾𝒄(𝑦, 𝑥)
(3.25)
𝐾𝒄(𝑥, 𝑦) = 𝐾𝒄(𝑦, 𝑥) (3.26)
Nên 𝑲𝒄 là đối xứng.
b. 𝑲𝒄 ≥ 𝟎
Với mọi x, x’: 𝐾𝑖(𝑥, 𝑥′) ≥ 0 ∀ 𝑖 = 1. . 𝑚
Do giả thiết 𝛼𝑖 ≥ 0, ∀𝑖 nên
𝛼𝑖(𝐾𝑖) ≥ 0, 𝑖 = 1𝑚 (3.27)
Từ (3.26) và (3.27) và ta có
𝐾𝑐 = 𝛼1(𝐾1) ∗ 𝛼2(𝐾2) ∗ ⋯ ∗ 𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.28)
thỏa mãn tính chất đối xứng và bán định dương nên 𝐾𝑐 là một hàm nhân hợp
lệ.
Trường hợp 3: ◦ biểu diễn toán tử cộng (+) hoặc toán tử nhân (*) giữa hai
hàm nhân.
Khi đó hàm nhân 𝐾𝑐 có dạng:
𝐾𝑐 = 𝛼1(𝐾1) + 𝛼2(𝐾2) ∗ ⋯+𝛼𝑚(𝐾𝑚), 𝛼𝑖 ≥ 0 (3.29)
𝐾𝑐 cũng là một hàm nhân hợp lệ.
Chứng minh:
81
Giả sử K1, K2 là các hàm nhân hợp lệ được kết hợp bằng toán tử cộng (+) hoặc
nhân (*)
Trường hợp 3.1: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 toán tử nhân (*) và các toán
tử còn lại là toán tử cộng (+)
Ta xây dựng các hàm nhân mới có dạng:
𝐾∗ = 𝛼1𝐾1 ∗ 𝛼2𝐾2
Khi đó 𝐾𝑐 có dạng
𝐾𝑐 = 𝛼1(𝐾1) + 𝛼∗(𝐾∗) + ⋯+𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.30)
Chứng minh tương tự trường hợp 1: ta có 𝐾𝑐là một hàm nhân hợp lệ.
Trường hợp 3.2: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 toán tử cộng (+) và các toán
tử còn lại là toán tử cộng (*)
Ta xây dựng các hàm nhân mới có dạng:
𝐾+ = 𝛼1𝐾1 + 𝛼2𝐾2
Khi đó 𝐾𝑐 có dạng
𝐾𝑐 = 𝛼1(𝐾1) ∗ 𝛼+(𝐾+) ∗ ⋯∗ 𝛼𝑚(𝐾𝑚) ≥ 0, 𝑖 = 1𝑚 (3.31)
Chứng minh tương tự trường hợp 2: ta có 𝐾𝑐 là một hàm nhân hợp lệ.
Trường hợp 3.3: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 toán tử chia (/) và các toán tử
còn lại là toán tử cộng (+) hoặc toán tử (*)
Ta cần chứng minh: 1 𝐾(𝑥, 𝑦)⁄ là đối xứng với mọi hàm nhân K
Thật vậy:
𝐾(𝑥, 𝑦) =
1
𝐾′(𝑥, 𝑦)
=
1
𝐾′(𝑦, 𝑥)
= 𝐾(𝑦, 𝑥) (3.32)
Mặt khác 𝐾𝑖 ≥ 0 ∀ 𝑖 = 1. .𝑚
Chứng minh tương tự trường hợp 1 và 2: ta có 𝐾𝑐 là một hàm nhân hợp lệ.
Độ phức tạp tính toán của kỹ thuật trích xuất đặc trưng đề xuất là độ phức tạp
tính toán của phương pháp KPCA và độ phức tạp khi kết hợp các hàm nhân. Theo
nghiên cứu [31], trong pha kiểm tra để đánh giá hàm nhân mất thời gian tính toán là
𝛰(𝑛𝑑). Do đó, độ phức tạp tính toán về thời gian là của kỹ thuật đề xuất 𝛰(𝑛2 + 𝑛𝑑)
82
3.4 Thực nghiệm và kết quả
3.4.1 Thiết lập thực nghiệm
Phương pháp đề xuất của chúng tôi được thực hiện trên ngôn ngữ
R( và thực nghiệm trên hiện trên máy tính laptop (bộ vi xử
lý core i7 2.7GHz và 8G Ram) với một số bộ dữ liệu ung thư bao gồm: ung thư ruột
kết (colon tumor), ung thư bạch cầu (leukemia), máu trắng (lymphoma) và ung thư
tuyến tiền liệt (prostate). Chúng tôi sử dụng kết quả phân lớp bằng phương pháp
KPCA làm cơ sở để so sánh với kết quả của phương pháp đề xuất trên cùng một bộ
dữ liệu ung thư. Chúng tôi sử dụng ba loại hàm nhân như trong Bảng 3.2 để thực hiện
kết hợp bằng các toán tử cộng và nhân.
Bảng 3.2 Các hàm nhân được sử dụng
Hàm nhân Công thức Ký hiệu
Radial(RBF) exp (−𝛾‖𝑥𝑖 − 𝑥𝑗‖
2
) K1
Polynomial (𝛾𝑥𝑖
𝑇𝑥𝑗 + 𝑟)
𝑑
, 𝛾 > 0 K2
Sigmoid 𝑡𝑎𝑛ℎ(𝛾𝑥𝑖
𝑇𝑥𝑗 + 𝑐), 𝛾 > 0 K3
Bộ phân lớp: trong quá trình thực nghiệm chúng tôi thực hiện phân lớp dữ liệu
ung thư sử dụng hai bộ phân lớp là Random forest và SVM với kiểm chứng chéo 10
lần. Các tham số của bộ phân lớp SVM được thiết lập với C=1 và các tham số khác
có giá trị mặc định. Còn các tham số của bộ phân lớp Random forest được thiết lập
với số cây ntree=100, các tham số khác để mặc định. Các độ đo được sử dụng để
đánh giá hiệu năng là AUC, độ chính xác, độ phủ như đã trình bày ở chương 1.
3.4.2 Dữ liệu thực nghiệm
Hiện nay có một số bộ dữ liệu được công bố trong các nghiên cứu về phân tích
dữ liệu ung thư. Trong số các bộ dữ liệu đó, chúng tôi đã lựa chọn ra bốn bộ dữ liệu
ung thư để sử dụng thực nghiệm là: bộ dữ liệu ung thư ruột kết (Colon Tumor), bộ
83
dữ liệu bạch cầu (Leukemia), bộ dữ liệu máu trắng (Lymphoma) và bộ dữ liệu ung
thư tuyến tiền liệt (Prostate) như trong Bảng 3.3
Bảng 3.3 Tổng hợp các bộ dữ liệu ung thư được sử dụng trong thực nghiệm
Tên bộ dữ
liệu
Số
thuộc
tính
Số
mẫu
Số lớp Bài toán cần giải quyết
Colon 2000 62 2 Phát hiện ung thư ruột kết
Leukemia 7129 72 2 Phát hiện bệnh bạch cầu cấp tính
Lymphoma 2647 77 2 Phát hiện máu trắng
Prostate 2135 102 2 Phát hiện khối u tiền liệt tuyến
Bộ dữ liệu ung thư ruột kết (Colon Tumor) được tạo thành từ 2000 đặc trưng
trong đó có 40 mẫu bị bệnh và 22 mẫu bình thường. Bộ dữ liệu này có sẵn trên trang
web: Chúng tôi thực hiện việc tiền xử lý
dữ liệu ung thư và tạo ra một bộ dữ liệu được chuẩn hóa.
Bộ dữ liệu bạch cầu (Leukemia) được tạo thành bởi 7129 đặc trưng, trong đó
các mẫu thuộc hai lớp bạch cầu: 47 trường hợp thuộc loại (ALL), 25 trường hợp thuộc
loại (AML). Dữ liệu có thể được tải về từ trang web
Dữ liệu được tiền xử lý trước khi phân tích.
Bộ dữ liệu máu trắng (Lymphoma) có được từ việc nghiên cứu biểu hiện gen
của ba khối máu trắng: B-cell (B-CLL), nang lymphoma (FL) và u khuếch tán lớn B-
cell lymphoma (DLCL). Trong số 96 mẫu, chúng tôi chọn ra 77 mẫu chứa 2647 đặc
trưng thuộc hai lớp: 19 mẫu FL và 58 mẫu thuộc loại DLCL. Bộ dữ liệu này có thể
lấy về tại Sau khi tiền xử lý dữ liệu, bộ
dữ liệu được biến đổi và chuẩn hóa cho quá trình phân tích.
Bộ dữ liệu ung thư tuyến tiền liệt (Prostate) có 2135 đặc trưng với 102 mẫu.
Trong số đó có 52 mẫu bệnh chiếm tỉ lệ 51%. Các trường hợp bình thường là 49%
với 50 mẫu. Dữ liệu có thể được tải về từ trang
genome.wi.mit.edu/mpr/prostate.
84
3.4.3 Kết quả thực nghiệm
Trong quá trình thực nghiệm chúng tôi kết hợp và lựa chọn hàm nhân tốt nhất
cho KPCA sau đó tiến hành phân lớp dữ liệu được trích xuất, việc so sánh hiệu năng
phân lớp được chia làm ba mục:
(1)Sử dụng tất cả các đặc trưng
(2) Sử dụng các đặc trưng được trích xuất bởi KPCA (hàm nhân RBF)
(3) Sử dụng các đặc trưng được trích xuất bởi C-KPCA (hàm nhân kết hợp).
Kết quả thực nghiệm trên từng bộ dữ liệu ung thư như sau:
3.4.3.1 Bộ dữ liệu ung thư ruột kết
Trong quá trình thực nghiệm để trích xuất ra các đặc trưng bằng KPCA, chúng
tôi lựa chọn và kết hợp ba hàm nhân như mô tả trong Bảng 3.2. Kết quả độ chính xác
phân lớp trong quá trình huấn luyện và đánh giá để chọn ra hàm nhân tốt nhất được
thể hiện trong Bảng 3.4.
Bảng 3.4 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư ruột kết
Số đặc trưng
Hàm nhân
K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3
3 89,27 74,81 81,53 87,58
5 88,87 84,74 87,66 88,31
10 92,34 84,72 90,48 91,94
15 93,55 87,15 91,94 92,18
20 94,52 86,83 92,82 91,94
50 88,06 86,50 90,08 86,85
100 86,53 86,39 89,03 81,61
200 85,24 89,49 82,34 85,10
500 83,50 88,71 82,26 82,42
Kết quả cho thấy việc kết hợp các hàm nhân sử dụng toán tử + cho kết quả cao
hơn so với các cách kết hợp khác trong nhiều trường hợp. So sánh hàm nhân tùy chọn
với các hàm nhân cơ bản có kết quả như trong Bảng 3.5:
85
Bảng 3.5 So sánh hàm nhân mới với hàm nhân cơ sở trên dữ liệu ung thư ruột kết
Số đặc trưng
Hàm nhân
K1(Rbf) K2 (Poly) K3(Sigmoid) Combined
3 87,10 88,15 90,81 89,27
5 87,42 88,87 88,87 88,87
10 91,94 92,10 92,10 92,34
15 91,94 93,55 93,23 93,55
20 92,26 93,63 93,32 94,52
50 86,85 92,26 86,85 88,06
100 83,23 81,69 85,48 86,53
200 84,03 85,48 82,74 85,24
500 81,21 82,90 84,19 83,50
Với số lượng đặc trưng được trích xuất bằng phương pháp C-KPCA (sử dụng
hàm nhân tùy chọn K1+K2+K3) là 3 thì độ chính xác cao hơn phương pháp KPCA
sử dụng hàm nhân Rbf và hàm nhân đa thức. Với số lượng đặc trưng được trích xuất
là 5, 10, 15, 20 thì phương pháp C-KPCA luôn cho độ chính xác cao hơn so với việc
sử dụng từng hàm nhân. Kết quả thực nghiệm so sánh độ chính xác phân lớp sử dụng
các đặc trưng được trích xuất bởi C-KPCA với số đặc trưng 3, 5, 10, 15, 20, 50, 100,
200 được thể hiện dưới Hình 3.4
Hình 3.4 Độ chính xác phân lớp với bộ dữ liệu ung thư ruột kết
86
Kết quả Hình 3.4 cho thấy trong quá trình huấn luyện (train) và đánh giá
(validate) với số đặc trưng trong khoảng từ 10-20 đặc trưng thì phương pháp C-KPCA
sử dụng hàm nhân tùy chọn cho độ chính xác cao hơn so với việc sử dụng các hàm
nhân cơ bản. Độ chính xác phân lớp khi kiểm tra (test) bằng bộ phân lớp rừng ngẫu
nhiên và máy vector hỗ trợ sử dụng tất cả các đặc trưng được so sánh với việc sử
dụng 20 đặc trưng trích xuất bởi KPCA và C-KPCA thể hiện trong Bảng 3.6
Bảng 3.6 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư ruột kết
Độ đo Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA)
RF SVM RF SVM RF SVM
AUC 84,5 83,6 85,5 82,6 86,6 88,2
Accuracy 82,3 85,5 82,3 85,5 79,0 88,7
Precision 82,0 85,4 82,0 85,4 79,2 88,9
Recall 82,3 85,5 82,3 85,5 79,0 88,7
Độ chính xác phân lớp sử dụng 20 đặc trưng được trích xuất bằng phương
pháp C-KPCA cho kết quả cao hơn và ổn định hơn so với việc phân lớp sử dụng toàn
bộ các đặc trưng. Ngoài ra phương pháp đề xuất cũng cho kết quả phân lớp SVM cao
hơn phương pháp KPCA sử dụng hàm nhân cơ sở.
3.4.3.2 Bộ dữ liệu bạch cầu
Chúng tôi lựa chọn, kết hợp ba hàm nhân và áp dụng trên bộ dữ liệu ung thư
bạch cầu. Kết quả độ chính xác phân lớp trong quá trình huấn luyện và đánh giá để
chọn ra hàm nhân tốt nhất được thể hiện trong Bảng 3.6.
Bảng 3.7 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư bạch cầu
Số đặc trưng
Hàm nhân
K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3
3 78,13 84,91 73,82 75,21
5 81,81 84,46 75,56 81,88
10 92,71 78,67 81,94 89,44
15 90,28 80,62 87,50 90,00
20 90,76 82,90 89,10 90,14
50 91,94 83,00 90,28 88,33
100 93,82 83,28 86,04 84,38
200 92,85 84,47 82,50 83,96
500 92,78 86,08 82,71 87,08
87
Kết quả cũng cho thấy việc kết hợp các hàm nhân sử dụng toán tử + cho kết
quả cao hơn so với các cách kết hợp khác trong nhiều trường hợp. So sánh hàm nhân
tùy chọn với các hàm nhân cơ bản có kết quả như trong Bảng 3.8 và Hình 3.5
Bảng 3.8 So sánh với hàm nhân cơ sở trên bộ dữ liệu ung thư bạch cầu
Số đặc trưng
Hàm nhân
K1(Rbf) K2(Poly) K3(Sigmoid) Combined
3 78,96 85,56 81,81 78,13
5 76,39 89,86 88,61 81,81
10 82,92 90,21 88,89 92,71
15 83,06 89,10 90,14 90,28
20 84,58 90,21 88,33 90,76
50 83,47 88,19 86,25 91,94
100 86,94 80,23 86,67 93,82
200 81,53 81,04 89,72 92,85
500 82,36 82,99 90,56 92,78
Hình 3.5 Độ chính xác phân lớp với bộ dữ liệu ung thư bạch cầu
88
Kết quả cho thấy, với số đặc trưng là 3 và 5 được trích xuất từ phương pháp
KPCA gốc cho độ chính xác cao hơn các đặc trưng trích xuất bởi phương pháp C-
KPCA trong một số trường hợp. Với số đặc trưng từ 10 trở lên thì phương pháp C-
KPCA của chúng tôi cho kết quả cao hơn hẳn. Tiến hành kiểm tra (test) hiệu năng
phân lớp sử dụng tất cả các đặc trưng so với việc sử dụng 20 đặc trưng trích xuất bởi
KPCA và C-KPCA được thể hiện trong Bảng 3.9
Bảng 3.9 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư bạch cầu
Độ đo
Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA)
RF SVM RF SVM RF SVM
AUC 81,8 77,77 74,6 75,9 76,8 67,5
Accuracy 77,8 81,94 72,2 81,9 76,4 72,2
Precision 80,8 81,8 71,1 82,8 75,9 71,4
Recall 77,8 81,94 72,2 81,9 76,4 72,2
Bảng cho thấy phương pháp đề xuất C-KPCA trích xuất ra 20 đặc trưng cho
kết quả không cao hơn so với việc sử dụng toàn bộ các đặc trưng. Lý do là bộ dữ liệu
này có hơn 7000 đặc trưng, việc trích xuất 20 đặc trưng chưa đủ thông tin để phân
lớp cho độ chính xác cao. Ngoài ra phương pháp đề xuất cũng cho kết quả phân lớp
Random forest cao hơn phương pháp KPCA sử dụng hàm nhân mặc định.
3.4.3.3 Bộ dữ liệu máu trắng
Chúng tôi tiếp tục tiến hành việc lựa chọn, kết hợp ba hàm nhân và áp dụng
trên bộ dữ liệu lymphoma. Kết quả độ chính xác phân lớp trong quá trình huấn luyện
và đánh giá để chọn ra hàm nhân tốt nhất được thể hiện trong bảng.
Bảng 3.10 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư máu trắng
Số đặc trưng
Hàm nhân
K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3
3 87,27 77,50 89,48 89,68
5 98,70 76,00 98,57 98,44
10 98,64 82,84 97,40 97,40
15 98,57 87,90 97,40 97,79
20 100,00 90,62 100,00 100,00
50 99,81 93,27 97,21 97,34
100 81,56 93,76 86,36 80,06
200 88,12 96,91 88,25 84,22
500 87,40 87,31 84,48 83,31
89
Tương tự như hai bộ dữ liệu trước, kết quả cho thấy việc kết hợp các hàm nhân
sử dụng toán tử + cho kết quả cao hơn so với các cách kết hợp khác trong nhiều
trường hợp. So sánh hàm nhân tùy chọn với các hàm nhân cơ bản có kết quả như sau:
Bảng 3.11 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu máu trắng
Số đặc trưng
Hàm nhân
K1(Rbf) K2(Poly) K3(Sigmoid) Combined
3 87,79 86,75 87,27 87,27
5 98,70 98,70 98,70 98,70
10 98,25 97,92 98,70 98,64
15 99,94 99,42 100,00 98,57
20 100,00 100,00 100,00 100,00
50 96,88 96,30 98,70 99,81
100 77,01 76,75 82,73 81,56
200 85,06 85,58 89,87 88,12
500 83,90 83,25 94,68 87,40
Hình 3.6 Độ chính xác phân lớp với bộ dữ liệu lymphoma
90
Kết quả trong Hình 3.6 cho thấy trong quá trình huấn luyện (train) và đánh giá
(validation) với số đặc trưng trong khoảng từ 10-50 đặc trưng thì phương pháp C-
KPCA sử dụng hàm nhân tùy chọn cho độ chính xác cao hơn so với việc sử dụng các
hàm nhân cơ bản.
Độ chính xác phân lớp khi kiểm tra (test) bằng bộ phân lớp rừng ngẫu nhiên
(RF) và máy vector hỗ trợ (SVM) sử dụng tất cả các đặc trưng được so sánh với việc
sử dụng 20 đặc trưng trích xuất bởi KPCA và C-KPCA thể hiện trong Bảng 3.12
Bảng 3.12 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu lymphoma
Độ đo Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA)
RF SVM RF SVM RF SVM
AUC 97,2 88 98,5 96,5 99,6 96,5
Accuracy 88,3 93,5 93,5 97,4 93,5 97,4
Precision 89,9 93,5 93,5 97,4 94 97,4
Recall 88,3 93,5 93,5 97,4 93,5 97,4
3.4.3.4 Bộ dữ liệu ung thư tuyến tiền liệt
Cuối cùng, chúng tôi tiến hành lựa chọn, kết hợp ba hàm nhân và áp dụng trên
bộ dữ liệu ung thư tuyến tiền liệt. Kết quả độ chính xác phân lớp trong quá trình huấn
luyện và đánh giá để chọn ra hàm nhân tốt nhất được thể hiện trong bảng.
Bảng 3.13 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư tuyến tiền liệt
Số đặc trưng
Hàm nhân
K1+K2+K3 1/(K1+K2+K3) K1*K2*K3 K1+K2*K3
3 82,89 84,25 68,73 65,88
5 88,28 84,30 86,03 89,17
10 95,00 84,81 94,12 94,41
15 94,31 84,81 94,12 94,12
20 97,11 87,34 94,41 96,08
50 99,10 87,34 95,88 99,80
100 100,00 86,52 96,13 99,02
200 100,00 88,58 100,00 95,44
500 98,48 86,90 100,00 98,48
91
Tương tự như các bộ dữ liệu trước, kết quả cho thấy việc kết hợp các hàm nhân
sử dụng toán tử + cho kết quả cao hơn so với các cách kết hợp khác trong nhiều
trường hợp. So sánh hàm nhân tùy chọn với các hàm nhân cơ bản có kết quả như sau:
Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thư
tiền liệt tuyến
Số đặc trưng
Hàm nhân
K1(Rbf) K2(Poly) K3(Sigmoid) Combined
3 0.8755 0.8745 0.8745 0.8289
5 0.9123 0.9299 0.9275 0.8828
10 0.9412 0.9515 0.9510 0.9520
15 0.9451 0.9623 0.9637 0.9641
20 0.9426 0.9804 0.9745 0.9711
50 0.9755 0.9902 0.9902 0.9910
100 0.9593 1.0000 1.0000 1.0000
200 1.0000 0.9377 0.9686 1.0000
500 1.0000 0.9078 0.9245 0.9848
Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thư tuyến tiền liệt
92
Với bộ ung thư tuyến tiền liệt, việc sử dụng các đặc trưng trích xuất bởi C-
KPCA cho độ chính xác phân lớp ngang bằng hoặc cao hơn trong một số trường hợp
so với việc sử dụng các hàm nhân cơ bản.
Bảng 3.15 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư tuyến tiền liệt
Độ đo Tất cả đặc trưng 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA)
RF SVM RF SVM RF SVM
AUC 92,8 90,2 93,8 91,2 91 91,3
Accuracy 90,2 90,2 83,3 91,2 86,3 91,2
Precision 90,3 90,3 83,5 91,3 86,3 91,2
Recall 90,2 90,2 83,3 91,2 86,3 91,2
Tiến hành so sánh hiệu năng phân lớp với bốn bộ dữ liệu ung thư cho kết quả
như Hình 3.8
93
Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thư
94
Trong các thực nghiệm thực hiện trên bốn bộ dữ liệu ung thư nói trên, phương
pháp C-KPCA với hàm nhân được đề xuất thường xuyên cho độ chính xác dự đoán
cao hơn so với phương pháp KPCA truyền thống sử dụng hàm nhân cơ sở. Có thể
thấy phương pháp C-KPCA cho kết quả ổn định hơn.
Bảng 3.16 So sánh phương pháp đề xuất(C-KPCA) với các phương pháp lựa chọn đặc
trưng khác
Colon Tumor Leukemia Lymphoma Prostate
Phương pháp
Số
đặc
trưng
Độ
chính
xác
Số
đặc
trưng
Độ
chính
xác
Số
đặc
trưng
Độ
chính
xác
Số
đặc
trưng
Độ
chính
xác
PLSDR [52] 20 83,5 20 97,1 20 93,0 20 91,7
GEM [38] 8 91,2 3 91,5 5 93,3 -
IWSS3-MB-NB
[92]
5,2 86 6,4 97,1 - - 5,6 91,1
DRF0-CFS [13] 10 90,0 13 91,18 11 93,33 113 85,29
BDE-SVMRankf [7] 4 75 6 82,4 3 92,9 3 97,1
C-KPCA 15 90,3 20 72,2 5 96,1 15 92,2
Bảng 3.16 thể hiện độ chính xác phân lớp của phương pháp đề xuất và các
phương pháp lựa chọn đặc trưng phổ biến hiện nay. Với bộ dữ liệu ung thư ruột kết,
việc phân lớp sử dụng 15 đặc trưng được trích xuất bằng phương pháp C-KPCA của
chúng tôi cho độ chính xác cao hơn bốn phương pháp khác là: PLSDR [52], IWSS3-
MB-NB [92], DRF0-CFS [13] và BDE-SVMRankf [7]. Trong khi đó, với bộ dữ liệu
bạch cầu thì kết quả không được cao bằng các phương pháp khác do bộ dữ liệu này
không phù hợp với phương pháp trích xuất đặc trưng của chúng tôi.
So sánh trên bộ dữ liệu máu trắng và ung thư tiền liệt tuyến, cho thấy chỉ với
5 và 15 đặc trưng được trích xuất thì độ chính xác của phương pháp đề xuất luôn cao
hơn phương pháp khác.
Chúng tôi cũng so sánh kết quả của phương pháp C-KPCA với kết quả của
các mô hình trích chọn đặc trưng dựa trên học thưa như Lasso, SRC-LatLRR [28],
HLR [42]. Kết quả được thể hiện trong Bảng 3.17 và Bảng 3.18.
95
Bảng 3.17 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Colon và
Prostate
Phương pháp Colon Tumor Prostate
SVM 85,48 91,18
LASSO 85.48 91.91
SRC 85.48 94,85
SRC-LatLRR 90.32 94,12
C-KPCA 90,3 92,2
Kết quả trong Bảng 3.17 cho thấy với bộ dữ liệu Colon tumor, phương pháp
C-KPCA cho độ chính xác tương đương phương pháp SRC-LatLRR và cao hơn ba
phương pháp SVM, LASSO và SRC. Còn với bộ dữ liệu Prostate, phương pháp C-
KPCA cho kết quả cao hơn hai phương pháp SVM và LASSO.
Bảng 3.18 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu
Lymphoma và Prostate
Phương pháp Lymphoma Prostate
LASSO 91,11 92,40
L1/2 91,2 92.18
SCAD-L2 92,99 91,33
HLR 94,23 93,68
C-KPCA 96,1 92,2
Phương pháp C-KPCA cho kết quả cao hơn các phương pháp khác khi so sánh
với bộ dữ liệu Lymphoma. Từ các kết quả trên có thể thấy phương pháp C-KPCA
thực hiện trích xuất đặc trưng và cho kết quả phân tốt với nhiều bộ dữ liệu ung thư.
96
3.5 Kết luận chương
Trong chương này, chúng tôi tập trung vào việc tìm hiểu cách tiếp cận hàm
nhân và đề xuất phương pháp C-KPCA sử dụng hàm nhân mới được kết hợp từ các
hàm nhân cơ bản khác. Hiệu quả và độ tin cậy của hàm nhân mới này được xác định
thông qua thực nghiệm. Cụ thể, phương pháp đề xuất được thực nghiệm trên bốn bộ
dữ liệu ung thư đang được dùng phổ biến hiện nay. So sánh kết quả phân lớp sử dụng
hàm nhân tùy chọn và ba hàm nhân cơ sở khác cho thấy hàm nhân của chúng tôi
thường xuyên cho độ chính xác cao hơn
Kết quả cho thấy độ chính xác phân lớp sử dụng các đặc trưng được trích xuất
bởi C-KPCA được cải thiện so với phương pháp KPCA sử dụng các hàm nhân cơ bản
và một số phương pháp lựa chọn đặc trưng đã được đề xuất trước đây.
97
KẾT LUẬN
Với miền ứng dụng rủi ro tín dụng, số lượng đặc trưng là không quá nhiều
nhưng số lượng bản ghi là tương đối lớn so với số đặc trưng. Nhiệm vụ là phải loại
bỏ các đặc trưng không liên quan, dư thừa và tìm ra các đặc trưng tốt cho quá trình
phân lớp. Chúng tôi đã sử dụng phương pháp lựa chọn đặc trưng FRFE và bộ phân
lớp rừng ngẫu dựa trên cơ chế phân tán và song song để xây dựng mô hình đánh giá
tín dụng. Các kết quả thực nghiệm cho thấy độ chính xác phân lớp sử dụng các đặc
trưng lựa chọn bởi phương pháp đề xuất được cải thiện tương đối khả quan. Tiêu chí
xếp hạng các đặc trưng được đề xuất nhằm giúp cải tiến độ chính xác cũng như làm
giảm thời gian thực hiện của các kỹ thuật phân lớp. Ngoài ra, thời gian chạy đã được
giảm xuống đáng kể do áp dụng các thủ tục xử lý song song.
Với việc phân tích dữ liệu ung thư có số lượng đặc trưng lớn hơn so với số bản
ghi, chúng tôi đã đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA nhằm làm giảm
số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề xuất của
chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ
bản. Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánh kết
quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với một số
phương pháp lựa chọn đặc trưng phổ biến khác. Thực nghiệm cho thấy C-KPCA cho
kết quả ổn định và tốt hơn so với các phương pháp khác trong một số trường hợp.
Hướng nghiên cứu tiếp theo
Các kết quả nghiên cứu về lựa chọn đặc trưng mới tập trung xây dựng hàm
đánh giá chủ yếu dựa trên độ chính xác của các bộ phân lớp. Trong một số nghiên
cứu gần đây cho thấy việc sử độ đo AUC là tốt hơn so với độ chính xác khi phân tích
trên bộ dữ liệu đa lớp hoặc không cân bằng, mặc dù trong hàm đánh giá chúng tôi
cũng đã sử dụng độ đo này tuy nhiên mức độ ảnh hưởng của nó chưa được đánh giá
một cách độc lập. Do đó, trong các nghiên cứu tiếp theo, chúng tôi dự kiến sẽ tiến
hành khảo sát kỹ sự ảnh hưởng của độ đo AUC nhằm tăng hiệu năng của hàm đánh
giá.
98
Các kết quả nghiên cứu về trích xuất đặc trưng mới chỉ dừng lại ở việc kết hợp
thủ công các hàm nhân cơ bản để có được hàm nhân mới cho KPCA trong phân tích
dữ liệu ung thư. Chúng tôi sẽ khảo sát và nghiên cứu tìm hiểu việc ứng dụng kỹ thuật
học máy nhằm tự động xây dựng hàm nhân mới dựa trên việc kết hợp các hàm nhân
cơ bản phù hợp với từng loại dữ liệu cần phân tích.
99
DANH MỤC CÔNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN
LUẬN ÁN
Tạp chí quốc tế:
[SANGHV1]. Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan. (2016). “A Novel
Credit Scoring Prediction Model based on Feature Selection Approach and
Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20),
May 2016. (Scopus4)
[SANGHV2]. Ha Van Sang, Nguyen Ha Nam, & Bao, H. N. T. (2017). A hybrid
feature selection method for credit scoring. EAI Endorsed Trans. Context-
Aware Syst. & Appl., 4(11), e2. (DBLP5)
Hội thảo quốc tế:
[SANGHV3]. Van-Sang Ha and Ha-Nam Nguyen (2016). “Credit scoring with a
feature selection approach based deep learning”, in MATEC Web of Conferences,
vol. 54, p. 05004.(Scopus)
[SANGHV4]. Van-Sang Ha and Ha-Nam Nguyen. (2016). “C-KPCA: Custom
Kernel PCA for Cancer Classification”, in Machine Learning and Data Mining
in Pattern Recognition: 12th International Conference, MLDM 2016, Springer
International Publishing, pp. 459–467(Scopus; DBLP)
[SANGHV5]. Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive
Feature Elimination for Credit Scoring”, in Nature of Computation and
Communication: Second International Conference, ICTCC 2016, Springer
International Publishing, pp. 133–142.(Scopus; DBLP)
4 https://www.scopus.com/authid/detail.uri?authorId=57190294285
5
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]. • Định, V. V. (2016). Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp
cận tập thô dung sai. Luận án tiến sĩ, Học viện Khoa học và Công nghệ.
[2]. • Dương, H. Đ. (2015). Một số phương pháp trích chọn đặc trưng và phát hiện đám cháy
qua dữ liệu ảnh. Luận án tiến sĩ, Học viện Kỹ thuật Quân sự.
[3]. • Hương, N. T. L. (2016). Rút gọn thuộc tính trong bảng quyết định động theo tiếp cận
tập thô. Luận án tiến sĩ, Học viện Khoa học và Công nghệ.
Tiếng Anh
[4]. Abdou, H., & Pointon, J. (2011). Credit scoring, statistical techniques and evaluation
criteria : a review of the literature. Intelligent Systems in Accounting, Finance and
Management, 18(2–3), 59–88.
[5]. Agarwal, B., & Namita, M. (2016). Prominent Feature Extraction for Sentiment
Analysis. Springer International.
[6]. Alter, O., Brown, P. O., & Botstein, D. (2000). Singular value decomposition for
genome-wide expression data processing and modeling. Proceedings of the National
Academy of Sciences of the United States of America, 97(18), 10101–6.
[7]. Apolloni, J., Leguizamón, G., & Alba, E. (2016). Two hybrid wrapper-filter feature
selection algorithms applied to high-dimensional microarray experiments. Applied Soft
Computing Journal, 38, 922–932.
[8]. Aziz, R., Verma, C. K., & Srivastava, N. (2017). Dimension reduction methods for
microarray data: a review. AIMS Bioengineering, 4(2), 179–197.
[9]. Bae, C., Yeh, W. C., Chung, Y. Y., & Liu, S. L. (2010). Feature selection with Intelligent
Dynamic Swarm and rough set. Expert Systems with Applications, 37(10), 7026–7032.
[10]. Bair, E., Hastie, T., Paul, D., & Tibshirani, R. (2006). Prediction by supervised
principal components. Journal of the American Statistical Association, 101(473), 119–
137.
[11]. Bellotti, T., & Crook, J. (2009). Support vector machines for credit scoring and
discovery of significant features. Expert Systems with Applications, 36(2 PART 2),
3302–3308.
[12]. Benabdeslem, K., & Hindawi, M. (2014). Efficient semi-supervised feature selection:
Constraint, relevance, and redundancy. IEEE Transactions on Knowledge and Data
Engineering, 26(5), 1131–1143.
[13]. Bolón-Canedo, V., Sánchez-Maroño, N., & Alonso-Betanzos, a. (2015). Distributed
feature selection: An application to microarray data classification. Applied Soft
Computing, 30, 136–150.
[14]. Borg, I., & Groenen, P. (2005). Modern Multidimensional Scaling: Theory and
Applications. In Chapter 10 (pp. 100–131).
[15]. Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32.
[16]. Cai, X., Nie, F., & Huang, H. (2007). Exact Top- k Feature Selection via l2,0-Norm
Constraint. Ijcai, 1240–1246.
[17]. Cangelosi, R., & Goriely, A. (2007). Component retention in principal component
analysis with application to cDNA microarray data. Biology Direct, 2.
[18]. Chen, W. C., Tseng, S. S., & Hong, T. P. (2008). An efficient bit-based feature selection
101
method. Expert Systems with Applications, 34(4), 2858–2869.
[19]. Chen, X., Wang, L., Smith, J. D., & Zhang, B. (2008). Supervised principal component
analysis for gene set enrichment of microarray data with continuous or survival
outcomes. Bioinformatics, 24(21), 2474–2481.
[20]. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3),
273–297.
[21]. Cristianini, N., & Shawe-Taylor, J. (2000). An Introduction to Support Vector
Machines and other kernel based learning methods. Ai Magazine.
[22]. Dawson, K., Rodriguez, R. L., & Malyj, W. (2005). Samle phenotype clusters in high-
density oligonucleotide microarray data sets are revealed using Isomap, a nonlinear
algorithm. BMC Bioinformatics, 6.
[23]. Diao, R., & Parthaláin, N. S. Mac. (2014). Feature Selection with Harmony Search and
its Applications. PhD Thesis, Aberystwyth University.
[24]. Du, L., & Shen, Y. (2015). Unsupervised Feature Selection with Adaptive Structure
Learning. International Conference on Knowledge Discovery and Data Mining, 209–
218.
[25]. Ehler, M., Rajapakse, V. N., Zeeberg, B. R., Brooks, B. P., Brown, J., Czaja, W., &
Bonner, R. F. (2011). Nonlinear gene cluster analysis with labeling for microarray gene
expression data in organ development. In BMC Proceedings (Vol. 5).
[26]. Eyben, F. (2016). Real-time Speech and Music Classification by Large Audio Feature
Space Extraction. Springer International.
[27]. Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters,
27(8), 861–874.
[28]. Gan, B., Zheng, C.-H., Zhang, J., & Wang, H.-Q. (2014). Sparse Representation for
Tumor Classification Based on Feature Extraction Using Latent Low-Rank
Representation. BioMed Research International, 2014, 1–7.
[29]. Ghaemi, M., & Feizi-Derakhshi, M.-R. (2016). Feature selection using Forest
Optimization Algorithm. Pattern Recognition, 60, 121–129.
[30]. Ghamisi, P., & Benediktsson, J. A. (2015). Feature selection based on hybridization of
genetic algorithm and particle swarm optimization. IEEE Geoscience and Remote
Sensing Letters, 12(2), 309–313.
[31]. Ghashami, M., & Perry, D. J. (2016). Streaming Kernel Principal Component Analysis,
41, 1365–1374.
[32]. Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection.
Journal of Machine Learning Research, 3, 1157–1182.
[33]. Guyon, I., & Elisseeff, A. (2006). An Introduction to Feature Extraction. Feature
Extraction - Foundations and Applications, 207(10), 740.
[34]. Hall, M. a. (1999). Correlation-based Feature Selection for Machine Learning.
Methodology. PhD Thesis, University of Waikato.
[35]. Hall, M., & Smith, L. a. (1999). Feature Selection for Machine Learning : Comparing
a Correlation-based Filter Approach to the Wrapper CFS : Correlation-based Feature.
International FLAIRS Conference, 5.
[36]. Hara, S., & Maehara, T. (2017). Enumerate Lasso Solutions for Feature Selection.
Aaai, 1985–1991.
[37]. Harikrishna, S., Farquad, M. A. H., & Shabana. (2012). Credit Scoring Using Support
Vector Machine: A Comparative Analysis. Advanced Materials Research, 433–440,
6527–6533.
102
[38]. Hernandez Hernandez, J., Duval, B., & Hao, J.-K. (2007). A Genetic Embedded
Approach for Gene Selection and Classification of Microarray Data. In Evolutionary
Computation,Machine Learning and Data Mining in Bioinformatics (Vol. 4447, pp.
90–101).
[39]. Hochstadt, H. (1989). Integral equations. New York: A Wiley-Interscience
Publication.
[40]. Hofmann, T., Schölkopf, B., & Smola, A. J. (2008). Kernel methods in machine
learning. The Annals of Statistics, 36(3), 1171–1220.
[41]. Hua, J., Tembe, W. D., & Dougherty, E. R. (2009). Performance of feature-selection
methods in the classification of high-dimension data. Pattern Recognition, 42(3), 409–
424.
[42]. Huang, H. H., Liu, X. Y., & Liang, Y. (2016). Feature selection and cancer
classification via sparse logistic regression with the hybrid L1/2 +2regularization. PLoS
ONE, 11(5), 1–15.
[43]. Jian, L., Li, J., Shu, K., & Liu, H. (2016). Multi-label informed feature selection. In
IJCAI International Joint Conference on Artificial Intelligence (Vol. 2016–Janua, pp.
1627–1633).
[44]. Jiao, N., Miao, D., & Zhou, J. (2010). Two novel feature selection methods based on
decomposition and composition. Expert Systems with Applications, 37(12), 7419–7426.
[45]. Jonnalagadda, S., & Srinivasan, R. (2008). Principal components analysis based
methodology to identify differentially expressed genes in time-course microarray data.
BMC Bioinformatics, 9.
[46]. Jung, M., & Zscheischler, J. (2013). A guided hybrid genetic algorithm for feature
selection with expensive cost functions. In Procedia Computer Science (Vol. 18, pp.
2337–2346).
[47]. Karhunen, J., Hyvarinen, A., Vigario, R., Hurri, J., & Oja, E. (1997). Applications of
neural blind separation to signal and image processing. In 1997 IEEE International
Conference on Acoustics, Speech, and Signal Processing (Vol. 1, pp. 131–134).
[48]. Kennedy, J., & Eberhart, R. (1995). Particle swarm optimization. Neural Networks,
1995. Proceedings., IEEE International Conference on, 4, 1942–1948 vol.4.
[49]. Koutanaei, F. N., Sajedi, H., & Khanbabaei, M. (2015). A hybrid data mining model
of feature selection algorithms and ensemble learning classifiers for credit scoring.
Journal of Retailing and Consumer Services, 27, 11–23.
[50]. Lee, C.-P., & Leu, Y. (2011). A novel hybrid feature selection method for microarray
data analysis. Applied Soft Computing, 11(4), 208–213.
[51]. Lee, C., & Lee, G. G. (2006). Information gain and divergence-based feature selection
for machine learning-based text categorization. Information Processing and
Management.
[52]. Li, G. Z., Zeng, X. Q., Yang, J. Y., & Yang, M. Q. (2007). Partial Least Squares Based
Dimension Reduction with Gene Selection for Tumor Classification. 2007 IEEE 7th
International Symposium on BioInformatics and BioEngineering.
[53]. Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang, J., & Liu, H. (2016).
Feature Selection: A Data Perspective, 1–73.
[54]. Li, Y., Chen, C. Y., & Wasserman, W. W. (2015). Deep feature selection: Theory and
application to identify enhancers and promoters. In Lecture Notes in Computer Science
(including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in
Bioinformatics) (Vol. 9029, pp. 205–217).
103
[55]. Liang, D., Tsai, C.-F., & Wu, H.-T. (2015). The effect of feature selection on financial
distress prediction. Knowledge-Based Systems, 73, 289–297.
[56]. Liang Sun, Shuiwang Ji, J. Y. (2013). Multi-Label Dimensionality Reduction. Chapman
and Hall/CRC.
[57]. Lin, W. Y., Hu, Y. H., & Tsai, C. F. (2012). Machine learning in financial crisis
prediction: A survey. IEEE Transactions on Systems, Man and Cybernetics Part C:
Applications and Reviews.
[58]. Ling, Y., Cao, Q. Y., & Zhang, H. (2011). Application of the PSO-SVM model for
credit scoring. Proceedings - 2011 7th International Conference on Computational
Intelligence and Security, CIS 2011, 47–51.
[59]. Liu, H., & Motoda, H. (1998). Feature Selection for Knowledge Discovery and Data
Mining. Springer US.
[60]. Liu, X., Tosun, D., Weiner, M. W., & Schuff, N. (2013). Locally linear embedding
(LLE) for MRI based Alzheimer’s disease classification. NeuroImage, 83, 148–157.
[61]. Liu, Y., & Schumann, M. (2005). Data mining feature selection for credit scoring
models. Journal of the Operational Research Society, 56(9), 1099–1108.
[62]. M., K., A., S., & S., O. (2002). Analysis of DNA microarray data using self-organizing
map and kernel based clustering. {ICONIP}’02. Proceedings of the 9th International
Conference on Neural Information Processing. Computational Intelligence for the {E}-
Age, 2, 755–759.
[63]. Maldonado, S., & Weber, R. (2009). A wrapper method for feature selection using
Support Vector Machines. Information Sciences, 179(13), 2208–2217.
[64]. Meyer, P. E., Schretter, C., & Bontempi, G. (2008). Information-Theoretic Feature
Selection in Microarray Data Using Variable Complementarity. IEEE Journal of
Selected Topics in Signal Processing, 2(3), 261–274.
[65]. Mylonakis, J., & Diacogiannis, G. (2010). Evaluating the likelihood of using linear
discriminant analysis as a commercial bank card owners credit scoring model.
International Business Research, 3(2), 9–21.
[66]. Nakariyakul, S., & Casasent, D. P. (2009). An improvement on floating search
algorithms for feature subset selection. Pattern Recognition, 42(9), 1932–1940.
[67]. Nello Cristianini, J. S.-T. (2000). An Introduction to Support Vector Machines and
Other Kernel-based Learning Methods. Cambridge University Press.
[68]. Nixon, M., & Aguado, A. (2012). Feature Extraction and Image Processing for
Computer Vision. Feature Extraction & Image Processing for Computer Vision,
Second Edition.
[69]. Nziga, J. (2015). Incremental Sparse-PCA Feature Extraction For Data Streams. PhD
Thesis, Nova Southeastern University.
[70]. Oreski, S., & Oreski, G. (2014). Genetic algorithm-based heuristic for feature selection
in credit risk assessment. Expert Systems with Applications, 41(4), 2052–2064.
[71]. Orsenigo, C., & Vercellis, C. (2012). An effective double-bounded tree-connected
Isomap algorithm for microarray data classification. Pattern Recognition Letters, 33(1),
9–16.
[72]. Park, C. H., & Lee, M. (2008). On applying linear discriminant analysis for multi-
labeled problems. Pattern Recognition Letters, 29(7), 878–887.
[73]. Pawlak, Z. (1996). Rough sets: Theoretical aspects of reasoning about data. Control
Engineering Practice.
[74]. Peng, H., & Fan, Y. (2016). Direct Sparsity Optimization Based Feature Selection for
104
Multi-Class Classification. Ijcai, 1918–1924.
[75]. Peng, H., & Fan, Y. (2017). A General Framework for Sparsity Regularized Feature
Selection via Iteratively Reweighted Least Square Minimization. Proceedings of the
31th Conference on Artificial Intelligence (AAAI 2017), 2471–2477.
[76]. Peng, H., Long, F., & Ding, C. (2005). Feature selection based on mutual information:
Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy. IEEE Trans. on
Pattern Analysis and Machine Intelligence, 27(8), 1226–1238.
[77]. Peng, Y., Wu, Z., & Jiang, J. (2010). A novel feature selection approach for biomedical
data classification. Journal of Biomedical Informatics, 43(1), 15–23.
[78]. Piramuthu, S. (2006). On preprocessing data for financial credit risk evaluation. Expert
Systems with Applications.
[79]. Roy, D., Murty, K. S. R., & Mohan, C. K. (2015). Feature selection using Deep Neural
Networks. In 2015 International Joint Conference on Neural Networks (IJCNN) (pp.
1–6).
[80]. Schölkopf, B., Smola, A., & Müller, K.-R. (1998). Nonlinear Component Analysis as
a Kernel Eigenvalue Problem. Neural Computation, 10(5), 1299–1319.
[81]. Soliz, P., Russell, S. R., Abramoff, M. D., Murillo, S., Pattichis, M., & Davis, H.
(2008). Independent Component Analysis for Vision-inspired Classification of Retinal
Images with Age-related Macular Degeneration. 2008 IEEE Southwest Symposium on
Image Analysis and Interpretation, 65–68.
[82]. Soufan, O., Kleftogiannis, D., Kalnis, P., & Bajic, V. B. (2015). DWFS: A wrapper
feature selection tool based on a parallel Genetic Algorithm. PLoS ONE, 10(2).
[83]. Stańczyk, U., & Jain, L. C. (2015). Feature Selection for Data and Pattern Recognition.
Studies in Computational Intelligence (Vol. 584).
[84]. Sun, Y. (2007). Iterative RELIEF for feature weighting: Algorithms, theories, and
applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6),
1035–1051.
[85]. Swiniarski, R. W., & Skowron, A. (2003). Rough set methods in feature selection and
recognition. Pattern Recognition Letters, 24(6), 833–849.
[86]. Tang, J., Alelyani, S., & Liu, H. (2014). Feature Selection for Classification: A Review.
Data Classification: Algorithms and Applications, 37–64.
[87]. Tenenbaum, J. B., de Silva, V., & Langford, J. C. (2000). A global geometric
framework for nonlinear dimensionality reduction. Science (New York, N.Y.),
290(5500), 2319–23.
[88]. Thomas, L. C. (2009). Consumer credit models: Pricing, profit and portfolios.
Consumer Credit Models: Pricing, Profit and Portfolios.
[89]. Unler, A., Murat, A., & Chinnam, R. B. (2011). Mr2PSO: A maximum relevance
minimum redundancy feature selection method based on swarm intelligence for support
vector machine classification. Information Sciences, 181(20), 4625–4641.
[90]. Verónica Bolón-Canedo, Noelia Sánchez-Maroño, A. A.-B. (2015). Feature Selection
for High-Dimensional Data. Springer International.
[91]. Villacampa, O. (2015). Feature Selection and Classification Methods for Decision
Making: A Comparative Analysis. Nova Southeastern University. PhD Thesis, Nova
Southeastern University.
[92]. Wang, A., An, N., Chen, G., Yang, J., Li, L., & Alterovitz, G. (2014). Incremental
wrapper based gene selection with Markov blanket. 2014 IEEE International
Conference on Bioinformatics and Biomedicine (BIBM).
105
[93]. Wang, H., Xu, Q., & Zhou, L. (2015). Large unbalanced credit scoring using lasso-
logistic regression ensemble. PLoS ONE, 10(2).
[94]. Wang, J., Guo, K., & Wang, S. (2010). Rough set and Tabu search based feature
selection for credit scoring. Procedia Computer Science, 1(1), 2425–2432.
[95]. Wang, J., Hedar, A.-R., Wang, S., & Ma, J. (2012). Rough set and scatter search
metaheuristic based feature selection for credit scoring. Expert Systems with
Applications, 39(6), 6123–6128.
[96]. Wei, X., & Yu, P. S. (2016). Unsupervised Feature Selection by Preserving Stochastic
Neighbors, 51(6), 995–1003.
[97]. Xie, J., & Wang, C. (2011). Using support vector machines with a novel hybrid feature
selection method for diagnosis of erythemato-squamous diseases. Expert Systems with
Applications, 38(5), 5809–5815.
[98]. Xu, Z., Huang, G., Weinberger, K. Q., & Zheng, A. X. (2014). Gradient boosted feature
selection. Proceedings of the 20th ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining - KDD ’14, 522–531.
[99]. Yang, J., Frangi, A. F., Yang, J. Y., Zhang, D., & Jin, Z. (2005). KPCA plus LDA: A
complete kernel fisher discriminant framework for feature extraction and recognition.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(2), 230–244.
[100]. Yao, P. Y. P. (2009). Feature Selection Based on SVM for Credit Scoring. 2009
International Conference on Computational Intelligence and Natural Computing, 2,
44–47.
[101]. Yusta, S. C. (2009). Different metaheuristic strategies to solve the feature selection
problem. Pattern Recognition Letters, 30(5), 525–534.
[102]. Zainudin, M., Sulaiman, M., Mustapha, N., Perumal, T., Nazri, A., Mohamed, R., &
Manaf, S. (2017). Feature Selection Optimization using Hybrid Relief-f with Self-
adaptive Differential Evolution. International Journal of Intelligent Engineering and
Systems, 10(3), 21–29.
[103]. Zhang, M. L., Peña, J. M., & Robles, V. (2009). Feature selection for multi-label naive
Bayes classification. Information Sciences, 179(19), 3218–3229.
[104]. Zhao, L., Hu, Q., & Wang, W. (2015). Heterogeneous Feature Selection with Multi-
Modal Deep Neural Networks and Sparse Group LASSO. IEEE Transactions on
Multimedia, 17(11), 1936–1948.
[105]. Zhou, S. (2003). Probabilistic analysis of kernel principal components: mixture
modeling and classification. IEEE Transactions on Pattern Analysis, (i), 1–26.
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_cai_tien_cac_ky_thuat_rut_gon_dac_trung_c.pdf