Luật trích từ hệ thống mô tả rất tốt dữ liệu nhập - xuất. Do đó, mô hình ANFIS
sử dụng hệ thống luật này cho một kết quả tốt nhất. Khả năng phân loại tế bào dương
tính và âm tính đều tăng lên rõ rệt. Những trường hợp chẩn đoán sai giảm đáng kể.
Mức độ huấn luyện và kiểm nghiệm cũng tăng mạnh.
87 trang |
Chia sẻ: lylyngoc | Lượt xem: 2584 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn -Ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
o loạn sản nhẹ chưa sừng hoá
¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá
¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá
Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế
bào loạn sản. Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu
được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm. Dữ liệu huấn
luyện dùng để xây dựng mô hình phân lớp tế bào. Dữ liệu kiểm nghiệm dùng để đánh
giá mức độ thực hiện của mô hình.
3.2.3.Các đặc tính tế bào học
Các đặc tính của tế bào được dùng để tạo cơ sở dữ liệu cho mô hình ANFIS:
¾ Diện tích nhân
¾ Diện tích bào tương
¾ Độ sáng nhân
¾ Độ sáng bào tương
¾ Đường kính ngắn nhất của nhân
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 39
¾ Đường kính dài nhất của nhân
¾ Đường kính ngắn nhất của bào tương
¾ Đường kính dài nhất của bào tương
¾ Chu vi nhân
¾ Chu vi bào tương
¾ Vị trí nhân
¾ Vị trí bào tương
¾ Cực đại trong nhân
¾ Cực tiểu trong nhân
¾ Cực đại trong bào tương
¾ Cực tiểu trong bào tương
3.3.Dữ liệu xuất của hệ thống
Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số
tượng trưng cho phân lớp của tế bào:
¾ 1: tế bào trụ
¾ 2: tế bào gai cận đáy
¾ 3: tế bào gai trung gian
¾ 4: tế bào gai bề mặt
¾ 5: tế bào loạn sản nhẹ chưa sừng hoá
¾ 6: tế bào loạn sản vừa chưa sừng hoá
¾ 7: tế bào loạn sản nặng chưa sừng hoá
Đây chính là dữ liệu xuất dùng cho phân lớp tế bào. Nếu chỉ phân lớp là âm tính
(tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp
tế bào sẽ gồm:
¾ 1: tế bào bình thường
¾ 2: tế bào loạn sản
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 40
3.4.Trích chọn đặc trưng
Hình 3-1: Ảnh đã phân đoạn
Hãy xem hình 3.1 như một ví dụ về ảnh đã được phân đoạn. Ảnh được phân
đoạn thành 3 phần, tượng trưng cho nhân, bào tương và nền, trong đó mỗi phần đánh
dấu bằng một màu tương ứng. Trong ảnh này, màu xám sáng biểu thị cho nhân, màu
xám tối là bào tương và màu trắng là nền. Như vậy hình 3.1 có thể được gán nhãn lại
như hình 3.2.
Hình 3-2: Ảnh đã gán nhãn
Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là:
pixelm
pixels
m
width
width
a
pixel
m /201.0
384
16051.77 µµµ === (3.1)
Sau đây, các đặc trưng khác nhau sẽ được giải thích và mô phỏng bằng công
thức. Qui ước đặt tên cho các đặc trưng là nếu một đặc trưng bắt đầu bằng chữ N thì nó
mô tả nhân, C là bào tương.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 41
3.4.1.Diện tích và tỉ lệ diện tích
Diện tích là số điểm ảnh thuộc một lớp nào đó của đối tượng. Hệ số phép biến
đổi được sử dụng để tính diện tích theo kích thước vật lý (µm2) bằng cách nhân số điểm
ảnh với a2.
Tỷ lệ giữa diện tích nhân Narea và diện tích bào tương Carea được định nghĩa:
CareaNarea
NareaCN +=/ (3.2)
Ví dụ:
Hình 3-3: Các phép tính diện tích
Hình 3.3 chỉ ra số điểm ảnh trong lớp nhân và lớp bào tương. Ta có:
297.0
818.1768.0
768.0/
818.145
768.019
22
2
22
22
=+=+=
=⋅=
=⋅=
mm
m
CareaNarea
NareaCN
maCarea
maNarea
µµ
µ
µ
µ
3.4.2.Độ sáng
Độ sáng là cường độ sáng trung bình của các điểm ảnh của lớp. Mỗi điểm ảnh
chứa thông tin về dải màu đỏ (R), xanh lá cây (G), xanh lục (B) với cường độ từ 0 đến
255.
Cường độ sáng (I) của một điểm ảnh là trung bình của 3 dải màu này:
Blue * 0.114 +Green * 0.587 + Red * .2990=I (3.3)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 42
Cường độ sáng trung bình được tính:
∑
∈
==
componentyx
yx
p
I
N
CcolNcolbrightness
,
,
1)( (3.4)
trong đó, Np là số lượng điểm ảnh thuộc lớp.
3.4.3.Đường kính
Gồm hai loại: đường kính lớn nhất và đường kính nhỏ nhất. Đường kính lớn
nhất là khoảng cách lớn nhất giữa hai điểm tính từ biên. Đường kính nhỏ nhất thẳng
góc với đường kính lớn nhất và chiều dài vừa với một hình chữ nhật bao ngoài lớp.
Các đường kính được tìm thấy dựa theo biên của mỗi thành phần. Khoảng cách
Euclide của tất cả các điểm trên biên được tính và khoảng cách xa nhất chính là đường
kính lớn nhất. Đường kính nhỏ nhất ở một phía được tính bằng khoảng cách vuông góc
tính từ biên đến đường kính lớn nhất. Cuối cùng, đường kính nhỏ nhất được định nghĩa
là tổng hai khoảng cách lớn nhất từ hai phía của đường kính lớn nhất. Các đường kính
được tính theo kích thước vật lý bằng cách nhân với a.
Ví dụ:
Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất
Trong hình 3.4 các đường kính tính cho bào tương được xác định theo phương
pháp trên. Chú ý hai đường kính nhỏ nhất đều thẳng góc với đường kính lớn nhất.
Đường kính nhỏ nhất và lớn nhất được tính theo khoảng cách Euclide:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 43
( ) ( )
( ) ( ) ma
yyxxaClong
µ100.244.10201.036100
2max_1max_2max_1max_
22
22
=⋅=−+−⋅=
−+−⋅=
( ) ( )
( ) ( ) ma
yyxxaCshort
µ025.110.5201.05043
12min_11min_12min_11min_1
22
22
=⋅=−+−⋅=
−+−⋅=
( ) ( )
( ) ( ) ma
yyxxaCshort
µ636.016.3201.04767
22min_21min_22min_21min_2
22
22
=⋅=−+−⋅=
−+−⋅=
mCshortCshortCshort µ660.1636.0205.121 =+=+=
3.4.4.Chu vi
Chu vi là số điểm ảnh nằm ở biên của lớp. Biên được tính theo µm bằng cách
nhân với a.
Ví dụ:
Biên của bào tương được xác định khi tính đường kính lớn nhất và nhỏ nhất của
nó (xem hình 3.4). Như hình vẽ, biên của bào tương gồm 26 điểm ảnh. Như vậy chu vi
bào tương là:
maCperi µ225.526 =⋅=
3.4.5.Vị trí nhân
Tâm của một lớp ( )yx ˆ,ˆ được xem như tâm của trọng lực. Để tính tâm của trọng
lực, trước tiên cần tính các mô men:
∑
∈
⋅=
componentyx
qp
qp yxM
,
, (3.5)
areaM
componentyx
== ∑
∈,
0,0 1 (3.6)
∑
∈
=
componentyx
xM
,
0,1 (3.7)
∑
∈
=
componentyx
yM
,
1,0 (3.8)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 44
0,0
0,1ˆ
M
M
x = (3.9)
0,0
1,0ˆ
M
M
y = (3.10)
Khi các tâm được tính cho cả nhân ( )nn yx ˆ,ˆ và bào tương ( )cc yx ˆ,ˆ , một vị trí
tương quan được tính theo đường kính lớn nhất cho bào tương:
( ) ( )
Clong
yyxxa
Npos cncn
22 ˆˆˆˆ2 −+−⋅= (3.11)
Đặc trưng này chứng tỏ vị trí của nhân trong bào tương.
Ví dụ:
Hình 3-5: Tâm của trọng lực đối với nhân và bào tương
Trong hình 3.5 tâm của trọng lực được tính cho cả lớp nhân và bào tương:
59.4
45
220ˆ ≈==cx
48.3
45
173ˆ ≈==cy
51.5
19
98ˆ ≈==nx
34.3
19
66ˆ ≈==ny
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 45
Cho nên, vị trí tương quan được tính:
( ) ( )
( ) ( )
191.0
100.2
4355201.02
ˆˆˆˆ2
22
22
=−+−⋅=
−+−⋅=
Clong
yyxxa
Npos cncn
3.4.6.Độ giãn dài
Độ giãn dài là tỷ lệ giữa chiều dài đường kính nhỏ nhất và chiều dài đường kính
lớn nhất. Khi tỷ lệ này tiến đến 1 thì lớp gần như là hình vuông.
long
shortelong = (3.12)
Ví dụ:
Đường kính lớn nhất và nhỏ nhất của bào tương được dùng để tính độ giãn dài:
79.0
100.2
660.1 ===
Clong
CshortCelong
3.4.7.Độ tròn
Độ tròn là tỷ lệ giữa diện tích đường tròn bao và diện tích lớp. Đường tròn bao
lấy đường kính lớn nhất của thành phần làm đường kính. Nếu tỷ lệ tiến đến 1 thì lớp là
tròn, và nếu tỷ lệ tiến đến 0 thì lớp gần như là đường thẳng.
22
4
2
long
area
long
arearound ⋅
⋅=
⎟⎠
⎞⎜⎝
⎛⋅
= ππ
(3.13)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 46
Ví dụ:
Hình 3-6: Đường tròn cực tiểu cho nhân
Trong hình 3.6 đường tròn bao được sử dụng cho lớp nhân. Độ tròn được tính
sử dụng đường kính lớn nhất 1.35µm (chưa tính trong ví dụ trước), và diện tích nhân
0.768µm2 (từ ví dụ diện tích):
54.0
35.1
768.044
22 =⋅
⋅=⋅
⋅= ππ Nlong
NareaNround
3.4.8.Cực đại, cực tiểu
Cực đại, cực tiểu là giá trị số lượng giá trị cường độ xám lớn nhất, nhỏ nhất
thuộc đối tượng (nhân, bào tương). Chương trình sẽ kiểm tra tất cả các điểm ảnh thuộc
đối tượng. Nếu điểm ảnh có giá trị cường độ sáng lớn nhất / nhỏ nhất khi so sánh với
các điểm ảnh nằm trong bán kính 3 điểm ảnh, thì biến đếm tăng lên 1.
3.5.Các đặc trưng rút trích
STT Đặc trưng Viết tắt Được tính từ
1 Diện tích nhân Narea
2 Diện tích bào tương Carea
3 Tỷ lệ nhân / bào tương N/C Narea, Carea
4 Độ sáng nhân Ncol
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 47
5 Độ sáng bào tương Ccol
6 Đường kính ngắn nhất của nhân Nshort
7 Đường kính dài nhất của nhân Nlong
8 Độ giãn dài của nhân Nelong Nshort, Nlong
9 Độ tròn của nhân Nround Narea, Nlong
10 Đường kính ngắn nhất bào tương Cshort
11 Đường kính dài nhất của bào
tương
Clong
12 Độ giãn dài của bào tương Celong Cshort, Clong
13 Độ tròn của bào tương Cround Carea, Clong
14 Chu vi nhân Nperim
15 Chu vi bào tương Cperim
16 Vị trí nhân Npos
17 Cực đại trong nhân Nmax
18 Cực tiểu trong nhân Nmin
19 Cực đại trong bào tương Cmax
20 Cực tiểu trong bào tương Cmin
Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 48
Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ
DỤNG MÔ HÌNH ANFIS
Phân loại tế bào ung thư cổ tử cung là giai đoạn quan trọng nhất trong hệ
thống khám sàng lọc tự động. Việc phân loại sử dụng mô hình ANFIS sẽ cho kết quả
tốt hơn những phương pháp gom cụm thông thường khác như: k – trung bình, láng
giềng gần nhất, gom cụm mờ… Chương này sẽ giới thiệu những hệ thống cơ sở luật
mà ANFIS thực hiện để cho kết quả tốt nhất có thể.
4.1.Cấu trúc ANFIS trong phân loại tế bào cổ tử cung
4.1.1.Hệ thống suy luận mờ
Không mất tính tổng quát, xét một hệ suy luận gồm 2 đặc trưng của nhân: kích
thước, độ sáng và 4 luật chuyên gia sau:
Luật Diện tích nhân Độ sáng nhân Phân lớp
1 nhỏ tối bình thường
2 lớn sáng loạn sản nhẹ
3 lớn trung bình loạn sản
4 lớn sáng loạn sản nặng
Bảng 4-1: Ví dụ luật mờ phân loại tế bào
Như vậy với cơ sở luật như trên thì các luật Sugeno bậc 0 tương ứng là:
1. Nếu x là A1 và y là B3 thì z1 = p1
2. Nếu x là A2 và y là B1 thì z2 = p2
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 49
3. Nếu x là A2 và y là B2 thì z3 = p3
4. Nếu x là A2 và y là B3 thì z4 = p4
với x là diện tích nhân và y là độ sáng nhân, và zi là dữ liệu xuất của luật thứ i.
Ngưỡng kích hoạt wi của mỗi luật được xác định trong phần giả thiết của luật và
được tính bằng:
( ) ( )
( ) ( )
( ) ( )
( ) ( )yxw
yxw
yxw
yxw
BA
BA
BA
BA
32
22
12
31
4
3
2
1
µµ
µµ
µµ
µµ
×=
×=
×=
×=
(4.1)
trong đó ( )xA 2,1µ và ( )yB 3,2,1µ là các hàm thành viên của dữ liệu nhập x và y, chúng thể
hiện mức độ thỏa mãn của dữ liệu nhập với tập A = {A1,A2,B1,B2,B3}. Các hàm thành
viên này được chọn theo dạng chuông:
ib
i
i
A
a
cx 2)(1
1
−+
=µ (4.2)
với {ai,bi,ci} là các tham số giả thiết, xác định hình dạng thật sự của các hàm thành
viên (Hình 4.1).
Với một bộ dữ liệu nhập bất kì, toàn bộ dữ liệu xuất z của hệ thống suy luận mờ
được xác định bằng cách dùng các ngưỡng kích hoạt trọng hoá của mỗi luật:
4321
44332211
wwww
zwzwzwzw
w
zw
z
i i
i ii
+++
+++== ∑
∑ (4.3)
Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 50
4.1.2.Cấu trúc ANFIS
Hệ thống suy luận mờ mô tả ở phần trước có thể được thực hiện bằng một cấu
trúc ANFIS tương ứng hình sau:
Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật
Mạng được chia thành 5 lớp như hình 4.2. Dữ liệu nhập được đưa vào lớp nhập,
và các phép tính được thực hiện từ trái sang phải. Dữ liệu xuất của lớp xuất là tổng dữ
liệu xuất z. Các lớp giữa lớp nhập và lớp xuất được gọi là các lớp ẩn. Mỗi lớp chứa một
hoặc nhiều nút. Dữ liệu xuất của nút thứ i trong lớp thứ k được kí hiệu là kiO .
Lớp 1: Các nút trong lớp nhập có dữ liệu xuất tính theo công thức (4.2):
( )
( ) 5,4,3
2,1
1
1
==
==
ikhiyO
ikhixO
i
i
Bi
Ai
µ
µ
(4.4)
Các nút trong lớp nhập thích nghi tương ứng các tham số giả thiết {ai,bi,ci}.
Lớp 2: Các nút trong lớp thứ hai chứa các ngưỡng kích hoạt của luật theo công
thức (4.1):
ii wO =2 (4.5)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 51
Lớp 3: Các nút trong lớp thứ ba tính trọng hoá các ngưỡng kích hoạt:
∑== iiii w
wwO3 (4.6)
Lớp 4: Các nút trong lớp thứ tư tính trọng hoá dữ liệu xuất của mỗi luật:
iiiii pwzwO ==4 (4.7)
trong đó pi là các tham số kết quả của các hệ thống.
Lớp 5: Lớp thứ năm là lớp xuất. Hàm nút sẽ tính tổng dữ liệu xuất bằng tổng tất
cả các tín hiệu vào theo công thức (4.3):
∑ ∑
∑==
i i
i ii
ii w
zw
OO 45 (4.8)
4.1.3.Huấn luyện ANFIS
Mỗi chu kì huấn luyện cấu trúc ANFIS được thực hiện bởi 2 quá trình: quá trình
tiến và và quá trình lùi. Trong quá trình tiến, các tham số kết quả được xác định bằng
phương pháp bình phương cực tiểu. Trong quá trình lùi, các tín hiệu lỗi lan truyền
ngược và độ giảm gradient thường được dùng để xác định các tham số giả thiết. Chính
vì vậy mà phương pháp này được xem như một thuật toán học lai ghép. Dữ liệu huấn
luyện chứa tập các vector dữ liệu vào gồm P vectơ (mục).
4.1.3.1.Quá trình tiến
Trong quá trình tiến, dữ liệu nhập được đưa vào mạng, và dữ liệu xuất được tính
toán cho từng nút, từ lớp nhập đến lớp xuất. Các tham số kết quả thích nghi được tìm
thấy bằng cách tính phương trình ma trận AX = B, trong đó X là một vector M × 1 chứa
các tham số kết quả với M chưa biết, A là ma trận P × M chứa những dữ liệu xuất thực
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 52
sự (dữ liệu thực), được mô tả như một tổ hợp tuyến tính tương ứng với các tham số kết
quả, B là một vector P × 1, chứa dữ liệu xuất mong muốn (dữ liệu đích). Phương trình
ma trận được tính bằng phương pháp ước lượng bình phương cực tiểu (LSE – Least
squares estimate):
( )
1,...,1,0,
1 11
11
1
11111
−=+−=
−+=
++
++
+
+++++
Pi
aSa
SaaS
SS
XabaSXX
ii
T
i
i
T
iii
ii
i
T
i
T
iiiii
(4.9)
trong đó, LSE của X bằng Xp, và hàng thứ i của A và thành phần thứ i của B là a Ti và
b Ti . Giá trị khởi tạo của X là X0 = 0. S0 = γI, trong đó I là ma trận đồng nhất M x M, và
γ là số dương lớn.
4.1.3.2.Quá trình lùi
Quá trình lùi sẽ lan truyền ngược tín hiệu lỗi của dữ liệu xuất để tìm ra các tham
số giả thiết của mạng. Xét một mạng dữ liệu xuất đơn giản gồm L lớp, trong đó N(l) là
số lượng nút của lớp l. Nút thứ i tại lớp l có dữ liệu xuất xl,i và hàm truyền fl,i. Tập huấn
luyện có P mục, và dp biểu hiện dữ liệu đích cho mục p. Độ đo lỗi Ep tương ứng mục
thứ p trong dữ liệu huấn luyện là:
( )21,Lpp xdE −= (4.10)
Vấn đề của lan truyền ngược chính là phải cực thiểu hoá tổng lỗi ∑ == pp pEE 1
bằng cách thay đổi các tham số giả thiết. Để thực hiện điều này, chúng ta cần xem xét
các tín hiệu lỗi il ,ε , chính là đạo hàm riêng của Ep tương ứng với dữ liệu xuất của nút
thứ i tại lớp l:
il
p
il x
E
,
, ∂
+∂=ε (4.11)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 53
Tín hiệu lỗi 1,Lε tại lớp xuất là:
( ) ( )1,
1,
2
1,
1, 2 Lp
L
Lp
L xdx
xd −−=∂
−∂=ε (4.12)
Đối với các nút ở lớp ẩn, tín hiệu lỗi là đạo hàm một luật dãy:
∑∑ +
=
+
+
+
=
+
+ ∂
∂=∂
∂
∂
+∂=∂
+∂=
)1(
1 ,
,1
,1
)1(
1 ,
,1
,1,
,
lN
m il
ml
il
lN
m il
ml
ml
p
il
p
il x
f
x
f
x
E
x
E
E ε (4.13)
Như vậy, các tín hiệu lỗi tại lớp l có thể được tìm thấy nếu biết các tín hiệu lỗi
của lớp l+1. Đây là trường hợp cho lớp xuất, và bằng cách dùng phương trình 4.12 cho
đến khi đến được lớp thứ l, và suy ra il ,ε . Bước kế tiếp để tìm vector gradient, tức là
tìm đạo hàm của độ đo lỗi tương ứng mỗi tham số lý thuyết α. Khi α là một tham số
thích nghi của nút i tại lớp l, chúng ta lấy (bằng cách dùng lại chuỗi luật) định nghĩa
sau:
αεαα ∂
∂=∂
∂
∂
+∂=∂
+∂ il
il
il
il
pp ff
x
EE ,
,
,
.
(4.14)
Đạo hàm của toàn bộ độ đo lỗi E tương ứng α là:
∑
= ∂
+∂=∂
+∂ P
p
pEE
1 αα
Dùng phương pháp giảm nhanh, công thức cập nhật cho một tham số lý thuyết α
trở thành:
αηα ∂
+∂−=∆ E (4.15)
ααα ∆+=new (4.16)
trong đó η là tốc độ học, được định nghĩa:
η =
∑ ∂∂α α 2)( E
k (4.17)
trong đó k là kích thước bước.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 54
4.2.Các hệ thống luật mờ trong phân loại tế bào
4.2.1.Luật chuyên gia
Năm 1996, Voss đã đưa ra 4 luật cơ bản dùng cho phân lớp tế bào dựa vào
thông tin tế bào học ở bảng 1.1. Các luật này được trình này tại bảng 4.2. Các chuyên
gia sẽ dựa trên kiến thức và kinh nghiệm của bản thân để đề xuất ra các luật loại này.
Luật Diện tích
nhân
Tỉ lệ diện
tích
Độ sáng
bào tương
Độ sáng
nhân
Dữ liệu
xuất
1 nhỏ nhỏ sáng tối bình thường
2 lớn lớn sáng sáng loạn sản
3 lớn lớn sáng tối loạn sản
4 lớn lớn tối tối loạn sản
Bảng 4-2: Luật chuyên gia
4.2.2.Luật chuyên gia biến đổi
Luật chuyên gia chỉ có thể giải thích tốt khả năng suy luận của con người, chứ
không mô tả tốt dữ liệu đã được số hoá, nên khi thực hiện hệ thống, tuỳ theo kết quả
phân lớp của luật chuyên gia, chúng ta có thể bổ sung thêm dữ liệu huấn luyện cho
những phần mà luật thiếu hoặc tạo luật chuyên gia biến đổi như bảng 4.2.
Luật Diện tích
nhân
Tỉ lệ
diện tích
Độ sáng
nhân
Độ sáng
bào tương
Dữ liệu xuất
1 nhỏ không nhỏ sáng tối bình thường
2 nhỏ trung bình tối tối bình thường
3 nhỏ nhỏ tối sáng bình thường
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 55
4 lớn trung bình sáng sáng loạn sản
5 lớn không nhỏ sáng sáng loạn sản
6 lớn lớn sáng sáng loạn sản
7 lớn lớn tối tối loạn sản
Bảng 4-3: Luật chuyên gia biến đổi
4.2.3.Luật trích dẫn từ hệ thống
4.2.4.Lựa chọn tập đặc trưng
4.2.4.1.Giới thiệu chung về lựa chọn đặc trưng
Trong vấn đề mô hình hóa thế giới thực, việc một cấu trúc cần hàng chục thậm
chí hàng trăm đặc trưng nhập vào không phải là hiếm. Một số lượng đặc trưng lớn như
vậy không chỉ làm suy giảm tính rõ ràng của mô hình, mà còn làm tăng độ phức tạp
của việc tính toán trong quá trình xây dựng mô hình. Vì vậy, việc lựa chọn đặc trưng
rất cần thiết nhằm tìm ra độ ưu tiên cho mỗi đặc trưng ứng viên và sử dụng chúng một
cách thích hợp. Mục đích của việc lựa chọn đặc trưng:
¾ Loại bỏ các đặc trưng nhiễu / không thích hợp
¾ Loại bỏ các đặc trưng có thể suy ra được từ các đặc trưng khác
¾ Tạo mô hình cơ bản ngắn gọn và rõ ràng hơn
¾ Giảm thời gian xây dựng mô hình
4.2.4.2.Thuật giải chọn đặc trưng
Thuật giải chọn đặc trưng (simulated annealing) đơn giản gồm 6 bước:
1. Chọn một điểm khởi tạo ngẫu nhiên x. Đặt biến lặp k = 1
2. Xác định hàm đích: E = f(x)
3. Đặt xnew = x + ∆x, trong đó ∆x là thay đổi nhỏ ngẫu nhiên so với x
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 56
4. Tính giá trị mới của hàm đích: Enew = f(xnew)
5. Nếu Enew < E thì x = xnew và E = Enew
6. Tăng k = k + 1. Nếu k đạt giá trị cực đại K thì thuật toán ngừng. Ngược lại, quay
lại bước 3.
Trong đó, một giải pháp x là một tổ hợp của b đặc trưng chọn từ cơ sở dữ liệu.
Hàm đích f(x) bằng RMSE của quá trình phân lớp dùng các đặc trưng trong x. Chiến
lược lựa chọn điểm khởi tạo x là:
1. Cho s là danh sách các đặc trưng có sẵn (n = 20): s = [s1, s2, …, sn]
2. Cho x là danh sách b phần tử lựa chọn ngẫu nhiên từ s
3. Loại bỏ các phần tử thuộc x ra khỏi s
Chiến lược lựa chọn ∆x và xnew là:
1. Chọn ∆x là phần tử lựa chọn ngẫu nhiên từ s, và loại bỏ ∆x khỏi s
2. Chọn ∆s là phần tử lựa chọn ngẫu nhiên từ x, và loại bỏ ∆s khỏi x
3. Cộng ∆x vào x để lấy xnew = x + ∆x
4. Cộng ∆s vào s
4.2.5.Rút trích luật
4.2.5.1.Giới thiệu chung về trích luật
Việc mô hình hoá thế giới thực thường liên quan đến hàng chục (thậm chí hàng
trăm) đặc trưng cho cấu trúc của mô hình. Bên cạnh việc lựa chọn tốt tập đặc trưng, thì
việc trích luật từ hệ thống cũng rất đóng vai trò quan trọng vào hiệu quả của cấu trúc
ANFIS. Thuật toán gom cụm loại trừ (subtractive clustering) được dùng để phát sinh
số lượng luật và hệ thống luật cho cấu trúc ANFIS phân lớp tế bào. Từ một tập dữ liệu
nhập và xuất, gom cụm loại trừ có thể trích ra một tập luật mô tả hành vi của dữ liệu
cùng với số lượng luật và các hàm thành viên của chúng. Nó là một thuật toán học
không giám sát, dựa trên độ đo mật độ các điểm dữ liệu trong không gian đặc trưng.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 57
4.2.5.2.Thuật toán gom cụm loại trừ
Xét tập gồm K điểm dữ liệu tượng trưng bởi các vectơ m chiều uk, k = 1, 2, …,
K. Không mất tính tổng quát, giả sử các điểm dữ liệu chuẩn hoá. Khi mỗi điểm dữ liệu
là một ứng viên cho một tâm nhóm, một độ đo mật độ tại điểm dữ liệu uk được định
nghĩa:
( )∑= ⎟⎟⎠
⎞
⎜⎜⎝
⎛ −−=
K
j a
jk
k r
uu
D
1
22/
exp (4.18)
trong đó ra là một hằng số dương. Vì vậy, một điểm dữ liệu sẽ có giá trị mật độ cao nếu
nó có nhiều điểm dữ liệu lân cận và chỉ những lân cận mờ trong bán kính ra góp phần
vào độ đo mật độ.
Sau khi tính độ đo mật độ cho mỗi điểm dữ liệu, điểm có mật độ cao nhất được
chọn làm tâm nhóm đầu tiên. Đặt
1c
u là điểm được chọn và
1c
D là độ đo mật độ. Kế
tiếp, độ đo mật độ cho mỗi điểm dữ liệu uk được sửa lại theo công thức:
( ) ⎟⎟⎠
⎞
⎜⎜⎝
⎛ −−−= 2' 2/exp
1
1
b
Ck
Ckk r
uu
DDD (4.19)
trong đó, rb là hằng số dương. Do đó, các điểm dữ liệu gần tâm nhóm đầu tiên 1cu sẽ
giảm đáng kể độ đo mật độ, bằng cách ấy tạo ra các điểm không thể được chọn làm
tâm kế tiếp. Hằng số rb định nghĩa một lân cận được giảm độ đo mật độ. Nó thường lớn
hơn ra để ngăn các tâm nhóm đặt gần nhau: rb = 1.5 * ra.
Sau khi độ đo mật độ của mỗi điểm được sửa lại, tâm nhóm thứ hai
2c
u được
chọn và tất cả các độ đo mật độ được cập nhật lại. Quá trình lặp lại cho đến khi không
còn điểm dữ liệu tiềm năng nào, thông thường sử dụng chuẩn Dk’ < 0.15D1.
4.2.5.3.Trích luật
Khi áp dụng gom cụm loại trừ vào tập dữ liệu nhập - xuất của một phân lớp, mỗi
tâm nhóm tượng trưng cho một luật của phân lớp đó. Để phát sinh luật, mỗi tâm nhóm
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 58
được xem như tâm của các tham số giả thiết trong loại luật mờ singleton. Giả sử
1c
u là
tâm nhóm nằm trong phân lớp c1 thì ta sẽ có luật:
Luật i: Nếu {u là
1c
u } thì phân lớp là c1.
Tương tự cho các luật nằm trong những phân lớp còn lại.
Với phương pháp chọn đặc trưng và trích luật như vậy, chương trình rút ra được
2 hệ thống luật: 9 đặc trưng, 27 luật, 2 dữ liệu xuất và 9 đặc trưng, 34 luật, 7 dữ liệu
xuất, tất cả được mô tả trong chương 5.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 59
Chương 5: TỔNG KẾT
5.1.Chương trình
5.1.1.Công cụ sử dụng
¾ Môi trường lập trình: VC++.Net 2003
¾ Dữ liệu: 500 ảnh tế bào cổ tử cung
5.1.2.Cấu trúc thư mục và tập tin
Chương trình gồm 2 phần chính: huấn luyện và thử nghiệm (thư mục Learning),
và phân lớp tế bào (thư mục Checking). Dữ liệu xuất của Learning chính là dữ liệu
nhập (các tham số mạng thích nghi) của Checking. Sau đây là nội dung một số tập tin
tham số của chương trình:
Thư mục Learning:
alldata.dat: gồm 500 dòng, mỗi dòng chứa 21 dữ liệu nhập tương ứng 21 đặc
trưng.
anfis.conf: gồm 6 dòng, chứa thông tin mô hình ANFIS
¾ Dòng 1: Số đặc trưng được chọn (n_in)
¾ Dòng 2: Số lượng hàm thành viên (n_mf)
¾ Dòng 3: Số lượng luật (n_rule)
¾ Dòng 4: Số lượng phân lớp (n_class)
¾ Dòng 5: Đường dẫn tập tin para.inp
¾ Dòng 6: Đường dẫn tập tin rule.inp
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 60
para.inp: chứa các tham số nhập vào cho mô hình ANFIS
¾ Gồm (n_in * n_mf) dòng, mỗi dòng chứa 3 tham số a, b, c của hàm thành viên
¾ Dòng thứ (n_in * n_mf + 1) chứa (n_rule) số, thể hiện dữ liệu xuất của từng luật
para.fin: chứa các tham số của mô hình ANFIS
¾ Gồm (n_in * 4) dòng, mỗi dòng chứa 3 tham số a, b, c mới của hàm thành viên
¾ (n_rule) dòng kế tiếp lưu trữ tham số kết quả của mạng
rule.inp: gồm (n_rule) dòng, mỗi dòng chứa (n_in) số trong khoảng từ 0 đến 3,
thể hiện mức độ phụ thuộc của hàm thành viên.
trainning.conf: gồm 2 dòng
¾ Dòng 1: Số lượng dữ liệu huấn luyện
¾ Dòng 2: gồm 20 con số 1 hoặc 0 tương ứng 20 đặc trưng được chọn hoặc không.
Thư mục Checking:
alldata.dat, rule.inp: Giống phần Learning
anfis.conf: gồm 5 dòng, chứa thông tin mô hình ANFIS
¾ Dòng 1: Số đặc trưng được chọn (n_in)
¾ Dòng 2: Số lượng hàm thành viên (n_mf)
¾ Dòng 3: Số lượng luật (n_rule)
¾ Dòng 4: Đường dẫn tập tin para.inp
¾ Dòng 5: Đường dẫn tập tin rule.inp
mydata_f.dat: chứa các vectơ dữ liệu gồm 21 đặc trưng
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 61
mydata_n.dat: chứa tên tập tin ảnh tương ứng với dữ liệu ở mydata_f.dat.
para.inp: chính là para.fin của learning
5.1.3.Hướng dẫn sử dụng chương trình
Gồm 2 chương trình: Learning và Checking.
Giao diện của Learning:
Hình 5-1: Giao diện màn hình huấn luyện
Các bước thực hiện huấn luyện:
¾ Bước 1: Gõ đường dẫn thư mục chứa các tập tin tham số vào text box Data Path
(./Params/ là đường dẫn mặc định)
¾ Bước 2: Nhập vào số lượng chu kì huấn luyện tại text box Epochs
¾ Bước 3: Nhấn nút Start để bắt đầu huấn luyện
¾ Bước 4: Nếu muốn huấn luyện tiếp, lặp lại bước 2
Ngược lại, nhấn nút Exit để thoát khỏi chương trình.
thông
số mô
hình
kết quả
huấn
luyện
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 62
Sau khi thực hiện, learning sẽ cho các thông số kết quả của huấn luyện và thời
gian thực hiện:
Hình 5-2: Giao diện khi huấn luyện xong
Hình 5.2 thể hiện kết quả huấn luyện của mô hình ANFIS gồm 9 đặc trưng, mỗi
đặc trưng có 4 biến ngôn ngữ, và hệ thống 31 luật. Dữ liệu huấn luyện 250 mẫu, dữ
liệu kiểm tra 250 mẫu.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 63
Giao diện của Checking:
Hình 5-3: Giao diện chính của Checking
Các bước thực hiện phân lớp tế bào:
¾ Bước 1: Load ảnh tế bào bằng cách bấm nút Load Image
Hình 5-4: Load ảnh
đặc
trưng
ảnh
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 64
¾ Bước 2: Phân đoạn ảnh bằng cách bấm nút Segmentation, màn hình phân đoạn
sẽ xuất hiện:
Hình 5-5: Phân đoạn ảnh
Để phân đoạn ảnh, cần phải nhấn Boudary để chọn tế bào cần tính đặc trưng (có
thể không chọn, nhưng việc tính đặc trưng tế bào ở bước sau sẽ không chính xác), sau
đó lần lượt đánh dấu các phần ảnh cần phân đoạn thành nhân, bào tương và nền.
Bấm nút Segment để phân đoạn ảnh, ta thu được ảnh đã phân đoạn chưa khử
nhiễu. Để loại bỏ nhiễu, chọn nút Remove Small với bán kính xóa nhiễu nhập tại
textbox Radius (thông thường là 12) tương ứng với nhân, bào tương và nền.
Khi đã hài lòng về kết quả phân đoạn, bấm Ok để tiếp tục thao tác chương trình.
Ngược lại, nếu muốn phân đoạn ảnh lại từ đầu, nhấn Reset.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 65
Hình 5-6: Ảnh đã phân đoạn
Hình 5-7: Ảnh đã phân đoạn sau khi loại bỏ nhiễu
¾ Bước 3: Thực hiện tính đặc trưng tế bào bằng cách nhấn nút Calc Feas
¾ Bước 4: Phân lớp tế bào bằng cách nhấn nút Checking
¾ Bước 5: Lưu vào cơ sở dữ liệu bằng cách nhấn nút Update Features
¾ Bước 6: Nếu muốn tiếp tục, quay lại bước 1
Ngược lại, nhấn nút Exit để thoát khỏi chương trình
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 66
Sau khi thực hiện các bước như trên, hệ thống sẽ cho kết quả chẩn đoán tế bào
như sau:
Hình 5-8: Giao diện Checking sau khi chẩn đoán
Theo kết quả như vậy, chúng ta có thể xác định được tế bào này là tế bào bình
thường, không bị nghi ngờ tiền ung thư.
5.2.Mức độ thực hiện chương trình
5.2.1.Luật chuyên gia
Luật chuyên gia theo bảng 4.1 được số hóa thành bảng sau:
Luật #1 #4 #5 #3 2 dữ liệu xuất 7 dữ liệu xuất
1 0 3 0 0 1 1
2 3 0 0 3 2 5
3 3 3 0 3 2 6
4 3 3 3 3 2 7
Bảng 5-1: Luật chuyên gia số hóa
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 67
Mức độ huấn luyện mạng tốt nhất:
Tiêu chuẩn 2 dữ liệu xuất
(58 chu kì huấn luyện)
7 dữ liệu xuất
(124 chu kì huấn luyện)
RMSE 0.300950 0.543341
FN% 2.00% 63.16%
FP% 28.28% 12.72%
PP% 84.00% 56.00%
NP% 95.95% 75.88%
TRN% 87.20% 71.60%
Sensitivity 98.00% 36.84%
Specificity 71.72% 87.28%
Time trainning 2(s) 5(s)
Bảng 5-2: Mức độ thực hiện luật chuyên gia
Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác:
Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất
RMSE 0.360433 0.7181176
CHK% 85.60% 70.00%
Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia
Nhận xét:
Bộ luật chuyên gia với 2 dữ liệu xuất phân loại tốt với những tế bào được chẩn
đoán là âm tính. Với 7 dữ liệu xuất, luật chuyên gia thực hiện kém đi rất nhiều. Lý do
chính là vì luật chuyên gia không mô tả tốt được dữ liệu nhập - xuất mà chỉ phụ thuộc
vào ý kiến chủ quan của con người. Do đó, cần phải thực hiện thêm nhiều bộ dữ liệu
huấn luyện để tăng khả năng thực hiện của mô hình.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 68
5.2.2.Luật chuyên gia biến đổi
Luật chuyên gia biến đổi theo bảng 4.2 được số hóa như sau:
Luật #1 #3 #4 #5 2 dữ liệu xuất 7 dữ liệu xuất
1 0 1 0 3 1 1
2 0 2 3 3 1 2
3 0 0 3 0 1 3
4 3 2 0 0 2 5
5 3 1 0 0 2 6
6 3 3 0 0 2 7
7 3 3 3 3 2 7
Bảng 5-4: Luật chuyên gia biến đổi số hóa
Mức độ huấn luyện mạng tốt nhất:
Tiêu chuẩn 2 dữ liệu xuất
(123 chu kì huấn luyện)
7 dữ liệu xuất
(89 chu kì huấn luyện)
RMSE 0.299719 0.772719
FN% 10.23% 76.74%
FP% 23.29% 19.42%
NP% 75.68% 83.42%
PP% 90.29% 20.00%
TRN% 85.60% 70.40%
Sensitivity 89.77% 23.26%
Specificity 76.71% 80.58%
Time trainning 6(s) 5(s)
Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 69
Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác:
Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất
RMSE 0.381556 3.467845
CHK% 79.60% 68.00%
Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi
Nhận xét:
Luật chuyên gia biến đổi tuy làm tăng khả năng phân loại tế bào chẩn đoán
dương tính, nhưng đồng thời lại làm giảm khả năng nhận biết các tế bào âm tính, bởi vì
luật này thay đổi dựa trên những quan sát thông thường của con người nên vẫn không
mô tả tốt dữ liệu, nó chỉ có thể khắc phục được một số sai sót về một phương diện nào
đó mà thôi.
5.2.3.Luật trích từ hệ thống
Sử dụng thuật giải subtractive clustering, 9 đặc trưng sau là tập đặc trưng tốt
dùng cho phân lớp tế bào: #2, #4, #6, #9, #10, #11, #14, #16, #17.
Bảng sau mô tả các luật trích từ hệ thống, sử dụng thuật toán subtractive
clustering:
Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất
1 3 0 0 1 3 3 0 0 0 1
2 0 3 0 1 0 0 0 3 0 1
3 1 2 1 2 1 0 2 3 1 1
4 0 0 1 2 0 0 0 1 1 1
5 0 0 0 1 0 0 0 1 0 1
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 70
6 2 0 1 1 1 1 1 0 2 1
7 2 0 0 1 1 1 0 1 1 1
8 2 0 1 0 2 2 3 1 2 1
9 2 0 1 0 2 2 3 1 3 1
10 3 0 1 3 3 3 0 0 0 1
11 3 1 0 2 3 3 0 1 0 1
12 3 0 1 1 3 3 0 2 1 1
13 3 3 2 2 3 3 0 1 1 1
14 3 2 1 3 3 3 1 1 1 1
15 3 0 0 2 3 3 0 0 0 1
16 3 3 1 2 3 3 0 0 1 1
17 2 2 2 1 2 2 1 2 2 2
18 2 1 2 2 2 2 1 0 3 2
19 2 1 2 2 2 1 2 0 2 2
20 2 3 2 0 2 3 3 1 2 2
21 3 0 0 3 3 3 0 2 0 2
22 3 0 0 3 3 3 0 3 0 2
23 3 1 0 0 3 3 0 0 0 2
24 3 3 2 2 3 2 2 0 2 2
25 1 1 3 1 2 1 3 0 3 2
26 2 3 2 0 2 1 3 3 3 2
27 2 3 1 2 2 1 2 2 1 2
Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 71
Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất
1 0 1 0 0 0 0 0 3 0 1
2 0 3 0 0 0 0 1 3 0 1
3 0 2 1 2 0 0 1 3 0 1
4 1 3 1 1 0 0 1 3 1 1
5 0 0 0 2 0 0 0 3 0 2
6 1 0 1 2 1 0 0 0 0 2
7 2 0 0 1 1 2 1 1 1 2
8 2 0 1 2 2 1 1 1 1 2
9 3 0 0 1 3 2 0 2 0 3
10 3 1 0 0 3 2 0 1 0 3
11 3 1 1 3 3 3 0 2 0 3
12 3 2 1 3 3 3 1 0 1 3
13 3 0 0 1 3 3 0 0 0 3
14 3 1 0 3 3 3 0 1 0 3
15 3 3 1 2 3 3 0 0 1 3
16 3 0 0 3 3 2 0 0 0 4
17 3 0 0 3 3 3 0 2 0 4
18 3 0 0 2 3 3 0 3 0 4
19 3 0 0 2 3 3 0 0 0 4
20 3 0 0 3 3 3 0 3 0 4
21 3 0 0 3 3 3 0 2 0 4
22 3 1 0 0 3 3 0 0 0 4
23 2 2 3 2 2 3 3 1 3 5
24 2 1 3 0 3 3 3 2 3 5
25 3 3 1 0 2 3 3 0 1 5
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 72
26 3 3 3 3 3 3 3 2 3 5
27 3 3 3 2 3 3 2 1 3 5
28 2 2 2 0 2 2 2 1 3 6
29 2 3 3 3 2 2 2 3 3 6
30 2 3 3 3 2 2 2 2 3 6
31 3 3 3 2 3 3 3 1 3 6
32 2 1 2 2 2 1 2 0 2 7
33 2 3 1 0 1 1 3 3 2 7
34 2
3 1 1 1 3 3 1 2 7
Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất
Mức độ huấn luyện mạng tốt nhất:
Tiêu chuẩn 2 dữ liệu xuất
(218 chu kì huấn luyện)
7 dữ liệu xuất
(76 chu kì huấn luyện)
RMSE 0.148221 0.462798
FN% 0.58% 34.00%
FP% 3.95% 8.54%
NP% 98.65% 91.46%
PP% 98.29% 66.00%
TRN% 98.00% 86.00%
Sensitivity 99.42% 66.00%
Specificity 96.05% 91.46%
Time trainning 98(s) 65(s)
Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 73
Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác:
Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất
RMSE 0.266052 3.083827
CHK% 92.40% 74.40%
Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống
Nhận xét:
Luật trích từ hệ thống mô tả rất tốt dữ liệu nhập - xuất. Do đó, mô hình ANFIS
sử dụng hệ thống luật này cho một kết quả tốt nhất. Khả năng phân loại tế bào dương
tính và âm tính đều tăng lên rõ rệt. Những trường hợp chẩn đoán sai giảm đáng kể.
Mức độ huấn luyện và kiểm nghiệm cũng tăng mạnh.
0
20
40
60
80
100
(%)
FN% FP% NP% PP%
Biểu đồ so sánh khả năng phân loại tế bào
Luật chuyên gia
Luật chuyên gia
biến đổi
Luật trích từ hệ
thống
Hình 5-9: So sánh khả năng phân loại tế bào
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 74
0
20
40
60
80
100
(%)
2 dữ liệu
xuất
7 dữ liệu
xuất
Biểu đồ thể hiện mức độ huấn
luyện mạng (TRN%)
Luật chuyên
gia
Luật chuyên
gia biến đổi
Luật trích từ hệ
thống
Hình 5-10: So sánh mức độ huấn luyện mạng
0
20
40
60
80
100
(%)
2 dữ liệu xuất 7 dữ liệu xuất
Biểu đồ thể hiện mức độ kiểm
nghiệm mạng (CHK%)
Luật chuyên gia
Luật chuyên gia
biến đổi
Luật trích từ hệ
thống
Hình 5-11: So sánh mức độ kiểm nghiệm mạng
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 75
5.3.Đánh giá đề tài
5.3.1.Ưu điểm
¾ Tốc độ học và tốc độ hội tụ của mô hình ANFIS rất nhanh
¾ Thử nghiệm nhiều hệ thống luật để đưa ra được kết quả phân lớp tốt nhất
5.3.2.Khuyết điểm
¾ Chưa thực hiện phân đoạn ảnh tự động vì độ biến thiên màu quá phức tạp
¾ Chưa thử nghiệm trên thủ tục học lai theo mẫu (học trực tuyến)
5.4. ướng phát triển cho đề tài
¾ Theo đề tài muốn xác định tình trạng của mẫu xét nghiệm Pap, vẫn còn một số
khâu bán tự động (phân đoạn ảnh,..). Do vậy định hướng phát triển đầu tiên của
đề tài sẽ là hoàn chỉnh quy trình chẩn đoán ung thư cổ tử cung hoàn toàn tự
động.
¾ Tích hợp thuật giải di truyền vào thủ tục học lai nhằm tận dụng khả năng chọn
lọc của GA để chọn được bộ tham số thích nghi tốt nhất, đồng thời có thể tận
dụng tính thích nghi của GA để phát sinh bộ tham số cho mạng.
¾ Nghiên cứu những thuật toán tối ưu hơn để sử dụng, rút gọn chi phí tính toán
cũng như thời gian thực hiện.
¾ Đưa vào thử nghiệm thực tế để có thể hoàn chỉnh mô hình phân lớp tế bào cổ tử
cung giai đoạn tiền ung thư.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 76
PHỤ LỤC
PHỤ LỤC A: MỘT SỐ KIẾN THỨC Y KHOA CƠ BẢN
Ung thư và ung thư cổ tử cung
Ung thư là bệnh xuất hiện khi tế bào trở nên bất thường và việc phân chia không
thể kiểm soát được hoặc không theo trật tự. Giống như các bộ phận khác của cơ thể, cổ
tử cung bao gồm nhiều loại tế bào khác nhau. Thông thường, tế bào phân chia thành
nhiều tế bào hơn khi cơ thể có nhu cầu. Quá trình diễn ra theo trật tự này giữ cho cơ thể
chúng ta khoẻ mạnh.
Nếu tế bào cứ tiếp tục phân chia khi cơ thể không cần tế bào mới, một khối mô
được hình thành. Khối mô thừa này được gọi là khối u, có thể lành tính hoặc ác tính. U
lành tính không phải là ung thư. Chúng có thể dễ dàng được loại bỏ và trong hầu hết
các trường hợp không xuất hiện trở lại. Ðiều quan trọng nhất là tế bào ở khối u lành
tính không lan sang các bộ phận khác của cơ thể. Khối u lành tính không đe doạ đến
tính mạng. Ngược lại, khối u ác tính chính là ung thư. Tế bào ung thư có thể xâm lấn
và phá huỷ các mô, các cơ quan gần khối u. Ngoài ra, tế bào ung thư còn có thể tách
khỏi khối u ác tính và đi vào hệ thống bạch huyết hoặc là mạch máu. Ðây là cách thức
mà ung thư cổ tử cung có thể lan sang các bộ phận khác của cơ thể. Sự lan đi này được
gọi là sự di căn.
Giống như các loại ung thư khác, ung thư cổ tử cung được gọi tên theo bộ phận
của cơ thể mà ung thư xuất hiện. Ung thư cổ tử cung còn được gọi tên theo loại tế bào
mà nó bắt đầu phát triển. Hầu hết các loại ung thư cổ tử cung là ung thư biểu mô tế bào
gai.
Ðiều kiện tiền ung thư và ung thư cổ tử cung
Tế bào trên bề mặt cổ tử cung đôi khi trở nên bất thường nhưng vẫn chưa phải là
ung thư. Các nhà khoa học tin rằng một số thay đổi bất thường trong tế bào cổ tử cung
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 77
là bước đầu tiên trong một chuỗi thay đổi chậm có thể dẫn tới ung thư nhiều năm sau
đó. Nói cách khác, đó là một số thay đổi bất thường mang tính chất tiền ung thư; chúng
có thể trở thành ung thư theo thời gian.
Nhiều năm qua, các bác sĩ đã sử dụng những thuật ngữ khác nhau để nói tới
những thay đổi bất thường ở những tế bào trên bề mặt cổ tử cung. Một thuật ngữ được
sử dụng hiện nay là tổn thương trong biểu mô tế bào gai (SIL). Những thay đổi ở các tế
bào gai này có thể phân chia thành hai loại:
¾ SIL mức độ thấp đề cập tới những thay đổi sớm về kích thước, hình dáng, và
số lượng tế bào tạo nên bề mặt cổ tử cung. Một số tổn thương mức độ thấp
có thể tự biến mất hoặc có thể trở nên bất thường hơn, tạo nên tổn thương
mức độ cao. Tổn thương tiền ung thư mức độ thấp có thể gọi là hiện tượng
loạn sản nhẹ (CIN 1). Những thay đổi ban đầu như vậy thường xảy ra nhất ở
những phụ nữ tuổi từ 25-35 nhưng cũng có thể xuất hiện ở những nhóm tuổi
khác.
¾ SIL mức độ cao có nghĩa là có một số lượng lớn tế bào có dấu hiệu tiền ung
thư; chúng trông rất khác các tế bào thường. Giống như SIL mức độ thấp,
những thay đổi tiền ung thư này chỉ liên quan tới những tế bào trên bề mặt
cổ tử cung. Những tế bào này sẽ không trở thành ung thư và không xâm lấn
vào những lớp tế bào sâu hơn của cổ tử cung trong nhiều tháng, có thể trong
nhiều năm. Tổn thương mức độ cao còn được gọi là hiện tượng loạn sản mức
độ vừa hoặc nặng (CIN 2 hoặc 3). Chúng thường xuất hiện nhiều nhất ở
những phụ nữ trong độ tuổi từ 30 đến 40 nhưng cũng có thể xảy ra ở những
độ tuổi khác.
¾ Nếu những tế bào bất thường lan sâu hơn vào cổ tử cung hoặc tới các mô
khác hoặc các cơ quan khác, bệnh được gọi là ung thư cổ tử cung, hay ung
thư cổ tử cung thể xâm lấn. Nó thường xảy ra nhất ở những phụ nữ ở độ tuổi
ngoài 40.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 78
Phát hiện sớm
Nếu tất cả phụ nữ được thăm khám vùng chậu và làm xét nghiệm Pap định kỳ
thì hầu hết các điều kiện tiền ung thư sẽ được phát hiện và được điều trị trước khi ung
thư xuất hiện. Hầu hết các loại ung thư thể xâm lấn có thể phòng ngừa được bằng cách
phát hiện bệnh ở giai đoạn sớm và có thể chữa khỏi.
Xét nghiệm Pap là một xét nghiệm đơn giản, không đau, dùng để phát hiện
những tế bào bất thường ở trong và xung quanh cổ tử cung. Nó có thể tiến hành phòng
mạch của bác sĩ hoặc trong bệnh viện. Phụ nữ nên đi khám định kỳ, bao gồm khám
vùng chậu và làm nghiệm pháp Pap, nếu họ ở độ tuổi hoặc đã ở độ tuổi có hoạt động
tình dục hay nếu họ >18 tuổi. Những người có nguy cơ ung thư cổ tử cung tăng cao cần
đặc biệt tuân theo lời khuyên của bác sĩ về việc khám định kỳ. Những phụ nữ đã được
cắt tử cung (phẫu thuật cắt tử cung và cả cổ tử cung) nên hỏi ý kiến bác sĩ về việc
khám vùng chậu và làm xét nghiệm Pap.
Triệu chứng
Những thay đổi tiền ung thư ở cổ tử cung thường không gây đau đớn. Thực tế là
chúng thường không gây ra bất kỳ triệu chứng nào và sẽ không được phát hiện nếu
người phụ nữ không đi khám và làm nghiệm pháp Pap.
Triệu chứng thường không xuất hiện cho đến khi tế bào bất thường ở cổ tử cung
trở thành ung thư và xâm lấn vào các mô bên cạnh. Khi điều này xảy ra thì hiện tượng
thường gặp nhất là ra máu một cách bất thường hoặc ra nhiều khí hư. Tuy nhiên, những
triệu chứng này có thể do ung thư hoặc các bệnh lý khác gây ra, chỉ có bác sĩ mới có
thể khẳng định được. Ðiều quan trọng là người phụ nữ phải đến khám bác sĩ ngay khi
có bất kỳ triệu chứng bất thường nào.
Những đối tượng của bệnh ung thư cổ tử cung
Lứa tuổi mắc ung thư cổ tử cung thường gặp là lứa tuổi trung niên, khoảng từ 48
đến 52. Phụ nữ có các yếu tố sau đây được coi là những nguy cơ có khả năng dễ mắc
bệnh:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 79
¾ Những người phải sống trong điều kiện kinh tế - xã hội thấp kém: nghèo
túng, sống nơi chật chội, ô nhiễm, thiếu vệ sinh; những người ít hiểu biết,
trình độ văn hóa thấp.
¾ Những phụ nữ có quan hệ tình dục sớm.
¾ Những người có quan hệ tình dục với nhiều bạn tình hoặc người chồng có
nhiều bạn tình.
¾ Những người sinh đẻ nhiều lần.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 80
PHỤ LỤC B: PHÂN ĐOẠN ẢNH
Giới thiệu
Phân đoạn ảnh là việc từ một ảnh lấy ra những đối tượng cần quan tâm để phục
vụ cho những bước phân tích tiếp theo. Nó có thể được xem như một quá trình phân
loại điểm ảnh, tức là phân biệt giữa điểm ảnh nền và điểm ảnh đối tượng.
Ở đây, quá trình phân đoạn ảnh là cơ sở để đánh giá các tế bào, bao gồm việc
nhận biết nhân, bào tương và nền. Đây là quá trình mang tính chủ quan cao nhưng cũng
rất quan trọng, vì nó giúp cho việc trích đặc trưng từ ảnh được thực hiện dễ dàng, đồng
thời nó cũng góp phần quan trọng cho việc thực hiện chính xác hệ thống tự động.
Có rất nhiều phương pháp phân đoạn ảnh, chẳng hạn như phân ngưỡng đối
tượng động hoặc tĩnh, xác định cạnh, tăng vùng… Hầu hết các thuật toán phân đoạn
ảnh thông thường này đều có một khuyết điểm chung là không xử lý tốt cho ảnh có độ
tương phản màu sắc giữa các đối tượng thấp. Do đặc tính ảnh tế bào cổ tử cung rất
phức tạp, độ sáng biến thiên không đồng đều, nên thuật toán láng giềng gần nhất sẽ
được sử dụng thay cho các thuật toán xử lý ảnh thông thường khác.
Thuật toán láng giềng gần nhất
Thuật toán láng giềng gần nhất gồm 5 bước:
1. Tính khoảng cách Euclide Di từ z đến từng phần tử xi, với i = 1, …, n
2. Tạo ma trận
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
=
nn
i
cD
cD
A ......
1
và sắp xếp các hàng trong A theo thứ tự tăng của cột 1.
Sau khi sắp xếp, A trở thành:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 81
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
=
2,1,
2,11,1
1 ......
nn aa
aa
A
trong đó a1,1 ≤ a2,1 ≤ … ≤ an,1 là các khoảng cách có thứ tự tăng, và ai,2 là phân lớp
tương ứng của mỗi hàng.
3. cho bj = 0, j = 1, …, C, trong đó C là số nhóm được mô tả trong ci.
4. Lặp lại bước 4 với i = 1, …, k, tăng b(ai,2) với khoảng cách trọng hoá:
( ) ( ) ⎥⎥⎦
⎤
⎢⎢⎣
⎡ −+=
ki
i
ii a
a
abab
,
1,
2,2, 1
5. Ấn định điểm dữ liệu z vào nhóm j sao cho
( ) ( ) Cllbjb ,...,1, =∀≤
Các bước thực hiện phân đoạn ảnh (xem phần hướng dẫn sử dụng)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 82
PHỤ LỤC C: PHƯƠNG PHÁP LỌC KALMAN
Giới thiệu
Lý thuyết thống kê LSE được trình bày bởi Adrien – M. Legen (1806) và Karl
F. Gauss (1809). Ý tưởng LSE cơ bản chính là một phương pháp toán dùng để chuẩn
hoá dữ liệu nhập bằng cách sử dụng một tập các trọng số tối ưu. Kết quả của LSE được
ứng dụng rất nhiều trong lĩnh vực tự động hoá. Tuy nhiên, để thực hiện một nguyên lý
đơn giản đôi khi lại cần hàng loạt những phép tính phức tạp.
Năm 1960, Rudolf E. Kalman đã đưa ra một phương pháp giải quyết tính toán
cho LSE gọi là bộ lọc Kalman. Bộ lọc Kalman là một công cụ toán học mạnh dùng cho
việc mô phỏng hệ thống thế giới thực.
Cơ sở toán học của bộ lọc Kalman
Phương trình độ đo tuyến tính hoá (phương trình quan sát) thể hiện cách mà
vectơ độ đo yt gồm n phần tử phụ thuộc vào vectơ trạng thái st gồm m phần tử và vectơ
lỗi et gồm n phần tử tại thời điểm t:
tttt esHy += , (1)
với t = 1, 2… và s0 cho trước và Ht là ma trận Jacobian.
Phương trình hệ thống tuyến tính hoá (phương trình trạng thái) mô tả sự tiến
triển theo thời gian của toàn hệ thống tại thời điểm t:
tttttt auBsAs ++= −− 11 , (2)
với t = 1, 2,… và s0 cho trước, At là ma trận chuyển tiếp trạng thái, Bt là ma trận gia
lượng điều khiển. Phương trình thể hiện cách mà vectơ trạng thái hiện tại st của toàn hệ
thống phát triển từ trạng thái st-1 trước đó khi nó chịu ảnh hưởng từ sự cưỡng bức điều
khiển ut-1 và các nhiễu ngẫu nhiên at.
Khi lỗi độ đo et và nhiễu hệ thống at hoặc tự động hoặc tương quan chéo, chúng
không tương quan với s0 và hiệp phương sai là:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 83
( ) ( )
( ) ( )⎪⎭
⎪⎬
⎫
==
==
'
'
tttt
tttt
aaEaCovQ
eeEeCovR
(3)
thì phép đệ qui tiến Kalman từ phương trình (4) đến (7) cho ước lượng không lệch
tuyến tính tốt nhất tsˆ của trạng thái st hiện tại như sau:
( )tttttt sHyKss ~~ˆ −+= (4)
trong đó ts~ được dự đoán bằng phương trình trạng thái (2) như sau:
11ˆ~ −− += ttttt uBsAs (5)
trong đó, các ma trận hiệp phương sai lỗi và ước lượng không lệch tuyến tính tốt nhất
được cho:
( ) ( )( ){ }
( ) ( )( ){ } ⎪⎭
⎪⎬
⎫
−=−−=−=
+=−−=−= −
ttttttttttt
ttttttttttt
PHKPssssEssCovP
QAPAssssEssCovP
~~ˆˆˆˆ
ˆ~~~~
'
'
1
'
(6)
trong đó ma trận gia lượng Kalman Kt với t = 1, 2,… được tính là:
( ) 1'' ~~ −+= ttttttt RHPHHPK (7)
Các phép đệ qui từ (4) đến (7) thường được khởi tạo ( )0ˆ 00 ≅= Ess và 0ˆP =
( ) ( )000ˆ sCovssCov =− .
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 84
TÀI LIỆU THAM KHẢO
[1] António Dourado, Rui Pedro Paiva, “Structure and Parameter Learning of Neuro –
Fuzzy Systems: a methodology and a comparative study”, Dept. of Informatics
Engineering, Pólo II of University of Coimbra, P 3030 Coimbra Portugal, Journal of
Intelligent and Fuzzy Systems, IFS 01.383.06.
[2] Antti A.I.Lange, “Statictical calibration of observing systems”, the University of
Helsinki, the Faculty of Social Science, 1999.
[3] Erik Martin, “Pap – Smear classification”, Technical University of Denmark
(DTU), Dept. of Automation, Bldg 326, 2800 Lyngby, Denmark, 2003.
[4] Gary Bishop, Grep Welch, “An introduction to the Kalman filter”, University of
North Carolina at Chapel Hill, Dept. of Computer Science, Chapel Hill.
[5] Hoàng Kiếm, Đỗ Quang Dương, “Kết hợp mạng thần kinh, logic mờ và thuật toán
di truyền giải quyết bài toán tối ưu hoá công thức và quy trình”, Luận văn thạc sĩ, Đại
học Quốc gia TP. HCM, Đại học Khoa học Tự nhiên, Khoa Công nghệ thông tin, 2002.
[6] Jang Jantzen, “Neuronfuzzy Modelling”, Technical University of Denmark (DTU),
Dept. of Automation, Bldg 326, DK-2800 Lyngby, Denmark, 1998.
[7] Jens Byriel, “Neuron – Fuzzy Classification of Cells in Cervical Smears”, Master’s
thesis, Technical University of Denmark, Dept. of Automation, Bldg 326, DK – 2800
Lyngby, Denmark, 1999.
[8] José Victor Ramos and António Dourado, “Evolving Takagi – Sugeno Fuzzy
Models”, Technical report, Center for Informatics and Systems, Adaptive Computation
Group, 2003.
[9] Jyh – Shing Roger Jang, “ANFIS: Adaptive – network – based fuzzy inference
system”, University of California, Dept. of Electrical Engineering and Computer
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 85
Science, Berkeley, CA 94720, IEEE Trans. on Systems, Man and Cybernetics, vol. 23,
no. 3, pp. 665 – 685, 1993.
[10] Jyh – Shing Roger Jang, “Input Selection for ANFIS learning”, National Tsing
Hue University Hsinchu, Dept. of Computer Science, Taiwan.
[11] Jyh – Shing Roger Jang, Chuen – Tsai Sun, “Neuro – Fuzzy Modelling and
Control”, University of California, Dept. of Electrical Engineering and Computer
Science, Berkeley, CA 94720, 1995.
[12] Jyh – Shing Roger Jang, Chuen – Tsai Sun, “Self – Learning Fuzzy Controlers
Based on Temporal Back Propagation”, University of California, Dept. of Electrical
Engineering and Computer Science, Berkeley, CA 94720.
[13] Jyh – Shing Roger Jang, “Neuron – Fuzzy Modelling: Architecture, Analyse and
Application”, University of California, Dept. of Electrical Engineering and Computer
Science, Berkeley, CA 94720, 1992.
[14] Jyh – Shing Roger Jang, Chuen – Tsai Sun, “Structure Determination in Fuzzy
Modelling: a fuzzy CART approach”, The MathWorks, Inc., 24 Prime Park Way,
Natick, Mass. 01760, IEEE International Conference on Fuzzy System, Orlando, 1994.
[15] Landwehr, D., “Web base pap – smear classification”, Master’s thesis, Technical
University of Denmark (DTU), Dept. of Automation, Bldg 326, 2800 Lyngby,
Denmark, 2001.
[16] Lê Hoài Bắc, Nguyễn Thanh Nghị, “Bionet - Hệ chẩn đoán bệnh”, Luận văn thạc
sĩ, Đại học Quốc gia TP. HCM, Đại học Khoa học Tự nhiên, Khoa Công nghệ thông
tin, 2003.
[17] Nguyễn Đình Thúc, “Mạng nơron phương pháp và ứng dụng”, Nhà xuất bản giáo
dục, 2000.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 86
[18] Piero P. Bonissone, “Adaptive neural network inference Systems (ANFIS):
Analysis and Applications”, GE CRD, Schenectady, NY USA, 1997.
[19] Renata Pytelková, “Modelling and Control with Neuro – Fuzzy Systems”, Dept. of
Control Engineering, FEE, CTU, Czech Republic, 2001.
[20] R. P. Paiva, A. Dourado, B.Duarte, “Applying subtractive clustering for Neuro –
Fuzzy modelling of bleaching plant”, Dept. of Informatics Engineering, Pólo II of
University of Coimbra, P 3030 Coimbra Portugal.
[21] R. P. Paiva, A. Dourado, “Comparison of Neuro – Fuzzy structures for System
Identification”, Dept. of Informatics Engineering, Pólo II of University of Coimbra, P
3030 Coimbra Portugal.
[22] R. P. Paiva, A. Dourado, “Development of Interpretable Models through Neuro –
Fuzzy Networks”, Dept. of Informatics Engineering, Pólo II of University of Coimbra,
P 3030 Coimbra Portugal.
[23] Web site về y khoa:
[24] Stephen L. Chiu, “An efficient Method for Extracting Fuzzy Classification Rules
from High Dimensional Data”, J. Advanced Computational Intelligence, Vol. 1, No. 1,
1997.
[25] Stephen L. Chiu, “Extracting fuzzy rules from data for function approximation
and pattern classification”, Chapter 9 in Fuzzy Set Methods in Information
Engineering: A Guided Tour of Application, ed. D. Dubois, H. Prade, R. Yager, John
Wiley, 1997.
Các file đính kèm theo tài liệu này:
- Luận văn-ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư.pdf