Luận văn -Ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư

Luật trích từ hệ thống mô tả rất tốt dữ liệu nhập - xuất. Do đó, mô hình ANFIS sử dụng hệ thống luật này cho một kết quả tốt nhất. Khả năng phân loại tế bào dương tính và âm tính đều tăng lên rõ rệt. Những trường hợp chẩn đoán sai giảm đáng kể. Mức độ huấn luyện và kiểm nghiệm cũng tăng mạnh.

87 trang | Chia sẻ: lylyngoc | Lượt xem: 2444 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận văn -Ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

o loạn sản nhẹ chưa sừng hoá ¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá ¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế bào loạn sản. Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm. Dữ liệu huấn luyện dùng để xây dựng mô hình phân lớp tế bào. Dữ liệu kiểm nghiệm dùng để đánh giá mức độ thực hiện của mô hình. 3.2.3.Các đặc tính tế bào học Các đặc tính của tế bào được dùng để tạo cơ sở dữ liệu cho mô hình ANFIS: ¾ Diện tích nhân ¾ Diện tích bào tương ¾ Độ sáng nhân ¾ Độ sáng bào tương ¾ Đường kính ngắn nhất của nhân KH OA C NT T – Đ H KH TN Trang 39 ¾ Đường kính dài nhất của nhân ¾ Đường kính ngắn nhất của bào tương ¾ Đường kính dài nhất của bào tương ¾ Chu vi nhân ¾ Chu vi bào tương ¾ Vị trí nhân ¾ Vị trí bào tương ¾ Cực đại trong nhân ¾ Cực tiểu trong nhân ¾ Cực đại trong bào tương ¾ Cực tiểu trong bào tương 3.3.Dữ liệu xuất của hệ thống Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số tượng trưng cho phân lớp của tế bào: ¾ 1: tế bào trụ ¾ 2: tế bào gai cận đáy ¾ 3: tế bào gai trung gian ¾ 4: tế bào gai bề mặt ¾ 5: tế bào loạn sản nhẹ chưa sừng hoá ¾ 6: tế bào loạn sản vừa chưa sừng hoá ¾ 7: tế bào loạn sản nặng chưa sừng hoá Đây chính là dữ liệu xuất dùng cho phân lớp tế bào. Nếu chỉ phân lớp là âm tính (tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp tế bào sẽ gồm: ¾ 1: tế bào bình thường ¾ 2: tế bào loạn sản KH OA C NT T – Đ H KH TN Trang 40 3.4.Trích chọn đặc trưng Hình 3-1: Ảnh đã phân đoạn Hãy xem hình 3.1 như một ví dụ về ảnh đã được phân đoạn. Ảnh được phân đoạn thành 3 phần, tượng trưng cho nhân, bào tương và nền, trong đó mỗi phần đánh dấu bằng một màu tương ứng. Trong ảnh này, màu xám sáng biểu thị cho nhân, màu xám tối là bào tương và màu trắng là nền. Như vậy hình 3.1 có thể được gán nhãn lại như hình 3.2. Hình 3-2: Ảnh đã gán nhãn Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là: pixelm pixels m width width a pixel m /201.0 384 16051.77 µµµ === (3.1) Sau đây, các đặc trưng khác nhau sẽ được giải thích và mô phỏng bằng công thức. Qui ước đặt tên cho các đặc trưng là nếu một đặc trưng bắt đầu bằng chữ N thì nó mô tả nhân, C là bào tương. KH OA C NT T – Đ H KH TN Trang 41 3.4.1.Diện tích và tỉ lệ diện tích Diện tích là số điểm ảnh thuộc một lớp nào đó của đối tượng. Hệ số phép biến đổi được sử dụng để tính diện tích theo kích thước vật lý (µm2) bằng cách nhân số điểm ảnh với a2. Tỷ lệ giữa diện tích nhân Narea và diện tích bào tương Carea được định nghĩa: CareaNarea NareaCN +=/ (3.2) Ví dụ: Hình 3-3: Các phép tính diện tích Hình 3.3 chỉ ra số điểm ảnh trong lớp nhân và lớp bào tương. Ta có: 297.0 818.1768.0 768.0/ 818.145 768.019 22 2 22 22 =+=+= =⋅= =⋅= mm m CareaNarea NareaCN maCarea maNarea µµ µ µ µ 3.4.2.Độ sáng Độ sáng là cường độ sáng trung bình của các điểm ảnh của lớp. Mỗi điểm ảnh chứa thông tin về dải màu đỏ (R), xanh lá cây (G), xanh lục (B) với cường độ từ 0 đến 255. Cường độ sáng (I) của một điểm ảnh là trung bình của 3 dải màu này: Blue * 0.114 +Green * 0.587 + Red * .2990=I (3.3) KH OA C NT T – Đ H KH TN Trang 42 Cường độ sáng trung bình được tính: ∑ ∈ == componentyx yx p I N CcolNcolbrightness , , 1)( (3.4) trong đó, Np là số lượng điểm ảnh thuộc lớp. 3.4.3.Đường kính Gồm hai loại: đường kính lớn nhất và đường kính nhỏ nhất. Đường kính lớn nhất là khoảng cách lớn nhất giữa hai điểm tính từ biên. Đường kính nhỏ nhất thẳng góc với đường kính lớn nhất và chiều dài vừa với một hình chữ nhật bao ngoài lớp. Các đường kính được tìm thấy dựa theo biên của mỗi thành phần. Khoảng cách Euclide của tất cả các điểm trên biên được tính và khoảng cách xa nhất chính là đường kính lớn nhất. Đường kính nhỏ nhất ở một phía được tính bằng khoảng cách vuông góc tính từ biên đến đường kính lớn nhất. Cuối cùng, đường kính nhỏ nhất được định nghĩa là tổng hai khoảng cách lớn nhất từ hai phía của đường kính lớn nhất. Các đường kính được tính theo kích thước vật lý bằng cách nhân với a. Ví dụ: Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất Trong hình 3.4 các đường kính tính cho bào tương được xác định theo phương pháp trên. Chú ý hai đường kính nhỏ nhất đều thẳng góc với đường kính lớn nhất. Đường kính nhỏ nhất và lớn nhất được tính theo khoảng cách Euclide: KH OA C NT T – Đ H KH TN Trang 43 ( ) ( ) ( ) ( ) ma yyxxaClong µ100.244.10201.036100 2max_1max_2max_1max_ 22 22 =⋅=−+−⋅= −+−⋅= ( ) ( ) ( ) ( ) ma yyxxaCshort µ025.110.5201.05043 12min_11min_12min_11min_1 22 22 =⋅=−+−⋅= −+−⋅= ( ) ( ) ( ) ( ) ma yyxxaCshort µ636.016.3201.04767 22min_21min_22min_21min_2 22 22 =⋅=−+−⋅= −+−⋅= mCshortCshortCshort µ660.1636.0205.121 =+=+= 3.4.4.Chu vi Chu vi là số điểm ảnh nằm ở biên của lớp. Biên được tính theo µm bằng cách nhân với a. Ví dụ: Biên của bào tương được xác định khi tính đường kính lớn nhất và nhỏ nhất của nó (xem hình 3.4). Như hình vẽ, biên của bào tương gồm 26 điểm ảnh. Như vậy chu vi bào tương là: maCperi µ225.526 =⋅= 3.4.5.Vị trí nhân Tâm của một lớp ( )yx ˆ,ˆ được xem như tâm của trọng lực. Để tính tâm của trọng lực, trước tiên cần tính các mô men: ∑ ∈ ⋅= componentyx qp qp yxM , , (3.5) areaM componentyx == ∑ ∈, 0,0 1 (3.6) ∑ ∈ = componentyx xM , 0,1 (3.7) ∑ ∈ = componentyx yM , 1,0 (3.8) KH OA C NT T – Đ H KH TN Trang 44 0,0 0,1ˆ M M x = (3.9) 0,0 1,0ˆ M M y = (3.10) Khi các tâm được tính cho cả nhân ( )nn yx ˆ,ˆ và bào tương ( )cc yx ˆ,ˆ , một vị trí tương quan được tính theo đường kính lớn nhất cho bào tương: ( ) ( ) Clong yyxxa Npos cncn 22 ˆˆˆˆ2 −+−⋅= (3.11) Đặc trưng này chứng tỏ vị trí của nhân trong bào tương. Ví dụ: Hình 3-5: Tâm của trọng lực đối với nhân và bào tương Trong hình 3.5 tâm của trọng lực được tính cho cả lớp nhân và bào tương: 59.4 45 220ˆ ≈==cx 48.3 45 173ˆ ≈==cy 51.5 19 98ˆ ≈==nx 34.3 19 66ˆ ≈==ny KH OA C NT T – Đ H KH TN Trang 45 Cho nên, vị trí tương quan được tính: ( ) ( ) ( ) ( ) 191.0 100.2 4355201.02 ˆˆˆˆ2 22 22 =−+−⋅= −+−⋅= Clong yyxxa Npos cncn 3.4.6.Độ giãn dài Độ giãn dài là tỷ lệ giữa chiều dài đường kính nhỏ nhất và chiều dài đường kính lớn nhất. Khi tỷ lệ này tiến đến 1 thì lớp gần như là hình vuông. long shortelong = (3.12) Ví dụ: Đường kính lớn nhất và nhỏ nhất của bào tương được dùng để tính độ giãn dài: 79.0 100.2 660.1 === Clong CshortCelong 3.4.7.Độ tròn Độ tròn là tỷ lệ giữa diện tích đường tròn bao và diện tích lớp. Đường tròn bao lấy đường kính lớn nhất của thành phần làm đường kính. Nếu tỷ lệ tiến đến 1 thì lớp là tròn, và nếu tỷ lệ tiến đến 0 thì lớp gần như là đường thẳng. 22 4 2 long area long arearound ⋅ ⋅= ⎟⎠ ⎞⎜⎝ ⎛⋅ = ππ (3.13) KH OA C NT T – Đ H KH TN Trang 46 Ví dụ: Hình 3-6: Đường tròn cực tiểu cho nhân Trong hình 3.6 đường tròn bao được sử dụng cho lớp nhân. Độ tròn được tính sử dụng đường kính lớn nhất 1.35µm (chưa tính trong ví dụ trước), và diện tích nhân 0.768µm2 (từ ví dụ diện tích): 54.0 35.1 768.044 22 =⋅ ⋅=⋅ ⋅= ππ Nlong NareaNround 3.4.8.Cực đại, cực tiểu Cực đại, cực tiểu là giá trị số lượng giá trị cường độ xám lớn nhất, nhỏ nhất thuộc đối tượng (nhân, bào tương). Chương trình sẽ kiểm tra tất cả các điểm ảnh thuộc đối tượng. Nếu điểm ảnh có giá trị cường độ sáng lớn nhất / nhỏ nhất khi so sánh với các điểm ảnh nằm trong bán kính 3 điểm ảnh, thì biến đếm tăng lên 1. 3.5.Các đặc trưng rút trích STT Đặc trưng Viết tắt Được tính từ 1 Diện tích nhân Narea 2 Diện tích bào tương Carea 3 Tỷ lệ nhân / bào tương N/C Narea, Carea 4 Độ sáng nhân Ncol KH OA C NT T – Đ H KH TN Trang 47 5 Độ sáng bào tương Ccol 6 Đường kính ngắn nhất của nhân Nshort 7 Đường kính dài nhất của nhân Nlong 8 Độ giãn dài của nhân Nelong Nshort, Nlong 9 Độ tròn của nhân Nround Narea, Nlong 10 Đường kính ngắn nhất bào tương Cshort 11 Đường kính dài nhất của bào tương Clong 12 Độ giãn dài của bào tương Celong Cshort, Clong 13 Độ tròn của bào tương Cround Carea, Clong 14 Chu vi nhân Nperim 15 Chu vi bào tương Cperim 16 Vị trí nhân Npos 17 Cực đại trong nhân Nmax 18 Cực tiểu trong nhân Nmin 19 Cực đại trong bào tương Cmax 20 Cực tiểu trong bào tương Cmin Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu KH OA C NT T – Đ H KH TN Trang 48 Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH ANFIS Phân loại tế bào ung thư cổ tử cung là giai đoạn quan trọng nhất trong hệ thống khám sàng lọc tự động. Việc phân loại sử dụng mô hình ANFIS sẽ cho kết quả tốt hơn những phương pháp gom cụm thông thường khác như: k – trung bình, láng giềng gần nhất, gom cụm mờ… Chương này sẽ giới thiệu những hệ thống cơ sở luật mà ANFIS thực hiện để cho kết quả tốt nhất có thể. 4.1.Cấu trúc ANFIS trong phân loại tế bào cổ tử cung 4.1.1.Hệ thống suy luận mờ Không mất tính tổng quát, xét một hệ suy luận gồm 2 đặc trưng của nhân: kích thước, độ sáng và 4 luật chuyên gia sau: Luật Diện tích nhân Độ sáng nhân Phân lớp 1 nhỏ tối bình thường 2 lớn sáng loạn sản nhẹ 3 lớn trung bình loạn sản 4 lớn sáng loạn sản nặng Bảng 4-1: Ví dụ luật mờ phân loại tế bào Như vậy với cơ sở luật như trên thì các luật Sugeno bậc 0 tương ứng là: 1. Nếu x là A1 và y là B3 thì z1 = p1 2. Nếu x là A2 và y là B1 thì z2 = p2 KH OA C NT T – Đ H KH TN Trang 49 3. Nếu x là A2 và y là B2 thì z3 = p3 4. Nếu x là A2 và y là B3 thì z4 = p4 với x là diện tích nhân và y là độ sáng nhân, và zi là dữ liệu xuất của luật thứ i. Ngưỡng kích hoạt wi của mỗi luật được xác định trong phần giả thiết của luật và được tính bằng: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )yxw yxw yxw yxw BA BA BA BA 32 22 12 31 4 3 2 1 µµ µµ µµ µµ ×= ×= ×= ×= (4.1) trong đó ( )xA 2,1µ và ( )yB 3,2,1µ là các hàm thành viên của dữ liệu nhập x và y, chúng thể hiện mức độ thỏa mãn của dữ liệu nhập với tập A = {A1,A2,B1,B2,B3}. Các hàm thành viên này được chọn theo dạng chuông: ib i i A a cx 2)(1 1 −+ =µ (4.2) với {ai,bi,ci} là các tham số giả thiết, xác định hình dạng thật sự của các hàm thành viên (Hình 4.1). Với một bộ dữ liệu nhập bất kì, toàn bộ dữ liệu xuất z của hệ thống suy luận mờ được xác định bằng cách dùng các ngưỡng kích hoạt trọng hoá của mỗi luật: 4321 44332211 wwww zwzwzwzw w zw z i i i ii +++ +++== ∑ ∑ (4.3) Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông KH OA C NT T – Đ H KH TN Trang 50 4.1.2.Cấu trúc ANFIS Hệ thống suy luận mờ mô tả ở phần trước có thể được thực hiện bằng một cấu trúc ANFIS tương ứng hình sau: Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật Mạng được chia thành 5 lớp như hình 4.2. Dữ liệu nhập được đưa vào lớp nhập, và các phép tính được thực hiện từ trái sang phải. Dữ liệu xuất của lớp xuất là tổng dữ liệu xuất z. Các lớp giữa lớp nhập và lớp xuất được gọi là các lớp ẩn. Mỗi lớp chứa một hoặc nhiều nút. Dữ liệu xuất của nút thứ i trong lớp thứ k được kí hiệu là kiO . Lớp 1: Các nút trong lớp nhập có dữ liệu xuất tính theo công thức (4.2): ( ) ( ) 5,4,3 2,1 1 1 == == ikhiyO ikhixO i i Bi Ai µ µ (4.4) Các nút trong lớp nhập thích nghi tương ứng các tham số giả thiết {ai,bi,ci}. Lớp 2: Các nút trong lớp thứ hai chứa các ngưỡng kích hoạt của luật theo công thức (4.1): ii wO =2 (4.5) KH OA C NT T – Đ H KH TN Trang 51 Lớp 3: Các nút trong lớp thứ ba tính trọng hoá các ngưỡng kích hoạt: ∑== iiii w wwO3 (4.6) Lớp 4: Các nút trong lớp thứ tư tính trọng hoá dữ liệu xuất của mỗi luật: iiiii pwzwO ==4 (4.7) trong đó pi là các tham số kết quả của các hệ thống. Lớp 5: Lớp thứ năm là lớp xuất. Hàm nút sẽ tính tổng dữ liệu xuất bằng tổng tất cả các tín hiệu vào theo công thức (4.3): ∑ ∑ ∑== i i i ii ii w zw OO 45 (4.8) 4.1.3.Huấn luyện ANFIS Mỗi chu kì huấn luyện cấu trúc ANFIS được thực hiện bởi 2 quá trình: quá trình tiến và và quá trình lùi. Trong quá trình tiến, các tham số kết quả được xác định bằng phương pháp bình phương cực tiểu. Trong quá trình lùi, các tín hiệu lỗi lan truyền ngược và độ giảm gradient thường được dùng để xác định các tham số giả thiết. Chính vì vậy mà phương pháp này được xem như một thuật toán học lai ghép. Dữ liệu huấn luyện chứa tập các vector dữ liệu vào gồm P vectơ (mục). 4.1.3.1.Quá trình tiến Trong quá trình tiến, dữ liệu nhập được đưa vào mạng, và dữ liệu xuất được tính toán cho từng nút, từ lớp nhập đến lớp xuất. Các tham số kết quả thích nghi được tìm thấy bằng cách tính phương trình ma trận AX = B, trong đó X là một vector M × 1 chứa các tham số kết quả với M chưa biết, A là ma trận P × M chứa những dữ liệu xuất thực KH OA C NT T – Đ H KH TN Trang 52 sự (dữ liệu thực), được mô tả như một tổ hợp tuyến tính tương ứng với các tham số kết quả, B là một vector P × 1, chứa dữ liệu xuất mong muốn (dữ liệu đích). Phương trình ma trận được tính bằng phương pháp ước lượng bình phương cực tiểu (LSE – Least squares estimate): ( ) 1,...,1,0, 1 11 11 1 11111 −=+−= −+= ++ ++ + +++++ Pi aSa SaaS SS XabaSXX ii T i i T iii ii i T i T iiiii (4.9) trong đó, LSE của X bằng Xp, và hàng thứ i của A và thành phần thứ i của B là a Ti và b Ti . Giá trị khởi tạo của X là X0 = 0. S0 = γI, trong đó I là ma trận đồng nhất M x M, và γ là số dương lớn. 4.1.3.2.Quá trình lùi Quá trình lùi sẽ lan truyền ngược tín hiệu lỗi của dữ liệu xuất để tìm ra các tham số giả thiết của mạng. Xét một mạng dữ liệu xuất đơn giản gồm L lớp, trong đó N(l) là số lượng nút của lớp l. Nút thứ i tại lớp l có dữ liệu xuất xl,i và hàm truyền fl,i. Tập huấn luyện có P mục, và dp biểu hiện dữ liệu đích cho mục p. Độ đo lỗi Ep tương ứng mục thứ p trong dữ liệu huấn luyện là: ( )21,Lpp xdE −= (4.10) Vấn đề của lan truyền ngược chính là phải cực thiểu hoá tổng lỗi ∑ == pp pEE 1 bằng cách thay đổi các tham số giả thiết. Để thực hiện điều này, chúng ta cần xem xét các tín hiệu lỗi il ,ε , chính là đạo hàm riêng của Ep tương ứng với dữ liệu xuất của nút thứ i tại lớp l: il p il x E , , ∂ +∂=ε (4.11) KH OA C NT T – Đ H KH TN Trang 53 Tín hiệu lỗi 1,Lε tại lớp xuất là: ( ) ( )1, 1, 2 1, 1, 2 Lp L Lp L xdx xd −−=∂ −∂=ε (4.12) Đối với các nút ở lớp ẩn, tín hiệu lỗi là đạo hàm một luật dãy: ∑∑ + = + + + = + + ∂ ∂=∂ ∂ ∂ +∂=∂ +∂= )1( 1 , ,1 ,1 )1( 1 , ,1 ,1, , lN m il ml il lN m il ml ml p il p il x f x f x E x E E ε (4.13) Như vậy, các tín hiệu lỗi tại lớp l có thể được tìm thấy nếu biết các tín hiệu lỗi của lớp l+1. Đây là trường hợp cho lớp xuất, và bằng cách dùng phương trình 4.12 cho đến khi đến được lớp thứ l, và suy ra il ,ε . Bước kế tiếp để tìm vector gradient, tức là tìm đạo hàm của độ đo lỗi tương ứng mỗi tham số lý thuyết α. Khi α là một tham số thích nghi của nút i tại lớp l, chúng ta lấy (bằng cách dùng lại chuỗi luật) định nghĩa sau: αεαα ∂ ∂=∂ ∂ ∂ +∂=∂ +∂ il il il il pp ff x EE , , , . (4.14) Đạo hàm của toàn bộ độ đo lỗi E tương ứng α là: ∑ = ∂ +∂=∂ +∂ P p pEE 1 αα Dùng phương pháp giảm nhanh, công thức cập nhật cho một tham số lý thuyết α trở thành: αηα ∂ +∂−=∆ E (4.15) ααα ∆+=new (4.16) trong đó η là tốc độ học, được định nghĩa: η = ∑ ∂∂α α 2)( E k (4.17) trong đó k là kích thước bước. KH OA C NT T – Đ H KH TN Trang 54 4.2.Các hệ thống luật mờ trong phân loại tế bào 4.2.1.Luật chuyên gia Năm 1996, Voss đã đưa ra 4 luật cơ bản dùng cho phân lớp tế bào dựa vào thông tin tế bào học ở bảng 1.1. Các luật này được trình này tại bảng 4.2. Các chuyên gia sẽ dựa trên kiến thức và kinh nghiệm của bản thân để đề xuất ra các luật loại này. Luật Diện tích nhân Tỉ lệ diện tích Độ sáng bào tương Độ sáng nhân Dữ liệu xuất 1 nhỏ nhỏ sáng tối bình thường 2 lớn lớn sáng sáng loạn sản 3 lớn lớn sáng tối loạn sản 4 lớn lớn tối tối loạn sản Bảng 4-2: Luật chuyên gia 4.2.2.Luật chuyên gia biến đổi Luật chuyên gia chỉ có thể giải thích tốt khả năng suy luận của con người, chứ không mô tả tốt dữ liệu đã được số hoá, nên khi thực hiện hệ thống, tuỳ theo kết quả phân lớp của luật chuyên gia, chúng ta có thể bổ sung thêm dữ liệu huấn luyện cho những phần mà luật thiếu hoặc tạo luật chuyên gia biến đổi như bảng 4.2. Luật Diện tích nhân Tỉ lệ diện tích Độ sáng nhân Độ sáng bào tương Dữ liệu xuất 1 nhỏ không nhỏ sáng tối bình thường 2 nhỏ trung bình tối tối bình thường 3 nhỏ nhỏ tối sáng bình thường KH OA C NT T – Đ H KH TN Trang 55 4 lớn trung bình sáng sáng loạn sản 5 lớn không nhỏ sáng sáng loạn sản 6 lớn lớn sáng sáng loạn sản 7 lớn lớn tối tối loạn sản Bảng 4-3: Luật chuyên gia biến đổi 4.2.3.Luật trích dẫn từ hệ thống 4.2.4.Lựa chọn tập đặc trưng 4.2.4.1.Giới thiệu chung về lựa chọn đặc trưng Trong vấn đề mô hình hóa thế giới thực, việc một cấu trúc cần hàng chục thậm chí hàng trăm đặc trưng nhập vào không phải là hiếm. Một số lượng đặc trưng lớn như vậy không chỉ làm suy giảm tính rõ ràng của mô hình, mà còn làm tăng độ phức tạp của việc tính toán trong quá trình xây dựng mô hình. Vì vậy, việc lựa chọn đặc trưng rất cần thiết nhằm tìm ra độ ưu tiên cho mỗi đặc trưng ứng viên và sử dụng chúng một cách thích hợp. Mục đích của việc lựa chọn đặc trưng: ¾ Loại bỏ các đặc trưng nhiễu / không thích hợp ¾ Loại bỏ các đặc trưng có thể suy ra được từ các đặc trưng khác ¾ Tạo mô hình cơ bản ngắn gọn và rõ ràng hơn ¾ Giảm thời gian xây dựng mô hình 4.2.4.2.Thuật giải chọn đặc trưng Thuật giải chọn đặc trưng (simulated annealing) đơn giản gồm 6 bước: 1. Chọn một điểm khởi tạo ngẫu nhiên x. Đặt biến lặp k = 1 2. Xác định hàm đích: E = f(x) 3. Đặt xnew = x + ∆x, trong đó ∆x là thay đổi nhỏ ngẫu nhiên so với x KH OA C NT T – Đ H KH TN Trang 56 4. Tính giá trị mới của hàm đích: Enew = f(xnew) 5. Nếu Enew < E thì x = xnew và E = Enew 6. Tăng k = k + 1. Nếu k đạt giá trị cực đại K thì thuật toán ngừng. Ngược lại, quay lại bước 3. Trong đó, một giải pháp x là một tổ hợp của b đặc trưng chọn từ cơ sở dữ liệu. Hàm đích f(x) bằng RMSE của quá trình phân lớp dùng các đặc trưng trong x. Chiến lược lựa chọn điểm khởi tạo x là: 1. Cho s là danh sách các đặc trưng có sẵn (n = 20): s = [s1, s2, …, sn] 2. Cho x là danh sách b phần tử lựa chọn ngẫu nhiên từ s 3. Loại bỏ các phần tử thuộc x ra khỏi s Chiến lược lựa chọn ∆x và xnew là: 1. Chọn ∆x là phần tử lựa chọn ngẫu nhiên từ s, và loại bỏ ∆x khỏi s 2. Chọn ∆s là phần tử lựa chọn ngẫu nhiên từ x, và loại bỏ ∆s khỏi x 3. Cộng ∆x vào x để lấy xnew = x + ∆x 4. Cộng ∆s vào s 4.2.5.Rút trích luật 4.2.5.1.Giới thiệu chung về trích luật Việc mô hình hoá thế giới thực thường liên quan đến hàng chục (thậm chí hàng trăm) đặc trưng cho cấu trúc của mô hình. Bên cạnh việc lựa chọn tốt tập đặc trưng, thì việc trích luật từ hệ thống cũng rất đóng vai trò quan trọng vào hiệu quả của cấu trúc ANFIS. Thuật toán gom cụm loại trừ (subtractive clustering) được dùng để phát sinh số lượng luật và hệ thống luật cho cấu trúc ANFIS phân lớp tế bào. Từ một tập dữ liệu nhập và xuất, gom cụm loại trừ có thể trích ra một tập luật mô tả hành vi của dữ liệu cùng với số lượng luật và các hàm thành viên của chúng. Nó là một thuật toán học không giám sát, dựa trên độ đo mật độ các điểm dữ liệu trong không gian đặc trưng. KH OA C NT T – Đ H KH TN Trang 57 4.2.5.2.Thuật toán gom cụm loại trừ Xét tập gồm K điểm dữ liệu tượng trưng bởi các vectơ m chiều uk, k = 1, 2, …, K. Không mất tính tổng quát, giả sử các điểm dữ liệu chuẩn hoá. Khi mỗi điểm dữ liệu là một ứng viên cho một tâm nhóm, một độ đo mật độ tại điểm dữ liệu uk được định nghĩa: ( )∑= ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −−= K j a jk k r uu D 1 22/ exp (4.18) trong đó ra là một hằng số dương. Vì vậy, một điểm dữ liệu sẽ có giá trị mật độ cao nếu nó có nhiều điểm dữ liệu lân cận và chỉ những lân cận mờ trong bán kính ra góp phần vào độ đo mật độ. Sau khi tính độ đo mật độ cho mỗi điểm dữ liệu, điểm có mật độ cao nhất được chọn làm tâm nhóm đầu tiên. Đặt 1c u là điểm được chọn và 1c D là độ đo mật độ. Kế tiếp, độ đo mật độ cho mỗi điểm dữ liệu uk được sửa lại theo công thức: ( ) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −−−= 2' 2/exp 1 1 b Ck Ckk r uu DDD (4.19) trong đó, rb là hằng số dương. Do đó, các điểm dữ liệu gần tâm nhóm đầu tiên 1cu sẽ giảm đáng kể độ đo mật độ, bằng cách ấy tạo ra các điểm không thể được chọn làm tâm kế tiếp. Hằng số rb định nghĩa một lân cận được giảm độ đo mật độ. Nó thường lớn hơn ra để ngăn các tâm nhóm đặt gần nhau: rb = 1.5 * ra. Sau khi độ đo mật độ của mỗi điểm được sửa lại, tâm nhóm thứ hai 2c u được chọn và tất cả các độ đo mật độ được cập nhật lại. Quá trình lặp lại cho đến khi không còn điểm dữ liệu tiềm năng nào, thông thường sử dụng chuẩn Dk’ < 0.15D1. 4.2.5.3.Trích luật Khi áp dụng gom cụm loại trừ vào tập dữ liệu nhập - xuất của một phân lớp, mỗi tâm nhóm tượng trưng cho một luật của phân lớp đó. Để phát sinh luật, mỗi tâm nhóm KH OA C NT T – Đ H KH TN Trang 58 được xem như tâm của các tham số giả thiết trong loại luật mờ singleton. Giả sử 1c u là tâm nhóm nằm trong phân lớp c1 thì ta sẽ có luật: Luật i: Nếu {u là 1c u } thì phân lớp là c1. Tương tự cho các luật nằm trong những phân lớp còn lại. Với phương pháp chọn đặc trưng và trích luật như vậy, chương trình rút ra được 2 hệ thống luật: 9 đặc trưng, 27 luật, 2 dữ liệu xuất và 9 đặc trưng, 34 luật, 7 dữ liệu xuất, tất cả được mô tả trong chương 5. KH OA C NT T – Đ H KH TN Trang 59 Chương 5: TỔNG KẾT 5.1.Chương trình 5.1.1.Công cụ sử dụng ¾ Môi trường lập trình: VC++.Net 2003 ¾ Dữ liệu: 500 ảnh tế bào cổ tử cung 5.1.2.Cấu trúc thư mục và tập tin Chương trình gồm 2 phần chính: huấn luyện và thử nghiệm (thư mục Learning), và phân lớp tế bào (thư mục Checking). Dữ liệu xuất của Learning chính là dữ liệu nhập (các tham số mạng thích nghi) của Checking. Sau đây là nội dung một số tập tin tham số của chương trình: Thư mục Learning: alldata.dat: gồm 500 dòng, mỗi dòng chứa 21 dữ liệu nhập tương ứng 21 đặc trưng. anfis.conf: gồm 6 dòng, chứa thông tin mô hình ANFIS ¾ Dòng 1: Số đặc trưng được chọn (n_in) ¾ Dòng 2: Số lượng hàm thành viên (n_mf) ¾ Dòng 3: Số lượng luật (n_rule) ¾ Dòng 4: Số lượng phân lớp (n_class) ¾ Dòng 5: Đường dẫn tập tin para.inp ¾ Dòng 6: Đường dẫn tập tin rule.inp KH OA C NT T – Đ H KH TN Trang 60 para.inp: chứa các tham số nhập vào cho mô hình ANFIS ¾ Gồm (n_in * n_mf) dòng, mỗi dòng chứa 3 tham số a, b, c của hàm thành viên ¾ Dòng thứ (n_in * n_mf + 1) chứa (n_rule) số, thể hiện dữ liệu xuất của từng luật para.fin: chứa các tham số của mô hình ANFIS ¾ Gồm (n_in * 4) dòng, mỗi dòng chứa 3 tham số a, b, c mới của hàm thành viên ¾ (n_rule) dòng kế tiếp lưu trữ tham số kết quả của mạng rule.inp: gồm (n_rule) dòng, mỗi dòng chứa (n_in) số trong khoảng từ 0 đến 3, thể hiện mức độ phụ thuộc của hàm thành viên. trainning.conf: gồm 2 dòng ¾ Dòng 1: Số lượng dữ liệu huấn luyện ¾ Dòng 2: gồm 20 con số 1 hoặc 0 tương ứng 20 đặc trưng được chọn hoặc không. Thư mục Checking: alldata.dat, rule.inp: Giống phần Learning anfis.conf: gồm 5 dòng, chứa thông tin mô hình ANFIS ¾ Dòng 1: Số đặc trưng được chọn (n_in) ¾ Dòng 2: Số lượng hàm thành viên (n_mf) ¾ Dòng 3: Số lượng luật (n_rule) ¾ Dòng 4: Đường dẫn tập tin para.inp ¾ Dòng 5: Đường dẫn tập tin rule.inp mydata_f.dat: chứa các vectơ dữ liệu gồm 21 đặc trưng KH OA C NT T – Đ H KH TN Trang 61 mydata_n.dat: chứa tên tập tin ảnh tương ứng với dữ liệu ở mydata_f.dat. para.inp: chính là para.fin của learning 5.1.3.Hướng dẫn sử dụng chương trình Gồm 2 chương trình: Learning và Checking. Giao diện của Learning: Hình 5-1: Giao diện màn hình huấn luyện Các bước thực hiện huấn luyện: ¾ Bước 1: Gõ đường dẫn thư mục chứa các tập tin tham số vào text box Data Path (./Params/ là đường dẫn mặc định) ¾ Bước 2: Nhập vào số lượng chu kì huấn luyện tại text box Epochs ¾ Bước 3: Nhấn nút Start để bắt đầu huấn luyện ¾ Bước 4: Nếu muốn huấn luyện tiếp, lặp lại bước 2 Ngược lại, nhấn nút Exit để thoát khỏi chương trình. thông số mô hình kết quả huấn luyện KH OA C NT T – Đ H KH TN Trang 62 Sau khi thực hiện, learning sẽ cho các thông số kết quả của huấn luyện và thời gian thực hiện: Hình 5-2: Giao diện khi huấn luyện xong Hình 5.2 thể hiện kết quả huấn luyện của mô hình ANFIS gồm 9 đặc trưng, mỗi đặc trưng có 4 biến ngôn ngữ, và hệ thống 31 luật. Dữ liệu huấn luyện 250 mẫu, dữ liệu kiểm tra 250 mẫu. KH OA C NT T – Đ H KH TN Trang 63 Giao diện của Checking: Hình 5-3: Giao diện chính của Checking Các bước thực hiện phân lớp tế bào: ¾ Bước 1: Load ảnh tế bào bằng cách bấm nút Load Image Hình 5-4: Load ảnh đặc trưng ảnh KH OA C NT T – Đ H KH TN Trang 64 ¾ Bước 2: Phân đoạn ảnh bằng cách bấm nút Segmentation, màn hình phân đoạn sẽ xuất hiện: Hình 5-5: Phân đoạn ảnh Để phân đoạn ảnh, cần phải nhấn Boudary để chọn tế bào cần tính đặc trưng (có thể không chọn, nhưng việc tính đặc trưng tế bào ở bước sau sẽ không chính xác), sau đó lần lượt đánh dấu các phần ảnh cần phân đoạn thành nhân, bào tương và nền. Bấm nút Segment để phân đoạn ảnh, ta thu được ảnh đã phân đoạn chưa khử nhiễu. Để loại bỏ nhiễu, chọn nút Remove Small với bán kính xóa nhiễu nhập tại textbox Radius (thông thường là 12) tương ứng với nhân, bào tương và nền. Khi đã hài lòng về kết quả phân đoạn, bấm Ok để tiếp tục thao tác chương trình. Ngược lại, nếu muốn phân đoạn ảnh lại từ đầu, nhấn Reset. KH OA C NT T – Đ H KH TN Trang 65 Hình 5-6: Ảnh đã phân đoạn Hình 5-7: Ảnh đã phân đoạn sau khi loại bỏ nhiễu ¾ Bước 3: Thực hiện tính đặc trưng tế bào bằng cách nhấn nút Calc Feas ¾ Bước 4: Phân lớp tế bào bằng cách nhấn nút Checking ¾ Bước 5: Lưu vào cơ sở dữ liệu bằng cách nhấn nút Update Features ¾ Bước 6: Nếu muốn tiếp tục, quay lại bước 1 Ngược lại, nhấn nút Exit để thoát khỏi chương trình KH OA C NT T – Đ H KH TN Trang 66 Sau khi thực hiện các bước như trên, hệ thống sẽ cho kết quả chẩn đoán tế bào như sau: Hình 5-8: Giao diện Checking sau khi chẩn đoán Theo kết quả như vậy, chúng ta có thể xác định được tế bào này là tế bào bình thường, không bị nghi ngờ tiền ung thư. 5.2.Mức độ thực hiện chương trình 5.2.1.Luật chuyên gia Luật chuyên gia theo bảng 4.1 được số hóa thành bảng sau: Luật #1 #4 #5 #3 2 dữ liệu xuất 7 dữ liệu xuất 1 0 3 0 0 1 1 2 3 0 0 3 2 5 3 3 3 0 3 2 6 4 3 3 3 3 2 7 Bảng 5-1: Luật chuyên gia số hóa KH OA C NT T – Đ H KH TN Trang 67 Mức độ huấn luyện mạng tốt nhất: Tiêu chuẩn 2 dữ liệu xuất (58 chu kì huấn luyện) 7 dữ liệu xuất (124 chu kì huấn luyện) RMSE 0.300950 0.543341 FN% 2.00% 63.16% FP% 28.28% 12.72% PP% 84.00% 56.00% NP% 95.95% 75.88% TRN% 87.20% 71.60% Sensitivity 98.00% 36.84% Specificity 71.72% 87.28% Time trainning 2(s) 5(s) Bảng 5-2: Mức độ thực hiện luật chuyên gia Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác: Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất RMSE 0.360433 0.7181176 CHK% 85.60% 70.00% Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia Nhận xét: Bộ luật chuyên gia với 2 dữ liệu xuất phân loại tốt với những tế bào được chẩn đoán là âm tính. Với 7 dữ liệu xuất, luật chuyên gia thực hiện kém đi rất nhiều. Lý do chính là vì luật chuyên gia không mô tả tốt được dữ liệu nhập - xuất mà chỉ phụ thuộc vào ý kiến chủ quan của con người. Do đó, cần phải thực hiện thêm nhiều bộ dữ liệu huấn luyện để tăng khả năng thực hiện của mô hình. KH OA C NT T – Đ H KH TN Trang 68 5.2.2.Luật chuyên gia biến đổi Luật chuyên gia biến đổi theo bảng 4.2 được số hóa như sau: Luật #1 #3 #4 #5 2 dữ liệu xuất 7 dữ liệu xuất 1 0 1 0 3 1 1 2 0 2 3 3 1 2 3 0 0 3 0 1 3 4 3 2 0 0 2 5 5 3 1 0 0 2 6 6 3 3 0 0 2 7 7 3 3 3 3 2 7 Bảng 5-4: Luật chuyên gia biến đổi số hóa Mức độ huấn luyện mạng tốt nhất: Tiêu chuẩn 2 dữ liệu xuất (123 chu kì huấn luyện) 7 dữ liệu xuất (89 chu kì huấn luyện) RMSE 0.299719 0.772719 FN% 10.23% 76.74% FP% 23.29% 19.42% NP% 75.68% 83.42% PP% 90.29% 20.00% TRN% 85.60% 70.40% Sensitivity 89.77% 23.26% Specificity 76.71% 80.58% Time trainning 6(s) 5(s) Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi KH OA C NT T – Đ H KH TN Trang 69 Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác: Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất RMSE 0.381556 3.467845 CHK% 79.60% 68.00% Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi Nhận xét: Luật chuyên gia biến đổi tuy làm tăng khả năng phân loại tế bào chẩn đoán dương tính, nhưng đồng thời lại làm giảm khả năng nhận biết các tế bào âm tính, bởi vì luật này thay đổi dựa trên những quan sát thông thường của con người nên vẫn không mô tả tốt dữ liệu, nó chỉ có thể khắc phục được một số sai sót về một phương diện nào đó mà thôi. 5.2.3.Luật trích từ hệ thống Sử dụng thuật giải subtractive clustering, 9 đặc trưng sau là tập đặc trưng tốt dùng cho phân lớp tế bào: #2, #4, #6, #9, #10, #11, #14, #16, #17. Bảng sau mô tả các luật trích từ hệ thống, sử dụng thuật toán subtractive clustering: Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất 1 3 0 0 1 3 3 0 0 0 1 2 0 3 0 1 0 0 0 3 0 1 3 1 2 1 2 1 0 2 3 1 1 4 0 0 1 2 0 0 0 1 1 1 5 0 0 0 1 0 0 0 1 0 1 KH OA C NT T – Đ H KH TN Trang 70 6 2 0 1 1 1 1 1 0 2 1 7 2 0 0 1 1 1 0 1 1 1 8 2 0 1 0 2 2 3 1 2 1 9 2 0 1 0 2 2 3 1 3 1 10 3 0 1 3 3 3 0 0 0 1 11 3 1 0 2 3 3 0 1 0 1 12 3 0 1 1 3 3 0 2 1 1 13 3 3 2 2 3 3 0 1 1 1 14 3 2 1 3 3 3 1 1 1 1 15 3 0 0 2 3 3 0 0 0 1 16 3 3 1 2 3 3 0 0 1 1 17 2 2 2 1 2 2 1 2 2 2 18 2 1 2 2 2 2 1 0 3 2 19 2 1 2 2 2 1 2 0 2 2 20 2 3 2 0 2 3 3 1 2 2 21 3 0 0 3 3 3 0 2 0 2 22 3 0 0 3 3 3 0 3 0 2 23 3 1 0 0 3 3 0 0 0 2 24 3 3 2 2 3 2 2 0 2 2 25 1 1 3 1 2 1 3 0 3 2 26 2 3 2 0 2 1 3 3 3 2 27 2 3 1 2 2 1 2 2 1 2 Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất KH OA C NT T – Đ H KH TN Trang 71 Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất 1 0 1 0 0 0 0 0 3 0 1 2 0 3 0 0 0 0 1 3 0 1 3 0 2 1 2 0 0 1 3 0 1 4 1 3 1 1 0 0 1 3 1 1 5 0 0 0 2 0 0 0 3 0 2 6 1 0 1 2 1 0 0 0 0 2 7 2 0 0 1 1 2 1 1 1 2 8 2 0 1 2 2 1 1 1 1 2 9 3 0 0 1 3 2 0 2 0 3 10 3 1 0 0 3 2 0 1 0 3 11 3 1 1 3 3 3 0 2 0 3 12 3 2 1 3 3 3 1 0 1 3 13 3 0 0 1 3 3 0 0 0 3 14 3 1 0 3 3 3 0 1 0 3 15 3 3 1 2 3 3 0 0 1 3 16 3 0 0 3 3 2 0 0 0 4 17 3 0 0 3 3 3 0 2 0 4 18 3 0 0 2 3 3 0 3 0 4 19 3 0 0 2 3 3 0 0 0 4 20 3 0 0 3 3 3 0 3 0 4 21 3 0 0 3 3 3 0 2 0 4 22 3 1 0 0 3 3 0 0 0 4 23 2 2 3 2 2 3 3 1 3 5 24 2 1 3 0 3 3 3 2 3 5 25 3 3 1 0 2 3 3 0 1 5 KH OA C NT T – Đ H KH TN Trang 72 26 3 3 3 3 3 3 3 2 3 5 27 3 3 3 2 3 3 2 1 3 5 28 2 2 2 0 2 2 2 1 3 6 29 2 3 3 3 2 2 2 3 3 6 30 2 3 3 3 2 2 2 2 3 6 31 3 3 3 2 3 3 3 1 3 6 32 2 1 2 2 2 1 2 0 2 7 33 2 3 1 0 1 1 3 3 2 7 34 2 3 1 1 1 3 3 1 2 7 Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất Mức độ huấn luyện mạng tốt nhất: Tiêu chuẩn 2 dữ liệu xuất (218 chu kì huấn luyện) 7 dữ liệu xuất (76 chu kì huấn luyện) RMSE 0.148221 0.462798 FN% 0.58% 34.00% FP% 3.95% 8.54% NP% 98.65% 91.46% PP% 98.29% 66.00% TRN% 98.00% 86.00% Sensitivity 99.42% 66.00% Specificity 96.05% 91.46% Time trainning 98(s) 65(s) Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống KH OA C NT T – Đ H KH TN Trang 73 Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác: Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất RMSE 0.266052 3.083827 CHK% 92.40% 74.40% Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống Nhận xét: Luật trích từ hệ thống mô tả rất tốt dữ liệu nhập - xuất. Do đó, mô hình ANFIS sử dụng hệ thống luật này cho một kết quả tốt nhất. Khả năng phân loại tế bào dương tính và âm tính đều tăng lên rõ rệt. Những trường hợp chẩn đoán sai giảm đáng kể. Mức độ huấn luyện và kiểm nghiệm cũng tăng mạnh. 0 20 40 60 80 100 (%) FN% FP% NP% PP% Biểu đồ so sánh khả năng phân loại tế bào Luật chuyên gia Luật chuyên gia biến đổi Luật trích từ hệ thống Hình 5-9: So sánh khả năng phân loại tế bào KH OA C NT T – Đ H KH TN Trang 74 0 20 40 60 80 100 (%) 2 dữ liệu xuất 7 dữ liệu xuất Biểu đồ thể hiện mức độ huấn luyện mạng (TRN%) Luật chuyên gia Luật chuyên gia biến đổi Luật trích từ hệ thống Hình 5-10: So sánh mức độ huấn luyện mạng 0 20 40 60 80 100 (%) 2 dữ liệu xuất 7 dữ liệu xuất Biểu đồ thể hiện mức độ kiểm nghiệm mạng (CHK%) Luật chuyên gia Luật chuyên gia biến đổi Luật trích từ hệ thống Hình 5-11: So sánh mức độ kiểm nghiệm mạng KH OA C NT T – Đ H KH TN Trang 75 5.3.Đánh giá đề tài 5.3.1.Ưu điểm ¾ Tốc độ học và tốc độ hội tụ của mô hình ANFIS rất nhanh ¾ Thử nghiệm nhiều hệ thống luật để đưa ra được kết quả phân lớp tốt nhất 5.3.2.Khuyết điểm ¾ Chưa thực hiện phân đoạn ảnh tự động vì độ biến thiên màu quá phức tạp ¾ Chưa thử nghiệm trên thủ tục học lai theo mẫu (học trực tuyến) 5.4. ướng phát triển cho đề tài ¾ Theo đề tài muốn xác định tình trạng của mẫu xét nghiệm Pap, vẫn còn một số khâu bán tự động (phân đoạn ảnh,..). Do vậy định hướng phát triển đầu tiên của đề tài sẽ là hoàn chỉnh quy trình chẩn đoán ung thư cổ tử cung hoàn toàn tự động. ¾ Tích hợp thuật giải di truyền vào thủ tục học lai nhằm tận dụng khả năng chọn lọc của GA để chọn được bộ tham số thích nghi tốt nhất, đồng thời có thể tận dụng tính thích nghi của GA để phát sinh bộ tham số cho mạng. ¾ Nghiên cứu những thuật toán tối ưu hơn để sử dụng, rút gọn chi phí tính toán cũng như thời gian thực hiện. ¾ Đưa vào thử nghiệm thực tế để có thể hoàn chỉnh mô hình phân lớp tế bào cổ tử cung giai đoạn tiền ung thư. KH OA C NT T – Đ H KH TN Trang 76 PHỤ LỤC PHỤ LỤC A: MỘT SỐ KIẾN THỨC Y KHOA CƠ BẢN Ung thư và ung thư cổ tử cung Ung thư là bệnh xuất hiện khi tế bào trở nên bất thường và việc phân chia không thể kiểm soát được hoặc không theo trật tự. Giống như các bộ phận khác của cơ thể, cổ tử cung bao gồm nhiều loại tế bào khác nhau. Thông thường, tế bào phân chia thành nhiều tế bào hơn khi cơ thể có nhu cầu. Quá trình diễn ra theo trật tự này giữ cho cơ thể chúng ta khoẻ mạnh. Nếu tế bào cứ tiếp tục phân chia khi cơ thể không cần tế bào mới, một khối mô được hình thành. Khối mô thừa này được gọi là khối u, có thể lành tính hoặc ác tính. U lành tính không phải là ung thư. Chúng có thể dễ dàng được loại bỏ và trong hầu hết các trường hợp không xuất hiện trở lại. Ðiều quan trọng nhất là tế bào ở khối u lành tính không lan sang các bộ phận khác của cơ thể. Khối u lành tính không đe doạ đến tính mạng. Ngược lại, khối u ác tính chính là ung thư. Tế bào ung thư có thể xâm lấn và phá huỷ các mô, các cơ quan gần khối u. Ngoài ra, tế bào ung thư còn có thể tách khỏi khối u ác tính và đi vào hệ thống bạch huyết hoặc là mạch máu. Ðây là cách thức mà ung thư cổ tử cung có thể lan sang các bộ phận khác của cơ thể. Sự lan đi này được gọi là sự di căn. Giống như các loại ung thư khác, ung thư cổ tử cung được gọi tên theo bộ phận của cơ thể mà ung thư xuất hiện. Ung thư cổ tử cung còn được gọi tên theo loại tế bào mà nó bắt đầu phát triển. Hầu hết các loại ung thư cổ tử cung là ung thư biểu mô tế bào gai. Ðiều kiện tiền ung thư và ung thư cổ tử cung Tế bào trên bề mặt cổ tử cung đôi khi trở nên bất thường nhưng vẫn chưa phải là ung thư. Các nhà khoa học tin rằng một số thay đổi bất thường trong tế bào cổ tử cung KH OA C NT T – Đ H KH TN Trang 77 là bước đầu tiên trong một chuỗi thay đổi chậm có thể dẫn tới ung thư nhiều năm sau đó. Nói cách khác, đó là một số thay đổi bất thường mang tính chất tiền ung thư; chúng có thể trở thành ung thư theo thời gian. Nhiều năm qua, các bác sĩ đã sử dụng những thuật ngữ khác nhau để nói tới những thay đổi bất thường ở những tế bào trên bề mặt cổ tử cung. Một thuật ngữ được sử dụng hiện nay là tổn thương trong biểu mô tế bào gai (SIL). Những thay đổi ở các tế bào gai này có thể phân chia thành hai loại: ¾ SIL mức độ thấp đề cập tới những thay đổi sớm về kích thước, hình dáng, và số lượng tế bào tạo nên bề mặt cổ tử cung. Một số tổn thương mức độ thấp có thể tự biến mất hoặc có thể trở nên bất thường hơn, tạo nên tổn thương mức độ cao. Tổn thương tiền ung thư mức độ thấp có thể gọi là hiện tượng loạn sản nhẹ (CIN 1). Những thay đổi ban đầu như vậy thường xảy ra nhất ở những phụ nữ tuổi từ 25-35 nhưng cũng có thể xuất hiện ở những nhóm tuổi khác. ¾ SIL mức độ cao có nghĩa là có một số lượng lớn tế bào có dấu hiệu tiền ung thư; chúng trông rất khác các tế bào thường. Giống như SIL mức độ thấp, những thay đổi tiền ung thư này chỉ liên quan tới những tế bào trên bề mặt cổ tử cung. Những tế bào này sẽ không trở thành ung thư và không xâm lấn vào những lớp tế bào sâu hơn của cổ tử cung trong nhiều tháng, có thể trong nhiều năm. Tổn thương mức độ cao còn được gọi là hiện tượng loạn sản mức độ vừa hoặc nặng (CIN 2 hoặc 3). Chúng thường xuất hiện nhiều nhất ở những phụ nữ trong độ tuổi từ 30 đến 40 nhưng cũng có thể xảy ra ở những độ tuổi khác. ¾ Nếu những tế bào bất thường lan sâu hơn vào cổ tử cung hoặc tới các mô khác hoặc các cơ quan khác, bệnh được gọi là ung thư cổ tử cung, hay ung thư cổ tử cung thể xâm lấn. Nó thường xảy ra nhất ở những phụ nữ ở độ tuổi ngoài 40. KH OA C NT T – Đ H KH TN Trang 78 Phát hiện sớm Nếu tất cả phụ nữ được thăm khám vùng chậu và làm xét nghiệm Pap định kỳ thì hầu hết các điều kiện tiền ung thư sẽ được phát hiện và được điều trị trước khi ung thư xuất hiện. Hầu hết các loại ung thư thể xâm lấn có thể phòng ngừa được bằng cách phát hiện bệnh ở giai đoạn sớm và có thể chữa khỏi. Xét nghiệm Pap là một xét nghiệm đơn giản, không đau, dùng để phát hiện những tế bào bất thường ở trong và xung quanh cổ tử cung. Nó có thể tiến hành phòng mạch của bác sĩ hoặc trong bệnh viện. Phụ nữ nên đi khám định kỳ, bao gồm khám vùng chậu và làm nghiệm pháp Pap, nếu họ ở độ tuổi hoặc đã ở độ tuổi có hoạt động tình dục hay nếu họ >18 tuổi. Những người có nguy cơ ung thư cổ tử cung tăng cao cần đặc biệt tuân theo lời khuyên của bác sĩ về việc khám định kỳ. Những phụ nữ đã được cắt tử cung (phẫu thuật cắt tử cung và cả cổ tử cung) nên hỏi ý kiến bác sĩ về việc khám vùng chậu và làm xét nghiệm Pap. Triệu chứng Những thay đổi tiền ung thư ở cổ tử cung thường không gây đau đớn. Thực tế là chúng thường không gây ra bất kỳ triệu chứng nào và sẽ không được phát hiện nếu người phụ nữ không đi khám và làm nghiệm pháp Pap. Triệu chứng thường không xuất hiện cho đến khi tế bào bất thường ở cổ tử cung trở thành ung thư và xâm lấn vào các mô bên cạnh. Khi điều này xảy ra thì hiện tượng thường gặp nhất là ra máu một cách bất thường hoặc ra nhiều khí hư. Tuy nhiên, những triệu chứng này có thể do ung thư hoặc các bệnh lý khác gây ra, chỉ có bác sĩ mới có thể khẳng định được. Ðiều quan trọng là người phụ nữ phải đến khám bác sĩ ngay khi có bất kỳ triệu chứng bất thường nào. Những đối tượng của bệnh ung thư cổ tử cung Lứa tuổi mắc ung thư cổ tử cung thường gặp là lứa tuổi trung niên, khoảng từ 48 đến 52. Phụ nữ có các yếu tố sau đây được coi là những nguy cơ có khả năng dễ mắc bệnh: KH OA C NT T – Đ H KH TN Trang 79 ¾ Những người phải sống trong điều kiện kinh tế - xã hội thấp kém: nghèo túng, sống nơi chật chội, ô nhiễm, thiếu vệ sinh; những người ít hiểu biết, trình độ văn hóa thấp. ¾ Những phụ nữ có quan hệ tình dục sớm. ¾ Những người có quan hệ tình dục với nhiều bạn tình hoặc người chồng có nhiều bạn tình. ¾ Những người sinh đẻ nhiều lần. KH OA C NT T – Đ H KH TN Trang 80 PHỤ LỤC B: PHÂN ĐOẠN ẢNH Giới thiệu Phân đoạn ảnh là việc từ một ảnh lấy ra những đối tượng cần quan tâm để phục vụ cho những bước phân tích tiếp theo. Nó có thể được xem như một quá trình phân loại điểm ảnh, tức là phân biệt giữa điểm ảnh nền và điểm ảnh đối tượng. Ở đây, quá trình phân đoạn ảnh là cơ sở để đánh giá các tế bào, bao gồm việc nhận biết nhân, bào tương và nền. Đây là quá trình mang tính chủ quan cao nhưng cũng rất quan trọng, vì nó giúp cho việc trích đặc trưng từ ảnh được thực hiện dễ dàng, đồng thời nó cũng góp phần quan trọng cho việc thực hiện chính xác hệ thống tự động. Có rất nhiều phương pháp phân đoạn ảnh, chẳng hạn như phân ngưỡng đối tượng động hoặc tĩnh, xác định cạnh, tăng vùng… Hầu hết các thuật toán phân đoạn ảnh thông thường này đều có một khuyết điểm chung là không xử lý tốt cho ảnh có độ tương phản màu sắc giữa các đối tượng thấp. Do đặc tính ảnh tế bào cổ tử cung rất phức tạp, độ sáng biến thiên không đồng đều, nên thuật toán láng giềng gần nhất sẽ được sử dụng thay cho các thuật toán xử lý ảnh thông thường khác. Thuật toán láng giềng gần nhất Thuật toán láng giềng gần nhất gồm 5 bước: 1. Tính khoảng cách Euclide Di từ z đến từng phần tử xi, với i = 1, …, n 2. Tạo ma trận ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ = nn i cD cD A ...... 1 và sắp xếp các hàng trong A theo thứ tự tăng của cột 1. Sau khi sắp xếp, A trở thành: KH OA C NT T – Đ H KH TN Trang 81 ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ = 2,1, 2,11,1 1 ...... nn aa aa A trong đó a1,1 ≤ a2,1 ≤ … ≤ an,1 là các khoảng cách có thứ tự tăng, và ai,2 là phân lớp tương ứng của mỗi hàng. 3. cho bj = 0, j = 1, …, C, trong đó C là số nhóm được mô tả trong ci. 4. Lặp lại bước 4 với i = 1, …, k, tăng b(ai,2) với khoảng cách trọng hoá: ( ) ( ) ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ −+= ki i ii a a abab , 1, 2,2, 1 5. Ấn định điểm dữ liệu z vào nhóm j sao cho ( ) ( ) Cllbjb ,...,1, =∀≤ Các bước thực hiện phân đoạn ảnh (xem phần hướng dẫn sử dụng) KH OA C NT T – Đ H KH TN Trang 82 PHỤ LỤC C: PHƯƠNG PHÁP LỌC KALMAN Giới thiệu Lý thuyết thống kê LSE được trình bày bởi Adrien – M. Legen (1806) và Karl F. Gauss (1809). Ý tưởng LSE cơ bản chính là một phương pháp toán dùng để chuẩn hoá dữ liệu nhập bằng cách sử dụng một tập các trọng số tối ưu. Kết quả của LSE được ứng dụng rất nhiều trong lĩnh vực tự động hoá. Tuy nhiên, để thực hiện một nguyên lý đơn giản đôi khi lại cần hàng loạt những phép tính phức tạp. Năm 1960, Rudolf E. Kalman đã đưa ra một phương pháp giải quyết tính toán cho LSE gọi là bộ lọc Kalman. Bộ lọc Kalman là một công cụ toán học mạnh dùng cho việc mô phỏng hệ thống thế giới thực. Cơ sở toán học của bộ lọc Kalman Phương trình độ đo tuyến tính hoá (phương trình quan sát) thể hiện cách mà vectơ độ đo yt gồm n phần tử phụ thuộc vào vectơ trạng thái st gồm m phần tử và vectơ lỗi et gồm n phần tử tại thời điểm t: tttt esHy += , (1) với t = 1, 2… và s0 cho trước và Ht là ma trận Jacobian. Phương trình hệ thống tuyến tính hoá (phương trình trạng thái) mô tả sự tiến triển theo thời gian của toàn hệ thống tại thời điểm t: tttttt auBsAs ++= −− 11 , (2) với t = 1, 2,… và s0 cho trước, At là ma trận chuyển tiếp trạng thái, Bt là ma trận gia lượng điều khiển. Phương trình thể hiện cách mà vectơ trạng thái hiện tại st của toàn hệ thống phát triển từ trạng thái st-1 trước đó khi nó chịu ảnh hưởng từ sự cưỡng bức điều khiển ut-1 và các nhiễu ngẫu nhiên at. Khi lỗi độ đo et và nhiễu hệ thống at hoặc tự động hoặc tương quan chéo, chúng không tương quan với s0 và hiệp phương sai là: KH OA C NT T – Đ H KH TN Trang 83 ( ) ( ) ( ) ( )⎪⎭ ⎪⎬ ⎫ == == ' ' tttt tttt aaEaCovQ eeEeCovR (3) thì phép đệ qui tiến Kalman từ phương trình (4) đến (7) cho ước lượng không lệch tuyến tính tốt nhất tsˆ của trạng thái st hiện tại như sau: ( )tttttt sHyKss ~~ˆ −+= (4) trong đó ts~ được dự đoán bằng phương trình trạng thái (2) như sau: 11ˆ~ −− += ttttt uBsAs (5) trong đó, các ma trận hiệp phương sai lỗi và ước lượng không lệch tuyến tính tốt nhất được cho: ( ) ( )( ){ } ( ) ( )( ){ } ⎪⎭ ⎪⎬ ⎫ −=−−=−= +=−−=−= − ttttttttttt ttttttttttt PHKPssssEssCovP QAPAssssEssCovP ~~ˆˆˆˆ ˆ~~~~ ' ' 1 ' (6) trong đó ma trận gia lượng Kalman Kt với t = 1, 2,… được tính là: ( ) 1'' ~~ −+= ttttttt RHPHHPK (7) Các phép đệ qui từ (4) đến (7) thường được khởi tạo ( )0ˆ 00 ≅= Ess và 0ˆP = ( ) ( )000ˆ sCovssCov =− . KH OA C NT T – Đ H KH TN Trang 84 TÀI LIỆU THAM KHẢO [1] António Dourado, Rui Pedro Paiva, “Structure and Parameter Learning of Neuro – Fuzzy Systems: a methodology and a comparative study”, Dept. of Informatics Engineering, Pólo II of University of Coimbra, P 3030 Coimbra Portugal, Journal of Intelligent and Fuzzy Systems, IFS 01.383.06. [2] Antti A.I.Lange, “Statictical calibration of observing systems”, the University of Helsinki, the Faculty of Social Science, 1999. [3] Erik Martin, “Pap – Smear classification”, Technical University of Denmark (DTU), Dept. of Automation, Bldg 326, 2800 Lyngby, Denmark, 2003. [4] Gary Bishop, Grep Welch, “An introduction to the Kalman filter”, University of North Carolina at Chapel Hill, Dept. of Computer Science, Chapel Hill. [5] Hoàng Kiếm, Đỗ Quang Dương, “Kết hợp mạng thần kinh, logic mờ và thuật toán di truyền giải quyết bài toán tối ưu hoá công thức và quy trình”, Luận văn thạc sĩ, Đại học Quốc gia TP. HCM, Đại học Khoa học Tự nhiên, Khoa Công nghệ thông tin, 2002. [6] Jang Jantzen, “Neuronfuzzy Modelling”, Technical University of Denmark (DTU), Dept. of Automation, Bldg 326, DK-2800 Lyngby, Denmark, 1998. [7] Jens Byriel, “Neuron – Fuzzy Classification of Cells in Cervical Smears”, Master’s thesis, Technical University of Denmark, Dept. of Automation, Bldg 326, DK – 2800 Lyngby, Denmark, 1999. [8] José Victor Ramos and António Dourado, “Evolving Takagi – Sugeno Fuzzy Models”, Technical report, Center for Informatics and Systems, Adaptive Computation Group, 2003. [9] Jyh – Shing Roger Jang, “ANFIS: Adaptive – network – based fuzzy inference system”, University of California, Dept. of Electrical Engineering and Computer KH OA C NT T – Đ H KH TN Trang 85 Science, Berkeley, CA 94720, IEEE Trans. on Systems, Man and Cybernetics, vol. 23, no. 3, pp. 665 – 685, 1993. [10] Jyh – Shing Roger Jang, “Input Selection for ANFIS learning”, National Tsing Hue University Hsinchu, Dept. of Computer Science, Taiwan. [11] Jyh – Shing Roger Jang, Chuen – Tsai Sun, “Neuro – Fuzzy Modelling and Control”, University of California, Dept. of Electrical Engineering and Computer Science, Berkeley, CA 94720, 1995. [12] Jyh – Shing Roger Jang, Chuen – Tsai Sun, “Self – Learning Fuzzy Controlers Based on Temporal Back Propagation”, University of California, Dept. of Electrical Engineering and Computer Science, Berkeley, CA 94720. [13] Jyh – Shing Roger Jang, “Neuron – Fuzzy Modelling: Architecture, Analyse and Application”, University of California, Dept. of Electrical Engineering and Computer Science, Berkeley, CA 94720, 1992. [14] Jyh – Shing Roger Jang, Chuen – Tsai Sun, “Structure Determination in Fuzzy Modelling: a fuzzy CART approach”, The MathWorks, Inc., 24 Prime Park Way, Natick, Mass. 01760, IEEE International Conference on Fuzzy System, Orlando, 1994. [15] Landwehr, D., “Web base pap – smear classification”, Master’s thesis, Technical University of Denmark (DTU), Dept. of Automation, Bldg 326, 2800 Lyngby, Denmark, 2001. [16] Lê Hoài Bắc, Nguyễn Thanh Nghị, “Bionet - Hệ chẩn đoán bệnh”, Luận văn thạc sĩ, Đại học Quốc gia TP. HCM, Đại học Khoa học Tự nhiên, Khoa Công nghệ thông tin, 2003. [17] Nguyễn Đình Thúc, “Mạng nơron phương pháp và ứng dụng”, Nhà xuất bản giáo dục, 2000. KH OA C NT T – Đ H KH TN Trang 86 [18] Piero P. Bonissone, “Adaptive neural network inference Systems (ANFIS): Analysis and Applications”, GE CRD, Schenectady, NY USA, 1997. [19] Renata Pytelková, “Modelling and Control with Neuro – Fuzzy Systems”, Dept. of Control Engineering, FEE, CTU, Czech Republic, 2001. [20] R. P. Paiva, A. Dourado, B.Duarte, “Applying subtractive clustering for Neuro – Fuzzy modelling of bleaching plant”, Dept. of Informatics Engineering, Pólo II of University of Coimbra, P 3030 Coimbra Portugal. [21] R. P. Paiva, A. Dourado, “Comparison of Neuro – Fuzzy structures for System Identification”, Dept. of Informatics Engineering, Pólo II of University of Coimbra, P 3030 Coimbra Portugal. [22] R. P. Paiva, A. Dourado, “Development of Interpretable Models through Neuro – Fuzzy Networks”, Dept. of Informatics Engineering, Pólo II of University of Coimbra, P 3030 Coimbra Portugal. [23] Web site về y khoa: [24] Stephen L. Chiu, “An efficient Method for Extracting Fuzzy Classification Rules from High Dimensional Data”, J. Advanced Computational Intelligence, Vol. 1, No. 1, 1997. [25] Stephen L. Chiu, “Extracting fuzzy rules from data for function approximation and pattern classification”, Chapter 9 in Fuzzy Set Methods in Information Engineering: A Guided Tour of Application, ed. D. Dubois, H. Prade, R. Yager, John Wiley, 1997.

Các file đính kèm theo tài liệu này:

Luận văn-ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư.pdf