Phân tích phân biệt, phân loại và phân tích cụm

Sau mºt khoÊng th?i gian thu th“p tài liằu, nghiản cứu và tŒng hổp, lu“n vôn “PhƠn t‰ch phƠn biằt, phƠn lo/i và phƠn t‰ch c?m” dÂ hoàn thành, lu“n vôn giÊi quy₡t duổc hai bài toĂn sau: 1. Bài toĂn phƠn biằt và phƠn lo/i : Phuong phĂp dua ra d” giÊi quy₡t bài toĂn này là d?a vào xĂc suĐt ti•n nghiằm và hàm m“t dº xĂc suĐt d” dua ra hàm phƠn biằt, tl dú t‰nh duổc xĂc suĐt sai lƒm trong phƠn lo/i. 2. Bài toĂn phƠn c?m: é” giÊi quy₡t bài toĂn phƠn c?m, lu“n vôn dÂ dua ra hai phuong phĂp - Phuong phĂp phƠn c?m theo thứ b“c k₡t nLi - Phuong phĂp phƠn c?m K-trung b nh.

26 trang | Chia sẻ: ngoctoan84 | Lượt xem: 947 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Phân tích phân biệt, phân loại và phân tích cụm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Lấ THỊ TUYẾT NHUNG PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM Chuyờn ngành: Phương phỏp Toỏn sơ cấp Mó số: 60.46.01.13 TểM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC Đà Nẵng - Năm 2016 Cụng trỡnh được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS. Lấ VĂN DŨNG Phản biện 1: TS. Lấ QUỐC TUYỂN Phản biện 2: PGS.TS. HUỲNH THẾ PHÙNG Luận văn được bảo vệ tại Hội đồng chấm Luận văn tốt nghiệp thạc sĩ khoa học họp tại Đại học Đà Nẵng vào ngày 13 thỏng 8 năm 2016. Cú thể tỡm Luận văn tại: - Trung tõm Thụng tin - Học liệu, Đại học Đà Nẵng - Thư viện trường Đại học sư phạm, Đại học Đà Nẵng 1MỞ ĐẦU 1. Tớnh cấp thiết của đề tài Ngày nay là thời đại của bựng nổ thụng tin, sự phỏt triển của cỏc ngành khoa học và đặc biệt là sự phỏt triển của ngành khoa học mỏy tớnh đó giỳp chỳng ta thu thập được lượng dữ liệu rất khổng lồ. Với một số lượng dữ liệu lớn như vậy thỡ việc tỡm hiểu thụng tin từ đú là rất khú khăn và phức tạp. Vỡ vậy vấn đề xử lý số liệu khụng những được cỏc ngành khoa học nghiờn cứu mà cũn được cả xó hội quan tõm. Đú cũng là lý do cho sự ra đời và phỏt triển của ngành phõn tớch thống kờ. Nhờ ứng dụng của bộ mụn phõn tớch thống kờ này mà cỏc ngành sinh học, y học, kinh tế, bảo hiểm, phõn loại ảnh. . . đó cú nhiều bước phỏt triển vượt bậc. Phương phỏp phõn tớch phõn biệt và phõn loại cựng với phương phỏp phõn tớch cụm là một trong những phương phỏp xử lý dữ liệu trong phõn tớch thống kờ được sử dụng phổ biến. Vỡ lý do đú, dưới sự hướng dẫn của thầy Lờ Văn Dũng, tụi chọn nghiờn cứu đề tài “Phõn tớch phõn biệt, phõn loại và phõn tớch cụm” làm luận văn thạc sĩ khoa học của mỡnh. 22. Mục đớch nghiờn cứu: Chỳng tụi mong muốn tỡm kiếm được nhiều tài liệu từ cỏc nguồn khỏc nhau, nghiờn cứu kĩ cỏc tài liệu đú, cố gắng lĩnh hội một số kỹ thuật phõn tớch thống kờ. Hy vọng luận văn cú thể được sử dụng như một tài liệu tham khảo bổ ớch cho sinh viờn cỏc trường Đại học, Cao đẳng. 3. Đối tượng nghiờn cứu - Kỹ thuật phõn tớch phõn biệt và phõn loại. - Kỹ thuật phõn tớch cụm. 4. Phạm vi nghiờn cứu: Luận văn nghiờn cứu cỏc khỏi niệm, định nghĩa, định lý liờn quan. 5. Phương phỏp nghiờn cứu: Cơ bản sử dụng phương phỏp nghiờn cứu tài liệu (sỏch, bỏo và cỏc tài liệu trờn internet cú liờn quan đến đề tài của luận văn) để thu thập thụng tin nhằm hệ thống lại cỏc vấn đề lý thuyết. 6. Bố cục đề tài: Nội dung luận văn gồm hai chương: Chương 1: Kiến thức chuẩn bị. Trỡnh bày lại cỏc kiến thức cần thiết cho chương 2, đú là cỏc kiến thức về vectơ, ma trận, biến ngẫu nhiờn và phõn bố chuẩn nhiều chiều. Chương 2: Phõn tớch phõn biệt, phõn loại và phõn tớch cụm. Trong chương này cú hai nhiệm vụ chớnh: thứ nhất là giải quyết bài toỏn phõn biệt, phõn loại; thứ hai là giải quyết bài toỏn phõn cụm. 3CHƯƠNG1 KIẾN THỨC CHUẨN BỊ 1.1.VECTƠ VÀ MA TRẬN 1.1.1.Vectơ 1.1.2.Ma trận 1.1.3. Căn bậc hai của ma trận 1.1.4. Cỏc bất đẳng thức ma trận và maximum 1.2.VECTƠ NGẪU NHIấN Định nghĩa 1.2.1. Cho X1, X2, ..., Xn là cỏc biến ngẫu nhiờn cựng xỏc định trờn khụng gian xỏc suất (Ω,F , P ). Kớ hiệu X = (X1, X2, ..., Xn) được gọi là vectơ ngẫu nhiờn n chiều. Dạng ma trận của X như sau X = X1X2... Xn  hoặc XT = [X1, X2, ..., Xn] Định nghĩa 1.2.2. ChoXij với i = 1, 2, ...,m; j = 1, 2, ..., n là mn biến ngẫu nhiờn cựng xỏc định trờn khụng gian xỏc suất (Ω,F , P ) thỡ X = [Xij ]mìn được gọi là ma trận ngẫu nhiờn. 1.2.1.Hàm xỏc suất đồng thời Nếu X = (X1, X2, ..., Xn) là vectơ ngẫu nhiờn rời rạc cú miền giỏ trị X(Ω) = {xi = (x1i, x2i, ..., xni) : i ≥ 1} thỡ hàm 4xỏc suất đồng thời của X là hàm p : X(Ω) → R xỏc định bởi p(xi) = P (X = xi). Nếu X = (X1, X2, ..., Xn) gồm n biến ngẫu nhiờn liờn tục và nếu tồn tại hàm số khụng õm f(x) xỏc định trờn Rn sao cho với mọi A = [a1; b1]ì ...[an; bn] ⊂ Rn, P (X ∈ A) = ∫ A f(x)dx thỡ f(x) được gọi là hàm mật độ xỏc suất đồng thời của X. 1.2.2.Vectơ trung bỡnh và ma trận hiệp phương sai Cho vectơ ngẫu nhiờnX = (X1, X2, ..., Xn). Giả sửE(Xi) = ài là kỳ vọng của Xi, V ar(Xi) = σii = E(Xi − ài)2 là phương sai của Xi và Cov(Xi;Xj) = σij = E(Xi − ài)(Xj − àj) là hiệp phương sai của biến Xi và Xj . Khi đú à = [à1, à2, ..., àn] T được gọi là vectơ trung bỡnh và Σ = [σij ]n được gọi là ma trận hiệp phương sai. Gọi ρij = σij√ σiiσjj là hệ số tương quan của Xi và Xj . Khi đú ρ = [ρij ]n được gọi là ma trận tương quan của vectơ X. 1.2.3. Chia khối ma trận hiệp phương sai 1.2.4. Vectơ trung bỡnh và ma trận hiệp phương sai của tổ hợp tuyến tớnh cỏc vectơ ngẫu nhiờn Nếu X1 và X2 là hai biến ngẫu nhiờn, a và b là cỏc số thực thỡ (i) E(aX1 + bX2) = aE(X1) + bE(X2) (ii) V ar(aX1 + bX2) = a 2σ11 + b 2σ22 + 2abσ12 5(iii) Cov(aX1, bX2) = abσ12 Nếu CT = [c1, c2, ..., cn] là vectơ cỏc hằng số và X T = [X1, X2, ..., Xn] là vectơ ngẫu nhiờn thỡ E(C TX) = CTE(X) = CTà, V ar(CT X) = CT cov(X)C = CTΣC. Nếu C = [cij ]mìn là ma trận cỏc hằng số thỡ E(CX) = CE(X), cov(CX) = Ccov(X)CT 1.3. PHÂN BỐ CHUẨN NHIỀU CHIỀU Định nghĩa 1.3.1. Vectơ ngẫu nhiờnX = [X1, X2, ..., Xp] T được gọi là cú phõn bố chuẩn p chiều với tham số àT = [à1, à2, ..., àp] và Σ = [σij ]pìp (Σ > 0) nếu X cú hàm mật độ xỏc suất đồng thời f(x) = 1 (2pi)p/2|Σ|1/2 exp { −1 2 (x− à)TΣ−1(x− à) } . Kớ hiệu X ∼ Np(à; Σ). 1.4.VECTƠ TRUNG BèNH MẪU, MA TRẬN HIỆP PHƯƠNG SAI MẪU Giả sử x1, x2,...,xn là mẫu được chọn ngẫu nhiờn từ tổng thể XT = [X1, X2, ..., Xp]. Đặt xj = 1 n (x1j + x2j + ...+ xnj), j = 1, 2, ..., p. sij = 1 n− 1 n∑ k=1 (xki − xi)(xkj − xj) rij = sij√ siisjj 6Vectơ xT = [x1, x2, ..., xp] được gọi là vectơ trung bỡnh mẫu. Ma trận S = [sij ]p được gọi là ma trận hiệp phương sai mẫu. Ma trận R = [rij ]p được gọi là ma trận hệ số tương quan mẫu. 1.5.ƯỚC LƯỢNG KHễNG CHỆCH ChoX = [Xij ]nìp là mẫu ngẫu nhiờn củaXT = [X1, X2, ..., Xp] với E(X) = à và Cov(X) = Σ. Khi đú E(X) = à; E(S) = Σ. Hệ quả 1.5.1. Cho X1, X2, ..., Xn là một mẫu ngẫu nhiờn từ một phõn bố đồng thời cú vectơ trung bỡnh à và ma trận hiệp phương sai Σ. Khi đú E(X) = E(X) = à; Cov(X) = 1 n Σ. Và [n/(n− 1)]Sn là một ước lượng khụng chệch của Σ 1.6. PHÂN BỐ MẪU TRUNG BèNH MẪU Định lý 1.6.1. Cho X = [Xij ]nìp là mẫu ngẫu nhiờn của tổng thể X cú phõn bố chuẩn p chiều Np(à; Σ). Khi đú X cú phõn bố chuẩn Np(à; Σ n ). Định lý 1.6.2 (Định lớ giới hạn trung tõm). Cho X = [Xij ]nìp là mẫu ngẫu nhiờn của tổng thể X cú E(X) = à và cov(X) = Σ. Khi đú với n đủ lớn, X cú xấp xỉ phõn bố chuẩn Np(à; Σ n ). 1.7.NHẬN DẠNG PHÂN BỐ CHUẨN NHIỀU CHIỀU 1.7.1. Sử dụng biểu đồ xỏc suất chuẩn Từ biểu đồ xỏc suất chuẩn của cỏc thành phần x1, x2,...,xp cú thể chấp nhận X1, X2,...,Xp cú phõn bố chuẩn 1 chiều thỡ lỳc 7đú ta cú thể chấp nhận X cú phõn bố chuẩn. 1.7.2.Kiểm định χ - bỡnh phương 1.8.KIỂMĐỊNHGIẢ THIẾT VỀ VECTƠ TRUNGBèNH 8CHƯƠNG2 PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM 2.1.KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI Tiến hành phõn loại là một trong những nhiệm vụ cơ bản của khoa học để đưa thế giới về trật tự. Và mục đớch của phõn loại là xỏc định xem một đối tượng quan sỏt được sẽ xếp vào lớp nào. Khỏc với việc phõn loại là phõn tớch phõn biệt. Phõn tớch phõn biệt là một kỹ thuật phõn tớch sử dụng cho việc phõn biệt giữa cỏc lớp. 2.2. PHÂN LOẠI HAI LỚP Giả sử tổng thể được phõn hoạch thành 2 lớp pi1 và pi2 và XT = (X1, ..., Xp) là vectơ đo p chiều xỏc định trờn cỏc đối tượng của tổng thể. Kớ hiệu Ω là miền giỏ trị của X. R1 và R2 lần lượt là miền giỏ trị củaX giới hạn trờn pi1 và pi2. Khi đú ta cú Ω = R1∪R2 và R1 ∩ R2 = ∅. Ta cũng giả sử rằng f1(x) và f2(x) lần lượt là hàm mật độ của X trờn pi1 và pi2 (nếu X là vectơ rời rạc thỡ f1(x) 9và f2(x) là hàm xỏc suất). Xỏc suất phõn loại sai một đối tượng thuộc lớp pi1 vào lớp pi2 là P (2/1) = P (X ∈ R2/pi1) = ∫ R2 f1(x)dx. (2.1) Xỏc suất phõn loại sai một đối tượng thuộc lớp pi2 vào lớp pi1 là P (1/2) = P (X ∈ R1/pi2) = ∫ R1 f2(x)dx. (2.2) Kớ hiệu p1 là xỏc suất tiền nghiệm của lớp pi1. Tương tự, kớ hiệu p2 là xỏc suất tiền nghiệm của lớp pi2. Ta cú p1 + p2 = 1. Kớ hiệu c(2/1) là tổn thất gõy ra khi xếp đối tượng thuộc lớp pi1 vào lớp pi2, c(1/2) là tổn thất gõy ra khi xếp đối tượng thuộc lớp pi2 vào lớp pi1. Ta cú ma trận tổn thất cho trong bảng. Xếp vào lớp pi1 pi2 pi1 c(1/1) = 0 c(2/1) Thực tế pi2 c(1/2) c(2/2) = 0 Khi đú tổn thất trung bỡnh sẽ là E(CM) = c(2/1)P (2/1)p1 + c(1/2)P (1/2)p2. (2.3) Định lý 2.2.1. Một đối tượng được xếp vào lớp pi1 hay pi2 để cú tổn thất trung bỡnh E(CM) nhỏ nhất khi miền R1, R2 được xỏc định như sau: R1 = { x ∈ Ω : f1(x) f2(x) ≥ c(1/2) c(2/1) . p2 p1 } R2 = { x ∈ Ω : f1(x) f2(x) < c(1/2) c(2/1) . p2 p1 } . (2.4) 10 Tổng xỏc suất phõn loại sai (TPM ) TPM = p1 ∫ R2 f1(x)dx+ p2 ∫ R1 f2(x)dx (2.5) Ta cú thể xếp một đối tượng mới x0 vào một lớp bởi xỏc suất hậu nghiệm lớn nhất P (pii/x0). Theo quy tắc Bayốs P (pi1/x0) = p1f1(x0) p1f1(x0) + p2f2(x0) (2.6) và P (pi2/x0) = 1− P (pi1/x0) = p2f2(x0) p1f1(x0) + p2f2(x0) Dựa vào tiờu chuẩn xỏc suất hậu nghiệm, ta xếp x0 vào lớp pi1 khi P (pi1/x0) > P (pi2/x0). 2.3. PHÂN LOẠI HAI LỚP Cể PHÂN BỐ CHUẨN Giả sử f1(x), f2(x) là hàm mật độ của phõn bố chuẩn lần lượt liờn kết với lớp pi1, pi2 cú vectơ trung bỡnh à1, à2 và ma trận hiệp phương sai Σ1, Σ2. Ta xột cỏc trường hợp sau: 2.3.1.Σ1 = Σ2 = Σ Giả sử hàm mật độ của XT = [X1, X2, ..., Xp] trong pi1 và pi2 được cho bởi cụng thức fi(x) = 1 (2pi)p/2|Σ|1/2 exp [ −1 2 (x− ài)TΣ−1(x− ài) ] , i = 1, 2 (2.7) trong đú cỏc tham số à1, à2 và Σ đó biết. Định lý 2.3.1. Cho hai lớp pi1 và pi2 lần lượt cú hàm mật độ cho bởi cụng thức 2.7. Khi đú ta cú phõn bổ sau: 11 Xếp x0 vào pi1 nếu (à1 − à2)TΣ−1x0 − 1 2 (à1 − à2)TΣ−1(à1 + à2) ≥ ln [ c(1/2) c(2/1) p2 p1 ] (2.8) Ngược lại thỡ xếp x0 vào pi2. Giả sử ta cú n1 đối tượng của biến ngẫu nhiờn nhiều chiều XT = [X1, X2, .., Xp] từ lớp pi1 và n2 đối tượng của X T từ lớp pi2, với n1 + n2 − 2 ≥ p. Khi đú cỏc ma trận dữ liệu tương ứng X1 =  xT11 xT12 ... xT1n1  ,X2 =  xT21 xT22 ... xT2n2  Từ ma trận dữ liệu, vectơ trung bỡnh mẫu và ma trận hiệp phương sai được xỏc định như sau x1 = 1 n1 n1∑ j=1 x1j , S1 = 1 n1 − 1 n1∑ j=1 (x1j − x1)(x1j − x1)T x2 = 1 n2 n2∑ j=1 x2j , S2 = 1 n2 − 1 n2∑ j=1 (x2j − x2)(x2j − x2)T Khi đú Sp = [ n1 − 1 (n1 − 1) + (n2 − 1) ] S1 + [ n2 − 1 (n1 − 1) + (n2 − 1) ] S2 là một ước lượng khụng chệch của Σ. 12 Ước lượng E(CM) nhỏ nhất Ta xếp x0 vào pi1 nếu (x1 − x2)TS−1p x0 − 1 2 (x1 − x2)TS−1p (x1 + x2) ≥ ln [ c(1/2) c(2/1) p2 p1 ] (2.9) Ngược lại xếp x0 vào pi2 Hệ quả 2.3.2. Kết hợp tuyến tớnh yˆ = aˆTx = (x¯1 − x¯2) TS−1p x tối đa húa tỷ số (y¯1 − y¯2)2 s2y = (aˆT x¯1 − aˆT x¯2)2 aˆTSpaˆ = (aˆTd)2 aˆTSpaˆ (2.10) trờn tất cả cỏc vectơ hệ số aˆ với d = (x¯1 − x¯2). Giỏ trị lớn nhất của tỷ số trờn là D2 = (x¯1 − x¯2)TS−1p (x¯1 − x¯2). Chỳ ý rằng s2y = ∑n1 j=1(y1j − y¯1)2 + ∑n2 j=1(y2j − y¯2)2 n1 + n2 − 2 với y1j = aˆ Tx1j và y2j = aˆ Tx2j . Luật phõn bố dựa vào hàm phõn biệt Fisher Xếp x0 vào lớp pi1 nếu yˆ0 = (x¯1 − x¯2)TS−1p x0 ≥ mˆ = 1 2 (x¯1 − x¯2)TS−1p (x¯1 + x¯2) (2.11) 2.3.2.Σ1 6= Σ2 Định lý 2.3.3. Cho lớp pi1 và pi2 được mụ tả bởi hàm mật độ của phõn bố chuẩn lần lượt cú vectơ trung bỡnh à1, à2 và ma trận hiệp phương sai Σ1, Σ2. Khi đú 13 + Xếp x0 vào pi1 nếu −1 2 xT0 (Σ −1 1 − Σ−12 )x0 + (àT1 Σ−11 − àT2 Σ−12 )x0 − k ≥ ln [ c(1/2) c(2/1) p2 p1 ] (2.12) trong đú k = 1 2 ln ( |Σ1| |Σ2| ) + 1 2 (àT1 Σ −1 1 à1 − àT2 Σ−12 à2) + Ngược lại thỡ xếp x0 vào pi2. Quy tắc phõn loại bậc hai Xếp x0 vào pi1 nếu −1 2 xT0 (S −1 1 − S−12 )x0 + (xT1 S−11 − xT2 S−12 )x0 − k ≥ ln [ c(1/2) c(2/1) p2 p1 ] (2.13) Ngược lại thỡ xếp x0 vào pi2. 2.4.ĐÁNH GIÁ HÀM PHÂN LOẠI Giỏ trị nhỏ nhất của TPM được gọi là tỷ lệ lỗi tối ưu (OER), thu được bằng cỏch khộo chọn cỏc R1 và R2. Như vậy, OER là tỷ lệ lỗi cho TPM tối thiểu. Về nguyờn tắc việc thực hiện hàm phõn loại mẫu cú thể được đỏnh giỏ bằng cỏch tớnh toỏn tỷ lệ lỗi thực tế (AER) AER = p1 ∫ Rˆ2 f1(x)dx+ p2 ∫ Rˆ1 f2(x)dx với Rˆ1 và Rˆ2 là miền phõn loại xỏc định bởi mẫu cú kớch thước lần lượt là n1 và n2. Ta định nghĩa tỷ lệ lỗi rừ ràng (APER) là tỷ lệ cỏc đối tượng bị phõn loại sai bởi hàm phõn loại mẫu. Cho lớp pi1 cú n1 đối tượng và lớp pi2 cú n2 đối tượng thỡ ma trận nhầm lẫn cú dạng 14 Thành viờn dự đoỏn pi1 pi2 Thành viờn pi1 n1C n1M = n1 − n1C n1 thực tế pi2 n2M = n2 − n2C n2C n2 trong đú n1C : Số cỏc đối tượng lớp pi1 xếp đỳng vào lớp pi1 n1M : Số cỏc đối tượng lớp pi1 xếp sai vào lớp pi2 n2C : Số cỏc đối tượng lớp pi2 xếp đỳng vào lớp pi2 n2M : Số cỏc đối tượng lớp pi2 xếp sai vào lớp pi1 Khi đú ta cú tỷ lệ lỗi rừ ràng APER = n1M + n2M n1 + n2 2.5. PHÂN LOẠI NHIỀU LỚP Tổn thất trung bỡnh nhỏ nhất Cho fi(x) là hàm mật độ liờn kết với lớp pii, i = 1, 2, .., g, pi là xỏc suất tiền nghiệm của lớp pii và c(k/i) là tổn thất gõy ra khi xếp đối tượng thuộc lớp pii vào lớp pik, đặc biệt với k = i, c(i/i) = 0. Gọi Rk là tập cỏc đối tượng thuộc lớp pik, khi đú ta cú xỏc suất phõn loại sai một đối tượng thuộc lớp pii vào lớp pik là P (k/i) = P (X ∈ Rk/pii) = ∫ Rk fi(x)dx. (2.14) 15 với i = 1, 2, ..., g và P (i/i) = 1−∑gk=1,k 6=i P (k/i). Từ đú ta cú tổn thất trung bỡnh E(CM) = p1E(CM)(1) + p2E(CM)(2) + ...+ pgE(CM)(g) = p1 ( g∑ k=2 P (k/1)c(k/1) ) + p2  g∑ k=1,k 6=2 P (k/2)c(k/2)  + ...+ pg ( g−1∑ k=1 P (k/g)c(k/g) ) = g∑ i=1 pi  g∑ k=1,k 6=i P (k/i)c(k/i)  Luật phõn loại để E(CM) nhỏ nhất với tổn thất phõn loại sai bằng nhau Xếp x0 vào pik nếu pkfk(x) > pifi(x), với mọi i 6= k (2.15) Xếp x0 vào pik nếu ln pkfk(x) > ln pifi(x), với mọi i 6= k (2.16) Phõn loại cỏc lớp cú phõn bố chuẩn Xếp x vào pik nếu ln pkfk(x) = ln pk − p 2 ln 2pi − 1 2 ln |Σk| − 1 2 (x− àk)TΣ−1k (x− àk) = max ln pifi(x) Ta định nghĩa tỉ số phõn biệt bậc hai cho lớp thứ i như sau dQi (x) = − 1 2 ln |Σi| − 1 2 (x− ài)TΣ−1i (x− ài) + ln pi, i = 1, 2, .., g (2.17) 16 TPM nhỏ nhất khi cỏc Σi khụng bằng nhau Xếp x vào lớp pik nếu dQk (x) = max(d Q 1 (x), d Q 2 (x), ..., d Q g (x)) (2.18) với dQk (x) được cho bởi cụng thức 2.17. Ước lượng tỉ số phõn biệt bậc hai dˆQi (x) = − 1 2 ln |Si| − 1 2 (x− x¯i)TS−1i (x− x¯i) + ln pi, i = 1, 2, .., g (2.19) Ước lượng TPM trong trường hợp Σi khụng bằng nhau Xếp x vào lớp pik nếu dˆQk (x) = max(dˆ Q 1 (x), dˆ Q 2 (x), ..., dˆ Q g (x)) (2.20) với dˆQi (x) được xỏc định bởi cụng thức 2.19. Một trường hợp đơn giản là ma trận hiệp phương sai của lớp Σi là bằng nhau. Đặt Σi = Σ, i = 1, 2, ..., g, ta định nghĩa tỉ số phõn biệt tuyến tớnh như sau di(x) = à T i Σ −1x− 1 2 àTi Σ −1ài + ln pi, i = 1, 2, ..., g Ước lượng dˆi(x) của tỉ số phõn biệt tuyến tớnh di(x) dựa trờn ước lượng gộp của Σ. Sp = 1 n1 + n2 + ...+ ng − g [(n1−1)S1+(n2−1)S2+...+(ng−1)Sg] và được cho bởi dˆi(x) = x¯ T i S −1 p x− 1 2 x¯Ti S −1 p x¯+ ln pi, i = 1, 2, .., g (2.21) 17 Ước lượng TPM trong trường hợp Σi bằng nhau Xếp x vào lớp pik nếu dˆk(x) = max(dˆ1(x), dˆ2(x), ..., dˆg(x)) với dˆi(x) được cho bởi cụng thức 2.21. Xếp x vào lớp pik nếu dˆki(x) = (x¯k − x¯i)TS−1p x− 1 2 (x¯k − x¯i)TS−1p (x¯k + x¯i) ≥ ln ( pi pk ) ,∀i 6= k 2.6.ỨNG DỤNG CỦA PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI Vớ dụ 2.6.1. Bộ phận tuyển sinh đào tạo thạc sĩ quản trị kinh doanh ở một trường đại học đó cú kết quả tuyển sinh đào tạo và họ muốn dựa vào điểm GPA (Grade Point Average) và điểm GMAT (Graduate Management Admission Test) trong kết quả tuyển sinh để tiến hành sơ tuyển phục vụ cụng tỏc tuyển sinh những năm tiếp theo. Dựa vào kết quả tuyển sinh năm vừa qua, bộ phận tuyển sinh đó phõn thành 3 nhúm như sau: pi1 (được nhận hồ sơ), pi2 (khụng được nhận hồ sơ) và pi3 (là biờn của hai nhúm pi1 và pi2 ). Bộ phận tuyển sinh sẽ chỉ nhận hồ sơ của cỏc thớ sinh thuộc nhúm pi1 và pi3 để tham dự kỡ thi ở vũng 2. Giả sử năm tuyển sinh tiếp theo, một thớ sinh cú GPA = 3,21 và GMAT = 497. Khi đú, bộ phận tuyển sinh sẽ phõn loại thớ sinh này vào nhúm nào? 18 Vớ dụ 2.6.2. Trường THPT chuyờn ở tỉnh A muốn dựa vào điểm tổng kết Toỏn và điểm trung bỡnh chung của năm học lớp 9 để tiến hành sơ tuyển. Dựa vào kết quả tuyển sinh của 1 năm nào đú trường sẽ tiến hành phõn thớ sinh vào 3 nhúm: nhúm 1 (được nhận hồ sơ), nhúm 2 (khụng được nhận hồ sơ) và nhúm 3 là nhúm trung gian giữa 2 nhúm trờn. Ở kỡ tuyển sinh tiếp theo nhà trường sẽ dựa vào điểm tổng kết Toỏn và điểm trung bỡnh chung của năm học lớp 9 để tiến hành phõn loại để chỉ nhận những thớ sinh thuộc nhúm 1 và nhúm 3 vào thi tuyển ở vũng 2. 2.7.KHÁI NIỆM PHÂN TÍCH CỤM Phõn tớch cụm là cỏc quy trỡnh tỡm cỏch nhúm cỏc đối tượng đó cho vào cỏc cụm, sao cho cỏc đối tượng trong cựng một cụm tương tự nhau (gần nhau) và cỏc đối tượng khỏc cụm thỡ khụng tương tự nhau (khụng gần nhau) xột theo cỏc đặc tớnh lựa chọn để nghiờn cứu. 2.8. CÁC KHOẢNG CÁCH THƯỜNG DÙNG 2.9. PHƯƠNG PHÁP PHÂN CỤM THEO THỨ BẬC Luận văn sẽ tập trung nghiờn cứu phương phỏp gộp theo thứ bậc và cụ thể là phương phỏp kết nối. Cỏch thực hiện: 1. Chia thành n cụm đơn C1, C2,..., Cn; mỗi cụm chỉ chứa một phần tử. Lập một ma trận khoảng cỏch giữa cỏc cụm này. 2. Tỡm cặp cụm cú khoảng cỏch ngắn nhất, chẳng hạn cụm 19 Ci và cụm Cj , nhập hai cụm này thành một cụm mới (Ci, Cj) đồng thời xúa bỏ cụm Ci và Cj . 3. Lặp lại hai bước trờn cho đến khi cũn lại một cụm thỡ dừng lại. 2.9.1. Phương phỏp phõn cụm theo thứ bậc kết nối đơn Cụng thức tớnh khoảng cỏch giữa hai cụm theo phương phỏp phõn cụm theo thứ bậc kết nối đơn: dA,B = min{dij}, (2.22) trong đú dij là khoảng cỏch giữa hai đối tượng i ∈ A và j ∈ B. Vớ dụ 2.9.1. Cho ma trận khoảng cỏch của 5 phần tử 1 2 3 4 5 D = [dik] = 1 2 3 4 5  0 9 0 3 7 0 6 5 9 0 11 10 2 8 0  Bước 1. Từ ma trận khoảng cỏch ta cú khoảng cỏch giữa hai phần tử 3 và 5 là nhỏ nhất nờn ghộp 3 và 5 thành một cụm (3, 5) Tớnh khoảng cỏch từ cỏc phần tử cũn lại đến cụm (3, 5). Như vậy ma trận khoảng cỏch giữa cỏc cụm (3, 5), (1), (2), (4) là (3, 5) 1 2 4 D = [dik] = (3, 5) 1 2 4  03 07 9 0 8 6 5 0  Bước 2. Khoảng cỏch giữa cụm (3, 5) và (1) là ngắn nhất 20 nờn ghộp hai cụm này thành một cụm là (1, 3, 5). Ma trận khoảng cỏch giữa cỏc cụm (1, 3, 5), (2), (4) là (1, 3, 5) 2 4 D = [dik] = (1, 3, 5) 2 4 [ 0 7 0 6 5 0 ] Bước 3. Khoảng cỏch giữa cụm (2) và (4) là ngắn nhất nờn ghộp hai cụm này thành một cụm là (2, 4). Ma trận khoảng cỏch giữa cỏc cụm (1, 3, 5), (2, 4) là (1, 3, 5) (2, 4) D = [dik] = (1, 3, 5) (2, 4) [ 0 6 0 ] Bước 4. Ghộp hai cụm (1, 3, 5) và (2, 4) thành một cụm duy nhất (1, 2, 3, 4, 5). 2.9.2. Phương phỏp phõn cụm theo thứ bậc kết nối đầy đủ Cụng thức tớnh khoảng cỏch giữa hai cụm theo phương phỏp phõn cụm theo thứ bậc kết nối đầy đủ: dA,B = max{dij}, (2.23) trong đú dij là khoảng cỏch giữa hai đối tượng i ∈ A và j ∈ B. 2.9.3. Phương phỏp phõn cụm theo thứ bậc kết nối trung bỡnh Cụng thức tớnh khoảng cỏch giữa hai cụm theo phương phỏp phõn cụm theo thứ bậc kết nối trung bỡnh: dA,B = 1 nA.nB ∑ i∈A ∑ j∈B dij , (2.24) 21 trong đú dij là khoảng cỏch giữa hai đối tượng i ∈ A và j ∈ B, nA và nB lần lượt là số đối tượng cú trong cụm A và B . 2.10. PHƯƠNG PHÁP PHÂN CỤM K - TRUNG BèNH Cỏch thực hiện 1. Phõn chia cỏc đối tượng thành K cụm ban đầu. 2. Tớnh toỏn khoảng cỏch giữa cỏc đối tượng đến tõm cỏc cụm (khoảng cỏch Euclide). 3. Từ toàn bộ đối tượng, phõn phối lại cỏc đối tượng vào cụm cú khoảng cỏch từ tõm của cụm đến đối tượng đú nhỏ nhất. 4. Tớnh toỏn lại cỏc trung tõm của cỏc cụm mới. 5. Lặp lại bước 2 cho đến khi khụng cũn sự phõn phối lại. Vớ dụ 2.10.1. Cho bảng số liệu hai chiều sau: Đối tượng Giỏ trị quan sỏt x1 x2 A 5 3 B -1 1 C 1 -2 D -3 -2 Phõn chia cỏc đối tượng thành K = 2 cụm sao cho khoảng cỏch từ đối tượng đến tõm của cụm chứa nú là nhỏ nhất. Bước 1. Giả sử ta chọn A là tõm của nhúm thứ nhất c1(5, 3) và B là tõm nhúm thứ hai c2(−1, 1). Bước 2. Tớnh khoảng cỏch giữa cỏc đối tượng đến tõm cỏc 22 cụm. Ta được ma trận khoảng cỏch D0 = [ 0 6, 32 6, 4 9, 43 6, 32 0 3, 61 3, 61 ] Bước 3. Nhúm cỏc đối tượng vào cụm gần nhất G0 = [ 1 0 0 0 0 1 1 1 ] Ta thấy rằng sau vũng lặp thứ nhất, cụm 1 gồm một đối tượng A và cụm 2 gồm cỏc đối tương B, C, D. Bước 4. Cụm 1 chỉ cú một đối tượng A nờn tõm cụm khụng đổi. Tõm cụm 2 được tớnh như sau: c2 = (−1 + 1− 3 3 ; 1− 2− 2 3 ) = (−1, 5;−1, 5). Bước 5. Tớnh lại khoảng cỏch từ đối tượng đến tõm mới. Ta cũng được ma trận khoảng cỏch như sau D1 = [ 0 6, 32 6, 4 9, 43 6, 67 2, 55 2, 55 1, 58 ] Bước 6. Phõn phối cỏc đối tượng vào cụm G1 = [ 1 0 0 0 0 1 1 1 ] Ta thấy G0 = G1 nờn thuật toỏn dừng và kết quả phõn cụm như sau Đối tượng Giỏ trị quan sỏt Cụm x1 x2 A 5 3 1 B -1 1 2 C 1 -2 2 D -3 -2 2 Cuối cựng hai cụm cần tỡm là (A) và (B,C,D). 23 2.11.ỨNG DỤNG CỦA PHÂN TÍCH CỤM Vớ dụ 2.11.1. Trong xếp loại học lực, học sinh được xếp thành 5 loại Giỏi (GIOI), Khỏ (KHA), Trung bỡnh (TB), Yếu (YEU), Kộm (KEM). Trong vớ dụ này chỳng tụi sử dụng thờm phương phỏp phõn tớch cụm để cú thờm một gúc nhỡn khỏc trong đỏnh giỏ, xếp loại học sinh. Vớ dụ 2.11.2. Trường THPT A muốn dựa vào kết quả học tập lớp 9 của cỏc thớ sinh trỳng tuyển vào lớp 10 để phõn vào 8 lớp học sao cho cỏc học sinh trong 1 lớp cú kết quả học tập tương đối đồng đều nhất. Khi đú cú thể sử dụng phương phỏp K - trung bỡnh phõn tớch thành 8 cụm. 24 KẾT LUẬN Sau một khoảng thời gian thu thập tài liệu, nghiờn cứu và tổng hợp, luận văn “Phõn tớch phõn biệt, phõn loại và phõn tớch cụm” đó hoàn thành, luận văn giải quyết được hai bài toỏn sau: 1. Bài toỏn phõn biệt và phõn loại : Phương phỏp đưa ra để giải quyết bài toỏn này là dựa vào xỏc suất tiền nghiệm và hàm mật độ xỏc suất để đưa ra hàm phõn biệt, từ đú tớnh được xỏc suất sai lầm trong phõn loại. 2. Bài toỏn phõn cụm: Để giải quyết bài toỏn phõn cụm, luận văn đó đưa ra hai phương phỏp - Phương phỏp phõn cụm theo thứ bậc kết nối - Phương phỏp phõn cụm K-trung bỡnh. Mặc dự đó cố gắng nhưng do trỡnh độ cú hạn nờn luận văn khụng trỏnh khỏi sai sút, kớnh mong sự đúng gúp ý kiến của quý thầy cụ và cỏc bạn để luận văn được hoàn thiện hơn.

Các file đính kèm theo tài liệu này:

lethituyetnhung_tt_4437_2075624.pdf