TÓM TẮT LUẬN VĂN
Cây sinh loài mô tả lịch sử tiến hóa của một nhóm các loài với những đặc tính
khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ
tiên chung trong quá khứ. Đặc tính của mỗi loài được chúng ta quan tâm ở đây tương
ứng với các bộ gen. Gen là các chuỗi DNA được bao gồm từ các kí tự A, G, C và T
hợp thành. Cây sinh loài là một cây mà các nút lá (taxa) của nó có thể là các vật sống
hiện tại ngày nay, các nút trong của cây đó là các tổ tiên của các nút lá. Tái cấu trúc
cây sinh loài chính là tìm những gen phù hợp nhất để đưa vào các nút tổ tiên hoặc là
đưa ra một cây sinh loài phù hợp nhất để giải thích quá trình tiến hoá.
Tuy nhiên, việc nghiên cứu cây sinh loài cho nhiều hướng tiếp cận. Mỗi phương
pháp có những ưu điểm và khuyết điểm của nó. Phương pháp ước lượng hợp lý cực
đại được chọn ở đây là phương pháp phức tạp nhất nhưng lại là phương pháp cho kết
quả tin cậy nhất. Công cụ chính sử dụng trong phương pháp này là Đại số thống kê và
Đại số máy tính. Đó là những lãnh vực phát triển mạnh mẽ trong những năm gần đây.
Thống kê là ngành khoa học phân tích dữ liệu. Đối với các chuỗi DNA thì
thống kê sẽ xây dựng những mô hình quá trình phát sinh dữ liệu. Đưa ra những kết
luận chung về quá trình phát sinh đó. Mô hình thống kê là nguyên tắc cơ bản đối với
các gen. Đại số thống kê làm sáng tỏ cho những ý tưởng trọng tâm về phân tích dữ liệu
rời rạc nói riêng và phân tích chuỗi sinh học nói riêng.
Ước lượng hợp lý cực đại (Maximum Likelihood Estimation – MLE) được
công thức hoá trong Xác suất cổ điển, nó có tính chất của một ước lượng tốt. Phương
pháp MLE đánh giá những tham số của một mô hình thối lui. MLE dẫn đến việc giải
quyết là làm cực đại tích của những đa thức.
Đại số máy tính là một lãnh vực mới, nó cung cấp những nền tảng để giải bài
toán MLE trên máy tính.
Đề tài này tập trung vào việc nghiên cứu mô hình xác suất thống kê trên cây
sinh loài từ những dữ liệu là các gen của sinh vật sống. Sau đó sử dụng những nền tảng
toán học, đại số máy tính để giải quyết bài toán hợp lý cực đại của mô hình xác suất
trên. Mục tiêu cuối cùng là tìm một cây sinh loài thích hợp nhất để giải thích sự tiến
hoá. Những kết quả của luận văn đã làm như sau:
- Về phương pháp: Chọn phương pháp đáng tin cậy nhất là phương pháp ước
lượng hợp lý cực đại cho mô hình hóa bài toán. Giải phương trình hợp lý bằng
phương pháp tính toán đại số để tìm kết quả chính xác.
- Về tính toán: Viết một chương trình để mô hình hóa ước lượng hợp lý cực đại
trên cây sinh loài và chạy tìm nghiệm phương trình hợp lý trên một số cây sinh
loài nhỏ 3 và 4 taxa ở một số mô hình.
MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
TÓM TẮT LUẬN VĂN 3
DANH MỤC BẢNG 4
DANH MỤC HÌNH .5
MỤC LỤC 6
Chương 1. GIỚI THIỆU ĐỀ TÀI 9
1.1. Giới thiệu 9
1.2. Cấu trúc luận văn 10
Chương 2. CƠ SỞ LÝ THUYẾT VỀ CÁC CẤU TRÚC ĐẠI SỐ VÀ XÁC SUẤT
THỐNG KÊ 12
2.1. Một số cấu trúc đại số cơ bàn .12
2.1.1. Lý thuyết nhóm .12
2.1.2. Lý thuyết vành 13
2.1.3. Trường 14
2.1.4. Vành đa thức .14
2.1.5. Ma trận 15
2.1.6. Định thức 15
2.1.7. Không gian vector .16
2.1.8. Đa tạp đại số .18
2.2. Các khái niệm về xác suất thống kê .18
2.2.1. Định nghĩa về xác suất 18
2.2.2. Xác suất có điều kiện 19
2.2.3. Đại lượng ngẫu nhiên và hàm phân phối 20
2.2.4. Các đặc trưng của đại lượng ngẫu nhiên .20
2.2.5. Lý thuyết mẫu .21
2.2.6. Ước lượng tham số 22
2.2.7. Sơ lược về ước lượng hợp lý cực đại 22
Chương 3. ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI TRÊN MẪU QUAN SÁT 25
3.1. Ước lượng hợp lý cực đại là gì? 25
3.1.1. Đặt vấn đề .25
3.1.2. Khái quát về ước lượng hợp lý cực đại .25
3.1.3. Ví dụ về ước lượng hợp lý cực đại .26
3.2. Giải bài toán ước lượng hợp lý cực đại 26
3.2.1. Nguyên lý ước lượng hợp lý cực đại 26
3.2.2. Logarit hàm hợp lý 26
3.3. Tổng quát hóa bài toán ước lượng hợp lý cực đại 27
3.3.1. Ước lượng hợp lý cực đại trên mẫu quan sát 27
3.3.2. Một số phương pháp giải phương trình hợp lý .28
Chương 4. CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN CÂY
SINH LOÀI .30
4.1. Giới thiệu sơ lược về cây sinh loài 30
4.2. Các nghiên cứu phát sinh sinh loài .31
4.3. Mô hình ước lượng hợp lý cực đại trên cây sinh loài .32
4.4. Mô hình tiến hóa 33
Chương 5. BẤT BIẾN TRÊN CÂY SINH LOÀI .37
5.1. Dẫn nhập .37
5.2. Mô hình xác suất trên cây sinh loài 38
5.2.1. Mô hình bài toán cây sinh loài 38
5.2.2. Nhóm Abel và sự liên hệ với các ma trận chuyển đổi 39
5.3. Biến đổi Fourier .40
5.4. Toạ độ Fourier .42
5.5. Áp dụng tìm bất biến trên một cây sinh loài .42
5.5.1. Mô hình bài toán .42
5.5.2. Các khả năng xảy ra trên các nút lá 43
5.5.3. Các lớp xác suất tương đương 43
5.5.4. Chuyển đổi Fourier .44
5.5.5. Kết quả tìm được 45
5.6. Những tính chất của thành phần bất biến .46
Chương 6. GIẢI PHƯƠNG TRÌNH HỢP LÝ 47
6.1. Quỹ tích hợp lý trên một đa tạp .47
6.2. Ma trận Jacobi của các đa thức bất biến .47
6.2.1. Gradient- Vector vận tốc .47
6.2.2. Ma trận Jacobi của các đa thức bất biến .48
6.2.3. Không gian tiếp xúc 49
6.3. Bài toán cực trị điều kiện 49
6.4. Bậc của hợp lý cực đại .50
6.5. Các thuật toán 50
6.6. Áp dụng giải phương trình hợp lý 51
Chương 7. CHƯƠNG TRÌNH THỰC HIỆN .53
7.1. Sơ đồ khối chương trình 53
7.2. Sơ lược về chương trình 54
7.3. Kết quả chương trình 54
Chương 8. TỔNG KẾT – ĐÁNH GIÁ 57
8.1. Tổng kết 57
8.2. Những đóng góp của luận văn 57
8.3. Hướng phát triển .58
TÀI LIỆU THAM KHẢO .59
76 trang |
Chia sẻ: lvcdongnoi | Lượt xem: 2637 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
r đối với những tổ hợp của xác suất trên đối với
nhóm . Để làm điều đó, chúng ta thay thế phân bố gốc nG :π →G R bởi một hàm số
mới : nπ → G R như sau:
1 1 2
1
( )
( ,..., )
0
neáu
ngöôïc laïi
n
n
h h h ... h
h h
ππ = = =⎧= ⎨⎩
Từ đó chúng ta có:
∑ ∏
∈ =
−=
n
n Ghh
n
i
ii
i
nn ghfhhggp
),...,( 1
)(
11
1
)(),...,(~),...,( π
vì thế p là chập của hai hàm số trên . Biến đổi Fourier cho ra: nG
∏
=
=
n
i
i
i
nn fq
1
)(
11 )(ˆ),...,(~ˆ),...,( χχχπχχ
bởi công thức tính chập là độc lập của f(i) trong biến đổi Fourier. Mặt khác
∑
∑
=〉〈=
〉〈=
∈
∈
)...(ˆ)(.),...
),...,(~.),...,(),,...,(),...,(~ˆ
2121
111),..,(1 1
nnGg
nnnGggn
gg
ggggn
n
χχχππχχχ
πχχχχπ
cho nên
∏
=
=
n
i
i
i
nn fq
1
)(
11 )(ˆ),...,(ˆ),...,( χχχπχχ
Ví dụ trên là cơ sở để giới thiệu sự cần thiết để chứng minh những kết quả tổng
quát sau.
Định lý ([Evans and Speed, 1993]): Cho là phân phối có điều
kiện của một mô hình cơ sở nhóm đối với cây sinh loài T được giới thiệu ở phần trên.
Thì biến đổi Fourier của p có dạng
),...,( 1 nggp
)(ˆ),...,(ˆ),...,(
}{\)( )(
)(
11 ∏ ∏
∈ Λ∈
=
rTVv vl
l
v
nn fq χχχπχχ
với )(vΛ là tập của lá có v như là cha.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 42
Thay thế tọa độ gốc bởi tọa độ Fourier , kết quả của là các
đơn thức của các tham số.
niiip ..21 niiiq ..21 niiiq ..21
5.4. Toạ độ Fourier
Mỗi một tọa độ Fourier của 2n hoặc 4n tọa độ được ký hiệu bởi . Chú ý,
với phân phối tại gốc là phân phối đều và mô hình chúng ta đang xét có cấu trúc nhóm
như Jukes-Cantor hay Kimura-2, Kimura-3, biến đổi Fourier từ theo và
ngược lại theo định lý trên (ở phần 5.3) như sau:
niiiq ..21
niiip ..21 niiiq ..21
∑=
n
n
n
n
jj
jjn
jj
iii qiip
,...,
...1..
1
1
1
21
,)()...( χχ
∑=
n
n
n
n
jj
jjn
ii
niii pjjk
q
,...,
...1..
1
1
1
21
.)()...(1 χχ
Ở đây iχ là đặc trưng của nhóm kết hợp đến phần tử thứ i của nhóm. Bảng đặc
trưng của nhóm chúng ta sử dụng là và 2Z 2 2⊕Z Z sau:
111
110
1 0
-
và
1111
1111
1111
1111
- -T
- - G
- -C
A
T G C A
Nói cách khác, là chính là phần tử (i, j) tương ứng trong bảng đặc trưng
trên.
)( jiχ
5.5. Áp dụng tìm bất biến trên một cây sinh loài
5.5.1. Mô hình bài toán
Để làm rõ vấn đề trên chúng ta xem xét một cây sinh loài cụ thể sau: Cho cây
sinh loài có gốc với 3 lá với hình 8 sau:
Hình 8: Cây sinh loài có gốc với 3 nút lá
Để đơn giản, giả sử mô hình chúng ta đang xét là mô hình Jukes – Cantor với 4
trạng thái. Ngoài ra, các kí tự tại nút gốc có phân phối đều, nói cách khác xác suất xuất
hiện các ký tự {A, G, C, T} tại gốc là bằng nhau và bằng 0.25.
Theo hình dáng cây trên, chúng ta có 3 cạnh bằng nhau, cho nên ma trận xác
xuất chuyển đổi như sau:
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 43
0 1 1 1
1 0 1 1
1 1 0 1
1 1 1 0
c c c c
c c c c
c
c c c c
c c c c
⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
(Với ma trận trên ta có ràng buộc c0+3c1=1).
5.5.2. Các khả năng xảy ra trên các nút lá
Như trên, vì cây có 3 lá, nên số trường hợp có thể xảy ra trên lá là 64 khả năng.
(Xem Phụ lục 1)
5.5.3. Các lớp xác suất tương đương
Trong 64 toạ độ trên, thì chỉ có 4 lớp tương đương sau:
Lớp 1 có 4 toạ độ:
3 3
0 1
1 3
4 4AAA GGG CCC TTT
p p p p c= = = = + c
Lớp 2 có 36 tọa độ:
2
0 1 0
1 1
4 4
AAC AAG AAT ACA ACC AGA AGG ATA ATT
CAA CAC CCA CCG CCT CGC CGG CTC CTT
GAA GAG GCC GCG GGA GGC GGT GTG GTT
TAA TAT TCC TCT TGG TGT TTA TTC TTG
p p p p p p p p p
p p p p p p p p p
p p p p p p p p p
p p p p p p p p p
c c c
= = = = = = = =
= = = = = = = = =
= = = = = = = = =
= = = = = = = = =
= + 2 31 112c c+
Lớp 3 có 24 tọa độ:
2 3
0 1 1
3 1
4 4
ACG ACT AGC AGT ATC ATG CAG CAT CGA
CGT CTA CTG GAC GAT GCA GCT GTA GT
TAC TAG TCA TCG TGA TGC
p p p p p p p p p
Cp p p p p p p p p
p p p p p p c c c
= = = = = = = =
= = = = = = = = =
= = = = = = = +
Đặt 0 1, 2,p p p là tổng các xác suất trong một lớp tương đương trên, ta có:
3 3
0 0 3p c c= + 1
3
1
1c
m
2 2
1 0 1 0 19 9 18p c c c c c= + +
2 3
2 0 118 6p c c= +
Vậy ánh xạ chúng ta cần xem xét , trong đó: : df →^ ^
Trong đó d = 2 (c0 và c1) và cây có 3 lớp đại diện cho 64 khả năng xảy ra ở các
nút lá cho nên m = 3.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 44
Vì thế thực tế ánh xạ chúng ta đang xét đó là:
2 3:f →\ \
5.5.4. Chuyển đổi Fourier
Sử dụng công thức chuyển đổi Fourier
∑=
n
n
n
n
jj
jjn
ii
niii pjjk
q
,...,
...1..
1
1
1
21
.)()...(1 χχ
ta được:
3 2 2 3
0 1 2 0 0 1 0 1 1
3 2 2
0 1 2 0 0 1 0 1
9 27 27
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
AAA
AAG
q p p p c c c c c c
q p p p c c c c c
= + + = + + +
= + = + + 31c
3 2 2
0 1 2 0 0 1 0 1
3 2 2
0 1 2 0 0 1 0 1
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
AAC
AAT
q p p p c c c c c
q p p p c c c c c
= + = + +
= + = + +
3
1
3
1
c
c
3 2 2
0 1 2 0 0 1 0 1
3 2 2
0 1 2 0 0 1 0 1
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
AGA
AGG
q p p p c c c c c
q p p p c c c c c
= + = + +
= + = + +
3
1
3
1
c
c
3 2 2 3
0 1 2 0 0 1 0 1
3 2 2 3
0 1 2 0 0 1 0 1
1 1 1 1- -
18 18 2 2
1 1 1 1- -
18 18 2 2
1 1
6 6
1 1
6 6
AGC
AGT
q p p p c c c c c
q p p p c c c c c
= + = +
= + = +
1
1
-
-
1
6
1
6
c
c
3 2 2
0 1 2 0 0 1 0 1
3 2 2
0 1 2 0 0 1 0 1
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
1 1 1 1- -
18 18 2 2
1 1
6 6
ACA
ACG
q p p p c c c c c
q p p p c c c c c
= + = + +
= + = +
3
1
3
1-
1
6
c
c
3 2 2
0 1 2 0 0 1 0 1
3 2 2 3
0 1 2 0 0 1 0 1
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
1 1 1 1- -
18 18 2 2
1 1
6 6
ACC
ACT
q p p p c c c c c
q p p p c c c c c
= + = + +
= + = +
3
1
1-
1
6
c
c
3 2 2
0 1 2 0 0 1 0 1
3 2 2 3
0 1 2 0 0 1 0 1
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
1 1 1 1- -
18 18 2 2
1 1
6 6
ATA
ATG
q p p p c c c c c
q p p p c c c c c
= + = + +
= + = +
3
1
1-
1
6
c
c
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 45
3 2 2 3
0 1 2 0 0 1 0 1
3 2 2
0 1 2 0 0 1 0 1
1 1 1 1- -
18 18 2 2
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
1 1
6 6
ATC
ATT
q p p p c c c c c
q p p p c c c c c
= + = +
= + = + +
1
3
1
- 1
6
c
c
3
1c
Tất cả q còn lại đều mang giá trị 0.
Các q trên được chia thành 3 lớp tương đương:
Lớp 1(có một tọa độ):
3 2 2
1 2 3 0 0 1 0 19 27 27 AAAq p p p c c c c c= + + = + + +
Lớp 2 (có 9 tọa độ):
3 2 2 3
1 2 3 0 0 1 0 1 1
1 1 1 1 1 5 1- -
9 81 27 9 9 9 3
AAG AAC AAT AGA AGG ACA ACC ATA ATTq q q q q q q q q
p p p c c c c c c
= = = = = = = =
= + = + +
Lớp 3 (có 6 tọa độ):
3 2 2 3
1 2 3 0 0 1 0 1
1 1 1 1- -
18 18 2 2
1 1
6 6
AGC AGT ACG ACT ATG ATCq q q q q q
1-
1
6
p p p c c c c c
= = = = =
= + = + c
3
1
Đặt là tổng giá trị của từng lớp tương đương trên, thì 0 1 2, ,q q q
3 2 2
0 0 1 2 0 0 1 0 19 27 27 q p p p c c c c c c= + + = + + +
3 2 2
1 0 1 2 0 0 1 0 1
1 1- - 5
9 3
q p p p c c c c c c= + = + + 313
3 2 2
2 0 1 2 0 0 1 0 1
1 1- - 3 3
3 3
q p p p c c c c c c= + = + 31-
5.5.5. Kết quả tìm được
Bất biến cần tìm là được:
2 3
0 2 1- 0q q q =
Hay bất biến cần tìm:
2 3
0 1 2 0 1 2 0 1 2
2 2 2 3 2 2 3
0 2 0 1 0 2 1 1 2 1 2 2
1 1 1 1( )( - ) - ( - ) 0
3 3 9 3
8 16 4 80 8 4 4- - -
3 27 9 729 81 27 27
p p p p p p p p p
p p p p p p p p p p p p
+ + + + =
⇔ + + + 0=
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 46
5.6. Những tính chất của thành phần bất biến
Cũng theo các tác giả [Evans and Speed, 1993] thì với phép biến đổi Fourier
trên, chúng ta sẽ tìm được tất cả các thành phần bất biến trên cây sinh loài. Và một
điều quan trọng nữa là các thành phần bất biến trên là những đa thức thuần nhất.
Thành phần bất biến tầm thường nhất là 1i
i
p =∑ mà ta đã biết. Những thành phần bất
biến tìm được ở đây là dữ liệu đầu vào để giải trình hợp lý ở chương sau.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 47
Chương 6. GIẢI PHƯƠNG TRÌNH HỢP LÝ
Chương này đưa ra phương pháp giải phương trình hợp lý dựa vào tính bất biến
của cây sinh loài và mẫu dữ liệu quan sát.
6.1. Quỹ tích hợp lý trên một đa tạp
Chúng ta mô tả một mô hình thống kê là một tập con của:
1
0 1 0 1 0 1{( , ,..., ) : , ,..., 0 ... 1}
n
n n np p p p p p p p p
+Δ = ∈ > + + + =R vaø n
giả sử rằng, mô hình được mô tả như là một tập nghiệm chứa trong bởi một hệ các
phương trình các đa thức thuần nhất với các biến chưa biết . Các đa thức
được biết như là thành phần bất biến ở chương 5. Gọi V là tập của tất cả nghiệm phức
được cho bởi hệ các phương trình đa thức thuần nhất. Vấn đề cực đại hợp lý là tìm
những điểm ở mô hình
nΔ
0 1, ,..., np p p
0 1( , ,..., )np p p p=
0 nV V> = Δ∩
mà giải thích hợp lý nhất cho bởi véc tơ dữ liệu . Nghĩa là giải
quyết vấn đề tối ưu với ràng buộc sau:
1
0 1( , ,..., )
n
nu u u
+∈`
Cực đại hàm hợp lý 0 10 1 ... n
u u
n
uL p p p= hay bài toán log tương đương
với giả thuyết là 0 0log .... lognl u p u p= + + n 0p V>∈ .
Tiếp cận của chúng ta là tìm tất cả các điểm tới hạn của hàm hợp lý cực đại L
và sau đó chọn những nghiệm thực dương, những điểm đó là cực trị địa phương.
Trong quá trình giải tìm cực đại hàm trên, chúng ta sẽ tìm tất cả điểm tới hạn trên đa
tạp phức V. Cho sin gV ký hiệu những điểm kỳ dị của đa tạp V và tập .
Đặt P là iđêan trên vành đa thức được sinh bởi các đa thức được xác
định bởi V, hay:
sin: \reg gV V V=
0 1[ , ,..., ]np p pR
0 1[ ] [ , ,..., ]/nV p p p P=R R
Định nghĩa: Cho U là một tập mở 0 1\ ( . ... ( ))reg n iV p p p p℘ ∑ của V . Quỹ tích
hợp lý Zu là tập các điểm p U∈ mà 0dL = . Iđêan hợp lý [ ]uI V⊂ R là iđêan của tập
đóng của Zu trong V.
6.2. Ma trận Jacobi của các đa thức bất biến
6.2.1. Gradient- Vector vận tốc
Cho khả vi. Khi đó gradient của f tại x, được ký hiệu : nf →\ \ ( )gradf x và
định nghĩa là vector:
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 48
1
( ) ( ( ),..., ( ))grad
n
f ff x x
x x
x∂ ∂= ∂ ∂
Với , tập c∈\ 1{ : ( ) }nc ( )M x f x c f −= ∈ = =\ c gọi là mặt mức. Về mặt
hình học vector grad f(x) vuông góc với mặt mức của cM tại x.
Vậy phương trình mặt phẳng tiếp xúc với cM tại 1( ,..., )na a a= là
1 1
1
( )( ) ... ( )( ) 0n n
n
f fa x a a x a
x x
∂ ∂− + + − =∂ ∂
6.2.2. Ma trận Jacobi của các đa thức bất biến
Đặt là tập các đa thức thuần nhất được sinh ra bởi iđêan P.
Chúng ta mô tả ma trận Jacobi như sau:
0 1{ , ,..., }rg g g
1 0 1 1 1
2 0 2 1 2
0 1
1 1 1
n
n
r r r
g p g p g p
J g p g p g p
g p g p g p
⎡ ⎤⎢ ⎥∂ ∂ ∂ ∂ ∂ ∂⎢ ⎥⎢ ⎥= ∂ ∂ ∂ ∂ ∂ ∂⎢ ⎥⎢ ⎥⎢ ⎥∂ ∂ ∂ ∂ ∂ ∂⎣ ⎦
"
"
"
# # % #
" n
và ma trận chuyển vị của J là : TJ
1 0 2 0 0
1 1 2 1 1
1 2
1
1
1
r
rT
n n r
g p g p g p
g p g p g p
J
g p g p g p
∂ ∂ ∂ ∂ ∂ ∂⎡ ⎤⎢ ⎥∂ ∂ ∂ ∂ ∂ ∂⎢ ⎥= ⎢ ⎥⎢ ⎥∂ ∂ ∂ ∂ ∂ ∂⎣ ⎦
"
"
# # # % #
" n
Chúng ta nhân J bởi ma trận đường chéo các phần tử trên đường chéo là các
biến như sau:
0 1
1 1
0 1
0 1
2 2
0 10 1
0 1
0 1
0 0
. ( , ,..., )
n
n
n
nn
n
r r
n
n
p p p
g gp p p 1
2
r
g
p p p
g g gp p pJ J diag p p p
p p p
g g gp p p
p p p
⎡ ⎤⎢ ⎥∂ ∂ ∂⎢ ⎥∂ ∂ ∂⎢ ⎥⎢ ⎥∂ ∂ ∂⎢ ⎥= = ∂ ∂ ∂⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥∂ ∂ ∂⎢ ⎥∂ ∂ ∂⎣ ⎦
"
"
"
# # % #
"
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 49
6.2.3. Không gian tiếp xúc
Vì V là một đa tạp khả vi và p V∈ , tập vector tiếp xúc với M tại p được gọi là
không gian tiếp xúc với V tại p và ký hiệu thì: pT V
{ : ( ), 1,...,gradnp iT V v v g p i m= ∈ ⊥ =P }
Viết một các khác cho bởi hệ phương trình pT V : . 0
nv J v∈ =P , hay là
Ker của ma trận trên .
pT V
J 0 1[ ] [ , ,..., ]/nV p p p=\ R P
6.3. Bài toán cực trị điều kiện
Ta có bài toán tìm cực trị của hàm hợp lý chính là tìm cực trị hàm .
Nói cách khác là tìm cực trị của hàm l với điều kiện ràng buộc .
Ta có:
:l V →\
0 1 ... 0rg g g= = = =
0
0
( ) ( ,..., )grad n
n
u ul p
p p
=
Điều kiện cần: Nếu đặt cực trị với ràng buộc l 0 1 ... 0rg g g= = = = tại p, thì
( )grad pf p T V⊥ suy ra
0
0
0
... 0n n
n
u uv v
p p
+ + = với pv T V∈
vì nên tập các p thuộc tập: 0, 0,...,ip i≠ = n
0
0
n
i i
i
uφ
=
=∑ với các vector 0( ,..., )nφ φ
chạy trên tập Ker của ma trận trên J 0 1[ ] [ , ,..., ]/nV p p p P=\ R
Phương pháp nhân tử hoá Lagrange: Từ trên, để tìm điểm nghi ngờ cực trị của l với
điều kiện , ta lập hàm Lagrange 0 1 ... 0rg g g= = = =
1
0 0 0( , ) ( ) ... , ,( ,..., )
r
r r rp l p g g p Vλ λ λ λ λ += − − − ∈ ∈^L
Nếu p là điểm cực trị có điều kiện thì tồn tại sao cho ( ,10( ,..., )
r
rλ λ +∈^ )p λ là
nghiệm của hệ:
0
( , ) 0
( ) 0
( ) 0r
p
p
g p
g p
λ∂⎧ =⎪ ∂⎪⎪ =⎨⎪⎪ =⎪⎩
#
L
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 50
Điều kiện đủ: Đặt *( *, )pH p λL là Hessian của hàm Lagrange theo biến p. Khi
đó: Nếu
L
*( *, )pH p λL xác định âm, thì đạt cực đại tại . l *p
( Xem [Tạ Lê Lợi, 2002])
6.4. Bậc của hợp lý cực đại
Bậc hợp lý cực đại của mô hình thống kê đại số là số điểm tới hạn phức của
logarit phương trình hợp lý đối với vector dữ liệu l 1nu +∈` và nó hữu hạn và bị chặn
trên theo định lý sau:
Định lý: Cho 0,..., rP g g= 〈 〉 là một iđêan trong với là đa thức thuần
nhất có bậc là với . Thì bậc hợp lý cực đại của P là hữu hạn và bị chặn
trên bởi
0[ ,..., ]np p_ ig
id 0,...,i = r
d0 1
0 1
0
0 0
...
0,...., 0
... r
r
r
i i i
r
i i i n r
i i
D d d
+ + + ≤ −
> >
= ∑
Chứng minh: Xem [Hoşten et al., 2005].
6.5. Các thuật toán
Từ các phân tích trên ta xây dựng một số thuật toán sau giải phương trình hợp
lý.
Thuật toán 1: (Tính toán phương trình hợp lý)
Input: Một iđêan thuần nhất và một vector 0[ ,..., ]nP p p⊂ \ 1nu +∈` .
Output: Iđêan hợp lý uI của mô hình ( )V Pυ= cho dữ liệu u.
Bước 1: Tính . Đặt Q là iđêan những quỹ tích điểm kỳ dị của V. ( 1) dim(c n V= + − )
Bước 2: Tính Ker M của ma trận trên J 0 1[ ] [ , ,..., ]/nV p p p P=\ R .
Bước 3: Đặt 'uI là iđêan trong sinh bởi đa thức [ ]V\
0
0
n
i i
i
uφ
=
=∑ , với vector
0( ,..., )nφ φ chạy trên tập M.
Bước 4: Iđêan uI bằng
'
uI loại bỏ đi những điểm kỳ dị.
(Chứng minh tính đúng thuật toán trên: Bước 1, tìm quỹ tích những điểm kỳ dị được
chứng minh ở [J.S. Milne, 2005]. Các bước còn lại có được bởi sự phân tích ở phần
đầu chương).
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 51
Thuật toán 2: (Tính toán cực đại địa phương của hàm hợp lý)
Input: Iđêan hợp lý uI của mô hình V và dữ liệu u.
Output: Danh sách của tất cả các cực đại địa phương cho phương trình hợp lý.
Bước 1: Nếu dim đối với dữ liệu u, tính ra tập ( ) 0uI = uZ .
Với mỗi một nghiệm dương thực hiện các bước sau: * 0up Z V>∈ ∩
Bước 2: Giải phương trình tuyến tính *( ).TJ p uλ = để thu các nhân tử Lagrange *iλ .
Bước 3: Tính toán Hessian *( *, )pH p λL của hàm ( , )p λL .
Bước 4: Nếu *( *, )pH p λL ở bước 3 là xác định âm thì xuất với giá trị hàm
tương ứng.
*p
*(l p )
6.6. Áp dụng giải phương trình hợp lý
Xét ví dụ cây sinh loài ở chương 5, thành phần bất biến chúng ta tìm được là:
2 2 2 3 2 2
1 0 2 0 1 0 2 1 1 2 1 2 2
8 16 4 80 8 4 4- - -
3 27 9 729 81 27 27
g p p p p p p p p p p p p= + + + 3 0=
và bất biến tầm thường là:
0 0 1 2 1 0g p p p= + + − =
hay :
2 2 2 3 2 2
0 1 2 0 2 0 1 0 2 1 1 2 1 2 2
8 16 4 80 8 4 4: 1, - - -
3 27 9 729 81 27 27u
3I p p p p p p p p p p p p p p p= 〈 + + − + + + 〉
Giả sử bộ dữ liệu quan sát đếm được cho từng xác suất tương ứng là
.
0 1 2, ,p p p
(700,45,49)u =
Kết quả sau khi chạy thuật toán 1: Xem phụ lục 2.
Kết quả sau khi chạy thuật toán 2 tìm được số nghiệm của phương trình hợp lý
là 5 nghiệm như sau:
(0.2474737682, 2.5624447362, -1.8099185045)
(0.8289181084, 0.1641242871, 0.0069576045)
(0.1469015638, 0.7993903746, 0.0537080615)
(-0.0296031392-i*0.2337477875,0.0376058385-i*0.0038708209,
0.9919973007+i*0.2376186084)
(-0.0296031392+i*0.2337477875,0.0376058385+i*0.0038708209,
0.9919973007-i*0.2376186084)
Trong 5 nghiệm trên có 2 nghiệm thực dương là:
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 52
(0.8289181084, 0.1641242871, 0.006957604546)
(0.1469015638, 0.7993903746, 0.05370806152)
Hàm Lagrange tương ứng:
0 1 2 0 0( , ) 700ln( ) 45ln( ) 49ln( )p p p p g 1 1gλ λ λ= + + + +L
Với nghiệm thứ nhất nhân tử Lagrange tìm được tương ứng là:
*
0 844.4742431640λ = , *1 =18.6903667449λ
Ma trận Hessian tương ứng
* *
0 1 2
1( , )
-7.000e+02 -3.441e-03 7.832e-02
-3.441e-03 -4.502e+01 -6.100e-04
7.832e-02 -6.100e-04 -4.899e+01
pH p p p p
λ
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
L
Ma trận Hessian trên cho xác định âm, cho nên hàm hợp lý trên đạt giá trị cực
đại cục bộ tại điểm trên và giá trị hàm hợp lý tương ứng là:
-456.0927286l =
Với nghiệm thứ hai nhân tử Lagrange tìm được tương ứng là:
*
0 4765.0976562500λ = , *1 =64.9804763793λ
Ma trận Hessian tương ứng
* *
0 1 2
1( , )
-6.999e+02 -3.883e-01 3.407e-01
-3.883e-01 -4.486e+01 -7.124e-02
3.407e-01 -7.124e-02 -4.904e+01
pH p p p p
λ
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
L
Ma trận Hessian trên cũng cho xác định âm, cho nên hàm hợp lý trên đạt giá trị
cực đại cục bộ tại điểm trên và giá trị hàm hợp lý tương ứng là:
-1495.955966l =
Với 2 kết quả trên ta có thể kết luận, hàm hợp lý đạt giá trị cực đại toàn cục tại
(0.8289181084, 0.1641242871, 0.0069576045) p = và giá trị hàm hợp lý tương
ứng là . -456.0927286l =
Kết quả chương trình với số cây khác xem phụ lục 4.
Vì chúng ta xử lý bài toán trên những xác suất nên độ chính xác là cần thiết, vì
thế độ dài phần lẻ được lấy ở chương trình là 10 con số. Và chương 7 sẽ cho chúng ta
một cái nhìn tổng quan hơn về chương trình thực hiện giải phương trình hợp lý - áp
dụng trên cây sinh loài.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 53
Chương 7. CHƯƠNG TRÌNH THỰC HIỆN
7.1. Sơ đồ khối chương trình
Hình 9: Sơ đồ khối chương trình tìm cấu trúc cây sinh loài
Input: Các chuỗi DNA
N := Số cây sinh loài được
tạo ra từ các chuỗi trên
i: = 1
Tính các thành phần bất biến
của cây i
Tính vector u từ các chuỗi
Begin
Giải phương trình hợp lý
i<N
Output: Cây sinh loài có hàm hợp
lý lớn nhất
Tính các lớp tương đương trên
cây i
End
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 54
7.2. Sơ lược về chương trình
Bài toán trên được chia thành nhiều bài toán nhỏ tách rời nhau. Vì thế để chọn
một ngôn ngữ lập trình phù hợp của từng công đoạn cũng cần được tính đến. Trong
luận văn này, hai ngôn ngữ được chọn để viết và kiểm nghiệm đó là ngôn ngữ C++ và
Singular. Gói phần mềm viết bằng C++ giải quyết phần đầu bài toán là xác định các
xác suất xảy ra trên cây và đếm số lượng các vector dữ liệu u.
Phần quan trọng nhất của chương trình là tìm các thành phần bất biến và giải
phương trình hợp lý được viết trên ngôn ngữ Singular (Xem phụ lục 3). Singular là một
hệ thống các phương pháp tính toán đa thức, đại số giao hoán và hình học đại số. Nó là
một gói phần mềm rất hữu hiệu cho đại số thống kê.
7.3. Kết quả chương trình
Xét cây sinh loài có gốc với 3 taxa, dữ liệu tương ứng với mỗi lá ở đây là những
gen có tên là HIVenvSweden (dữ liệu lấy ở [Yang, Z. 1997]) có chiều dài 273 ký tự
như sau:
U68496:=GTAGTAATTAGATCTGAAAACTTCACGAACAATGCTAAAACCAT
AATAGTACAGCTAAATAAATCTGTAGAAATTAATTGTGTAAGACCCGGCA
ACAATACAAGAAGAAGTATACATATAGGACCAGGGAGAGCATATTATACA
GGAGAAGTAATAGGAGATATAAGACAAGCACATTGTAACCTTAGTAGAAC
AGACTGGAATAAAACTTTAAAACAGGTAGCTGAAAAATTAAGAGAACAAT
TTAATACAACAATAGTCTTTAATCAATCC
U68497:=GTAGTAATTAGATCTGAAAACTTCTCGAACAATGCTAAAACCATA
ATAGTACAGCTAAATAAATCTGTAGAAATTAATTGTACAAGACCCAACAA
CAATACAAGAAGAAGTATACATTTTGGACCAGGGAAAGCATTTTATGCAG
GAGAAATAATAGGAGATATAAGACAAGCATATTGTACCCTTAATGGAACA
GAATGGAATAACACTTTAAAACAGGTAGCTGAAAAATTAAGAGAACAATT
TATTAAAACAATAGTTTTTAATCAATCC
U68498:=ATAGTAATTAGATCTGAAAACTTCTCGAACAATGCTAAAACCATA
ATAGTACAGCTAAATAAATCTGTAGAAATTAATTGTACAAGACCCAACAA
CAATACAAGAAGAAGTATACATTTCGGACCAGGGAAAGCATTTTATGCAG
GAGAAATAATAGGAGATATAAGACAAGCATATTGTACTCTTAATGGAGCA
GAATGGAATAACACTGTAAAACAGGTAGCTGCAAAATTAAGAGAACAATT
TAATAAAACAATAATCTTTAATCAATCC
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 55
Với 3 gen này mục đích chúng ta là tìm mối liên hệ tổ tiên giữa chúng. Có 2
dạng cây 3 taxa có gốc như hình 10.
Cây 3 taxa hình móng Cây3 taxa hình lược
Hình 10: Hai hình dạng cây 3 taxa có gốc
Ta chọn mô hình Jukes – Cantor cho bài toán này.
Với Cây hình móng: Chỉ có một trường hợp duy nhất, dữ liệu quan sát khi so
dóng trên từng cột như Bảng 2.
Bảng 2: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
móng (U68496, U68497, U68498)
Các
mẫu
A
A
A
A
A
T
A
G
A
A
G
G
A
C
A
A
C
C
A
C
T
A
T
T
G
A
A
G
A
G
G
G
G
C
A
A
C
C
C
C
C
T
C
T
C
C
T
T
T
G
T
T
C
C
T
T
T
Số
lượng 113 1 1 2 1 2 1 3 6 2 39 2 34 1 1 1 1 1 61
Cây này có 3 lớp tương đương, số lượng từng lớp trên dữ liệu là u=(247, 25, 1),
khi chạy chương trình cho kết quả:
p= (0.903285626594, 0.094557322708, 0.00215705069738)
và giá trị hàm hợp lý tương ứng ( ) -90.22670674l p =
Với Cây hình lược: Có 4 lớp xác suất tương đương và 3 trường hợp xảy ra:
Trường hợp 1: Các nút cây tương ứng (U68496,(U68496, U68496)) và số
lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với trường hợp này ở
bảng 3.
Bảng 3: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
lược với trường hợp ((U68496,(U68497, U68498))
Các
mẫu
A
A
A
A
A
T
A
G
A
A
G
G
A
C
A
A
C
C
A
C
T
A
T
T
G
A
A
G
A
G
G
G
G
C
A
A
C
C
C
C
C
T
C
T
C
C
T
T
T
G
T
T
C
C
T
T
T
Số
lượng 113 1 1 2 1 2 1 3 6 2 39 2 34 1 1 1 1 1 61
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 56
Vector dữ liệu tương ứng là: u = (247, 8, 17, 1) và kết quả khi chạy chương
trình:
p =(0.9027837320165, 0.03154973251390, 0.0640321523858, 0.001634383083735)
và giá trị hàm ( ) -106.0495469l p =
Trường hợp 2: Các nút cây tương ứng (U68497,(U68496, U68498)) và số
lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với trường hợp này giống
như bảng 2, vì thế tương tự như trường hợp 1.
Trường hợp 3: Các nút cây tương ứng (U68498,(U68496, U68497)) và số
lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với trường hợp này trên
bảng 4.
Bảng 4: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
lược với trường hợp ((U68498,(U68496, U68497))
Các
mẫu
A
A
A
A
A
G
A
A
C
A
G
G
A
T
A
G
A
A
G
G
A
G
G
G
G
G
T
C
A
A
C
C
A
C
C
C
C
C
T
C
T
A
C
T
C
T
C
C
T
T
A
T
T
C
T
T
T
Số
lượng 113 6 2 2 1 1 2 39 1 1 2 34 1 1 1 1 3 1 61
Vector dữ liệu tương ứng u = (247, 19, 6, 1), kết quả khi chạy chương trình:
p =(0.9032484236332, 0.07179349581611, 0.0228400591792, 0.0021180213714)
và giá trị hàm ( ) -104.0121158l p =
Với kết quả trên thì ta thấy với trường hợp cây sinh loài thứ 2 thì các dữ liệu
trên đựợc gán cho cây với thứ tự ((U68498,(U68496, U68497)) là “hợp lý” nhất. Xét
về cây thì cây sinh loài giải thích tốt nhất cho dữ liệu trên là cây sinh loài hình lược, vì
nó có hàm hợp lý cho kết quả lớn nhất.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 57
Chương 8. TỔNG KẾT – ĐÁNH GIÁ
Chương này tổng kết lại những công việc đã làm được, sau đó nêu ra những
đóng góp và hướng phát triển của luận văn.
8.1. Tổng kết
Luận văn đã nghiên cứu đến một lãnh vực đang được rất nhiều người quan tâm
trong giai đoạn hiện nay. Luận văn cho ta một cái nhìn tổng thể về cây sinh loài và
phương pháp để giải phương trình hợp lý, cũng như cách mô hình hóa bài toán và chọn
phương pháp và giải quyết bài toán. Trong đó phương pháp được chọn là phương pháp
đại số nói chung và đại số máy tính nói riêng. Ngoài ra, luận văn cũng cung cấp một
gói phần mềm được sử dụng như là kiểm nghiệm những lý thuyết đưa ra.
Vì kiến thức cũng như thời gian có hạn nên luận văn có nhiều khiếm khuyết
như nội dung luận văn chưa được cô đọng, phần chương trình kiểm nghiệm các mô
đun chưa tích hợp được các phần lại với nhau. Hạn chế lớn nhất phải kể đến là chương
trình chỉ chạy được trên cây sinh loài 3 taxa, còn trường hợp 4 và 5 taxa chỉ chạy được
ở những mô hình đơn giản.
8.2. Những đóng góp của luận văn
- Đối với bản thân qua luận văn này đã thu thập kiến thức cơ bản về sinh học
nói chung và việc nghiên cứu tiến hoá hiện nay nói riêng. Cũng qua luận văn này đã
bổ sung cho tôi kiến thức về toán học, xác suất thống kê và nhất là đại số máy tính.
- Luận văn này như là một tài liệu tham khảo ban đầu cho những ai quan tâm
đến lãnh vực tính toán thống kê về sinh học phân tử, về cây tiến hóa. Ngoài ra cũng là
tài liệu bổ ích cho một cái nhìn tổng quan về phương pháp ước lượng hợp lý cực đại và
cách giải chúng bằng phương pháp đại số. Những lãnh vực được đề cập trong luận văn
này đang được quan tâm và phát triển mạnh trên thế giới trong những năm gần đây.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 58
8.3. Hướng phát triển
Với những hạn chế đã nêu ở trên, hướng phát triển luận văn đưa ra chủ yếu là
khắc phục những nhược điểm là làm sao để giải bài toán trên những cây sinh loài lớn
hơn:
- Cải tiến các thuật toán để có thể chạy tốt hơn.
- Song song hóa để giải bài toán ước lượng hợp lý cực đại.
- Một hướng khác cũng nên quan tâm là nghiên cứu đặc tính của từng cây cụ thể
và tập trung giải quyết bài toán trên những cây riêng biệt đó.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 59
TÀI LIỆU THAM KHẢO
[Hoàng Xuân Sính,
2003]
Hoàng Xuân Sinh. Đại số đại cương. Nhà xuất bản GD, 2003.
[Đào Hữu Hồ, 2002] Đào Hữu Hồ. Xác suất thống kê. Nhà xuất KHKT, 2002.
[Tạ Lê Lợi, 2002] Tạ Lê Lợi. Giải Tích – Giáo trình cử nhân toán. Đại học Đà Lạt, 2002.
[Benny Chor, 2005] Maximum likelihood Jukes-Cantor Triplets: Analytic Solutions. arXiv:
q-bio.PE/0505054 v1 27 May 2005
[B. Chor, M. Hendy, B.
Holland, and D. Penny,
2000]
Multiple maxima of likelihood in phylogenetic trees: An analytic
approach. MBE, 17(10):1529–1541, 2000. Earlier version appeared in
RECOMB 2000.
[Catanese et al., 2005]
F Catanese, S Ho¸sten, A Khetan, and B Sturmfels. The maximum
likelihood degree. American Journal of Mathematics, 2005. To appear.
Cited on p. 10, 106
[Evans and
Speed,1993]
Steven N.Evans and Speed. Invariants of some probability models used
in phylogenetic inference. The Annals of Statistics 1993, vol. 21, No.
1, 355-377.
[Hoşten et al., 2005]
S Hoşten, A Khetan, and B Sturmfels. Solving the likelihood
equations. Foundations of Computational Mathematics, 2005. To
appear. Cited on p. 108, 335, 343, 344
[J.S. Milne, 2005] J.S. Milne. Algebraic Geometry. Taiaroa Publishing Erehwon. Version
5.00. February 20,2005
[Lior Pachter and
Bernd Sturmfels, 2005]
Lior Pachter and Bernd Sturmfels. Algebraic Statistics for
Computational Biology. Cambridge University Press 2005.
[Luis D. Garcia, 2006] Luis David Garcia. Small Phylogennetic Trees.
[Melvyn B.
Nathanson,1999]
Melvyn B. Nathanson. Elementary Methods in Number Theory .
Springer, 1999.
[Nguyen V.M.
Man,2007]
Nguyen V.M. Man. Computational Algebraic Statistics(CAS).
[Sturmfels and
Sullivant, 2005]
Bernd Sturmfels and Seth Sullivant. Toric Ideals of Phylogenetic
Invariants.
[Yang, Z. 1997] Ziheng Yang. A program package for phylogenetic analysis by
maximum likelihood. Computer Applications in BioSciences 13:555-
556
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 60
Phụ lục 1. Tập các xác suất trình bày ở
chương 5
pAAA=1/4*c0*c0*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^3+3/4*c1^3,
pAAG=1/4*c0*c1*c0+1/4*c1*c0*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pAAC=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pAAT=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c1*c0*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pAGA=1/4*c1*c0*c0+1/4*c0*c1*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pAGG=1/4*c1*c1*c0+1/4*c0*c0*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pAGC=1/4*c1*c1*c0+1/4*c0*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pAGT=1/4*c1*c1*c0+1/4*c0*c1*c1+1/4*c1*c1*c1+1/4*c1*c0*c1=3/4*c0*c1^2+1/4*c1^3,
pACA=1/4*c1*c0*c0+1/4*c1*c1*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pACG=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pACC=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c0*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pACT=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c0*c1*c1+1/4*c1*c0*c1=3/4*c0*c1^2+1/4*c1^3,
pATA=1/4*c1*c0*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c0*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pATG=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c1*c1*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pATC=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pATT=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c0*c0*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGAA=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGAG=1/4*c0*c1*c0+1/4*c1*c0*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGAC=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pGAT=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pGGA=1/4*c1*c0*c0+1/4*c0*c1*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGGG=1/4*c0*c0*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^3+3/4*c1^3,
pGGC=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGGT=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGCA=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pGCG=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGCC=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c0*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGCT=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c0*c1*c1+1/4*c1*c0*c1=3/4*c0*c1^2+1/4*c1^3,
pGTA=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pGTG=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pGTC=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pGTT=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c0*c0*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCAA=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCAG=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pCAC=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCAT=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 61
pCGA=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pCGG=1/4*c1*c1*c0+1/4*c0*c0*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCGC=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCGT=1/4*c1*c1*c0+1/4*c0*c1*c1+1/4*c1*c1*c1+1/4*c1*c0*c1=3/4*c0*c1^2+1/4*c1^3,
pCCA=1/4*c1*c0*c0+1/4*c1*c1*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCCG=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCCC=1/4*c0*c0*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^3+3/4*c1^3,
pCCT=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCTA=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pCTG=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c1*c1*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pCTC=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pCTT=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c0*c0*c1=1/4c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTAA=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTAG=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pTAC=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c0*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pTAT=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c1*c0*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTGA=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pTGG=1/4*c1*c1*c0+1/4*c0*c0*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTGC=1/4*c1*c1*c0+1/4*c0*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pTGT=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTCA=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pTCG=1/4*c1*c1*c0+1/4*c1*c0*c1+1/4*c0*c1*c1+1/4*c1*c1*c1=3/4*c0*c1^2+1/4*c1^3,
pTCC=1/4*c1*c1*c0+1/4*c1*c1*c1+1/4*c0*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTCT=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTTA=1/4*c1*c0*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c0*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTTG=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTTC=1/4*c0*c1*c0+1/4*c1*c1*c1+1/4*c1*c0*c1+1/4*c1*c1*c1=1/4*c0^2*c1+1/4*c0*c1^2+1/2*c1^3,
pTTT=1/4*c0*c0*c0+1/4*c1*c1*c1+1/4*c1*c1*c1+1/4*c1*c1*c1=1/4*c0^3+3/4*c1^3;
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 62
Phụ lục 2. Tập các dữ liệu kết quả thực hiện
trình bày ở chương 6
c = (n+1) - dim(V) = 2
Q:= <-192*p1^2 - 576*p1*p2 - 432*p2^2+756*p1+810*p2 - 486,
- 576*p1^2 - 1728*p1*p2 - 1296*p2^2+972*p1+1782*p2 - 486,
384*p1^2+1152*p1*p2+864*p2^2 - 216*p1 - 972*p2>
M = Ker( ) := <775168*p1^2*p2^2*gen(3) +11627520*p1^2*p2^2*gen(2) +
204649114632192*p1^2*p2^2*gen(1) + 2325504*p1*p2^3*gen(3) + 66276864*p1*p2^3*gen(2) +
767434179870720*p1*p2^3*gen(1) + 1744128*p2^4*gen(3)+52323840*p2^4*gen(2) +
920921015844864*p2^4*gen(1) + 1975872*p1^2*p2*gen(3) + 14539584*p1^2*p2*gen(2) +
3700197350079168*p1^2*p2*gen(1) - 1539648*p1*p2^2*gen(3) - 50959872*p1*p2^2*gen(2) +
1839387248964864*p1*p2^2*gen(1) - 3920832*p2^3*gen(3) - 101259504*p2^3*gen(2) -
1822005910233648*p2^3*gen(1) - 2102400*p1^2*gen(3) - 60298560*p1^2*gen(2) -
2339638635463488*p1^2*gen(1) - 2890566*p1*p2*gen(3) - 69060222*p1*p2*gen(2) -
5046845491193202*p1*p2*gen(1) + 2629503*p2^2*gen(3) + 45131337*p2^2*gen(2) +
876411667623555*p2^2*gen(1) + 1773900*p1*gen(3) + 50876910*p1*gen(2) +
1974070098672318*p1*gen(1) - 364014*p2*gen(3) + 7490718*p2*gen(2) + 87067895564682*p2*gen(1),
775168*p1^2*p2^2*gen(3) + 10077184*p1^2*p2^2*gen(2) + 2325504*p1*p2^3*gen(3) +
70927872*p1*p2^3*gen(2) + 51162278658048*p1*p2^3*gen(1) + 1744128*p2^4*gen(3) +
62788608*p2^4*gen(2) + 306973671948288*p2^4*gen(1) + 3518144*p1^2*p2*gen(3) +
37749568*p1^2*p2*gen(2) + 5725315696773056*p1^2*p2*gen(1) + 1246080*p1*p2^2*gen(3) +
3243264*p1*p2^2*gen(2) + 6256978794324480*p1*p2^2*gen(1) - 2340288*p2^3*gen(3) -
80025840*p2^3*gen(2) + 1456573961040912*p2^3*gen(1) - 3132672*p1^2*gen(3) - 85125056*p1^2*gen(2) -
3356546566796480*p1^2*gen(1) - 8246130*p1*p2*gen(3) - 151489470*p1*p2*gen(2) -
12422421565374378*p1*p2*gen(1) - 1598535*p2^2*gen(3) - 27016119*p2^2*gen(2) -
5667479873380377*p2^2*gen(1) + 4745592*p1*gen(3) + 132122826*p1*gen(2) +
5171724801198018*p1*gen(1) + 4078296*p2*gen(3) + 93163662*p2*gen(2) + 6095180048475222*p2*gen(1)
- 1773900*gen(3) - 50876910*gen(2) - 1974070098672318*gen(1)
J
, 775168*p1^2*p2^2*gen(3) + 2325504*p1*p2^3*gen(3) + 45347328*p1*p2^3*gen(2) +
1744128*p2^4*gen(3) + 47091456*p2^4*gen(2) + 230230253961216*p2^4*gen(1) +
5355200*p1^2*p2*gen(3) + 54461952*p1^2*p2*gen(2) + 8363661940680768*p1^2*p2*gen(1) +
4964640*p1*p2^2*gen(3) + 29969856*p1*p2^2*gen(2) + 13016976252241536*p1*p2^2*gen(1) -
459792*p2^3*gen(3) - 64457856*p2^3*gen(2) + 5516397190398384*p2^3*gen(1) - 4660224*p1^2*gen(3) -
123711552*p1^2*gen(2) - 4949039207382912*p1^2*gen(1) - 15788844*p1*p2*gen(3) -
289782558*p1*p2*gen(2) - 22584712180858542*p1*p2*gen(1) - 7662492*p2^2*gen(3) -
104848263*p2^2*gen(2) - 15607396038950235*p2^2*gen(1) + 8045784*p1*gen(3) + 222790392*p1*gen(2) +
8734948040514888*p1*gen(1) + 10033956*p2*gen(3) + 223300476*p2*gen(2) +
13978410003807732*p2*gen(1) - 3547800*gen(3) - 101753820*gen(2) - 3948140197344636*gen(1)
'
uI :=<12013588416*p2^3 + 148826033904*p1^2 + 118484015288*p1*p2 - 9505114572*p2^2 -
149625916917*p1 - 20725910325*p2 + 20557713033, 3325964017042946421278092794380392608*p1*p2^2
+ 4983618577401699676273006787935157328*p2^3 + 22774007877394191975227302283935849888*p1^2 +
14264618759069671514915176286636353554*p1*p2 - 7849236572356881083751999247248463887*p2^2 -
22881274699550634255631609142426367189*p1 + 293064477807175251834460143692430423*p2 +
3123938321374671114025459142247553701, 296521570634524577657257064180480*p1^2*p2 +
678645469410592180933991906124096*p1*p2^2 + 399557794965576369841442093252256*p2^3 +
163472584389053652220661632656096*p1^2 - 626014046035479156390619894451652*p1*p2 -
805886945003862357039771874801974*p2^2 - 161563250873918603863505188608723*p1 +
412431155271902586749997779755821*p2 + 19936260526014638257361883471927>
uI :=<57425888*p1^2 + 60331008*p1*p2 + 5850720*p2^2 - 58311573*p1 - 13781205*p2 + 8050185,
43118186428457088*p2^3 - 135923428146969968*p1*p2 - 88536193620103176*p2^2 +
5367437095038981*p1 + 53799892346655045*p2 – 1095761223392121, 28745457618971392*p1*p2^2 +
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 63
52276369682092096*p1*p2 + 549084854058576*p2^2 - 3253058199626023*p1 - 3973831866790983*p2 +
501604238561283, p0+p1+p2-1,128*p1^3 + 576*p1^2*p2 + 864*p1*p2^2 + 432*p2^3 - 108*p1^2 -
972*p1*p2 - 891*p2^2 + 486*p2 + 19936260526014638257361883471927>
Trong đó: gen(n) =[0,0,….,1], ví dụ gen(3)=[0,0,1].
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 64
Phụ lục 3. Trích một số SourceCodes chương
trình viết trên Singular
//Chương trình giải quyết cây 3 taxa hình móng.
LIB "control.lib";
LIB "solve.lib";
killall();
int i,j;
//Đây là các bất biến q của phép biến đổi Fourier.
ring rQ = 0,(q1,q2,q3),dp;
ideal Invariants =
q2^3-q1*q3^2;
// Đây là các lớp xác suất tương đương p.
ring rP = 0,(p1,p2,p3),dp;
//Ma trận chuyển đổi Fourier.
matrix qtop[3][3] =
1,1,1,
1,1/9,-1/3,
1,-1/3,1/3;
ideal Fourier = qtop*transpose(maxideal(1));
// Danh sách các đa thức bất biến
map F = rQ, Fourier;
ideal PInvariants = F(Invariants);
ideal V=p1+p2+p3-1,PInvariants;
matrix J=jacob(V);
J;
"dim(V)=";dim(V);
ideal P=groebner(V);
P;
"dim(P)=";dim(P);
// codim của V
int c=nvars(rP)-dim(P);
"c=";c;
matrix J=jacob(P);
ideal Q=minor(J,c);
"Q=";print(Q);
matrix Jn=J*transpose(diag(maxideal(1)));
"Jnt=";Jn;
qring q=std(P);
matrix Jn=fetch(rP,Jn);
"Jns=";Jn;
//M là nhân của ma trận chuyển vị Jn
module M=transpose(rightKernel(Jn));
"M=";M;
//Vector dữ liệu u
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 65
matrix u[3][1]=247,25,1;
ideal Ipu=groebner(flatten(M*u));
"Ipu=";print(Ipu);
dim(Ipu);
Ipu;
ring rr = 0, (p1,p2,p3), dp;
ideal Ipu=fetch(q,Ipu);
ideal Q=fetch(rP,Q);
//I chứa các nghiệm của phương trình hợp lý sau khi loại các điểm kỳ dị
list I=sat(Ipu,p1*p2*p3*(p1+p2+p3));
I;dim(I[1]);
for(i=2;i<=size(Q);i++)
{
list A=sat(I[1],p1*p2*p3*(p1+p2+p3)*Q[i]);
A;
I=A;
"dim(I)=";dim(I[1]);vdim(I[1]);
}
ideal X=I[1],fetch(rP,P);
dim(X);
X;
def AC=solve(X,30,0,"nodisplay");
setring AC;
//SOL chứa danh sách các nghiệm hợp lý
SOL;
matrix Jn=transpose(fetch(rP,Jn));
Jn;
matrix u=fetch(q,u);
u;
//Hàm trả về ma trận J sau khi thay thế các nghiệm vào
proc Replace(matrix M,list SOL)
{
matrix Y=M;
int ii,jj,kk;
for(ii=1;ii<=nrows(M);ii++)
{
for(jj=1;jj<=ncols(M);jj++)
{
for(kk=1;kk<=nvars(rP);kk++)
{
Y[ii,jj]=subst(Y[ii,jj],var(kk),SOL[kk]);
}
}
}
return (Y);
}
matrix Y;
//Đoạn chương trình chọn những nghiệm thực dương phương trình hợp lý
for(i=1;i<=size(SOL);i++)
{
for(j=1;j<=size(SOL[i]);j++)
{
if(SOL[i][j]=1)
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 66
{
break;
}
}
if(j>size(SOL[i]))
{
SOL[i];
matrix Y=Replace(Jn,SOL[i]);
Y;
}
}
//Đoạn chương trình tính các nhân tử Lagrange
LIB "presolve.lib";
LIB "solve.lib";
ring r = real, (x,y), lp;
matrix Y[4][2];
//Chèn file ma trận Y tính được ở trên
matrix K=Y*transpose(diag(maxideal(1)));
K;
matrix A[2][1]=1,1;
matrix I=K*A;
I;
ideal M=flatten(I);
M;
ideal j= 113,46,114;
j = M-j;
ideal z=solvelinearpart(j,0);
z;
def AC=solve(z,30,0,"nodisplay");
setring AC;
SOL;
//Xác định ma trận Hessian là xác đinh âm hay không?
LIB "linalg.lib";
ring r=real,(p1,p2,p3),lp;
//Chèn file poly f bằng nhân tử Lagrange nhân với các gi
matrix J=jacob(jacob(f));
print(J);
//Ma trận I la một nghiệm của p
//matrix I[3][1]=0.09439863069,0.6214192685,0.2841821009;
I;
int u,v,k;
for(u=1;u<=nrows(J);u++)
{
for(v=1;v<=ncols(J);v++)
{
for(k=1;k<=nvars(rP);k++)
{
J[u,v]=subst(J[u,v],var(k),I[k,1]);
}
}
}
print(J);
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 67
" ";
for(u=1;u<=nrows(J);u++)
{
for(v=1;v<=ncols(J);v++)
{
for(k=1;k<=nvars(rP);k++)
{
J[u,v]=J[u,v]*I[k,1];
}
}
}
print(J);
" ";
//vector u
//matrix l[3][1]=-700,-45,-49;
matrix H[3][3]=diag(l)-J;
print(H);
//Xác định âm ma trận Hessian H, nếu âm trả về 0
pos_def(H);
Một số hàm quan trọng sử dụng trong chương trình
minor(matrix_expression,int_expression):returns the set of all minors (=subdeterminants) of
the given size of a matrix.
rightKernel(M): computes the right kernel of matrix M (a module of all elements v such that
Mv=0).
jacob( ideal_expression ):computes the Jacobi ideal, resp. Jacobi matrix, generated by all
partial derivatives of the input.
sat(id,j); id=ideal/module, j=ideal: return list of an ideal/module [1] and an integer [2]: [1] =
saturation of id with respect to j (= union_(k=1...) of id:j^k) [2] = saturation exponent (= min(
k | id:j^k = id:j^(k+1) ))
solve(G [, m, n [, l]] [,"oldring"] [,"nodisplay"] ); G = ideal, m, n, l = integers (control
parameters of the method), outR ring m: precision of output in digits ( 4 <= m) and of the
generated ring of complex numbers; n: control of multiplicity n = 0, return all different roots n
!= 0, find all roots (with multiplicity) l: precision of internal computation in decimal digits ( l
>=8 ) only if the basering is not complex or complex with smaller precision.
solvelinearpart(id [,n] ); id=ideal/module, n=integer,(default: n=0): Return (interreduced)
generators of id of degree <=1 in reduced triangular form if n=0 [non-reduced triangular form
if n!=0]
pos_def(A); A = constant, symmetric square matrix : Return int: 1 if A is positive definit , 0 if
not, -1 if unknown.
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 68
Phụ lục 4. Một số kết quả chương trình trên
cây sinh loài 4 taxa
Với mô hình Neyman thì chương trình chạy cho kết quả tốt trên những cây 4
taxa, riêng mô hình Jukes – Cantor thì chương trình chỉ chạy được với dạng cây hình
móng (hình 11).
Hình 11: Cây sinh loài 4 taxa hình móng
Với mô hình Jukes – Cantor, cây sinh loài 4 taxa hình móng (hình 11) có 5 lớp
xác suất tương đương. Lấy u = (700,7,100,100,20). Chương trình chạy cho các kết quả
29 nghiệm hợp lý, trong đó có 2 nghiệm thực dương và nghiệm làm cực đại toàn cục
hàm hợp lý là:
(0.57910415483,0.34772086852,0.036090949833,0.037084026813,0.011796766418)
và giá trị hàm hợp lý tương ứng là: -3083.02
Hình 12: Cây sinh loài 4 taxa hình cần trục
Với mô hình Neyman, cây sinh loài 4 taxa hình cần trục (hình 12) có 4 lớp xác
suất tương đương. Lấy u = (350, 7, 100, 20), chương trình chạy cho các kết quả 5
nghiệm, trong đó có 1 nghiệm thực dương:
(0.59910005385, 0.20030240782, 0.06521874649, 0.13537879184)
và giá trị hàm hợp lý tương ứng: -503.564
Sau đây một số hình dáng cây 4 taxa khác (không gốc và có gốc)
Hình 13: Một số cây sinh loài 4 taxa
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 69
Phụ lục 5. Bảng đối chiếu Thuật ngữ
Anh - Việt
Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt
Ancestral maximum likelihood Cực đại khả năng tổ tiên
Character group Đặc trưng nhóm
Distance method Phương pháp khoảng cách
Critical point Điểm tới hạn
Evolutionary timeline Biểu đồ thời gian của tiến hóa
Fossil Hóa thạch
Homologous characters Đặc tính đồng dạng
Homogeneous polynomial Đa thức thuần nhất
Idean Iđêan
Likelihood locus Quỹ tích hợp lý
Maximum Likelihood Hợp lý cực đại
Maximum Likelihood Estimation Ước lượng hợp lý cực đại
Maximum parsimony Hà tiện tối đa
Neighbor-joining Liên kết cận kề
Paleontology Khảo cổ học
Phylogenetic invariant Bất biến trên cây sinh loài
Phenetics Ngoại hình học
Record Di chỉ
Singular point Điểm kỳ dị
Species Các loài
Tangent space Không gian tiếp xúc
Taxa Nút lá cây sinh loài
Variety Đa tạp
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 70
Danh mục các tên
Abel, 12, 13, 16, 39, 40
AML, 33
ancestral, 33
ánh xạ, 12, 37, 38, 40, 44
Bậc của đa thức, 15
bất biến, 10, 11, 36, 37, 38, 39, 42, 45,
46, 47, 48, 51, 54
bất biến của cây sinh loài, 11, 38, 39,
47
bất biến tầm thường, 46, 51
Bayes, 19
biến cố, 18, 19, 24
Biến cố chắc chắn, 18
Biến cố không thể, 18
Biến cố ngẫu nhiên, 18
biến cố sơ cấp, 18
biến ngẫu nhiên rời rạc, 20, 21
Cây sinh loài, 3, 30, 32, 36, 42
cladistics, 30
Đa tạp đại số, 18
đa tạp tuyến tính, 18
đa thức thuần nhất, 15, 46, 47, 48, 50
đặc trưng, 10, 20, 21, 22, 40, 42
đại lượng ngẫu nhiên, 10, 20
đẳng cấu nhóm, 12
dạng tuyến tính, 15
det, 15
điểm kỳ dị, 47, 50
Định thức, 15
Distance method, 31, 69
DNA, 3, 9, 30, 31, 32, 38, 39
Độc lập tuyến tính, 16
độc lập tuyến tính tối đại, 17
đồng cấu nhóm, 12, 40
evolutionary timeline, 30
fossil, 30
Fourier, 38, 40, 41, 42, 44, 46, 64
gen, 3
genomics, 30
Gradient, 47
Hà tiện tối đa, 31, 69
hàm hợp lý, 23, 26, 27, 47, 49, 51, 52,
55, 56
hàm phân phối, 10, 20
hạng của hệ vector, 17
hạng tử, 14, 15
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 71
Hạt nhân, 12
Hessian, 50, 51, 52, 66, 67
homologous characters, 9
iđêan, 13, 14, 39, 47, 48, 50
Jacobi, 47, 48
Jukes - Cantor, 34, 35
Ker, 49, 50, 62
không gian vector, 16, 17
Không gian vector, 16
Kimura, 10, 30, 35, 39, 42
Kỳ vọng, 20, 21
Lagrange, 49, 50, 51, 52, 66
likelihood, 26, 27, 28, 33, 59, 69
ln, 28
logarit, 26, 50
lớp xác suất tương đương, 43, 55
ma trận, 9, 10, 15, 17, 31, 33, 34, 35,
36, 38, 39, 43, 48, 49, 50
Ma trận chuyển vị, 15
mẫu ngẫu nhiên, 21, 22, 23, 24
Maximum parsimony, 9, 31, 69
MLE, 3, 10, 25, 26, 27, 28
neighbor-joining, 31
Neyman, 10, 30, 39
nhóm, 3, 9, 10, 11, 12, 13, 14, 16, 19,
30, 39, 40, 41, 42, 69
nhóm con, 13
nucleotide, 33, 34, 35
paleontology, 30
phân phối xác suất, 20
phenetics, 30
phép thử, 18
phép thử ngẫu nhiên, 18
phụ thuộc tuyến tính, 16, 17
phương pháp hợp lý cực đại, 9, 10, 22,
37
Phương sai, 20, 21
phương trình hợp lý, 11, 23, 24, 37, 47,
50, 51, 54, 57
phylogenetics, 30
Quỹ tích hợp lý, 47, 69
record, 30
species, 30
Tích của 2 biến cố, 18
tổ hợp tuyến tính, 17
Tổng của 2 biến cố, 18
trường, 1, 10, 14, 16, 17, 22, 26, 27, 33,
35, 36, 37, 43, 55, 56, 57
Ước lượng điểm, 22
Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Bùi Văn Đồng Trang 72
ước lượng hợp lý cực đại, 3, 10, 12, 22,
23, 24, 25, 26, 57, 58
Ước lượng không chệch, 22
Ước lượng tham số, 22
vành con, 13
vành đa thức, 10, 14, 39, 47
vành giao hoán, 13, 14
vành thương, 14
vector, 16, 17, 47, 48, 49, 50, 54
Vector vận tốc, 47
xác định âm, 50, 51, 52
Các file đính kèm theo tài liệu này:
- Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ.pdf