Tóm lại, qua luận văn trên đã tìm hiểu việc kết hợp mô hình hồi quy tham số
và phi tham số dẫn đến mô hình hồi quy bán tham số và tìm cách ước lượng các
tham số của mô hình hồi quy.
Luận văn trình bày ứng dụng của mô hình hồi quy bán tham số vào việc dự
đoán một kết quả từ số liệu đã cho.
Trong phụ lục B, phần lớn các đoạn chương trình dựa vào những thủ tục có
sẵn trong phần mềm R nên chưa linh hoạt trong việc chọn knot , bậc tự do, tham số trơn.
Do thời gian có hạn nên luận văn chưa trình bày được nhiều ví dụ tính toán
phần mềm và phát triển mô hình cao hơn.
64 trang |
Chia sẻ: builinh123 | Lượt xem: 1205 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Ứng dụng hồi quy bán tham số trong khoa học xã hội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
)] Pf x f x dx O
n
(2.11)
2.1.4 Chuẩn tiệm cận và khoảng tin cậy:
Áp dụng định lí giới hạn trung tâm cho phần tử
1 i
j
j ik
ta được:
2
1/2 21ˆ ( ) ( ) ''( ) (0, )
24
i i i
k
k f x f x f x D N
n
(2.12)
Nếu lựa chọn k tối ưu, k = n4/5, khi đó k1/2(k/n)2 = 1 và xây dựng một khoảng tin
cậy cho f(xi) thì phức tạp bởi phần tử ''( )if x . Tuy nhiên, nếu ta muốn k tăng chậm
hơn n4/5 ( ví dụ k = n3/4) khi đó 1/2 2( / ) 0k k n và (2.12) trở thành
1/2 2ˆ ( ) ( ) (0, )i ik f x f x D N .
2.1.5 Ma trận làm trơn:
Đặt S là ma trận làm trơn, định nghĩa :
( 1)
1/ , ...1/ , 0, ............, 0
0, 1/ ,........1/ ,0,......., 0
.... ..... .... ....
0,.....................,0,1/ ,.....1/ , 0
0,.............................0,1/ ,......,1/
n k n
k k
k k
k k
k k
S
(2.13)
Khi đó, (2.2) được viết lại :
ˆˆ ( )y f x Sy (2.14)
29
2.2 Làm trơn hạt nhân
2.2.1 Ước lượng :
Hình thức ước lượng phi tham số :
0 0
1
ˆ ( ) ( )
n
i i
i
f x w x y
(2.15)
Ở đây, ta đang ước lượng hàm hồi quy tại điểm x0 như là tổng trọng số của yi ,
các trọng số wi(x0) phụ thuộc vào x0. Để xây dựng một trọng số trung bình địa
phương ta dùng một hàm duy nhất tập trung tại 0 và giảm về hai phía, tỉ lệ được
điều khiển bởi một tham số. Hàm như vậy thường gọi là hạt nhân, là những hàm
mật độ xác suất. Đặt K là hàm biên tích hợp đến 1 và đối xứng quanh 0. Định
nghĩa trọng số :
0
0
1
1
1
i
i n
i
i
x x
K
n
w
x x
K
n
(2.16)
Hình dạng của trọng số được xác định bởi K, độ lớn được kiểm soát bởi , gọi là
bandwidth. Giá trị lớn các kết quả của trong các trọng số lớn hơn được đặt trên
những quan sát xa x0. Sử dụng (2.15) hàm ước lượng hồi quy phi tham số trở
thành :
0
0
0
1
1
ˆ ( )
1
i
i
n
i
i
x x
K y
n
f x
x x
K
n
(2.17)
Nói chung, việc lựa chọn hạt nhân là ít quan trọng hơn so với việc lựa chọn
bandwidth qua những quan sát được tính trung bình. Đơn giản nhất là hạt nhân
đồng đều có một giá trị của ½ trên [-1 ;1] và của 0 ở nơi khác.
Phần lớn áp dụng làm trơn trung bình trượt trong các thiết lập hiện tại. Với
khoảng cách bằng nhau trên khoảng đơn vị của x và hạt nhân đồng nhất,sự khác
biệt chủ yếu là định nghĩa của tham số làm trơn. Hạt nhân đồng nhất chỉ đơn giản
là những trung bình quan sát nằm trong khoảng x . Với n điểm dữ liệu trong
các khoảng đơn vị, tỉ lệ của những quan sát rơi vào khoảng có chiều rộng 2 và số
30
quan sát sẽ là 2 n . Nếu thay thế k = 2 n trong các đối số của phần (2.1.1) thì kết
quả tương tự thu được cho phần ước lượng hạt nhân đồng nhất, trong trường hợp
này gần giống như làm trơn trung bình trượt.
(2.7) và (2.8) trở thành :
21 1ˆ ( ) ( ) 2 ''( )
24 2
i
i i i j
j i
f x f x f x
kn
(2.18)
Và
2
1 1
2 2
1ˆ ( ) ( ) ''( )i i i Pf x f x O f x O
n
(2.18a)
Như các điều kiện cho k, ta đặt điều kiện cho : thứ nhất 0 nhằm đảm bảo
trung bình bị thu hẹp lại trên vùng lân cận, do đó cuối cùng loại bỏ được sai lệch.
Thứ hai, n , nhằm đảm bảo rằng số quan sát trung bình tăng lên và phương
sai của ước lượng dần đến 0.
2.2.2 Tiệm cận chuẩn:
Giả sử rằng x có phân phối ngẫu nhiên ( trên khoảng đơn vị ) với mật độ xác
suất p(x). Cho hạt nhân tổng quát,ước lượng hạt nhân Nadaraya-Watson (2.17) là
phù hợp. Tử số hội tụ về f(x0)p(x0) và mẫu số hội tụ về p(x0)
Tỉ lệ của hội tụ là tối ưu nếu 1/5O n , trong trường hợp này tổng bình
phương sai số hội tụ tại tỉ lệ tối ưu là OP(n-4/5) . Như trong (2.11) khoảng tin cậy có
thể xây dựng bằng cách sử dụng
1 1
2 02 2
0 0 0 0
0
'( )1ˆ ( ) ( ) ''( ) 2 '( )
2 ( )
K
p x
n f x f x a f x f x
p x
2
0
0,
( )
KbD N
p x
(2.19)
Trong đó, p(.) là hàm mật độ của x
2 2( ) ( )K Ka u K u du b K u du (2.20)
31
2.2.3 So sánh với làm trơn trung bình trượt:
Ở (2.19) đòi hỏi phải ước lượng đạo hàm cấp một và cấp hai của hàm hồi quy.
Tuy nhiên, nếu co lại đến 0 nhanh hơn tỉ lệ tối ưu thì phần tử sai lệch sẽ biến
mất. Trong điều kiện như vậy, giả sử rằng hạt nhân đồng nhất mà bK = ½, ta viết
lại (2.19):
1 1
2 2
0 0
ˆ ( ) ( )n f x f x
2
0
0,
2 ( )
D N
p x
(2.21)
Xác suất để một quan sát sẽ rơi vào khoảng 0x là khoảng chiều cao của mật
độ gấp đôi banwidth hoặc 2 p(x0) . Bây giờ xem xét phương sai của 0
ˆ ( )f x được
cho bởi (2.21). Mẫu số thì xấp xỉ số quan sát có kì vọng là trung bình khi tính toán
ước lượng của f tại x0. So sánh điều này với phương sai của ước lượng trung bình
trượt trong phần 2.1.1 là 2 / k .
2.2.4 Khoảng tin cậy:
Giả sử rằng phần tử sai lệch làm biến mất tiệm cận bằng cách cho
bandwidth co lại tại một tỉ lệ sao cho nó nhanh hơn tỉ lệ tối ưu. Áp dụng (2.19)
định nghĩa sai số chuẩn của hàm hồi quy ước lượng tại một điểm là:
2
ˆ 0
0
ˆ
( )
ˆ ( )
k
f
b
s x
p x n
(2.22)
Trong đó
00
1
1
ˆ ( )
n
i
i
x x
p x K
n
(2.23)
là mẫu số của (2.17). Sau đó, 95% pointwise khoảng tin cậy có thể được xây dựng
bằng cách sử dụng
ˆ0
ˆ( ) 1.96
f
f x s (2.24)
2.2.5 Đồng nhất dãy tin cậy:
Một hình ảnh thú vị cho ước lượng không tham số là dãy tin cậy của hàm
ước lượng. Trong các mẫu được lặp lại, 95% dãy tin cậy ước lượng sẽ chứa hàm
32
hồi quy đúng f. Sự thật của một đặc điểm khác ( như là ước lượng tham số, ước
lượng đơn điệu hoặc lõm ) có thể được đánh giá thêm vào đặc điểm này trên đồ thị
để xem nó có nằm trong dãy. Không mất tính tổng quát, giả sử miền của hàm hồi
quy phi tham số là khoảng đơn vị. Nhắc lại giả thiết rằng 0 với tốc độ nhanh
hơn tối ưu ( nhưng đủ chậm để đảm bảo tính nhất quán), đồng nhất dãy tin cậy
95% được xây dựng xung quanh hàm f bằng cách sử dụng
2
ˆ2 2
( '( ))1ˆ ( ) ln
2 4 ( )
f
K uc
f x d s
d d K u
(2.25)
Trong đó 2ln(1/ )d , c thoả exp[-2exp(-c)]=0,95,
fˆ
s là ước lượng sai số
chuẩn của hàm hồi quy ước lượng được định nghĩa trong (2.22).
2.3 Phương pháp Sline phạt (penalized splines)
2.3.1 Ý tưởng:
Ta sẽ bắt đầu với mô hình hồi quy đường thẳng: 0 1i i iy x (2.26)
(a) Mô hình hồi quy đường thẳng
(b) Cơ sở tương ứng
33
Hình 2.1
Hình 2.1 (a) biểu diễn mô hình hồi quy đường thẳng của (2.26).
Hình 2.1 (b) biểu diễn cơ sở tương ứng ( corresponding basis) cho mô hình, gồm
hai hàm 1 và x.
Chú ý rằng vế phải của (2.26) là kết hợp tuyến tính của hai hàm này, đó là lý do
sử dụng từ cơ sở. Hàm cơ sở tương ứng với những cột của ma trận X phù hợp với
phương trình hồi quy:
1
2
1
1
.. ..
1 n
x
x
X
x
Khi đó, ta có: 1ˆ ( )T Ty X X X X y (2.27)
Mở rộng đơn giản của mô hình tuyến tính đơn là mô hình bậc hai:
2
0 1 1i i i iy x x (2.28)
(a) Mô hình bậc hai
(b) Cơ sở tương ứng
Hình 2.2
Ta có thể quan sát mô hình (2.28) ở hình 2.2. Ma trận X cho mô hình bậc hai là:
34
2
1 1
2
2 2
2
1
1
.. ..
1 n n
x x
x x
X
x x
và giá trị yˆ tính tương tự như trên.
Bây giờ ta sẽ mở rộng hàm bậc hai trên thành một dạng khác của cấu trúc phi
tuyến tính.
(a) Mô hình que gãy (broken stick model)
(b) Cơ sở tương ứng
Hình 2.3
Xem mô hình được vẽ ở hình 2.3 (a). Ta gọi đó là mô hình que gãy vì nó chứa
hai đường dốc nối với nhau tại x = 0,6. Ta sẽ xây dựng hàm cơ sở cho dạng này là
từ 0 đến phía bên trái của 0,6 và hàm dốc dương từ 0,6 về bên phải. Ta có thể thấy
trong hình 2.3 (a) đường gãy trong bảng có được nhờ kết hợp tuyến tính của ba
hàm cơ sở ở bảng dưới, hình 2.3 (b). Hàm cơ sở mới được viết là (x 0,6)+ ,nghĩa là
với số u bất kì thì bằng u+ nếu u dương và bằng 0 nếu ngược lại.
Mô hình que gãy ( đứt quãng tại x =0,6) trở thành:
0 1 11( 0,6)i i i iy x x (2.29)
Bây giờ ta giả sử rằng ta có cấu trúc là phức tạp hơn mô hình que gãy.
35
(a) Mô hình roi da
(b) Cơ sở tương ứng
Hình 2.4
Ví dụ trong hình 2.4 (a) phía bên trái có dạng đường thẳng; nhưng bên phải bao
gồm nhiều cấu trúc chi tiết. Ta sẽ đặt tên mô hình này là mô hình roi da ( whip
model) vì nửa phải thì tự do để di chuyển xung quanh, trong khi bên trái tương
ứng với phần cứng của roi da và nó tuyến tính. Ta tìm cơ sở tương ứng cho dạng
này như hình 2.4 (b) sẽ chứa những hàm (x – 0.5)+ , (x – 0.55)+ ,...,(x – 0.95)+ .
Một lần nữa ta có dùng phương pháp bình phương bé nhất cổ điển để tìm ma trận
thiết kế.
1 1 1 1
2 2 2 2
1 ( 0.5) ( 0.55) ... ( 0.95)
1 ( 0.5) ( 0.55) ... ( 0.95)
.. ..
1 ( 0.5) ( 0.55) ... ( 0.95)n n n n
x x x x
x x x x
X
x x x x
Từ ví dụ này ta thấy có thể xử lý bất kì dạng cấu trúc phức tạp bằng cách đơn
giản là thêm vào nhiều hàm có dạng ( )x cho cơ sở hay thêm vào cột giá trị
( )x cho ma trận X. Giá trị của tương ứng với hàm ( )x thì được gọi là
knot. Do hàm được tạo bởi hai đường thẳng mà nối với nhau tại x . Hình 1.4
trình bày hàm ( )x với = 0.5 ,0.55 ,..., 0.95.
36
Một hàm ( )x được gọi là hàm cơ sở tuyến tính spline và tập những hàm như
vậy được gọi là cơ sở tuyến tính spline. Chú ý rằng bất kì liên kết tuyến tính của
những hàm cơ sở tuyến tính spline 11, , ( ),..., ( )kx x x là một hàm tuyến tính
từng mẩu với knot tại 1 2, ,..., k . Một hàm như vậy gọi là hàm spline. Mô hình
spline cho f là:
0 1
1
( ) ( )
K
k k
k
f x x b x
(2.30)
2.3.2 Chọn số knot và vị trí knot
Chọn vị trí knot: Trong thực hành để chọn knot trong khoảng dữ liệu thì hầu
hết các gói phần mềm đặt knot tại điểm tứ phân hoặc điểm ngũ phân trong dữ liệu.
Số knot: số knot có ảnh hưởng rất lớn đến việc làm trơn mô hình. Khi tăng
số knot lên nghĩa là tăng hàm phù hợp (piecewise function fit) cho dữ liệu để hợp
lý hơn. Nếu chọn ít knot thì mô hình phù hợp sẽ bị lệch so với mô hình thực. Sử
dụng quá nhiều knot thì nó lại làm rõ mô hình chi tiết (overfit) mà không mang
tính làm trơn nữa. Có hai cách chủ yếu để chọn knot. Một là sử dụng thử nghiệm
thị giác và quá trình sai số khi ta lựa chọn knot. Bốn knot thường được sử dụng
bước đầu. Nếu hàm fit xuất hiện ghồ ghề, sẽ chọn thêm knot. Nếu hàm phù hợp
xuất hiện phi tuyến tính lớn, sẽ giảm bớt knot. Ngoài ra số knot còn phụ thuộc cỡ
mẫu. Ví dụ cỡ mẫu trên 100 thì 5 knot thường được chọn để bắt đầu. Với mẫu nhỏ
hơn, dưới 30 thì ba knot là điểm bắt đầu tốt.
2.3.3 Hồi quy spline phạt (Penalized spline regression)
Nếu có quá nhiều knot sẽ làm cho mô hình phù hợp (2.30) trở nên gồ ghề. Một
cách khác để giải quyết vấn đề này là giữ lại tất cả knot nhưng hạn chế sự ảnh
hưởng của nó. Với hy vọng mang lại kết quả ít biến fit hơn. Xét mô hình spline
tổng quát với K knot, với K lớn thì fit bình phương nhỏ nhất tổng quát được viết
ˆyˆ X với ˆ là nhỏ nhất của
2
y X
37
Với 0 1 11 1, , ...,
T
k với 1k là hệ số của knot thứ K . Các ước lượng không
hạn chế của 1k dẫn đến một fit lượn sóng gồ ghề. Do đó ta sẽ hạn chế trên
1k bằng điều kiện
(1)
1max k C
(2)
1k C
(3) 2
1k C
Tùy việc chọn C thích hợp, mỗi giá trị này sẽ dẫn đến một fit làm trơn cho các
điểm phân tán. Tuy nhiên, điều kiện hạn chế thứ ba thì dễ thực hiện hơn hai điều
kiện đầu. Nếu ta định nghĩa ma trận (K +2) X (K +2)
2 2 2
2
0 0 0 0 0 ... 0
0 0 0 0 0 ... 0
0 00 0 1 0 0 ... 0
0 0 0 1 0 ... 0 0
... ... .... .... ... ...
0 0 0 0 0 ... 1
K
K K K
D
I
thì bài toán cực tiểu được viết lại là cực tiểu
2
y X với điều kiện
T D C .Từ đó chọn để cực tiểu biểu thức:
2
y X + 2 T D với 0 (2.31)
được kết quả: 2 1ˆ ( )T TX X D X y
(2.32)
Thì nhóm 2 T D được gọi là hạn chế sự gồ ghề (roughness penalty) , vì nó hạn
chế (phạt) những giá trị phù hợp gồ ghề, đem lại kết quả trơn hơn. Hầu như việc
làm trơn chịu điều khiển bởi , do đó thường được dùng chỉ cho tham số trơn.
Giá trị hợp lý cho hồi quy spline phạt được cho bởi
2 1( )T Ty X X X D X y (2.33)
2.3.4 Cơ sở Spline bậc hai
Mỗi mô hình hồi quy mà ta làm phù hợp trước giờ là spline tuyến tính, hàm
liên tục, piecewise. Hàm piecewise tuyến tính là liên kết tuyến tính của những hàm
38
tuyến tính có dạng ( )x . Một cách đơn giản của tránh khỏi những piecewise
tuyến tính là thêm vào 2x làm cơ sở hay thay thế ( )x bởi bình phương,
2( )x ( nghĩa là
2(( ) )x ). Hàm
2( 6)x có đạo hàm cấp 1 liên tục. Do đó bất
kì sự liên kết tuyến tính của những hàm
2 2 2
11, , , ( ) ,..., ( )kx x x x (2.34)
cũng sẽ có đạo hàm cấp 1 liên tục và không có bất kì góc nhọn nào. Nó thường
cho hình dạng tốt hơn về mặt thẩm mỹ. Ta gọi (2.34) là cơ sở spline bậc hai với
knot 1 2, ,..., k .
2.4 Mô hình cộng
Mô hình hồi quy phi tham số k biến:
1 2( , ,..., )i kY f X X X (2.35)
Mô hình này có hai hạn chế:
+ Thứ nhất: Giải thích là không thể khi k vượt quá 2. Đầu ra cho phương trình
(2.35) khi k = 2 là đồ thị ba chiều của một mặt phẳng đại diện cho các tác động
chung của hai biến dự báo. Trong khi có thể ước lượng mô hình này với biến dự
báo thứ ba, đầu ra yêu cầu một đồ thị với một chiều thêm vào, điều này là không
thể.
+ Thứ hai: Ngay khi hình dung ra kết quả, thì ước lượng địa phương trong k
chiều là một vấn đề. Xác định một lận cận địa phương cho ước lượng là khó khăn
khi k lớn hơn 1vì khi đó số liệu trở nên thưa thớt, nghiên cứu sẽ không có nghĩa
thống kê.
Mở rộng mô hình hồi quy phi tham số có hơn 2 biến X đòi hỏi bổ sung thêm giả
định cộng hưởng. Trong khi các giả định của cộng hưởng là hạn chế hơn so với
mô hình hồi quy đa biến không tham số, nó là giả định phổ biến cho mô hình hồi
quy tham số. Đối với mô hình hồi quy tuyến tính tham số, hàm có dạng:
1 1 ...i k kY X X (2.36)
39
Trong hàm này, giả định rằng tác động của X là cộng hưởng trên Yi , tác động của
X1, X2 là 1 2 . Giả định cộng là tại những thời điểm ta có một hình thức của
một tương tác:
1 1 2 2 3 1 2iY X X X X (2.37)
Giả định cộng có nhiều hạn chế nhưng nó dễ dàng mở rộng các mô hình hồi
quy phi tham số. Một mô hình hồi quy phi tham số với tác động cộng có dạng
1 1( ) ... ( )i k kY f X f X (2.38)
Trong đó, f1, f2,..., fk là các hàm làm trơn. Mô hình hồi quy phi tham số với một
giả định cộng gọi là mô hình cộng (additive model), động lực cho các mô hình
cộng hưởng xuất phát từ mong muốn tạo cho hồi quy phi tham số một kĩ thuật
phân tích dữ liệu đa biến.
Xem xét mô hình cộng :
1 1 2 2 3 3( ) ( ) ( )iY f X f X f X (2.39)
Với giả định cộng, ta có thể vẽ mỗi ˆ
if riêng biệt từ tác động của X1, X2 là 1 2
ˆ ˆf f .
Hơn nữa, ước lượng của
1fˆ tạo vào tài khoản hiệp phương sai giữa ba biến X và có
thể hiểu như là tác động của X1 lên Yi giữ X2 và X3 không đổi. Mỗi ˆif trong mô
hình tương ứng với các hệ số của mô hình hồi quy đa biến. Thêm vào đó, cho
phép giữ lại sự linh hoạt của mô hình hồi quy phi tham số nhưng cung cấp mô
hình tham số giống như giải thích.
40
Chương 3: HỒI QUY BÁN THAM SỐ
Một số mô hình hồi quy phi tham số cho phép phân tích mối quan hệ giữa hai biến
x và y với vài giả định về hình thức của hàm số. Tuy nhiên, không thể ước tính các
thông số kĩ thuật đa biến vượt ra ngoài với hai biến dự đoán. Trong khi đó, phần
lớn các nghiên cứu định lượng bao gồm những mô hình thống kê có rất nhiều biến
dự báo. Nếu chúng ta chấp nhận những tác động của biến dự báo là cộng thì ta có
thể hình thành mô hình hồi quy bán tham số. Trong mô hình này có những biến
thêm vào mô hình tham số, một số biến khác thêm vào như phần không tham số.
Mô hình hồi quy bán tham số cho phép phân tích để ước lượng những mô hình
tham số chuẩn với những ước lượng phi tham số cho những biến dự báo liên tục
và cho việc chẩn đoán bằng độ phi tuyến tính trong khuôn khổ nhiều mô hình hồi
quy quen thuộc.
3.1. Mô hình hồi quy bán tham số:
Nếu chúng ta chỉ ước luợng các mối quan hệ phi tham số giữa các biến liên tục
thì mô hình cộng hoàn toàn phù hợp. Nhưng dữ liệu khoa học hiếm khi phù hợp
với mô hình như vậy. Thứ nhất, các biến dự đoán rời rạc là phổ biến và thường
đông hơn các dự đoán liên tục trong một đặc tả. Thứ hai, mối quan hệ giữa X và Y
có thể là tuyến tính. Nếu một tham số đơn có thể nắm bắt đầy đủ sự phụ thuộc
giữa Y và X thì không có lí do để mở rộng các tham số bổ sung cho ước lượng hồi
quy không tham số. Tóm lại, một mô hình linh hoạt nhất cho phép kết hợp phần
tham số với phần không tham số trong cùng mô hình và có dạng:
1 1 1 1( ) ... ( ) ...i j j j j k kY f X f X X X (3.1)
Trong mô hình trên, các biến số j đầu tiên được giả định là có tác động phi tuyến
trên Yi và phù hợp với phi tham số làm trơn. Phần còn lại của các biến số đưa vào
mô hình tham số. Thêm một thành phần tham số vào mô hình cộng tạo ra mô hình
hồi quy bán tham số, mô hình này cung cấp khả năng ước lượng rộng hơn. Phần
tham số của mô hình cho phép các biến rời rạc như biến giả hoặc quy mô thứ tự
được mô hình bên cạnh với các phần không tham số. và bất kì biến liên tục nào
41
cho là có tác động tuyến tính lên Yi có thể được ước lượng tham số để lưu các
tham số bổ sung. Mô hình bán tham số cũng có một lợi thế rõ ràng trên một mô
hình đầy đủ tham số, sự suy luận của hồi quy không tham số được giữ lại trong mô
hình bán tham số cho phép kiểm tra xem trong điều kiện nào đó phần không tham
số là cần thiết trong đặc điểm kĩ thuật của mô hình. Ví dụ, xét mô hình:
1 1 2 2 3 3 4 4( ) ( )iY f X f X X X (3.2)
Trong mô hình trên, X3 là biến giả, X4 là biến liên tục như là X1 và X2. Trong mô
hình hồi quy bán tham số, có thể chỉ định một vài tương tác khác nhau. Thứ nhất,
có thể ước lượng phi tuyến giữa X1 và X2. Kết quả sẽ là đồ thị ba chiều giống với
hồi quy phi tham số đa biến, và kiểu tương tác hoàn toàn tham số giữa X3 và X4.
Hơn nữa, có thể tương tác giữa phần tham số và phi tham số trong mô hình như là
tác động phi tuyến của X1. Ví dụ như là có thể vẽ các mức độ khác nhau của X3
hay X4. Trong ngắn hạn, mô hình hồi quy bán tham số là công cụ linh hoạt cho cả
hai mô hình tuyến tính và phi tuyến tính phụ thuộc giữa các biến. Chúng ta ước
lượng cho hai mô hình cộng và hồi quy bán tham số.
3.2 Ước lượng
Thuật toán Backfitting
Mô hình phù hợp với phần phi tham số đa biến thì đơn giản nếu các biến X
trong mô hình là không tương quan. Nếu các biến X là trực giao thì có thể ước
lượng mỗi phần với các mô hình 2 chiều sử dụng phương pháp bình phương cực
tiểu cho các thành phần tham số và lowes hoặc splines cho thành phần phi tham
số. Khi đó, không cần sử dụng hồi quy đa biến cho tập hợp của hồi quy hai chiều
là tương đương. Tuy nhiên, hiếm để có dữ liệu nơi có ít nhất một số các biến dự
đoán không tương quan và do đó cần có một phương pháp để ước lượng các hạng
tử từ mô hình cộng hoặc mô hình bán tham số giải thích hiệp phương sai giữa các
biến dự báo. Thuật toán backfitting được thiết kế để tính những tương quan này
khi ước lượng phần phi tham số và tham số. Thuật toán backfitting được đề xuất
bởi ý nghĩ hàm hồi quy một phần, xét mô hình cộng hai biến dự báo sau:
1 1 2 2( ) ( )Y f X f X (3.3)
42
Giả sử rằng chúng ta biết dạng đúng của f2 nhưng không biết của f1. Nếu điều này
là đúng, chúng ta có thể sắp xếp lại phương trình trở thành:
2 2 1 1( ) ( )Y f X f X (3.4)
Làm trơn 2 2( )Y f X dựa vào X1 tạo ra một ước lượng của 1 1( )f X . Do đó, biết
một trong những hàm hồi quy riêng cho phép chúng ta ước lượng hàm hồi quy
riêng khác. Thực ra, ta không thực sự biết hai hàm hồi quy, nhưng nếu ta giả thiết
tập hợp các giá trị bắt đầu cho một trong những số hạng f, hàm hồi quy riêng đề
nghị nghiệm lặp cho ước lượng trong mô hình cộng . Ta muốn ước lượng mô hình
cộng như sau:
1 1 2 2( ) ( ) ... ( )k kY f X f X f X (3.5)
Trong phương trình trên, đặt Sj là ma trận trong đó mỗi một cột đại diện cho mỗi
một ước lượng của fk, và X là mô hình ma trận trong đó mỗi một cột là một trong
những biến X. Thuật toán backfitting cho mô hình cộng gồm các bước:
Bước 1: Tập Y , Sj = X như là biến bắt đầu với j = 1,.., m.
Bước 2: Thuật toán nút trên cột của Sj để tính phần dư đối với mỗi biến số X.
Ước lượng phần dư ˆ j
pe cho X1:
2
ˆ
k
j
p i j
i
e Y S
(3.6)
Phần thứ hai của vế phải đại diện cho tổng hàng ngang Sj cho biến số X, 2k .
Bước 3: Làm trơn j
pe trên X1. Nhà phân tích phải lựa chọn mô hình hồi quy
không tham số cho bước này cùng với khoảng cách hay bậc tự do cho làm trơn tùy
vào lựa chọn mô hình hồi quy không tham số.
Bước 4: Thay thế hiệp phương sai X1 trong Sj với những dự đoán trơn thích hợp
tại những giá trị của Xi.
Bước 5: Lặp lại bước 2 đến 4 cho mỗi X từ 2 đến k.
Bước 6: Tính toán mô hình tổng bình phương phần dư như sau:
2
1 1
n k
i j
i j
RSS Y S
(3.7)
43
Trong đó, ta lặp lại tính tổng các dòng của Sj.
Bước 7: Nếu thay đổi trong RSS là trong mức độ chấp nhận được, mô hình đã hội
tụ và thuật toán dừng lại. Nếu không, quá trình cứ lặp lại cho đến khi sự thay đổi
trong RSS là ở mức độ chấp nhận được.
Một lần thuật toán dừng lại mỗi một cột của Sj chứa ước lượng không tham số
của mỗi một X biến số trên Y. Điều quan trọng là những ước lượng này bây giờ
tính đến hiệp phương sai giữa biến số X, do đó, nếu được ước lượng mô hình cộng
với ba biến số X, biểu đồ của
1fˆ được diễn giải là ảnh hưởng của X1 lên Yi, giữ
nguyên X2 và X3. Một số biến thiên trên thuật toán backfitting cơ bản mô tả ở trên
đều có thể; chẳng hạn là dùng ước lượng OLS như giá trị bắt đầu. Cách tiếp cận
này được nêu ra như sau:
1. Ước lượng hồi quy tuyến tính trung bình lệch như sau:
1 1 1
* * *
1 1
...
...
i k k k
k k
Y Y X X X X
Y X X
(3.8)
Các tham số β1 · · · βk đóng vai trò như là các giá trị đầu của thuật toán lặp
backfitting.
2. Phần dư riêng cho X1 được ước lượng:
1
* * *
2 i2 k
ˆ ...px ke Y X X (3.9)
Ước lượng của dư riêng bỏ đi phụ thuộc tuyến tính giữa Y và X2 nhưng quan hệ
tuyến tính giữa Y và X1 được giữ cùng với bất kỳ mối quan hệ phi tuyến trong
bình phương cực tiểu phần dư ε, với j = 1,...,m.
3. Phần dư riêng được làm trơn dựa vào X1 cung cấp một ước lượng của f1
1 1 1
ˆ êjx pxf smooth e tr n X (3.10)
4. Ước lượng của
2
fˆ X được hình thành từ dư riêng của X2.
2 1
* * *
1
ˆ ˆˆ ...
kpx x x k
e Y f X f X (3.11)
5. Làm trơn phần dư riêng này dựa vào X2 :
2
ˆ
xf = smooth[ 2pxe trên X2 ] (3.12)
44
6. Ước lượng mới của
2
ˆ
xf được sử dụng để tính phần dư riêng cập nhật cho X3. Có
ước lượng ban đầu cho mỗi số hạng fk , lặp lại quá trình.
7. Lặp lại quá trình liên tục chi đến khi hàm hồi quy một phần được ước lượng ổn
định và phù hợp với hàm như được tính toán bằng cách thay đổi tổng phần dư bình
phương ở mức độ chấp nhận được.
Khi quá trình này kết thúc, ta sẽ có ước lượng tác động của phần riêng của X trên
Yi. Như vậy, thuật toán quay lại ước lượng trơn của X1 trên Yi kiểm soát tác động
của X2,..., Xk.
Thuật toán backfitting cho mô hình hồi quy bán tham số tiếp tục theo cách
đồng dạng. Dư riêng được hình thành đối với mỗi biến dự đoán, và nếu nhà phân
tích có chọn được một hiệp phương sai nào đó để có một phi tuyến thích hợp, dư
riêng cho biến số được làm trơn trên biến số đó. Nếu biến số được chọn có một
ước lượng tham số, dư riêng được hồi quy trên biến số sử dụng bình phương bé
nhất thay cho làm trơn. Sửa đổi này để thuật toán backfitting ước lượng mô hình
hồi quy bán tham số. Nếu thuật toán backfitting được áp dụng cho mô hình tuyến
tính và hồi quy tuyến tính thay thế hồi quy không tham số trong bước ước lượng,
nó sẽ tạo ra ước lượng bình phương cực tiểu. Mặc dù có ưu thế trội hơn,
backfitting có một khiếm khuyết, là khó có thể liên kết chặt chẽ kỹ thuật làm trơn
tự động hoá vào thuật toán. Triển khai phần mềm mới của mô hình hồi quy bán
tham số thường sử dụng lặp đi lặp lại thuật toán trọng số bình phương cực tiểu mà
không có những thiếu sót này.
3.3 Kết luận
Kết luận thống kê cho mô hình hồi quy bán tham số là kết luận hỗn hợp cho mô
hình hồi quy tuyến tính với kết luận cho mô hình hồ quy phi tham số. Phần phi
tuyến trong mô hình, chúng ta muốn ước lượng độ tin cậy và kiểm tra mô hình
thích hợp chống lại các thông số kĩ thuật chi tiết hơn. Đối với phần tham số trong
mô hình, chúng ta sẽ ước lượng sai số chuẩn khoảng tin cậy và thực hiện kiểm
định giả thuyết. Tất cả những điều này có thể dùng cho mô hình hồi quy bán tham
số.
45
Độ tin cậy của phần phi tham số và sai số chuẩn cho phần tham số đòi hỏi được
ước lượng bằng ma trận phương sai - hiệp phương sai. Ước lượng của ma trận
phương sai - hiệp phương sai tương tự cho mô hình hồi quy không tham số nhưng
phức tạp hơn. Kiểm tra mô hình hồi quy bán tham số chống lại tham số khác đầy
đủ, tuy nhiên, được đơn giản bằng cách sử dụng một kiểm định F hoặc là kiểm
định tỉ số hợp lí. Chúng ta bắt đầu với đạo hàm của ma trận phương sai – hiệp
phương sai để ước lượng từ thuật toán backfitting, cách này chúng ta sử dụng để
xây dựng độ tin cậy cho phần phi tham số và sai số chuẩn cho phần tham số. Kế
tiếp, chúng ta sẽ diễn tả thủ tục kiểm định giả thuyết sử dụng kiểm định F một
phần hoặc kiểm định tỉ số hợp lí.
3.3.1 Độ tin cậy và sai số chuẩn
Đặt S là ma trận làm trơn, sao cho fˆ Sy . Khi có S, sai số chuẩn được ước
lượng giống như bình phương cực tiểu. Sử dụng 2ˆ 'SS như là ma trận phương sai
– hiệp phương sai. Cần xây dựng một ma trận phương sai – hiệp phương sai cho
mô hình cộng hưởng và mô hình hồi quy bán tham số có cùng phương pháp suy
luận. Dùng không gian hàm L2, I là ma trận đơn vị cấp n n và S1,...,Sk là ma trận
làm trơn cho mỗi biến X. Hằng số có thể được bỏ qua, không mất tính tổng quát :
1 1 1 1 1
2 2 2 2 2
...
...
... ... ... .... ... ...
...k k k k
I S S S f S y
S I S S f S y
S S I f S y
(3.13)
Phương trình trên được viết gọn và sắp xếp lại đề tạo thành ma trận tương tự như
ma trận nón.
1
ˆ ˆ
ˆ ˆ ˆ
Sf Qy
f S Qy
fˆ Ry (3.14)
Trong đó, 1ˆ ˆR S Q . Ma trận R là ánh xạ tuyến tính của y đến fˆ , trong mô hình
cộng và mô hình bán tham số nó tương ứng với ma trận nón. Nếu quan sát là phân
phối độc lập và đồng nhất thì:
46
2ˆ( ) 'V f RR (3.15)
Trong đó, 2 được thay bằng
2
2ˆ i
res
e
df
(3.16)
Bậc dư tự do là 2 (2 ')resdf n tr R RR . Độ tin cậy có thể được xây dựng dùng
± 2 lần căn bậc hai phần tử đường chéo của 2ˆ 'RR . Cho mô hình bán tham số,
phần tử đường chéo của R cũng là phương sai cho bất kỳ ước lượng của β.
3.3.2 Kiểm định giả thuyết
Đối với phần tham số, phần sai số chuẩn từ R cho phép các thủ tục suy luận
thông thường như là kiểm định giả thuyết. Phần phi tham số có hai kiểm định giả
thuyết hoặc là kiểm định F một phần hoặc kiểm định tỉ số hợp lí. Kiểm định thứ
nhất cho biết ảnh hưởng của X lên Y đáng kể khác với 0, trong khi đó, kiểm định
thứ hai thiết lập cho dù phi tham số phù hợp biến cải thiện mô hình thích hợp với
phần tham số. Chứng minh của cả hai kiểm định này là tốt nhất làm qua ví dụ
chung. Xét mô hình sau:
1 1 2 2( ) ( )Y f X f X (3.17)
Để kiểm định tác động của X2 là thống kê khác 0, chúng ta sẽ kiểm định mô hình
ở trên tương phản
1 1( )Y f X (3.18)
Kiểm định dù f2 là tuyến tính, ta sẽ kiểm định phương trình tương phản (3.17)
1 1 1 2( ) ( )Y f X X (3.19)
Kiểm định F dựa vào tổng bình phương phần dư. Xác định tổng bình phương
phần dư cho bất kỳ mô hình cộng hưởng hay là hồi quy bán tham số như
2
1
ˆ( )
n
i
i
RSS y y
(3.20)
Đặt RSS0 là tổng bình phương phần dư cho mô hình bị hạn chế trong khi RSS1 là
tổng bình phương phần dư từ mô hình cộng hưởng hoặc bán tham số. Kiểm định
thống kê là
47
0 1
1
/ [ ( ) 1]
/ res
RSS RSS tr R
F
RSS df
(3.21)
Kiểm định thống kê này đi theo sau một phân phối F với dfres,smaller –dfres,larger và
dfres,larger bậc tự do. Kiểm định tỉ số hợp lí cho mô hình cộng và bán tham số có
các hình thức thông thường:
LR = -2(loglikelihood0 - loglikelihood1 ) (3.22)
Trong đó, loglikelihood0 là logarit hợp lí cho mô hình bị giới hạn và ,
loglikelihood1 là logarit hợp lí cho mô hình không bị giới hạn, mô hình cộng hoặc
mô hình hồi quy bán tham số. Kiểm định thống kê dưới H0 theo sau một xấp xỉ
phân phối 2 , bậc tự do là sự khác biệt trong số các tham số trên hai mô hình. Sai
lệch cho mỗi mô hình là -2 lần logarit hợp lí.
48
Nhận xét:
Thêm các thành phần phi tham số để mô hình hồi quy tham số tạo ra một mô hình
hồi quy bán tham số có thể ước lượng cả hai dạng hàm rất phi tuyến và ước lượng tham
số cho dự đoán rời rạc. Mô hình hồi quy bán tham số giữ lại cơ chế kiểm định hồi quy
phi tham số, cho phép các nhà phân tích để kiểm định xem thông số phù hợp là phù hợp
hay không. Mô hình hồi quy bán tham số là một sự kết hợp tốt giữa tính linh hoạt của
hồi quy phi tham số và diễn giải của các mô hình tham số.
Trong khi có rất nhiều lợi ích để sử dụng mô hình hồi quy bán tham số, khác biệt
nhất định theo thứ tự. Tất cả những khó khăn không ngờ của hồi quy phi tham số áp
dụng đối với mô hình cộng và bán tham số. Đầu tiên, khi các thông số làm trơn được
ước lượng với một phương pháp tự động, kiểm định thống kê cho kiểm tra tỉ lệ hợp lí
vẫn còn gần đúng. Nếu kiểm định là đường biên, các mô hình có thể được tái sử dụng
được ước lượng chọn thủ công hoặc sử dụng spline chuẩn. Các nhà phân tích cũng có
thể mô phỏng các p giá trị cho kiểm định này. Thứ hai, mô hình bán tham số, giống như
mô hình hồi quy tham số, cũng phải thực hiện đa cộng tuyến. Trong mô hình bán tham
số, điều này được gọi là đồng quy. Nếu hai biến X liên quan chặt chẽ, các thuật toán
backfitting có thể không thể tìm thấy một đường cong đặc biệt, và kết quả sẽ là một
quan hệ tuyến tính. Trường hợp này không có giải pháp bổ sung.
49
Chương 4: MỘT SỐ ỨNG DỤNG CỦA HỒI QUY BÁN THAM SỐ
4.1 Bài toán 1:
Mô tả dữ liệu: Gồm 84 bộ số thể hiện mối quan hệ giữa mật độ và sản lượng
hành trắng Tây Ban Nha được trồng ở hai khu vực: Purnong Langding và Virginia
của miền Nam nước Úc.
Dựa vào bảng số liệu A.1, hãy dự đoán sản lượng của hành được trồng tại khu
vực Purnong Langding, với mật độ 160.00 (cây trồng/m2).
Giải
Mô hình hồi quy bán tham số của bài toán 1 có dạng:
1(log. ) . ( )i i iE yield location f dens
Hay: log.yield = 0 1 ( )location f dens
Với biến location được xử lí bằng thuật toán B.1.1 được:
Thành phần tham số:
Hệ số Sai số chuẩn Tỉ số p-giá trị
Hệ số chặn 5.3880 0.24230 22.24 0
location -0.3325 0.02388 -13.92 0
Theo kết quả trên ta được:
0ˆ = 5.3880 ; 1ˆ = -0.3325
Thành phần phi tham số:
Bậc tự do Tham số trơn Số knot
f(dens) 4.213 63.02 17
Theo kết quả trên ta được:
+ Bậc tự do bằng 4.213
+ Tham số làm trơn = 63.02
+ Số knot K = 17
Dùng thuật toán B.1.2 ta được đồ thị hàm hồi quy như hình 3.1
50
Hình 3.1
Kết quả dự đoán với thuật toán B.1.3
Hành được trồng ở khu vực 1 (Purnong Langding) (x = 1), với mật độ 160.00
(cây trồng/m2) (y = 160.00) ta được sản lượng là 39.80422 (g/ cây trồng) với sai
số chuẩn 0.03798192
4.2 So sánh giữa hồi quy tham số, hồi quy phi tham số và bán tham số :
Vẫn với số liệu A.1, ta xây dựng mô hình hồi quy tham số, phi tham số với
thuật toán B.1.4, B.1.5.
Để kiểm tra độ fit với số liệu, ta dự đoán sản lượng hành với những số liệu đã
có cho cả ba mô hình hồi quy tham số (thuật toán B.1.6) phi tham số (thuật toán
B.1.7) và bán tham số (thuật toán B.1.3) rồi so sánh.
51
Mật độ/khu vực 23.48/0 33.27/0 61.78/1 144.31/1
Log(yield) 5.407261 5.285485 4.569750 3.867862
Dự đoán
log(yield)/sai
số
Tham
số
5.182301/
0.0361508
5.084384/
0.03212929
4.799233/
0.02394287
3.973785/
0.04585971
Phi
tham
số
5.291411/
0.05215225
5.130051/
0.03464046
4.75043/
0.03092205
3.991869/
0.0535303
Bán
tham
số
5.56607/
0.03735181
5.337518/
0.0247531
4.553337/
0.02424471
3.805261/
0.03900957
Qua bảng so sánh ta thấy dự đoán với mô hình hồi quy bán tham số tối ưu hơn so
với mô hình hồi quy tham số, phi tham số.
4.3 Bài toán 2:
Mô tả dữ liệu: Gồm 345 bộ số thể hiện mối liên hệ giữa nồng độ ozone trong
không khí với độ chênh lệch áp suất ở Daggett, sự thay đổi dựa vào độ cao và sự
thay đổi dựa vào nhiệt độ.
Dựa vào bảng số liệu A.2 phần phụ lục, hãy dự đoán nồng độ ozone với chênh
lệch áp suất ở Daggett là 5(mmHg), sự thay đổi dựa vào độ cao là 369 (feet), sự
thay đổi dựa vào nhiệt độ là 89.45 (F)
Giải:
Dùng thuật toán B.2.1 để gọi gói lệnh dùng cho hồi quy bán tham số và dữ liệu.
Dùng các thuật toán B.2.2, B.2.3, B.2.4 vẽ mối tương quan giữa biến ozone.level
và các biến inversion.base.temp, inversion.base.height, daggett.pressure.gradient.
ta được hình 3.2:
52
Hình 3.2
Nhìn vào hình vẽ, ta thấy mối tương quan giữa biến ozone.level và
inversion.base.temp có phần tuyến tính hơn so với 2 biến còn lại nên ta chọn biến
inversion.base.temp là phần hồi quy tham số, 2 biến còn lại inversion.base.height,
daggett.pressure.gradient làm thành phần hồi quy phi tham số.
Như vậy, mô hình hồi quy bán tham số bài toán 2 có dạng:
E(ozone.leveli) = 1 inversion.base.tempi + f1(daggett.pressure.gradienti) +
f2(inversion.base.heighti)
Hay:
ozone.level = 0 + 1 inversion.base.temp + f1(daggett.pressure.gradient) +
53
f2(inversion.base.height)
Dùng thuật toán B.2.5 để ước lượng các thành phần tham số và phi tham số. Ta
được kết quả sau:
Thành phần tham số:
Hệ số Sai số chuẩn Tỉ số p-giá trị
Hệ số chặn -9.2900 5.10700 -1.819 0.0698
inversion.base.temp 0.4501 0.02845 15.820 0.0000
Theo kết quả trên ta được:
0ˆ -9.2900 ; 1ˆ =0.4501
Thành phần phi tham số:
Bậc tự do Tham số trơn Số knot
f(daggett.pressure.gradient) 5.098 78.64 31
f(inversion.base.height) 4.189 2764.00 39
Theo kết quả trên ta được:
- Với biến daggett.pressure.gradient :
+ Bậc tự do bằng 5.098
+ Tham số làm trơn = 78.64
+ Số knot K = 31
- Với biến inversion.base.height :
+ Bậc tự do bằng 4.189
+ Tham số làm trơn = 2764.00
+ Số knot K = 39
Dùng thuật toán B.2.6 để vẽ đường biễu diễn mối liên hệ giữa biến ozone.level với
các biến inversion.base.temp; daggett.pressure.gradient ;inversion.base.height.
Thể hiện ở hình 3.3
54
Hình 3.3
Dự đoán nồng độ ozone với chênh lệch áp suất ở Daggett là 5(mmHg), sự thay
đổi dựa vào độ cao là 369 (feet), sự thay đổi dựa vào nhiệt độ là 89.45 (F).
Dùng thuật toán B.2.7 ta được kết quả:
Nồng độ là 23.37021 với sai số chuẩn 0.8570518.
55
KẾT LUẬN
Tóm lại, qua luận văn trên đã tìm hiểu việc kết hợp mô hình hồi quy tham số
và phi tham số dẫn đến mô hình hồi quy bán tham số và tìm cách ước lượng các
tham số của mô hình hồi quy.
Luận văn trình bày ứng dụng của mô hình hồi quy bán tham số vào việc dự
đoán một kết quả từ số liệu đã cho.
Trong phụ lục B, phần lớn các đoạn chương trình dựa vào những thủ tục có
sẵn trong phần mềm R nên chưa linh hoạt trong việc chọn knot , bậc tự do, tham
số trơn.
Do thời gian có hạn nên luận văn chưa trình bày được nhiều ví dụ tính toán
phần mềm và phát triển mô hình cao hơn.
56
PHỤ LỤC A: CÁC SỐ LIỆU TRONG LUẬN VĂN
Số liệu A.1:
Sản lượng của hành được trồng tại hai khu vực ở miền nam nước Úc:
STT dens yield log(yield) location
STT dens yield log(yield) location
1 23.48 223.02 5.40726 0 43 18.78 272.15 5.606353 1
2 26.22 234.24 5.45635 0 44 21.25 235.23 5.460564 1
3 27.79 221.68 5.40123 0 45 23.23 180.47 5.195565 1
4 32.88 221.94 5.40241 0 46 27.18 177.31 5.1779 1
5 33.27 197.45 5.28549 0 47 30.15 141.28 4.950744 1
6 36.79 189.64 5.24513 0 48 31.63 169.39 5.132204 1
7 37.58 211.2 5.35281 0 49 32.12 138.17 4.928485 1
8 37.58 191.36 5.25416 0 50 32.62 171.81 5.146389 1
9 41.49 156.62 5.05382 0 51 32.62 112.02 4.718677 1
10 42.66 168.12 5.12468 0 52 33.61 156.09 5.050433 1
11 44.23 197.89 5.28771 0 53 37.07 137.29 4.922095 1
12 44.23 154.14 5.03786 0 54 38.55 154.1 5.037602 1
13 51.67 153.26 5.03214 0 55 39.54 124.17 4.821652 1
14 55.58 142.79 4.96138 0 56 39.54 146.28 4.985523 1
15 55.58 126.17 4.83763 0 57 41.02 105.47 4.658427 1
16 57.93 167.95 5.12367 0 58 42.5 139.24 4.936199 1
17 58.71 144.54 4.97356 0 59 43.98 148.31 4.999305 1
18 59.5 151.3 5.01926 0 60 45.47 110.44 4.704472 1
19 60.67 130.52 4.87153 0 61 49.92 90.72 4.507778 1
20 62.63 125.3 4.83071 0 62 50.9 102.61 4.630935 1
21 67.71 114.05 4.73664 0 63 53.87 107.36 4.676188 1
22 70.06 116.31 4.75626 0 64 57.82 92.66 4.528937 1
23 70.45 120.71 4.79339 0 65 61.78 96.52 4.56975 1
24 73.98 134.16 4.89903 0 66 61.78 94.71 4.55082 1
25 73.98 114.48 4.7404 0 67 63.75 99.86 4.603769 1
26 78.67 91.17 4.51273 0 68 67.71 93.37 4.53657 1
27 95.9 101.27 4.61779 0 69 71.66 89.78 4.497362 1
28 96.68 97.33 4.57811 0 70 77.59 69.34 4.239022 1
29 96.68 101.37 4.61878 0 71 80.56 73.74 4.300545 1
30 101.38 97.2 4.57677 0 72 86.49 75.17 4.319752 1
31 103.72 87.12 4.46729 0 73 88.46 72.98 4.290185 1
32 104.51 81.71 4.40318 0 74 89.45 79.94 4.381276 1
33 105.68 76.44 4.33651 0 75 90.93 79.13 4.371092 1
34 108.03 87.1 4.46706 0 76 92.91 70.93 4.261693 1
35 117.82 84.54 4.43722 0 77 101.81 60.99 4.11071 1
36 127.21 69.09 4.23541 0 78 103.78 74.09 4.305281 1
37 134.26 64.4 4.16511 0 79 115.15 49.45 3.900962 1
38 137.39 66.81 4.20185 0 80 123.06 56.65 4.036892 1
39 151.87 63.01 4.14329 0 81 144.31 47.84 3.867862 1
40 163.61 55.45 4.01548 0 82 155.68 40.03 3.689629 1
41 166.35 62.54 4.13581 0 83 158.15 38.7 3.65584 1
42 184.75 54.68 4.0015 0 84 180.39 28.96 3.365916 1
57
Location nhận giá trị 0 nếu là khu vực Virginia, 1 nếu là khu vực Purnong
Landing.
Số liệu A.2:
STT Y X1 X2 X3 STT Y X1 X2 X3
1 3 -15 5000 30.56 45 7 27 1161 52.88
2 3 -25 2693 47.66 46 11 2 2778 55.76
3 5 -24 590 55.04 47 13 26 442 58.28
4 5 25 1450 57.02 48 6 -30 5000 42.26
5 6 15 1568 53.78 49 5 -53 5000 43.88
6 4 -33 2631 54.14 50 4 -43 5000 49.1
7 4 -28 554 64.76 51 4 7 5000 49.1
8 6 23 2083 52.52 52 6 24 5000 42.08
9 7 -2 2654 48.38 53 10 19 1341 59.18
10 4 -19 5000 48.56 54 15 2 1318 64.58
11 6 9 111 63.14 55 23 -4 885 67.1
12 5 -44 492 64.58 56 17 3 360 67.1
13 4 -44 5000 56.3 57 7 73 3497 49.46
14 4 -53 1249 75.74 58 2 73 5000 40.1
15 7 -67 5000 65.48 59 3 44 5000 29.3
16 5 -40 5000 63.32 60 3 39 5000 27.5
17 9 1 639 66.02 61 5 15 5000 30.02
18 4 -68 393 69.8 62 4 -12 5000 33.62
19 3 -66 5000 54.68 63 6 -2 5000 39.02
20 4 -58 5000 51.98 64 7 30 5000 42.08
21 4 -26 5000 51.98 65 7 24 3608 39.38
22 5 18 3044 52.88 66 6 38 5000 32.9
23 6 23 3641 47.66 67 3 56 5000 35.6
24 9 -10 111 59.54 68 2 66 5000 34.34
25 5 -25 692 67.1 69 8 -27 613 59.72
26 6 -52 597 70.52 70 12 -9 334 64.4
27 6 -15 1791 64.76 71 12 13 567 61.88
28 11 -15 793 65.84 72 16 -20 488 64.94
29 10 -38 531 75.92 73 9 -15 531 71.06
30 7 -29 419 75.74 74 24 7 508 66.56
31 12 -7 816 66.2 75 13 68 1571 56.3
32 9 62 3651 49.1 76 8 28 721 55.4
33 2 70 5000 37.94 77 10 -49 505 67.28
34 3 28 5000 32.36 78 8 -27 377 73.22
35 3 18 1341 45.86 79 9 -9 442 75.74
36 2 0 5000 38.66 80 10 54 902 60.44
37 3 -18 3799 45.86 81 13 53 3188 58.64
38 3 32 5000 38.12 82 14 4 1381 56.3
39 4 -1 5000 37.58 83 9 -16 5000 50
40 6 -30 5000 45.86 84 11 38 5000 46.94
41 8 -8 5000 45.5 85 7 40 1302 52.7
42 6 21 2398 53.78 86 9 -5 1292 53.6
43 4 51 5000 36.32 87 12 -14 5000 52.7
44 3 42 4281 41.36 88 12 34 472 62.96
58
STT Y X1 X2 X3 STT Y X1 X2 X3
89 8 42 1404 54.5 133 18 47 1991 69.62
90 9 35 944 55.76 134 16 71 2057 67.28
91 5 75 5000 35.24 135 24 56 1597 68
92 4 41 5000 30.92 136 16 52 1184 69.44
93 4 62 5000 33.44 137 12 58 3005 59.18
94 9 44 5000 42.08 138 9 53 2880 57.38
95 13 31 2014 53.42 139 16 64 2125 59
96 5 56 5000 37.22 140 8 74 3720 50.9
97 10 27 5000 47.66 141 9 66 4337 59.36
98 10 57 524 54.68 142 29 31 2053 72.86
99 7 55 5000 38.48 143 20 70 1958 70.52
100 5 59 5000 35.24 144 5 86 3644 59.36
101 4 24 5000 32.54 145 5 75 1368 58.46
102 7 29 2490 47.48 146 11 73 3539 53.6
103 3 107 5000 31.28 147 12 49 2785 63.32
104 4 36 5000 33.44 148 19 26 984 69.26
105 7 28 5000 39.38 149 17 56 1804 68
106 11 30 1144 53.6 150 19 77 3234 62.78
107 15 1 547 66.92 151 16 67 3441 60.98
108 22 10 413 69.62 152 14 61 1578 60.8
109 17 46 610 63.68 153 10 76 1850 60.8
110 7 81 3638 51.26 154 9 80 2962 59.36
111 10 45 3848 56.84 155 7 54 2670 55.4
112 19 40 1479 68 156 5 76 5000 42.08
113 18 55 1108 65.48 157 2 57 5000 40.82
114 12 0 869 58.1 158 12 46 5000 51.26
115 6 43 5000 38.3 159 22 28 987 63.86
116 9 49 5000 37.94 160 17 43 1148 66.92
117 19 31 1148 60.8 161 26 -24 898 77.9
118 21 4 856 75.38 162 27 -1 777 82.58
119 29 16 807 73.04 163 14 75 1279 71.6
120 16 46 2040 63.5 164 11 69 1046 68.72
121 5 63 5000 42.62 165 23 50 1167 74.3
122 11 60 314 59 166 26 45 987 75.74
123 2 77 5000 42.62 167 21 57 1144 71.24
124 2 75 5000 40.82 168 15 60 977 70.7
125 12 20 1410 55.22 169 20 26 770 75.56
126 16 23 360 62.42 170 15 -11 629 86.36
127 22 32 1568 67.64 171 18 -14 337 89.78
128 20 40 1184 68.72 172 26 26 590 85.1
129 27 24 898 73.4 173 19 19 400 83.3
130 33 0 436 86.36 174 13 9 580 87.26
131 25 6 774 86 175 30 25 646 89.24
132 31 50 1181 79.88 176 26 41 826 84.38
59
STT Y X1 X2 X3 STT Y X1 X2 X3
177 15 52 823 74.48 221 15 43 1545 65.66
178 16 47 2116 70.34 222 17 44 994 69.62
179 16 52 2972 64.4 223 13 55 1125 68
180 19 41 2752 69.98 224 20 16 636 73.94
181 23 37 1377 78.44 225 22 32 748 77
182 28 33 1486 79.88 226 24 44 692 77.72
183 34 22 990 85.1 227 26 39 807 78.8
184 33 29 508 85.28 228 32 19 869 78.98
185 24 56 1204 79.88 229 33 24 800 85.64
186 17 63 2414 76.46 230 27 6 393 91.76
187 10 67 2385 70.34 231 38 0 557 90.68
188 14 64 2326 71.24 232 23 27 620 85.64
189 13 56 3389 68.72 233 19 33 1404 84.74
190 17 58 2818 71.78 234 19 21 898 80.6
191 15 75 3083 72.32 235 15 -2 377 83.3
192 22 54 2394 69.62 236 28 17 528 78.8
193 19 61 2746 69.44 237 10 26 2818 72.68
194 20 55 2493 72.5 238 14 10 3247 67.28
195 25 42 1528 73.94 239 26 0 895 78.08
196 28 40 111 78.08 240 17 0 721 80.24
197 29 45 1899 76.46 241 3 -27 774 75.56
198 23 32 1289 75.2 242 2 0 134 77.18
199 26 35 984 78.8 243 3 39 5000 51.8
200 14 28 836 81.5 244 14 13 1965 60.98
201 13 27 826 79.34 245 29 10 1853 70.88
202 26 39 1105 74.12 246 18 7 2342 71.42
203 22 46 1023 77.18 247 3 56 5000 51.62
204 11 68 1453 70.16 248 7 37 5000 47.48
205 15 52 2375 66.2 249 9 35 4028 55.04
206 14 46 2956 67.28 250 19 26 2716 63.68
207 13 56 2988 65.66 251 8 31 3671 65.84
208 9 60 4291 62.24 252 23 31 3795 66.92
209 12 59 3330 58.64 253 13 35 3120 66.92
210 14 30 1233 70.52 254 7 17 2667 63.5
211 22 36 1450 69.8 255 3 39 5000 52.7
212 24 28 1069 74.3 256 5 36 5000 48.92
213 19 57 984 73.4 257 11 25 308 68.72
214 16 71 1653 68.72 258 12 18 2982 59.9
215 7 68 3930 59.18 259 5 30 5000 52.7
216 2 73 5000 51.62 260 4 25 5000 51.26
217 4 45 5000 51.26 261 5 38 5000 47.66
218 6 46 4212 56.84 262 4 35 5000 47.84
219 12 52 5000 49.82 263 10 13 3070 60.08
220 9 31 5000 57.38 264 17 0 830 72.14
60
STT Y X1 X2 X3 STT Y X1 X2 X3
265 26 -9 711 75.56 309 9 -22 501 70.88
266 30 -10 1049 78.98 310 7 -15 875 68.9
267 18 -39 511 83.84 311 14 7 1601 62.06
268 12 -40 5000 67.64 312 4 59 5000 41.9
269 7 -34 5000 69.44 313 3 -63 5000 37.04
270 15 -3 377 78.8 314 3 -52 5000 41
271 12 27 862 73.58 315 3 -54 2280 55.76
272 7 -17 337 81.14 316 3 -43 2047 63.5
273 28 -2 492 82.22 317 3 -69 5000 56.48
274 22 13 1394 75.02 318 3 -50 3720 61.34
275 18 27 3146 64.04 319 3 -24 311 69.98
276 14 11 2234 66.74 320 6 28 2536 56.48
277 24 21 2109 69.62 321 6 -22 1154 61.52
278 10 23 5000 54.5 322 5 -40 2933 59.9
279 14 -7 2270 68.9 323 3 -33 3064 62.78
280 9 -13 2191 68.72 324 4 -16 826 64.76
281 12 12 3448 58.64 325 7 2 5000 42.98
282 7 13 5000 48.92 326 5 -52 111 68.18
283 7 11 5000 49.46 327 5 -48 5000 54.68
284 6 25 2719 56.84 328 4 -37 5000 55.58
285 13 21 1899 62.06 329 3 -26 5000 51.08
286 5 -41 5000 52.52 330 2 -31 5000 51.44
287 3 -21 5000 50.9 331 5 -48 948 70.7
288 7 -19 5000 54.32 332 3 -50 5000 50.9
289 8 10 2385 60.44 333 4 -22 5000 48.56
290 10 0 1938 62.6 334 4 -10 3687 46.94
291 12 -11 590 69.98 335 6 0 5000 44.24
292 6 -40 328 80.6 336 6 -19 5000 45.68
293 5 -29 5000 61.7 337 3 -28 5000 45.32
294 20 -22 597 73.58 338 4 -25 5000 48.38
295 14 -4 469 71.78 339 3 -10 508 58.64
296 16 18 1541 63.14 340 8 -5 2851 50
297 5 24 5000 41.9 341 2 -14 111 72.5
298 3 15 5000 41.72 342 3 -36 5000 51.26
299 5 27 5000 44.6 343 5 18 3704 46.94
300 1 54 5000 42.8 344 1 8 5000 39.92
301 5 -28 5000 53.6 345 2 -3 5000 37.22
302 4 -38 5000 63.5
303 11 -36 5000 60.08
304 6 -20 2014 69.98
305 8 1 436 70.34
306 14 3 830 66.02
307 18 -8 1112 66.38
308 12 -17 1210 67.82
Trong đó: Y: Ozone.level ; X 1: daggett.pressure.gradient ; X2:
inversion.base.height ; X3: inversion.base.temp .
61
PHỤ LỤC B: CÁC THUẬT TOÁN
THUẬT TOÁN BÀI TOÁN 1 TRONG PHẦN MỀM R
B.1.1. Thuật toán để tìm các thành phần tuyến tính và phi tuyến:
library(SemiPar)
data(onions)
attach(onions)
log.yield <- log(yield)
fit <- spm(log.yield~location+f(dens))
summary(fit)
B.1.2. Thuật toán vẽ hàm hồi quy:
par(mfrow=c(1,2))
plot(fit,jitter.rug=TRUE)
B. 1.3. Thuật toán dự đoán sản lượng hành với khu vực x và mật độ y tuỳ chọn
cho mô hình hồi quy bán tham số:
newdata.yield <- data.frame(location=c(x),dens=c(y))
preds <- predict(fit,newdata=newdata.yield,se=TRUE)
print(preds)
B.1.4. Thuật toán cho mô hình hồi quy phi tham số cũng với số liệu A.1
library(SemiPar)
data(onions)
attach(onions)
log.yield <- log(yield)
fit <- spm(log.yield~f(dens))
summary(fit)
B.1.5. Thuật toán cho mô hình hồi quy tham số cũng với số liệu A.1
library(SemiPar)
data(onions)
attach(onions)
log.yield <- log(yield)
fit <- spm(log.yield~dens)
summary(fit)
B.1.6 Thuật toán dự đoán sản lượng hành với mô hình hồi quy tham số
newdata1.yield <- data.frame(dens=c(y))
preds <- predict(fit,newdata=newdata1.yield,se=TRUE)
print(preds)
B.1.7 Thuật toán dự đoán sản lượng hành với mô hình hồi quy phi tham số
newdata2.yield <- data.frame(dens=c(y))
preds <- predict(fit,newdata=newdata2.yield,se=TRUE)
print(preds)
62
THUẬT TOÁN BÀI TOÁN 2 TRONG PHẦN MỀM R
B.2.1
library(SemiPar)
data(calif.air.poll)
attach(calif.air.poll)
B.2.2
plot(ozone.level~inversion.base.temp)
B.2.3
plot(ozone.level~inversion.base.height)
B.2.4
plot(ozone.level~daggett.pressure.gradient)
B.2.5
fit <- spm(ozone.level ~ f(daggett.pressure.gradient)+
f(inversion.base.height)+inversion.base.temp)
summary(fit)
B.2.6
par(mfrow=c(2,2))
plot(fit)
B.2.7
newdata.ozone < -
data.frame(inversion.base.temp=c(89.45),daggett.pressure.gradient=c(5),inversion.
base.height=c(369))
preds<-predict(fit,newdata=newdata.ozone,se=TRUE)
print(preds)
63
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]. Hoàng Ngọc Nhậm (2007), Giáo trình kinh tế lượng, NXB Lao động – xã hội.
[2]. Nguyễn Văn Tuấn (2007), Phân tích số liệu và biểu đồ bằng R, NXB Khoa
học Kỹ thuật.
[3]. Tô Anh Dũng (2007), Lý thuyết xác suất và thống kê toán, NXB Đại học quốc
gia TP Hồ Chí Minh.
Tiếng Anh
[4]. Adonis Yatchew , Semiparametric Regression for the Applied
Econometrician, Cambridge University press.
[5]. David Rupper, M.P.Wand and R.J.Carroll (2003), Semiparametric Regression,
Cambridge University press.
[6]. Luke Keele (2008), Semiparametric Regression for the Social Sciences, John
Wiley & Sons, Ltd.
[7]. Randall L.Eubank (1999), Nonparametric and Spline smoothing, Marcel
Dekker, Inc.
[8]. Wolfgang Härdle, Marlene Müller, Stefan Sperlich, Axel Werwatz (2004),
Nonparametric and Semiparametric Models , An Introduction , Springer.
64
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LÝ LỊCH TRÍCH NGANG
SƠ LƯỢC LÝ LỊCH
Họ và tên: NGUYỄN TRỌNG VINH Phái: nam
Ngày, tháng, năm sinh: 12-12-1985 Nơi sinh: Vĩnh Long
Mã số học viên: 11020508
Khoa: Khoa học ứng dụng
Ngành: Toán ứng dụng
Địa chỉ liên lạc: 34 /TG, ấp Thanh Hoá, xã Hố Nai 3, Trảng Bom, Đồng Nai.
QUÁ TRÌNH ĐÀO TẠO
Đại học :
Chế độ học: Chính quy Thời gian học: 2003 – 2007
Nơi học: Trường đại học Cần Thơ
Ngành học: Sư phạm Toán
Sau đại học :
Ngành Toán ứng dụng tại trường Đại học Bách Khoa TP. HCM (2011 – 2013)
QUÁ TRÌNH CÔNG TÁC
Từ 10-2007 đến 05-2009: Giáo viên dạy Toán trường TH-THCS-THPT Bùi Thị
Xuân.
Từ 8-2009 đến 03-2013: Giáo viên dạy Toán trường Cao đẳng nghề Cơ Giới và
Thuỷ Lợi.
Ngày 15 tháng 06 năm 2013
Người khai
Nguyễn Trọng Vinh
Các file đính kèm theo tài liệu này:
- ung_dung_hoi_quy_ban_tham_so_trong_khoa_hoc_xa_hoi_7432.pdf