Luận văn Ứng dụng hồi quy bán tham số trong khoa học xã hội

Tóm lại, qua luận văn trên đã tìm hiểu việc kết hợp mô hình hồi quy tham số và phi tham số dẫn đến mô hình hồi quy bán tham số và tìm cách ước lượng các tham số của mô hình hồi quy. Luận văn trình bày ứng dụng của mô hình hồi quy bán tham số vào việc dự đoán một kết quả từ số liệu đã cho. Trong phụ lục B, phần lớn các đoạn chương trình dựa vào những thủ tục có sẵn trong phần mềm R nên chưa linh hoạt trong việc chọn knot , bậc tự do, tham số trơn. Do thời gian có hạn nên luận văn chưa trình bày được nhiều ví dụ tính toán phần mềm và phát triển mô hình cao hơn.

pdf64 trang | Chia sẻ: builinh123 | Ngày: 04/08/2018 | Lượt xem: 57 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn Ứng dụng hồi quy bán tham số trong khoa học xã hội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
)] Pf x f x dx O n          (2.11) 2.1.4 Chuẩn tiệm cận và khoảng tin cậy: Áp dụng định lí giới hạn trung tâm cho phần tử 1 i j j ik    ta được: 2 1/2 21ˆ ( ) ( ) ''( ) (0, ) 24 i i i k k f x f x f x D N n            (2.12) Nếu lựa chọn k tối ưu, k = n4/5, khi đó k1/2(k/n)2 = 1 và xây dựng một khoảng tin cậy cho f(xi) thì phức tạp bởi phần tử ''( )if x . Tuy nhiên, nếu ta muốn k tăng chậm hơn n4/5 ( ví dụ k = n3/4) khi đó 1/2 2( / ) 0k k n  và (2.12) trở thành  1/2 2ˆ ( ) ( ) (0, )i ik f x f x D N  . 2.1.5 Ma trận làm trơn: Đặt S là ma trận làm trơn, định nghĩa : ( 1) 1/ , ...1/ , 0, ............, 0 0, 1/ ,........1/ ,0,......., 0 .... ..... .... .... 0,.....................,0,1/ ,.....1/ , 0 0,.............................0,1/ ,......,1/ n k n k k k k k k k k S                   (2.13) Khi đó, (2.2) được viết lại : ˆˆ ( )y f x Sy  (2.14) 29 2.2 Làm trơn hạt nhân 2.2.1 Ước lượng : Hình thức ước lượng phi tham số : 0 0 1 ˆ ( ) ( ) n i i i f x w x y   (2.15) Ở đây, ta đang ước lượng hàm hồi quy tại điểm x0 như là tổng trọng số của yi , các trọng số wi(x0) phụ thuộc vào x0. Để xây dựng một trọng số trung bình địa phương ta dùng một hàm duy nhất tập trung tại 0 và giảm về hai phía, tỉ lệ được điều khiển bởi một tham số. Hàm như vậy thường gọi là hạt nhân, là những hàm mật độ xác suất. Đặt K là hàm biên tích hợp đến 1 và đối xứng quanh 0. Định nghĩa trọng số : 0 0 1 1 1 i i n i i x x K n w x x K n                  (2.16) Hình dạng của trọng số được xác định bởi K, độ lớn được kiểm soát bởi  , gọi là bandwidth. Giá trị lớn các kết quả của  trong các trọng số lớn hơn được đặt trên những quan sát xa x0. Sử dụng (2.15) hàm ước lượng hồi quy phi tham số trở thành : 0 0 0 1 1 ˆ ( ) 1 i i n i i x x K y n f x x x K n                  (2.17) Nói chung, việc lựa chọn hạt nhân là ít quan trọng hơn so với việc lựa chọn bandwidth qua những quan sát được tính trung bình. Đơn giản nhất là hạt nhân đồng đều có một giá trị của ½ trên [-1 ;1] và của 0 ở nơi khác. Phần lớn áp dụng làm trơn trung bình trượt trong các thiết lập hiện tại. Với khoảng cách bằng nhau trên khoảng đơn vị của x và hạt nhân đồng nhất,sự khác biệt chủ yếu là định nghĩa của tham số làm trơn. Hạt nhân đồng nhất chỉ đơn giản là những trung bình quan sát nằm trong khoảng x  . Với n điểm dữ liệu trong các khoảng đơn vị, tỉ lệ của những quan sát rơi vào khoảng có chiều rộng 2 và số 30 quan sát sẽ là 2 n . Nếu thay thế k = 2 n trong các đối số của phần (2.1.1) thì kết quả tương tự thu được cho phần ước lượng hạt nhân đồng nhất, trong trường hợp này gần giống như làm trơn trung bình trượt. (2.7) và (2.8) trở thành :   21 1ˆ ( ) ( ) 2 ''( ) 24 2 i i i i j j i f x f x f x kn        (2.18) Và   2 1 1 2 2 1ˆ ( ) ( ) ''( )i i i Pf x f x O f x O n            (2.18a) Như các điều kiện cho k, ta đặt điều kiện cho  : thứ nhất 0  nhằm đảm bảo trung bình bị thu hẹp lại trên vùng lân cận, do đó cuối cùng loại bỏ được sai lệch. Thứ hai, n  , nhằm đảm bảo rằng số quan sát trung bình tăng lên và phương sai của ước lượng dần đến 0. 2.2.2 Tiệm cận chuẩn: Giả sử rằng x có phân phối ngẫu nhiên ( trên khoảng đơn vị ) với mật độ xác suất p(x). Cho hạt nhân tổng quát,ước lượng hạt nhân Nadaraya-Watson (2.17) là phù hợp. Tử số hội tụ về f(x0)p(x0) và mẫu số hội tụ về p(x0) Tỉ lệ của hội tụ là tối ưu nếu  1/5O n  , trong trường hợp này tổng bình phương sai số hội tụ tại tỉ lệ tối ưu là OP(n-4/5) . Như trong (2.11) khoảng tin cậy có thể xây dựng bằng cách sử dụng 1 1 2 02 2 0 0 0 0 0 '( )1ˆ ( ) ( ) ''( ) 2 '( ) 2 ( ) K p x n f x f x a f x f x p x               2 0 0, ( ) KbD N p x       (2.19) Trong đó, p(.) là hàm mật độ của x 2 2( ) ( )K Ka u K u du b K u du   (2.20) 31 2.2.3 So sánh với làm trơn trung bình trượt: Ở (2.19) đòi hỏi phải ước lượng đạo hàm cấp một và cấp hai của hàm hồi quy. Tuy nhiên, nếu  co lại đến 0 nhanh hơn tỉ lệ tối ưu thì phần tử sai lệch sẽ biến mất. Trong điều kiện như vậy, giả sử rằng hạt nhân đồng nhất mà bK = ½, ta viết lại (2.19):   1 1 2 2 0 0 ˆ ( ) ( )n f x f x  2 0 0, 2 ( ) D N p x       (2.21) Xác suất để một quan sát sẽ rơi vào khoảng 0x  là khoảng chiều cao của mật độ gấp đôi banwidth hoặc 2 p(x0) . Bây giờ xem xét phương sai của 0 ˆ ( )f x được cho bởi (2.21). Mẫu số thì xấp xỉ số quan sát có kì vọng là trung bình khi tính toán ước lượng của f tại x0. So sánh điều này với phương sai của ước lượng trung bình trượt trong phần 2.1.1 là 2 / k . 2.2.4 Khoảng tin cậy: Giả sử rằng phần tử sai lệch làm biến mất tiệm cận bằng cách cho bandwidth co lại tại một tỉ lệ sao cho nó nhanh hơn tỉ lệ tối ưu. Áp dụng (2.19) định nghĩa sai số chuẩn của hàm hồi quy ước lượng tại một điểm là: 2 ˆ 0 0 ˆ ( ) ˆ ( ) k f b s x p x n    (2.22) Trong đó 00 1 1 ˆ ( ) n i i x x p x K n          (2.23) là mẫu số của (2.17). Sau đó, 95% pointwise khoảng tin cậy có thể được xây dựng bằng cách sử dụng ˆ0 ˆ( ) 1.96 f f x s (2.24) 2.2.5 Đồng nhất dãy tin cậy: Một hình ảnh thú vị cho ước lượng không tham số là dãy tin cậy của hàm ước lượng. Trong các mẫu được lặp lại, 95% dãy tin cậy ước lượng sẽ chứa hàm 32 hồi quy đúng f. Sự thật của một đặc điểm khác ( như là ước lượng tham số, ước lượng đơn điệu hoặc lõm ) có thể được đánh giá thêm vào đặc điểm này trên đồ thị để xem nó có nằm trong dãy. Không mất tính tổng quát, giả sử miền của hàm hồi quy phi tham số là khoảng đơn vị. Nhắc lại giả thiết rằng 0  với tốc độ nhanh hơn tối ưu ( nhưng đủ chậm để đảm bảo tính nhất quán), đồng nhất dãy tin cậy 95% được xây dựng xung quanh hàm f bằng cách sử dụng 2 ˆ2 2 ( '( ))1ˆ ( ) ln 2 4 ( ) f K uc f x d s d d K u                 (2.25) Trong đó 2ln(1/ )d  , c thoả exp[-2exp(-c)]=0,95, fˆ s là ước lượng sai số chuẩn của hàm hồi quy ước lượng được định nghĩa trong (2.22). 2.3 Phương pháp Sline phạt (penalized splines) 2.3.1 Ý tưởng: Ta sẽ bắt đầu với mô hình hồi quy đường thẳng: 0 1i i iy x     (2.26) (a) Mô hình hồi quy đường thẳng (b) Cơ sở tương ứng 33 Hình 2.1 Hình 2.1 (a) biểu diễn mô hình hồi quy đường thẳng của (2.26). Hình 2.1 (b) biểu diễn cơ sở tương ứng ( corresponding basis) cho mô hình, gồm hai hàm 1 và x. Chú ý rằng vế phải của (2.26) là kết hợp tuyến tính của hai hàm này, đó là lý do sử dụng từ cơ sở. Hàm cơ sở tương ứng với những cột của ma trận X phù hợp với phương trình hồi quy: 1 2 1 1 .. .. 1 n x x X x             Khi đó, ta có: 1ˆ ( )T Ty X X X X y (2.27) Mở rộng đơn giản của mô hình tuyến tính đơn là mô hình bậc hai: 2 0 1 1i i i iy x x       (2.28) (a) Mô hình bậc hai (b) Cơ sở tương ứng Hình 2.2 Ta có thể quan sát mô hình (2.28) ở hình 2.2. Ma trận X cho mô hình bậc hai là: 34 2 1 1 2 2 2 2 1 1 .. .. 1 n n x x x x X x x              và giá trị yˆ tính tương tự như trên. Bây giờ ta sẽ mở rộng hàm bậc hai trên thành một dạng khác của cấu trúc phi tuyến tính. (a) Mô hình que gãy (broken stick model) (b) Cơ sở tương ứng Hình 2.3 Xem mô hình được vẽ ở hình 2.3 (a). Ta gọi đó là mô hình que gãy vì nó chứa hai đường dốc nối với nhau tại x = 0,6. Ta sẽ xây dựng hàm cơ sở cho dạng này là từ 0 đến phía bên trái của 0,6 và hàm dốc dương từ 0,6 về bên phải. Ta có thể thấy trong hình 2.3 (a) đường gãy trong bảng có được nhờ kết hợp tuyến tính của ba hàm cơ sở ở bảng dưới, hình 2.3 (b). Hàm cơ sở mới được viết là (x 0,6)+ ,nghĩa là với số u bất kì thì bằng u+ nếu u dương và bằng 0 nếu ngược lại. Mô hình que gãy ( đứt quãng tại x =0,6) trở thành: 0 1 11( 0,6)i i i iy x x        (2.29) Bây giờ ta giả sử rằng ta có cấu trúc là phức tạp hơn mô hình que gãy. 35 (a) Mô hình roi da (b) Cơ sở tương ứng Hình 2.4 Ví dụ trong hình 2.4 (a) phía bên trái có dạng đường thẳng; nhưng bên phải bao gồm nhiều cấu trúc chi tiết. Ta sẽ đặt tên mô hình này là mô hình roi da ( whip model) vì nửa phải thì tự do để di chuyển xung quanh, trong khi bên trái tương ứng với phần cứng của roi da và nó tuyến tính. Ta tìm cơ sở tương ứng cho dạng này như hình 2.4 (b) sẽ chứa những hàm (x – 0.5)+ , (x – 0.55)+ ,...,(x – 0.95)+ . Một lần nữa ta có dùng phương pháp bình phương bé nhất cổ điển để tìm ma trận thiết kế. 1 1 1 1 2 2 2 2 1 ( 0.5) ( 0.55) ... ( 0.95) 1 ( 0.5) ( 0.55) ... ( 0.95) .. .. 1 ( 0.5) ( 0.55) ... ( 0.95)n n n n x x x x x x x x X x x x x                             Từ ví dụ này ta thấy có thể xử lý bất kì dạng cấu trúc phức tạp bằng cách đơn giản là thêm vào nhiều hàm có dạng ( )x   cho cơ sở hay thêm vào cột giá trị ( )x   cho ma trận X. Giá trị của  tương ứng với hàm ( )x   thì được gọi là knot. Do hàm được tạo bởi hai đường thẳng mà nối với nhau tại x  . Hình 1.4 trình bày hàm ( )x   với  = 0.5 ,0.55 ,..., 0.95. 36 Một hàm ( )x   được gọi là hàm cơ sở tuyến tính spline và tập những hàm như vậy được gọi là cơ sở tuyến tính spline. Chú ý rằng bất kì liên kết tuyến tính của những hàm cơ sở tuyến tính spline 11, , ( ),..., ( )kx x x   là một hàm tuyến tính từng mẩu với knot tại 1 2, ,..., k   . Một hàm như vậy gọi là hàm spline. Mô hình spline cho f là: 0 1 1 ( ) ( ) K k k k f x x b x         (2.30) 2.3.2 Chọn số knot và vị trí knot Chọn vị trí knot: Trong thực hành để chọn knot trong khoảng dữ liệu thì hầu hết các gói phần mềm đặt knot tại điểm tứ phân hoặc điểm ngũ phân trong dữ liệu. Số knot: số knot có ảnh hưởng rất lớn đến việc làm trơn mô hình. Khi tăng số knot lên nghĩa là tăng hàm phù hợp (piecewise function fit) cho dữ liệu để hợp lý hơn. Nếu chọn ít knot thì mô hình phù hợp sẽ bị lệch so với mô hình thực. Sử dụng quá nhiều knot thì nó lại làm rõ mô hình chi tiết (overfit) mà không mang tính làm trơn nữa. Có hai cách chủ yếu để chọn knot. Một là sử dụng thử nghiệm thị giác và quá trình sai số khi ta lựa chọn knot. Bốn knot thường được sử dụng bước đầu. Nếu hàm fit xuất hiện ghồ ghề, sẽ chọn thêm knot. Nếu hàm phù hợp xuất hiện phi tuyến tính lớn, sẽ giảm bớt knot. Ngoài ra số knot còn phụ thuộc cỡ mẫu. Ví dụ cỡ mẫu trên 100 thì 5 knot thường được chọn để bắt đầu. Với mẫu nhỏ hơn, dưới 30 thì ba knot là điểm bắt đầu tốt. 2.3.3 Hồi quy spline phạt (Penalized spline regression) Nếu có quá nhiều knot sẽ làm cho mô hình phù hợp (2.30) trở nên gồ ghề. Một cách khác để giải quyết vấn đề này là giữ lại tất cả knot nhưng hạn chế sự ảnh hưởng của nó. Với hy vọng mang lại kết quả ít biến fit hơn. Xét mô hình spline tổng quát với K knot, với K lớn thì fit bình phương nhỏ nhất tổng quát được viết ˆyˆ X với ˆ là nhỏ nhất của 2 y X  37 Với  0 1 11 1, , ..., T k     với 1k là hệ số của knot thứ K . Các ước lượng không hạn chế của 1k dẫn đến một fit lượn sóng gồ ghề. Do đó ta sẽ hạn chế trên 1k bằng điều kiện (1) 1max k C  (2) 1k C  (3) 2 1k C  Tùy việc chọn C thích hợp, mỗi giá trị này sẽ dẫn đến một fit làm trơn cho các điểm phân tán. Tuy nhiên, điều kiện hạn chế thứ ba thì dễ thực hiện hơn hai điều kiện đầu. Nếu ta định nghĩa ma trận (K +2) X (K +2) 2 2 2 2 0 0 0 0 0 ... 0 0 0 0 0 0 ... 0 0 00 0 1 0 0 ... 0 0 0 0 1 0 ... 0 0 ... ... .... .... ... ... 0 0 0 0 0 ... 1 K K K K D I                            thì bài toán cực tiểu được viết lại là cực tiểu 2 y X  với điều kiện T D C   .Từ đó chọn  để cực tiểu biểu thức: 2 y X  + 2 T D   với 0  (2.31) được kết quả: 2 1ˆ ( )T TX X D X y    (2.32) Thì nhóm 2 T D   được gọi là hạn chế sự gồ ghề (roughness penalty) , vì nó hạn chế (phạt) những giá trị phù hợp gồ ghề, đem lại kết quả trơn hơn. Hầu như việc làm trơn chịu điều khiển bởi  , do đó  thường được dùng chỉ cho tham số trơn. Giá trị hợp lý cho hồi quy spline phạt được cho bởi 2 1( )T Ty X X X D X y   (2.33) 2.3.4 Cơ sở Spline bậc hai Mỗi mô hình hồi quy mà ta làm phù hợp trước giờ là spline tuyến tính, hàm liên tục, piecewise. Hàm piecewise tuyến tính là liên kết tuyến tính của những hàm 38 tuyến tính có dạng ( )x   . Một cách đơn giản của tránh khỏi những piecewise tuyến tính là thêm vào 2x làm cơ sở hay thay thế ( )x   bởi bình phương, 2( )x   ( nghĩa là 2(( ) )x   ). Hàm 2( 6)x  có đạo hàm cấp 1 liên tục. Do đó bất kì sự liên kết tuyến tính của những hàm 2 2 2 11, , , ( ) ,..., ( )kx x x x   (2.34) cũng sẽ có đạo hàm cấp 1 liên tục và không có bất kì góc nhọn nào. Nó thường cho hình dạng tốt hơn về mặt thẩm mỹ. Ta gọi (2.34) là cơ sở spline bậc hai với knot 1 2, ,..., k   . 2.4 Mô hình cộng Mô hình hồi quy phi tham số k biến: 1 2( , ,..., )i kY f X X X   (2.35) Mô hình này có hai hạn chế: + Thứ nhất: Giải thích là không thể khi k vượt quá 2. Đầu ra cho phương trình (2.35) khi k = 2 là đồ thị ba chiều của một mặt phẳng đại diện cho các tác động chung của hai biến dự báo. Trong khi có thể ước lượng mô hình này với biến dự báo thứ ba, đầu ra yêu cầu một đồ thị với một chiều thêm vào, điều này là không thể. + Thứ hai: Ngay khi hình dung ra kết quả, thì ước lượng địa phương trong k chiều là một vấn đề. Xác định một lận cận địa phương cho ước lượng là khó khăn khi k lớn hơn 1vì khi đó số liệu trở nên thưa thớt, nghiên cứu sẽ không có nghĩa thống kê. Mở rộng mô hình hồi quy phi tham số có hơn 2 biến X đòi hỏi bổ sung thêm giả định cộng hưởng. Trong khi các giả định của cộng hưởng là hạn chế hơn so với mô hình hồi quy đa biến không tham số, nó là giả định phổ biến cho mô hình hồi quy tham số. Đối với mô hình hồi quy tuyến tính tham số, hàm có dạng: 1 1 ...i k kY X X        (2.36) 39 Trong hàm này, giả định rằng tác động của X là cộng hưởng trên Yi , tác động của X1, X2 là 1 2  . Giả định cộng là tại những thời điểm ta có một hình thức của một tương tác: 1 1 2 2 3 1 2iY X X X X         (2.37) Giả định cộng có nhiều hạn chế nhưng nó dễ dàng mở rộng các mô hình hồi quy phi tham số. Một mô hình hồi quy phi tham số với tác động cộng có dạng 1 1( ) ... ( )i k kY f X f X      (2.38) Trong đó, f1, f2,..., fk là các hàm làm trơn. Mô hình hồi quy phi tham số với một giả định cộng gọi là mô hình cộng (additive model), động lực cho các mô hình cộng hưởng xuất phát từ mong muốn tạo cho hồi quy phi tham số một kĩ thuật phân tích dữ liệu đa biến. Xem xét mô hình cộng : 1 1 2 2 3 3( ) ( ) ( )iY f X f X f X      (2.39) Với giả định cộng, ta có thể vẽ mỗi ˆ if riêng biệt từ tác động của X1, X2 là 1 2 ˆ ˆf f . Hơn nữa, ước lượng của 1fˆ tạo vào tài khoản hiệp phương sai giữa ba biến X và có thể hiểu như là tác động của X1 lên Yi giữ X2 và X3 không đổi. Mỗi ˆif trong mô hình tương ứng với các hệ số  của mô hình hồi quy đa biến. Thêm vào đó, cho phép giữ lại sự linh hoạt của mô hình hồi quy phi tham số nhưng cung cấp mô hình tham số giống như giải thích. 40 Chương 3: HỒI QUY BÁN THAM SỐ Một số mô hình hồi quy phi tham số cho phép phân tích mối quan hệ giữa hai biến x và y với vài giả định về hình thức của hàm số. Tuy nhiên, không thể ước tính các thông số kĩ thuật đa biến vượt ra ngoài với hai biến dự đoán. Trong khi đó, phần lớn các nghiên cứu định lượng bao gồm những mô hình thống kê có rất nhiều biến dự báo. Nếu chúng ta chấp nhận những tác động của biến dự báo là cộng thì ta có thể hình thành mô hình hồi quy bán tham số. Trong mô hình này có những biến thêm vào mô hình tham số, một số biến khác thêm vào như phần không tham số. Mô hình hồi quy bán tham số cho phép phân tích để ước lượng những mô hình tham số chuẩn với những ước lượng phi tham số cho những biến dự báo liên tục và cho việc chẩn đoán bằng độ phi tuyến tính trong khuôn khổ nhiều mô hình hồi quy quen thuộc. 3.1. Mô hình hồi quy bán tham số: Nếu chúng ta chỉ ước luợng các mối quan hệ phi tham số giữa các biến liên tục thì mô hình cộng hoàn toàn phù hợp. Nhưng dữ liệu khoa học hiếm khi phù hợp với mô hình như vậy. Thứ nhất, các biến dự đoán rời rạc là phổ biến và thường đông hơn các dự đoán liên tục trong một đặc tả. Thứ hai, mối quan hệ giữa X và Y có thể là tuyến tính. Nếu một tham số đơn có thể nắm bắt đầy đủ sự phụ thuộc giữa Y và X thì không có lí do để mở rộng các tham số bổ sung cho ước lượng hồi quy không tham số. Tóm lại, một mô hình linh hoạt nhất cho phép kết hợp phần tham số với phần không tham số trong cùng mô hình và có dạng: 1 1 1 1( ) ... ( ) ...i j j j j k kY f X f X X X            (3.1) Trong mô hình trên, các biến số j đầu tiên được giả định là có tác động phi tuyến trên Yi và phù hợp với phi tham số làm trơn. Phần còn lại của các biến số đưa vào mô hình tham số. Thêm một thành phần tham số vào mô hình cộng tạo ra mô hình hồi quy bán tham số, mô hình này cung cấp khả năng ước lượng rộng hơn. Phần tham số của mô hình cho phép các biến rời rạc như biến giả hoặc quy mô thứ tự được mô hình bên cạnh với các phần không tham số. và bất kì biến liên tục nào 41 cho là có tác động tuyến tính lên Yi có thể được ước lượng tham số để lưu các tham số bổ sung. Mô hình bán tham số cũng có một lợi thế rõ ràng trên một mô hình đầy đủ tham số, sự suy luận của hồi quy không tham số được giữ lại trong mô hình bán tham số cho phép kiểm tra xem trong điều kiện nào đó phần không tham số là cần thiết trong đặc điểm kĩ thuật của mô hình. Ví dụ, xét mô hình: 1 1 2 2 3 3 4 4( ) ( )iY f X f X X X         (3.2) Trong mô hình trên, X3 là biến giả, X4 là biến liên tục như là X1 và X2. Trong mô hình hồi quy bán tham số, có thể chỉ định một vài tương tác khác nhau. Thứ nhất, có thể ước lượng phi tuyến giữa X1 và X2. Kết quả sẽ là đồ thị ba chiều giống với hồi quy phi tham số đa biến, và kiểu tương tác hoàn toàn tham số giữa X3 và X4. Hơn nữa, có thể tương tác giữa phần tham số và phi tham số trong mô hình như là tác động phi tuyến của X1. Ví dụ như là có thể vẽ các mức độ khác nhau của X3 hay X4. Trong ngắn hạn, mô hình hồi quy bán tham số là công cụ linh hoạt cho cả hai mô hình tuyến tính và phi tuyến tính phụ thuộc giữa các biến. Chúng ta ước lượng cho hai mô hình cộng và hồi quy bán tham số. 3.2 Ước lượng Thuật toán Backfitting Mô hình phù hợp với phần phi tham số đa biến thì đơn giản nếu các biến X trong mô hình là không tương quan. Nếu các biến X là trực giao thì có thể ước lượng mỗi phần với các mô hình 2 chiều sử dụng phương pháp bình phương cực tiểu cho các thành phần tham số và lowes hoặc splines cho thành phần phi tham số. Khi đó, không cần sử dụng hồi quy đa biến cho tập hợp của hồi quy hai chiều là tương đương. Tuy nhiên, hiếm để có dữ liệu nơi có ít nhất một số các biến dự đoán không tương quan và do đó cần có một phương pháp để ước lượng các hạng tử từ mô hình cộng hoặc mô hình bán tham số giải thích hiệp phương sai giữa các biến dự báo. Thuật toán backfitting được thiết kế để tính những tương quan này khi ước lượng phần phi tham số và tham số. Thuật toán backfitting được đề xuất bởi ý nghĩ hàm hồi quy một phần, xét mô hình cộng hai biến dự báo sau: 1 1 2 2( ) ( )Y f X f X     (3.3) 42 Giả sử rằng chúng ta biết dạng đúng của f2 nhưng không biết của f1. Nếu điều này là đúng, chúng ta có thể sắp xếp lại phương trình trở thành: 2 2 1 1( ) ( )Y f X f X     (3.4) Làm trơn 2 2( )Y f X  dựa vào X1 tạo ra một ước lượng của 1 1( )f X . Do đó, biết một trong những hàm hồi quy riêng cho phép chúng ta ước lượng hàm hồi quy riêng khác. Thực ra, ta không thực sự biết hai hàm hồi quy, nhưng nếu ta giả thiết tập hợp các giá trị bắt đầu cho một trong những số hạng f, hàm hồi quy riêng đề nghị nghiệm lặp cho ước lượng trong mô hình cộng . Ta muốn ước lượng mô hình cộng như sau: 1 1 2 2( ) ( ) ... ( )k kY f X f X f X       (3.5) Trong phương trình trên, đặt Sj là ma trận trong đó mỗi một cột đại diện cho mỗi một ước lượng của fk, và X là mô hình ma trận trong đó mỗi một cột là một trong những biến X. Thuật toán backfitting cho mô hình cộng gồm các bước: Bước 1: Tập Y  , Sj = X như là biến bắt đầu với j = 1,.., m. Bước 2: Thuật toán nút trên cột của Sj để tính phần dư đối với mỗi biến số X. Ước lượng phần dư ˆ j pe cho X1: 2 ˆ k j p i j i e Y S      (3.6) Phần thứ hai của vế phải đại diện cho tổng hàng ngang Sj cho biến số X, 2k  . Bước 3: Làm trơn j pe trên X1. Nhà phân tích phải lựa chọn mô hình hồi quy không tham số cho bước này cùng với khoảng cách hay bậc tự do cho làm trơn tùy vào lựa chọn mô hình hồi quy không tham số. Bước 4: Thay thế hiệp phương sai X1 trong Sj với những dự đoán trơn thích hợp tại những giá trị của Xi. Bước 5: Lặp lại bước 2 đến 4 cho mỗi X từ 2 đến k. Bước 6: Tính toán mô hình tổng bình phương phần dư như sau: 2 1 1 n k i j i j RSS Y S                (3.7) 43 Trong đó, ta lặp lại tính tổng các dòng của Sj. Bước 7: Nếu thay đổi trong RSS là trong mức độ chấp nhận được, mô hình đã hội tụ và thuật toán dừng lại. Nếu không, quá trình cứ lặp lại cho đến khi sự thay đổi trong RSS là ở mức độ chấp nhận được. Một lần thuật toán dừng lại mỗi một cột của Sj chứa ước lượng không tham số của mỗi một X biến số trên Y. Điều quan trọng là những ước lượng này bây giờ tính đến hiệp phương sai giữa biến số X, do đó, nếu được ước lượng mô hình cộng với ba biến số X, biểu đồ của 1fˆ được diễn giải là ảnh hưởng của X1 lên Yi, giữ nguyên X2 và X3. Một số biến thiên trên thuật toán backfitting cơ bản mô tả ở trên đều có thể; chẳng hạn là dùng ước lượng OLS như giá trị bắt đầu. Cách tiếp cận này được nêu ra như sau: 1. Ước lượng hồi quy tuyến tính trung bình lệch như sau:    1 1 1 * * * 1 1 ... ... i k k k k k Y Y X X X X Y X X                  (3.8) Các tham số β1 · · · βk đóng vai trò như là các giá trị đầu của thuật toán lặp backfitting. 2. Phần dư riêng cho X1 được ước lượng: 1 * * * 2 i2 k ˆ ...px ke Y X X     (3.9) Ước lượng của dư riêng bỏ đi phụ thuộc tuyến tính giữa Y và X2 nhưng quan hệ tuyến tính giữa Y và X1 được giữ cùng với bất kỳ mối quan hệ phi tuyến trong bình phương cực tiểu phần dư ε, với j = 1,...,m. 3. Phần dư riêng được làm trơn dựa vào X1 cung cấp một ước lượng của f1 1 1 1 ˆ êjx pxf smooth e tr n X    (3.10) 4. Ước lượng của 2 fˆ X được hình thành từ dư riêng của X2. 2 1 * * * 1 ˆ ˆˆ ... kpx x x k e Y f X f X    (3.11) 5. Làm trơn phần dư riêng này dựa vào X2 : 2 ˆ xf = smooth[ 2pxe trên X2 ] (3.12) 44 6. Ước lượng mới của 2 ˆ xf được sử dụng để tính phần dư riêng cập nhật cho X3. Có ước lượng ban đầu cho mỗi số hạng fk , lặp lại quá trình. 7. Lặp lại quá trình liên tục chi đến khi hàm hồi quy một phần được ước lượng ổn định và phù hợp với hàm như được tính toán bằng cách thay đổi tổng phần dư bình phương ở mức độ chấp nhận được. Khi quá trình này kết thúc, ta sẽ có ước lượng tác động của phần riêng của X trên Yi. Như vậy, thuật toán quay lại ước lượng trơn của X1 trên Yi kiểm soát tác động của X2,..., Xk. Thuật toán backfitting cho mô hình hồi quy bán tham số tiếp tục theo cách đồng dạng. Dư riêng được hình thành đối với mỗi biến dự đoán, và nếu nhà phân tích có chọn được một hiệp phương sai nào đó để có một phi tuyến thích hợp, dư riêng cho biến số được làm trơn trên biến số đó. Nếu biến số được chọn có một ước lượng tham số, dư riêng được hồi quy trên biến số sử dụng bình phương bé nhất thay cho làm trơn. Sửa đổi này để thuật toán backfitting ước lượng mô hình hồi quy bán tham số. Nếu thuật toán backfitting được áp dụng cho mô hình tuyến tính và hồi quy tuyến tính thay thế hồi quy không tham số trong bước ước lượng, nó sẽ tạo ra ước lượng bình phương cực tiểu. Mặc dù có ưu thế trội hơn, backfitting có một khiếm khuyết, là khó có thể liên kết chặt chẽ kỹ thuật làm trơn tự động hoá vào thuật toán. Triển khai phần mềm mới của mô hình hồi quy bán tham số thường sử dụng lặp đi lặp lại thuật toán trọng số bình phương cực tiểu mà không có những thiếu sót này. 3.3 Kết luận Kết luận thống kê cho mô hình hồi quy bán tham số là kết luận hỗn hợp cho mô hình hồi quy tuyến tính với kết luận cho mô hình hồ quy phi tham số. Phần phi tuyến trong mô hình, chúng ta muốn ước lượng độ tin cậy và kiểm tra mô hình thích hợp chống lại các thông số kĩ thuật chi tiết hơn. Đối với phần tham số trong mô hình, chúng ta sẽ ước lượng sai số chuẩn khoảng tin cậy và thực hiện kiểm định giả thuyết. Tất cả những điều này có thể dùng cho mô hình hồi quy bán tham số. 45 Độ tin cậy của phần phi tham số và sai số chuẩn cho phần tham số đòi hỏi được ước lượng bằng ma trận phương sai - hiệp phương sai. Ước lượng của ma trận phương sai - hiệp phương sai tương tự cho mô hình hồi quy không tham số nhưng phức tạp hơn. Kiểm tra mô hình hồi quy bán tham số chống lại tham số khác đầy đủ, tuy nhiên, được đơn giản bằng cách sử dụng một kiểm định F hoặc là kiểm định tỉ số hợp lí. Chúng ta bắt đầu với đạo hàm của ma trận phương sai – hiệp phương sai để ước lượng từ thuật toán backfitting, cách này chúng ta sử dụng để xây dựng độ tin cậy cho phần phi tham số và sai số chuẩn cho phần tham số. Kế tiếp, chúng ta sẽ diễn tả thủ tục kiểm định giả thuyết sử dụng kiểm định F một phần hoặc kiểm định tỉ số hợp lí. 3.3.1 Độ tin cậy và sai số chuẩn Đặt S là ma trận làm trơn, sao cho fˆ Sy . Khi có S, sai số chuẩn được ước lượng giống như bình phương cực tiểu. Sử dụng 2ˆ 'SS như là ma trận phương sai – hiệp phương sai. Cần xây dựng một ma trận phương sai – hiệp phương sai cho mô hình cộng hưởng và mô hình hồi quy bán tham số có cùng phương pháp suy luận. Dùng không gian hàm L2, I là ma trận đơn vị cấp n n và S1,...,Sk là ma trận làm trơn cho mỗi biến X. Hằng số có thể được bỏ qua, không mất tính tổng quát : 1 1 1 1 1 2 2 2 2 2 ... ... ... ... ... .... ... ... ...k k k k I S S S f S y S I S S f S y S S I f S y                                     (3.13) Phương trình trên được viết gọn và sắp xếp lại đề tạo thành ma trận tương tự như ma trận nón. 1 ˆ ˆ ˆ ˆ ˆ Sf Qy f S Qy   fˆ Ry (3.14) Trong đó, 1ˆ ˆR S Q . Ma trận R là ánh xạ tuyến tính của y đến fˆ , trong mô hình cộng và mô hình bán tham số nó tương ứng với ma trận nón. Nếu quan sát là phân phối độc lập và đồng nhất thì: 46 2ˆ( ) 'V f RR (3.15) Trong đó, 2 được thay bằng 2 2ˆ i res e df    (3.16) Bậc dư tự do là 2 (2 ')resdf n tr R RR   . Độ tin cậy có thể được xây dựng dùng ± 2 lần căn bậc hai phần tử đường chéo của 2ˆ 'RR . Cho mô hình bán tham số, phần tử đường chéo của R cũng là phương sai cho bất kỳ ước lượng của β. 3.3.2 Kiểm định giả thuyết Đối với phần tham số, phần sai số chuẩn từ R cho phép các thủ tục suy luận thông thường như là kiểm định giả thuyết. Phần phi tham số có hai kiểm định giả thuyết hoặc là kiểm định F một phần hoặc kiểm định tỉ số hợp lí. Kiểm định thứ nhất cho biết ảnh hưởng của X lên Y đáng kể khác với 0, trong khi đó, kiểm định thứ hai thiết lập cho dù phi tham số phù hợp biến cải thiện mô hình thích hợp với phần tham số. Chứng minh của cả hai kiểm định này là tốt nhất làm qua ví dụ chung. Xét mô hình sau: 1 1 2 2( ) ( )Y f X f X     (3.17) Để kiểm định tác động của X2 là thống kê khác 0, chúng ta sẽ kiểm định mô hình ở trên tương phản 1 1( )Y f X    (3.18) Kiểm định dù f2 là tuyến tính, ta sẽ kiểm định phương trình tương phản (3.17) 1 1 1 2( ) ( )Y f X X      (3.19) Kiểm định F dựa vào tổng bình phương phần dư. Xác định tổng bình phương phần dư cho bất kỳ mô hình cộng hưởng hay là hồi quy bán tham số như 2 1 ˆ( ) n i i RSS y y    (3.20) Đặt RSS0 là tổng bình phương phần dư cho mô hình bị hạn chế trong khi RSS1 là tổng bình phương phần dư từ mô hình cộng hưởng hoặc bán tham số. Kiểm định thống kê là 47 0 1 1 / [ ( ) 1] / res RSS RSS tr R F RSS df    (3.21) Kiểm định thống kê này đi theo sau một phân phối F với dfres,smaller –dfres,larger và dfres,larger bậc tự do. Kiểm định tỉ số hợp lí cho mô hình cộng và bán tham số có các hình thức thông thường: LR = -2(loglikelihood0 - loglikelihood1 ) (3.22) Trong đó, loglikelihood0 là logarit hợp lí cho mô hình bị giới hạn và , loglikelihood1 là logarit hợp lí cho mô hình không bị giới hạn, mô hình cộng hoặc mô hình hồi quy bán tham số. Kiểm định thống kê dưới H0 theo sau một xấp xỉ phân phối 2 , bậc tự do là sự khác biệt trong số các tham số trên hai mô hình. Sai lệch cho mỗi mô hình là -2 lần logarit hợp lí. 48 Nhận xét: Thêm các thành phần phi tham số để mô hình hồi quy tham số tạo ra một mô hình hồi quy bán tham số có thể ước lượng cả hai dạng hàm rất phi tuyến và ước lượng tham số cho dự đoán rời rạc. Mô hình hồi quy bán tham số giữ lại cơ chế kiểm định hồi quy phi tham số, cho phép các nhà phân tích để kiểm định xem thông số phù hợp là phù hợp hay không. Mô hình hồi quy bán tham số là một sự kết hợp tốt giữa tính linh hoạt của hồi quy phi tham số và diễn giải của các mô hình tham số. Trong khi có rất nhiều lợi ích để sử dụng mô hình hồi quy bán tham số, khác biệt nhất định theo thứ tự. Tất cả những khó khăn không ngờ của hồi quy phi tham số áp dụng đối với mô hình cộng và bán tham số. Đầu tiên, khi các thông số làm trơn được ước lượng với một phương pháp tự động, kiểm định thống kê cho kiểm tra tỉ lệ hợp lí vẫn còn gần đúng. Nếu kiểm định là đường biên, các mô hình có thể được tái sử dụng được ước lượng chọn thủ công hoặc sử dụng spline chuẩn. Các nhà phân tích cũng có thể mô phỏng các p giá trị cho kiểm định này. Thứ hai, mô hình bán tham số, giống như mô hình hồi quy tham số, cũng phải thực hiện đa cộng tuyến. Trong mô hình bán tham số, điều này được gọi là đồng quy. Nếu hai biến X liên quan chặt chẽ, các thuật toán backfitting có thể không thể tìm thấy một đường cong đặc biệt, và kết quả sẽ là một quan hệ tuyến tính. Trường hợp này không có giải pháp bổ sung. 49 Chương 4: MỘT SỐ ỨNG DỤNG CỦA HỒI QUY BÁN THAM SỐ 4.1 Bài toán 1: Mô tả dữ liệu: Gồm 84 bộ số thể hiện mối quan hệ giữa mật độ và sản lượng hành trắng Tây Ban Nha được trồng ở hai khu vực: Purnong Langding và Virginia của miền Nam nước Úc. Dựa vào bảng số liệu A.1, hãy dự đoán sản lượng của hành được trồng tại khu vực Purnong Langding, với mật độ 160.00 (cây trồng/m2). Giải Mô hình hồi quy bán tham số của bài toán 1 có dạng: 1(log. ) . ( )i i iE yield location f dens  Hay: log.yield = 0 1 ( )location f dens   Với biến location được xử lí bằng thuật toán B.1.1 được: Thành phần tham số: Hệ số Sai số chuẩn Tỉ số p-giá trị Hệ số chặn 5.3880 0.24230 22.24 0 location -0.3325 0.02388 -13.92 0 Theo kết quả trên ta được: 0ˆ = 5.3880 ; 1ˆ = -0.3325 Thành phần phi tham số: Bậc tự do Tham số trơn Số knot f(dens) 4.213 63.02 17 Theo kết quả trên ta được: + Bậc tự do bằng 4.213 + Tham số làm trơn  = 63.02 + Số knot K = 17 Dùng thuật toán B.1.2 ta được đồ thị hàm hồi quy như hình 3.1 50 Hình 3.1 Kết quả dự đoán với thuật toán B.1.3 Hành được trồng ở khu vực 1 (Purnong Langding) (x = 1), với mật độ 160.00 (cây trồng/m2) (y = 160.00) ta được sản lượng là 39.80422 (g/ cây trồng) với sai số chuẩn 0.03798192 4.2 So sánh giữa hồi quy tham số, hồi quy phi tham số và bán tham số : Vẫn với số liệu A.1, ta xây dựng mô hình hồi quy tham số, phi tham số với thuật toán B.1.4, B.1.5. Để kiểm tra độ fit với số liệu, ta dự đoán sản lượng hành với những số liệu đã có cho cả ba mô hình hồi quy tham số (thuật toán B.1.6) phi tham số (thuật toán B.1.7) và bán tham số (thuật toán B.1.3) rồi so sánh. 51 Mật độ/khu vực 23.48/0 33.27/0 61.78/1 144.31/1 Log(yield) 5.407261 5.285485 4.569750 3.867862 Dự đoán log(yield)/sai số Tham số 5.182301/ 0.0361508 5.084384/ 0.03212929 4.799233/ 0.02394287 3.973785/ 0.04585971 Phi tham số 5.291411/ 0.05215225 5.130051/ 0.03464046 4.75043/ 0.03092205 3.991869/ 0.0535303 Bán tham số 5.56607/ 0.03735181 5.337518/ 0.0247531 4.553337/ 0.02424471 3.805261/ 0.03900957 Qua bảng so sánh ta thấy dự đoán với mô hình hồi quy bán tham số tối ưu hơn so với mô hình hồi quy tham số, phi tham số. 4.3 Bài toán 2: Mô tả dữ liệu: Gồm 345 bộ số thể hiện mối liên hệ giữa nồng độ ozone trong không khí với độ chênh lệch áp suất ở Daggett, sự thay đổi dựa vào độ cao và sự thay đổi dựa vào nhiệt độ. Dựa vào bảng số liệu A.2 phần phụ lục, hãy dự đoán nồng độ ozone với chênh lệch áp suất ở Daggett là 5(mmHg), sự thay đổi dựa vào độ cao là 369 (feet), sự thay đổi dựa vào nhiệt độ là 89.45 (F) Giải: Dùng thuật toán B.2.1 để gọi gói lệnh dùng cho hồi quy bán tham số và dữ liệu. Dùng các thuật toán B.2.2, B.2.3, B.2.4 vẽ mối tương quan giữa biến ozone.level và các biến inversion.base.temp, inversion.base.height, daggett.pressure.gradient. ta được hình 3.2: 52 Hình 3.2 Nhìn vào hình vẽ, ta thấy mối tương quan giữa biến ozone.level và inversion.base.temp có phần tuyến tính hơn so với 2 biến còn lại nên ta chọn biến inversion.base.temp là phần hồi quy tham số, 2 biến còn lại inversion.base.height, daggett.pressure.gradient làm thành phần hồi quy phi tham số. Như vậy, mô hình hồi quy bán tham số bài toán 2 có dạng: E(ozone.leveli) = 1 inversion.base.tempi + f1(daggett.pressure.gradienti) + f2(inversion.base.heighti) Hay: ozone.level = 0 + 1 inversion.base.temp + f1(daggett.pressure.gradient) + 53 f2(inversion.base.height) Dùng thuật toán B.2.5 để ước lượng các thành phần tham số và phi tham số. Ta được kết quả sau: Thành phần tham số: Hệ số Sai số chuẩn Tỉ số p-giá trị Hệ số chặn -9.2900 5.10700 -1.819 0.0698 inversion.base.temp 0.4501 0.02845 15.820 0.0000 Theo kết quả trên ta được: 0ˆ  -9.2900 ; 1ˆ =0.4501 Thành phần phi tham số: Bậc tự do Tham số trơn Số knot f(daggett.pressure.gradient) 5.098 78.64 31 f(inversion.base.height) 4.189 2764.00 39 Theo kết quả trên ta được: - Với biến daggett.pressure.gradient : + Bậc tự do bằng 5.098 + Tham số làm trơn  = 78.64 + Số knot K = 31 - Với biến inversion.base.height : + Bậc tự do bằng 4.189 + Tham số làm trơn  = 2764.00 + Số knot K = 39 Dùng thuật toán B.2.6 để vẽ đường biễu diễn mối liên hệ giữa biến ozone.level với các biến inversion.base.temp; daggett.pressure.gradient ;inversion.base.height. Thể hiện ở hình 3.3 54 Hình 3.3 Dự đoán nồng độ ozone với chênh lệch áp suất ở Daggett là 5(mmHg), sự thay đổi dựa vào độ cao là 369 (feet), sự thay đổi dựa vào nhiệt độ là 89.45 (F). Dùng thuật toán B.2.7 ta được kết quả: Nồng độ là 23.37021 với sai số chuẩn 0.8570518. 55 KẾT LUẬN Tóm lại, qua luận văn trên đã tìm hiểu việc kết hợp mô hình hồi quy tham số và phi tham số dẫn đến mô hình hồi quy bán tham số và tìm cách ước lượng các tham số của mô hình hồi quy. Luận văn trình bày ứng dụng của mô hình hồi quy bán tham số vào việc dự đoán một kết quả từ số liệu đã cho. Trong phụ lục B, phần lớn các đoạn chương trình dựa vào những thủ tục có sẵn trong phần mềm R nên chưa linh hoạt trong việc chọn knot , bậc tự do, tham số trơn. Do thời gian có hạn nên luận văn chưa trình bày được nhiều ví dụ tính toán phần mềm và phát triển mô hình cao hơn. 56 PHỤ LỤC A: CÁC SỐ LIỆU TRONG LUẬN VĂN Số liệu A.1: Sản lượng của hành được trồng tại hai khu vực ở miền nam nước Úc: STT dens yield log(yield) location STT dens yield log(yield) location 1 23.48 223.02 5.40726 0 43 18.78 272.15 5.606353 1 2 26.22 234.24 5.45635 0 44 21.25 235.23 5.460564 1 3 27.79 221.68 5.40123 0 45 23.23 180.47 5.195565 1 4 32.88 221.94 5.40241 0 46 27.18 177.31 5.1779 1 5 33.27 197.45 5.28549 0 47 30.15 141.28 4.950744 1 6 36.79 189.64 5.24513 0 48 31.63 169.39 5.132204 1 7 37.58 211.2 5.35281 0 49 32.12 138.17 4.928485 1 8 37.58 191.36 5.25416 0 50 32.62 171.81 5.146389 1 9 41.49 156.62 5.05382 0 51 32.62 112.02 4.718677 1 10 42.66 168.12 5.12468 0 52 33.61 156.09 5.050433 1 11 44.23 197.89 5.28771 0 53 37.07 137.29 4.922095 1 12 44.23 154.14 5.03786 0 54 38.55 154.1 5.037602 1 13 51.67 153.26 5.03214 0 55 39.54 124.17 4.821652 1 14 55.58 142.79 4.96138 0 56 39.54 146.28 4.985523 1 15 55.58 126.17 4.83763 0 57 41.02 105.47 4.658427 1 16 57.93 167.95 5.12367 0 58 42.5 139.24 4.936199 1 17 58.71 144.54 4.97356 0 59 43.98 148.31 4.999305 1 18 59.5 151.3 5.01926 0 60 45.47 110.44 4.704472 1 19 60.67 130.52 4.87153 0 61 49.92 90.72 4.507778 1 20 62.63 125.3 4.83071 0 62 50.9 102.61 4.630935 1 21 67.71 114.05 4.73664 0 63 53.87 107.36 4.676188 1 22 70.06 116.31 4.75626 0 64 57.82 92.66 4.528937 1 23 70.45 120.71 4.79339 0 65 61.78 96.52 4.56975 1 24 73.98 134.16 4.89903 0 66 61.78 94.71 4.55082 1 25 73.98 114.48 4.7404 0 67 63.75 99.86 4.603769 1 26 78.67 91.17 4.51273 0 68 67.71 93.37 4.53657 1 27 95.9 101.27 4.61779 0 69 71.66 89.78 4.497362 1 28 96.68 97.33 4.57811 0 70 77.59 69.34 4.239022 1 29 96.68 101.37 4.61878 0 71 80.56 73.74 4.300545 1 30 101.38 97.2 4.57677 0 72 86.49 75.17 4.319752 1 31 103.72 87.12 4.46729 0 73 88.46 72.98 4.290185 1 32 104.51 81.71 4.40318 0 74 89.45 79.94 4.381276 1 33 105.68 76.44 4.33651 0 75 90.93 79.13 4.371092 1 34 108.03 87.1 4.46706 0 76 92.91 70.93 4.261693 1 35 117.82 84.54 4.43722 0 77 101.81 60.99 4.11071 1 36 127.21 69.09 4.23541 0 78 103.78 74.09 4.305281 1 37 134.26 64.4 4.16511 0 79 115.15 49.45 3.900962 1 38 137.39 66.81 4.20185 0 80 123.06 56.65 4.036892 1 39 151.87 63.01 4.14329 0 81 144.31 47.84 3.867862 1 40 163.61 55.45 4.01548 0 82 155.68 40.03 3.689629 1 41 166.35 62.54 4.13581 0 83 158.15 38.7 3.65584 1 42 184.75 54.68 4.0015 0 84 180.39 28.96 3.365916 1 57 Location nhận giá trị 0 nếu là khu vực Virginia, 1 nếu là khu vực Purnong Landing. Số liệu A.2: STT Y X1 X2 X3 STT Y X1 X2 X3 1 3 -15 5000 30.56 45 7 27 1161 52.88 2 3 -25 2693 47.66 46 11 2 2778 55.76 3 5 -24 590 55.04 47 13 26 442 58.28 4 5 25 1450 57.02 48 6 -30 5000 42.26 5 6 15 1568 53.78 49 5 -53 5000 43.88 6 4 -33 2631 54.14 50 4 -43 5000 49.1 7 4 -28 554 64.76 51 4 7 5000 49.1 8 6 23 2083 52.52 52 6 24 5000 42.08 9 7 -2 2654 48.38 53 10 19 1341 59.18 10 4 -19 5000 48.56 54 15 2 1318 64.58 11 6 9 111 63.14 55 23 -4 885 67.1 12 5 -44 492 64.58 56 17 3 360 67.1 13 4 -44 5000 56.3 57 7 73 3497 49.46 14 4 -53 1249 75.74 58 2 73 5000 40.1 15 7 -67 5000 65.48 59 3 44 5000 29.3 16 5 -40 5000 63.32 60 3 39 5000 27.5 17 9 1 639 66.02 61 5 15 5000 30.02 18 4 -68 393 69.8 62 4 -12 5000 33.62 19 3 -66 5000 54.68 63 6 -2 5000 39.02 20 4 -58 5000 51.98 64 7 30 5000 42.08 21 4 -26 5000 51.98 65 7 24 3608 39.38 22 5 18 3044 52.88 66 6 38 5000 32.9 23 6 23 3641 47.66 67 3 56 5000 35.6 24 9 -10 111 59.54 68 2 66 5000 34.34 25 5 -25 692 67.1 69 8 -27 613 59.72 26 6 -52 597 70.52 70 12 -9 334 64.4 27 6 -15 1791 64.76 71 12 13 567 61.88 28 11 -15 793 65.84 72 16 -20 488 64.94 29 10 -38 531 75.92 73 9 -15 531 71.06 30 7 -29 419 75.74 74 24 7 508 66.56 31 12 -7 816 66.2 75 13 68 1571 56.3 32 9 62 3651 49.1 76 8 28 721 55.4 33 2 70 5000 37.94 77 10 -49 505 67.28 34 3 28 5000 32.36 78 8 -27 377 73.22 35 3 18 1341 45.86 79 9 -9 442 75.74 36 2 0 5000 38.66 80 10 54 902 60.44 37 3 -18 3799 45.86 81 13 53 3188 58.64 38 3 32 5000 38.12 82 14 4 1381 56.3 39 4 -1 5000 37.58 83 9 -16 5000 50 40 6 -30 5000 45.86 84 11 38 5000 46.94 41 8 -8 5000 45.5 85 7 40 1302 52.7 42 6 21 2398 53.78 86 9 -5 1292 53.6 43 4 51 5000 36.32 87 12 -14 5000 52.7 44 3 42 4281 41.36 88 12 34 472 62.96 58 STT Y X1 X2 X3 STT Y X1 X2 X3 89 8 42 1404 54.5 133 18 47 1991 69.62 90 9 35 944 55.76 134 16 71 2057 67.28 91 5 75 5000 35.24 135 24 56 1597 68 92 4 41 5000 30.92 136 16 52 1184 69.44 93 4 62 5000 33.44 137 12 58 3005 59.18 94 9 44 5000 42.08 138 9 53 2880 57.38 95 13 31 2014 53.42 139 16 64 2125 59 96 5 56 5000 37.22 140 8 74 3720 50.9 97 10 27 5000 47.66 141 9 66 4337 59.36 98 10 57 524 54.68 142 29 31 2053 72.86 99 7 55 5000 38.48 143 20 70 1958 70.52 100 5 59 5000 35.24 144 5 86 3644 59.36 101 4 24 5000 32.54 145 5 75 1368 58.46 102 7 29 2490 47.48 146 11 73 3539 53.6 103 3 107 5000 31.28 147 12 49 2785 63.32 104 4 36 5000 33.44 148 19 26 984 69.26 105 7 28 5000 39.38 149 17 56 1804 68 106 11 30 1144 53.6 150 19 77 3234 62.78 107 15 1 547 66.92 151 16 67 3441 60.98 108 22 10 413 69.62 152 14 61 1578 60.8 109 17 46 610 63.68 153 10 76 1850 60.8 110 7 81 3638 51.26 154 9 80 2962 59.36 111 10 45 3848 56.84 155 7 54 2670 55.4 112 19 40 1479 68 156 5 76 5000 42.08 113 18 55 1108 65.48 157 2 57 5000 40.82 114 12 0 869 58.1 158 12 46 5000 51.26 115 6 43 5000 38.3 159 22 28 987 63.86 116 9 49 5000 37.94 160 17 43 1148 66.92 117 19 31 1148 60.8 161 26 -24 898 77.9 118 21 4 856 75.38 162 27 -1 777 82.58 119 29 16 807 73.04 163 14 75 1279 71.6 120 16 46 2040 63.5 164 11 69 1046 68.72 121 5 63 5000 42.62 165 23 50 1167 74.3 122 11 60 314 59 166 26 45 987 75.74 123 2 77 5000 42.62 167 21 57 1144 71.24 124 2 75 5000 40.82 168 15 60 977 70.7 125 12 20 1410 55.22 169 20 26 770 75.56 126 16 23 360 62.42 170 15 -11 629 86.36 127 22 32 1568 67.64 171 18 -14 337 89.78 128 20 40 1184 68.72 172 26 26 590 85.1 129 27 24 898 73.4 173 19 19 400 83.3 130 33 0 436 86.36 174 13 9 580 87.26 131 25 6 774 86 175 30 25 646 89.24 132 31 50 1181 79.88 176 26 41 826 84.38 59 STT Y X1 X2 X3 STT Y X1 X2 X3 177 15 52 823 74.48 221 15 43 1545 65.66 178 16 47 2116 70.34 222 17 44 994 69.62 179 16 52 2972 64.4 223 13 55 1125 68 180 19 41 2752 69.98 224 20 16 636 73.94 181 23 37 1377 78.44 225 22 32 748 77 182 28 33 1486 79.88 226 24 44 692 77.72 183 34 22 990 85.1 227 26 39 807 78.8 184 33 29 508 85.28 228 32 19 869 78.98 185 24 56 1204 79.88 229 33 24 800 85.64 186 17 63 2414 76.46 230 27 6 393 91.76 187 10 67 2385 70.34 231 38 0 557 90.68 188 14 64 2326 71.24 232 23 27 620 85.64 189 13 56 3389 68.72 233 19 33 1404 84.74 190 17 58 2818 71.78 234 19 21 898 80.6 191 15 75 3083 72.32 235 15 -2 377 83.3 192 22 54 2394 69.62 236 28 17 528 78.8 193 19 61 2746 69.44 237 10 26 2818 72.68 194 20 55 2493 72.5 238 14 10 3247 67.28 195 25 42 1528 73.94 239 26 0 895 78.08 196 28 40 111 78.08 240 17 0 721 80.24 197 29 45 1899 76.46 241 3 -27 774 75.56 198 23 32 1289 75.2 242 2 0 134 77.18 199 26 35 984 78.8 243 3 39 5000 51.8 200 14 28 836 81.5 244 14 13 1965 60.98 201 13 27 826 79.34 245 29 10 1853 70.88 202 26 39 1105 74.12 246 18 7 2342 71.42 203 22 46 1023 77.18 247 3 56 5000 51.62 204 11 68 1453 70.16 248 7 37 5000 47.48 205 15 52 2375 66.2 249 9 35 4028 55.04 206 14 46 2956 67.28 250 19 26 2716 63.68 207 13 56 2988 65.66 251 8 31 3671 65.84 208 9 60 4291 62.24 252 23 31 3795 66.92 209 12 59 3330 58.64 253 13 35 3120 66.92 210 14 30 1233 70.52 254 7 17 2667 63.5 211 22 36 1450 69.8 255 3 39 5000 52.7 212 24 28 1069 74.3 256 5 36 5000 48.92 213 19 57 984 73.4 257 11 25 308 68.72 214 16 71 1653 68.72 258 12 18 2982 59.9 215 7 68 3930 59.18 259 5 30 5000 52.7 216 2 73 5000 51.62 260 4 25 5000 51.26 217 4 45 5000 51.26 261 5 38 5000 47.66 218 6 46 4212 56.84 262 4 35 5000 47.84 219 12 52 5000 49.82 263 10 13 3070 60.08 220 9 31 5000 57.38 264 17 0 830 72.14 60 STT Y X1 X2 X3 STT Y X1 X2 X3 265 26 -9 711 75.56 309 9 -22 501 70.88 266 30 -10 1049 78.98 310 7 -15 875 68.9 267 18 -39 511 83.84 311 14 7 1601 62.06 268 12 -40 5000 67.64 312 4 59 5000 41.9 269 7 -34 5000 69.44 313 3 -63 5000 37.04 270 15 -3 377 78.8 314 3 -52 5000 41 271 12 27 862 73.58 315 3 -54 2280 55.76 272 7 -17 337 81.14 316 3 -43 2047 63.5 273 28 -2 492 82.22 317 3 -69 5000 56.48 274 22 13 1394 75.02 318 3 -50 3720 61.34 275 18 27 3146 64.04 319 3 -24 311 69.98 276 14 11 2234 66.74 320 6 28 2536 56.48 277 24 21 2109 69.62 321 6 -22 1154 61.52 278 10 23 5000 54.5 322 5 -40 2933 59.9 279 14 -7 2270 68.9 323 3 -33 3064 62.78 280 9 -13 2191 68.72 324 4 -16 826 64.76 281 12 12 3448 58.64 325 7 2 5000 42.98 282 7 13 5000 48.92 326 5 -52 111 68.18 283 7 11 5000 49.46 327 5 -48 5000 54.68 284 6 25 2719 56.84 328 4 -37 5000 55.58 285 13 21 1899 62.06 329 3 -26 5000 51.08 286 5 -41 5000 52.52 330 2 -31 5000 51.44 287 3 -21 5000 50.9 331 5 -48 948 70.7 288 7 -19 5000 54.32 332 3 -50 5000 50.9 289 8 10 2385 60.44 333 4 -22 5000 48.56 290 10 0 1938 62.6 334 4 -10 3687 46.94 291 12 -11 590 69.98 335 6 0 5000 44.24 292 6 -40 328 80.6 336 6 -19 5000 45.68 293 5 -29 5000 61.7 337 3 -28 5000 45.32 294 20 -22 597 73.58 338 4 -25 5000 48.38 295 14 -4 469 71.78 339 3 -10 508 58.64 296 16 18 1541 63.14 340 8 -5 2851 50 297 5 24 5000 41.9 341 2 -14 111 72.5 298 3 15 5000 41.72 342 3 -36 5000 51.26 299 5 27 5000 44.6 343 5 18 3704 46.94 300 1 54 5000 42.8 344 1 8 5000 39.92 301 5 -28 5000 53.6 345 2 -3 5000 37.22 302 4 -38 5000 63.5 303 11 -36 5000 60.08 304 6 -20 2014 69.98 305 8 1 436 70.34 306 14 3 830 66.02 307 18 -8 1112 66.38 308 12 -17 1210 67.82 Trong đó: Y: Ozone.level ; X 1: daggett.pressure.gradient ; X2: inversion.base.height ; X3: inversion.base.temp . 61 PHỤ LỤC B: CÁC THUẬT TOÁN THUẬT TOÁN BÀI TOÁN 1 TRONG PHẦN MỀM R B.1.1. Thuật toán để tìm các thành phần tuyến tính và phi tuyến: library(SemiPar) data(onions) attach(onions) log.yield <- log(yield) fit <- spm(log.yield~location+f(dens)) summary(fit) B.1.2. Thuật toán vẽ hàm hồi quy: par(mfrow=c(1,2)) plot(fit,jitter.rug=TRUE) B. 1.3. Thuật toán dự đoán sản lượng hành với khu vực x và mật độ y tuỳ chọn cho mô hình hồi quy bán tham số: newdata.yield <- data.frame(location=c(x),dens=c(y)) preds <- predict(fit,newdata=newdata.yield,se=TRUE) print(preds) B.1.4. Thuật toán cho mô hình hồi quy phi tham số cũng với số liệu A.1 library(SemiPar) data(onions) attach(onions) log.yield <- log(yield) fit <- spm(log.yield~f(dens)) summary(fit) B.1.5. Thuật toán cho mô hình hồi quy tham số cũng với số liệu A.1 library(SemiPar) data(onions) attach(onions) log.yield <- log(yield) fit <- spm(log.yield~dens) summary(fit) B.1.6 Thuật toán dự đoán sản lượng hành với mô hình hồi quy tham số newdata1.yield <- data.frame(dens=c(y)) preds <- predict(fit,newdata=newdata1.yield,se=TRUE) print(preds) B.1.7 Thuật toán dự đoán sản lượng hành với mô hình hồi quy phi tham số newdata2.yield <- data.frame(dens=c(y)) preds <- predict(fit,newdata=newdata2.yield,se=TRUE) print(preds) 62 THUẬT TOÁN BÀI TOÁN 2 TRONG PHẦN MỀM R B.2.1 library(SemiPar) data(calif.air.poll) attach(calif.air.poll) B.2.2 plot(ozone.level~inversion.base.temp) B.2.3 plot(ozone.level~inversion.base.height) B.2.4 plot(ozone.level~daggett.pressure.gradient) B.2.5 fit <- spm(ozone.level ~ f(daggett.pressure.gradient)+ f(inversion.base.height)+inversion.base.temp) summary(fit) B.2.6 par(mfrow=c(2,2)) plot(fit) B.2.7 newdata.ozone < - data.frame(inversion.base.temp=c(89.45),daggett.pressure.gradient=c(5),inversion. base.height=c(369)) preds<-predict(fit,newdata=newdata.ozone,se=TRUE) print(preds) 63 TÀI LIỆU THAM KHẢO Tiếng Việt [1]. Hoàng Ngọc Nhậm (2007), Giáo trình kinh tế lượng, NXB Lao động – xã hội. [2]. Nguyễn Văn Tuấn (2007), Phân tích số liệu và biểu đồ bằng R, NXB Khoa học Kỹ thuật. [3]. Tô Anh Dũng (2007), Lý thuyết xác suất và thống kê toán, NXB Đại học quốc gia TP Hồ Chí Minh. Tiếng Anh [4]. Adonis Yatchew , Semiparametric Regression for the Applied Econometrician, Cambridge University press. [5]. David Rupper, M.P.Wand and R.J.Carroll (2003), Semiparametric Regression, Cambridge University press. [6]. Luke Keele (2008), Semiparametric Regression for the Social Sciences, John Wiley & Sons, Ltd. [7]. Randall L.Eubank (1999), Nonparametric and Spline smoothing, Marcel Dekker, Inc. [8]. Wolfgang Härdle, Marlene Müller, Stefan Sperlich, Axel Werwatz (2004), Nonparametric and Semiparametric Models , An Introduction , Springer. 64 CỘNG HOÀ Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc LÝ LỊCH TRÍCH NGANG SƠ LƯỢC LÝ LỊCH Họ và tên: NGUYỄN TRỌNG VINH Phái: nam Ngày, tháng, năm sinh: 12-12-1985 Nơi sinh: Vĩnh Long Mã số học viên: 11020508 Khoa: Khoa học ứng dụng Ngành: Toán ứng dụng Địa chỉ liên lạc: 34 /TG, ấp Thanh Hoá, xã Hố Nai 3, Trảng Bom, Đồng Nai. QUÁ TRÌNH ĐÀO TẠO Đại học : Chế độ học: Chính quy Thời gian học: 2003 – 2007 Nơi học: Trường đại học Cần Thơ Ngành học: Sư phạm Toán Sau đại học : Ngành Toán ứng dụng tại trường Đại học Bách Khoa TP. HCM (2011 – 2013) QUÁ TRÌNH CÔNG TÁC Từ 10-2007 đến 05-2009: Giáo viên dạy Toán trường TH-THCS-THPT Bùi Thị Xuân. Từ 8-2009 đến 03-2013: Giáo viên dạy Toán trường Cao đẳng nghề Cơ Giới và Thuỷ Lợi. Ngày 15 tháng 06 năm 2013 Người khai Nguyễn Trọng Vinh

Các file đính kèm theo tài liệu này:

  • pdfung_dung_hoi_quy_ban_tham_so_trong_khoa_hoc_xa_hoi_7432.pdf
Luận văn liên quan