Phân tích tương quan và hồi quy

Purposes Examine for linearity assumption Examine for constant variance for all levels of x Evaluate normal distribution assumption Graphical Analysis of Residuals Can plot residuals vs. x Can create histogram of residuals to check for normality

pdf53 trang | Chia sẻ: lylyngoc | Lượt xem: 7116 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Phân tích tương quan và hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHÂN TÍCH TƯƠNG QUAN VÀ HOI QUY MỤC TIÊU Sau khi hoàn thành phần nầy, học viên sẽ co khả năng:  Tính toán và phân tích hệ số tương quan giàn đơn giữa hai biến  Xác định mức độ tin cậy thống kê của hệ số tương quan.  Tính toán và giải thích được hàm tương quan tuyến tính đơn biến  Thông hiểu được các giả thuyết khi xây dựng hàm tương quan  Biết được cách kiểm định trong hàm tương quan Sơ đồ phân tán và hệ số tương quan  Sơ đồ phân tán thể hiện mối quan hệ giửa hai biến  Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng hành giửa hai biến.  Hệ số tương quan không thể hiện mối quan hệ nhân quả. Sơ đồ phân tán (scatter plot) y x y x y y x x Quan hệ tuyến tính Quan hệ phi tuyến Sơ đồ phân tán (scatter plot) y x y x y y x x Strong relationships Weak relationships (continued) Sơ đồ phân tán (scatter plot) y x y x X và y không có quan hệ (continued) Hệ số tương quan  Hệ số tương quan của đám đông ký hiệu là ρ (rho) thể hiện sự đồng hành của hai biến.  Hệ số tương quan của mẩu r dùng ước lượng cho rho và nó thể hiện tương quan tuyến tính dựa trên các phần tử quan sát được từ mẩu. (continued) Đặc điểm của ρ and r  Không có đơn vị đo lường  Biến động trong phạm vi -1 và1  Càng gần -1, mối quan hệ nghịch biến càng cao  Càng gần +1, mối quan hệ đồng biến càng cao  Càng gần 0, mối quan hệ tuyến tính càng yếu r = +.3 r = +1 Một số ví dụ về các giá trị của r y x y x y x y x y x r = -1 r = -.6 r = 0 Cách tính hệ số tương quan      ])yy(][)xx([ )yy)(xx( r 22 Các ký hiệu: r = Hệ số tương quan của mẩu n = Cở mẩu x = các giá trị của biến độc lập y = Các giá trị của biến phụ thuộc           ])y()y(n][)x()x(n[ yxxyn r 2222 Cách tính tương đương Ví dụ Ñoä cao cuûa caây Ñöôøng kính thaân caây y x xy y2 x2 35 8 280 1225 64 49 9 441 2401 81 27 7 189 729 49 33 6 198 1089 36 60 13 780 3600 169 21 7 147 441 49 45 11 495 2025 121 51 12 612 2601 144 =321 =73 =3142 =14111 =713 010 20 30 40 50 60 70 0 2 4 6 8 10 12 14 0.886 ](321)][8(14111)(73)[8(713) (73)(321)8(3142) ]y)()y][n(x)()x[n( yxxyn r 22 2222               Đường kính x Độ cao y Ví dụ về cách tính r (continued) r = 0.886 → relatively strong positive linear association between x and y Excel Output Tree Height Trunk Diameter Tree Height 1 Trunk Diameter 0.886231 1 Excel Correlation Output Tools / data analysis / correlation… Correlation between Tree Height and Trunk Diameter Kiểm định mức ý nghĩa của hệ số tương quan  Giả thuyết H0: ρ = 0 (Không có quan hệ tương quan) HA: ρ ≠ 0 (Có quan hệ tương quan)  Công thức tính  (with n – 2 degrees of freedom) 2n r1 r t 2    Ví dụ Có mối quan hệ tương quan giửa chiều cao và đường kính của cây với mức ý nghĩa 5% ? H0: ρ = 0 (No correlation) H1: ρ ≠ 0 (correlation exists) a =.05 , df = 8 - 2 = 6 4.68 28 .8861 .886 2n r1 r t 22        4.68 28 .8861 .886 2n r1 r t 22        Example: Test Solution Kết luận: Có mối quan hệ tương quan giử chiều cao và đường kính của cây o mức ý nghĩa 5% Quyết định : Từ chối H0 Reject H0Reject H0 a/2=.025 -tα/2 Do not reject H0 0 tα/2 a/2=.025 -2.4469 2.4469 4.68 d.f. = 8-2 = 6 Mô hình hồi quy tuyến tính giản đơn  Chỉ có một biến đôc lập: x  Mối quan hệ giửa x và y là quan hệ tuyến tính  Sự thay đổi của y được giả định là do sự thay đổi của x. Các mô hình thể hiện mối quan hệ Quan hệ đồng biến Quan hệ nghịch biến Quan hệ phi tuyến Khong có quan hệ εxββy 10  Bộ phận dự đoán tương quan Hàm tương quan của đám đông Hằng số Hệ số góc Hệ số sai lệch/phần dư Biến phụ thuộc Biến độc lập Sai lệch ngẩu nhiên Các giả thuyết của hàm tương quan  Các sai lệch ngẩu nhiên hoàn toàn độc lập với nhau về phương diện thống kê.  Các sai lệch ngẩu nhiên có phân phối chuẩn  Phân phối xác suất của các sai lệch ngẩu nhiên có phương sai không đổi  Quan hệ giửa x và y là quan hệ tuyến tính Hàm tương quan tuyến tính của đám đông (continued) Sai lệch ngẩu nhiên của biến xi y x Giá trị quan sát của y tương ứng với x. Giá trị dự đoán của y ứng với x εxββy 10  xi Slope = β1 Hằng số = β0 εi xbbyˆ 10i  Hàm tương quan ước lượng của mẩu Hằng số ước lượng của hàm tương quan Hệ số góc ước lượng Giá trị ước lượng/dự đoán Biến độc lập Sai lệch ngẩu nhiên có giá trị trung bình bằng 0 Tiêu chuẩn bình phương bé nhất (Least Squares Criterion)  b0 và b1 được tính toán theo tiêu chuẩn tổng bình phương bé nhất của phần dư (residuals) 2 10 22 x))b(b(y )yˆ(ye     Hệ số của hàm tương quan theo tiêu chuẩn tổng bình phương bé nhất  Công thức tính b1 và b0: Hoặc:         n x x n yx xy b 2 2 1 )(      21 )( ))(( xx yyxx b xbyb 10  và  b0 là giá trị trung bình của y khi x nhận giá trị bằng 0  b1 là sự thay đổi theo ước lượng của giá trị trung bình của y mổi khi x thay đổi một đơn vị. Yù nghĩa của hệ số góc và hằng số của hàm tương quan Ví dụ về hàm tươg quan giản đơn  Một nhà buôn bất động sản tiến hành khảo sát mối quan hệ giửa giá bán căn hộ và diện tích căn hộ (đo lường bằng m2.  Một mẩu gồm 10 căn hộ được chọn ra  Biến phụ thuộc (y): Giá bán căn hộ (1000USD)  Biến độc lập (x): Diện tích Giá trị các quan sát Giaù baùn ($1000) (y) Dieän tích (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 1700 Sử dụng excel để xây dựng hàm tương quan  Tools / Data Analysis / Regression Kết quả phân tích trên Excel Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 The regression equation is: feet) (square 0.10977 98.24833 price house  050 100 150 200 250 300 350 400 450 0 500 1000 1500 2000 2500 3000 Square Feet H o u s e P ri c e ( $ 1 0 0 0 s ) Graphical Presentation  House price model: scatter plot and regression line meter) (square 0.10977 98.24833 price house  Slope = 0.10977 Intercept = 98.248 Giải thích ý nghĩa của hằng số b0  b0 là giá trị trung bình ước lượng của giá nhà khi giá trị x (số m2) bằng 0.  Trong trường hợp nầy, không có giá tri x nào nhận giá trị 0, cho nên b0 = 98.24833 thể hiện giá nhà không được giải thích bởi số lượng met vuông. meter) square*0.10977 98.24833 price house  Giải thích ý nghĩa của hệ số góc b1  Trong trường hợp nầy b1 = .10977 chỉ ra rằng giá trung bình của can hộ sẽ gia tăng 0.10977 đơn vị ($1000) khi số met vuông tăng 1 đơn vị feet) (square 0.10977 98.24833 price house  Các đặc trưng của hàm tưoơng quan theo phương pháp bình phương bé nhất  Tổng giá trị của phần dư (residual) phải bằng 0.  Tổng bình phương của phần dư phải cực tiểu  Đường thể hiện hàm tương quan phải đi qua diểm thể hiện giá trị trung bình của x và y.  Hệ số của hàm tương quan phải ước lượng không chệch cho β0 và β1 0)ˆ(  yy 2)ˆ( yy  Biến thiên giải thích được và không giải thích được  Tổng biến thiên bao gồm hai bộ phận RSS ESS TSS  Tổng biến thiên Tổng biến thiên của sai lệch/phần dư Tổng biến thiên có thể giải thích   2)( yyTSS   2)ˆ( yyESS   2)ˆ( yyRSS (continued) Xi y x yi TSS = (yi - y)2 ESS = (yi - yi )2  RSS = (yi - y)2  __ _ Biến thiên giải thích được và không giải thích được y  y y _y   Hệ số xác định thể hiện tỷ trọng của tổng biến thiên của biến phụ thuộc có thể giải thích được bởi biến thiên của biến độc lập.  Hệ số xác định được gọi là R bình phương (R2) Hệ số xác định R2 (coefficient of determination) TSS ESS R 2 1R0 2 where Hệ số xác định R2 (continued) Chú ý: Trong trường hợp của hàm tương quan 1 biến , hệ số xác định nầy bằng bình phương của hệ số tương quan 22 rR  R2 = +1 Ví dụ về các tình huống đặc biệt của R2 y x y x R2 = 1 R2 = 1 Quan hệ tuyến tính hoàn hão giửa x và y : 100% tổng biến thiên của y được giải thích bằng biến thiên của x. Ví dụ về các tình huống đặc biệt của R2 y x y x 0 < R2 < 1 Mối quan hệ tuyến tính yếu: Một bộ phận biến thiên của y được giải thích bằng biến thiên của x Ví dụ về các tình huống đặc biệt của R2 R2 = 0 Không có mối quan hệ tuyến tính giửa x và y y xR2 = 0 Kết quả trên Excel Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 58.08% of the variation in house prices is explained by variation in square feet 0.58082 32600.5000 18934.9348 TSS ESS R2  Độ lệch tiêu chuẩn của ước lượng  Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc xoay quanh đường tương quan được ước lượng bởi côg thức 1  kn RSS s Các ký hiệu RSS = Tổng biến thiên của các sai lệch (phần dư) n = Cở mẩu k = Số lượng các biến độc lập Độ lệch chuẩn của hệ số góc của hàm tương quan  Độ lệch chuẩn của hệ số góc của hàm tương quan (b1) được tính theo công thức sau:       n x)( x s )x(x s s 2 2 ε 2 ε b1 where: = sai lệch tiêu chuẩn của hệ số góc của hàm tương quan = Sai lệch chuẩn của ước lượng 1b s 2n RSS sε   Kết quả trên Excel Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 41.33032sε  0.03297s 1b  So sánh sai lệch chuẩn của ước lượng và của hệ số góc của hàm tương quan y y y x x x y x 1b s small 1b s large s small s large Biến thiên của giá trị quan sát y khỏi đường tương quan Biến thiên của hệ số góc của đường tương quan từ các mẩu khác nhau Kiểm định t cho hệ số góc với hàm tương quan một biến  Kiểm định t  Có mối quan hệ tuyến tính giửa x và y hay không?  Thiết lập giả thuyết  H0: β1 = 0  H1: β1 0  Test statistic   1b 11 s βb t   2nd.f.  House Price in $1000s (y) Square meter (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 1700 (m2) 0.1098 98.25 price house  Estimated Regression Equation: Inference about the Slope: t Test (continued) Kiểm định t cho hệ số góc H0: β1 = 0 HA: β1  0 Test Statistic: t = 3.329 Có đủ bằng chứng cho thấy diện tích căn hộ tác động đến giá bán. affects house price From Excel output: Reject H0 Coefficients Standard Error t Stat P-value Intercept 98.24833 58.03348 1.69296 0.12892 Square Feet 0.10977 0.03297 3.32938 0.01039 1b s tb1 Decision: Từ chối Ho Kết luận Reject H0Reject H0 a/2=.025 -tα/2 Do not reject H0 0 tα/2 a/2=.025 -2.3060 2.3060 3.329 d.f. = 10-2 = 8 Phân tích mô tả với hàm tương quan Khoảng ước lượng của hệ số góc Excel Printout for House Prices: At 95% level of confidence, the confidence interval for the slope is (0.0337, 0.1858) 1b/21 stb a Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 d.f. = n - 2 Phân tích mô tả với hàm tương quan Since the units of the house price variable is $1000s, we are 95% confident that the average impact on sales price is between $33.70 and $185.80 per square meter of house size Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 This 95% confidence interval does not include 0. Conclusion: There is a significant relationship between house price and square feet at the .05 level of significance Residual Analysis  Purposes  Examine for linearity assumption  Examine for constant variance for all levels of x  Evaluate normal distribution assumption  Graphical Analysis of Residuals  Can plot residuals vs. x  Can create histogram of residuals to check for normality Residual Analysis for Linearity Not Linear Linear x re si d ua ls x y x y x re si d ua ls Residual Analysis for Constant Variance Non-constant variance Constant variance x x y x x y re si d ua ls re si d ua ls

Các file đính kèm theo tài liệu này:

  • pdfsimple_regression_5778.pdf
Luận văn liên quan