Hàm tương quan đa biến

Described nonlinear regression models Described multicollinearity Discussed model building  Stepwise regression  Best subsets regression Examined residual plots to check model assumptions

pdf59 trang | Chia sẻ: lylyngoc | Lượt xem: 2857 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Hàm tương quan đa biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-1 Hàm tương quan đa biến Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-2 Mục tiêu học tập  Thông hiểu việc xây dựng mô hình với việc phân tích đa biến  Thực hiện việc xây dựng hàm tương quan đa biến.  Phân tích và lý giải kết quả của hàm tương quan đa biến  Thực hiện các phép kiểm định thống kê với hàm tương quan đa biến Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-3 Mô hình của hàm tương quan đa biến εxβxβxββy kk22110   kk22110 xbxbxbbyˆ   Hàm tương quan của đám đông Y-intercept Population slopes Random Error Estimated (or predicted) value of y Estimated slope coefficients Hàm tương quan ước lượng Estimated intercept Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-4 Mô hình của hàm tương quan đa biến (trường hợp hai biến) Mô hình hai biến y x1 x2 22110 xbxbbyˆ  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-5 Mô hình của hàm tương quan đa biến (trường hợp hai biến) Hai biến y x1 x2 22110 xbxbbyˆ yi yi < e = (y – y) < x2i x1i Hàm tương quan sẽ có độ chính xác của ướclượng cao khi tối thiểu hóa tổng bình phương sai lệch: e2 Quan sát thực tế Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-6 Multiple Regression Assumptions  Giả thuyết  Các sai lệch có phân phối chuẩn  Bình quân của các sai lệch co giá trị bằng 0  Phương sai của các sai lệch là cố định  Các sai lệch hoàn toàn độc lập e = (y – y) < Sai lệch (errors) hay phần dư (residuals): Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-7 Ma trận hệ số tương quan  Ma trận hệ số tương quan giữa biến phụ thuôc và các biến độc lập được tính trên Excel:  Tools / Data Analysis… / Correlation  Kiểm tra độ tin cậy thống kê của các hệ số tương quan với phép kiểm định t Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-8 Ví dụ  Một nhà sản xuất bánh nướng muốn đánh giá sự tác động của giá cả và quảng cáo đến sản lượng hàng bán ra  Biến phụ thuộc: Sản lượng (Chiếc mỗi tuần)  Biến độc lập: giá cả ($) và chi phí quảng cáo (đơn vị $100/tuần)  Thông tin được thu thập liên tục trong 15 tuần Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-9 Hàm tương quan đa biến Sales = b0 + b1 (Price) + b2 (Advertising) Week Pie Sales Price ($) Advertising ($100s) 1 350 5.50 3.3 2 460 7.50 3.3 3 350 8.00 3.0 4 430 8.00 4.5 5 350 6.80 3.0 6 380 7.50 4.0 7 430 4.50 3.0 8 470 6.40 3.7 9 450 7.00 3.5 10 490 5.00 4.0 11 340 7.20 3.5 12 300 7.90 3.2 13 440 5.90 4.0 14 450 5.00 3.5 15 300 7.00 2.7 Pie Sales Price Advertising Pie Sales 1 Price -0.44327 1 Advertising 0.55632 0.03044 1 Correlation matrix: Multiple regression model: Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-10 Giải thích ý nghĩa các hệ số tương quan (bi)  bi  Giá trị trung bình của y sẽ thay đổi bi đơn vị khi gia tăng một đơn vị Xi, giả định rằng các biến khác đều cố định  Hằng số tương quan (b0)  Giá trị trung bình của y khi mọi biến Xi đều bằng 0. Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-11 Kết quả của hàm tương quan đa biến Regression Statistics Multiple R 0.72213 R Square 0.52148 Adjusted R Square 0.44172 Standard Error 47.46341 Observations 15 ANOVA df SS MS F Significance F Regression 2 29460.027 14730.013 6.53861 0.01201 Residual 12 27033.306 2252.776 Total 14 56493.333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404 Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392 Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888 ertising)74.131(Adv ce)24.975(Pri - 306.526 Sales  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-12 Hệ số xác định của hàm tương quan đa biến  Tỷ lệ % biến thiên của y có thể giải thích bởi sự biến thiên đồng thời của tất cả các Xi squares of sum Total regression squares of Sum TSS ESS R2  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-13 Regression Statistics Multiple R 0.72213 R Square 0.52148 Adjusted R Square 0.44172 Standard Error 47.46341 Observations 15 ANOVA df SS MS F Significance F Regression 2 29460.027 14730.013 6.53861 0.01201 Residual 12 27033.306 2252.776 Total 14 56493.333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404 Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392 Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888 .52148 56493.3 29460.0 SST SSR R2  52.1% of the variation in pie sales is explained by the variation in price and advertising Hệ số xác định của hàm tương quan đa biến (continued) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-14 Hệ số xác định đã điều chỉnh (Adjusted R2)  R2 hầu như không bao giờ giảm khi chúng ta thêm biến độc lập mới vào mô hình  Gây khó khăn trong việc so sánh các mô hình trước và sau khi thêm biến mới  Tác đông thực khi thêm biến mới  Chúng ta sẽ giãm bậc tự do khi có biến mới thêm vào.  Việc thêm biến mới có đũ năng lực giải thích để bù đấp cho sự mất mát khi giãm bậc tự do hay không? Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-15  Thể hiện % tổng biến thiên của y có thể giải thích đượcbởi tất cả các biến Xi đã được điều chỉnh cho số biến sử dụng (n = Cở mẩu, k = số lượng các biến độc lập) Hệ số xác định đã điều chỉnh (Adjusted R2) (continued)          1kn 1n )R1(1R 22A Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-16 Hệ số xác định đã điều chỉnh (Adjusted R2) Tác dụng của việc sử dụng R2 đã điều chỉnh  Trừng phạt việc đưa quá nhiều biến không cần thiết vào mô hình  Hữu dụng trong việc so sánh mô hình Thường giá trị của nó nhỏ hơn R2 Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-17 Regression Statistics Multiple R 0.72213 R Square 0.52148 Adjusted R Square 0.44172 Standard Error 47.46341 Observations 15 ANOVA df SS MS F Significance F Regression 2 29460.027 14730.013 6.53861 0.01201 Residual 12 27033.306 2252.776 Total 14 56493.333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404 Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392 Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888 .44172R2A  44.2% of the variation in pie sales is explained by the variation in price and advertising, taking into account the sample size and number of independent variables Hệ số xác định đã điều chỉnh (Adjusted R2) (continued) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-18 Kiểm tra độ tin cậy của mô hình tương quan  Dùng kiểm định F  Thể hiện tất cả các biến đôc lập có mối quan hệ tương quan tuyến tính với biến phụ thuộc y hay không?  Giả thuyết :  H0: β1 = β2 = … = βk = 0 (không có quan hệ tuyến tính)  HA: Tối thiểu có βi ≠ 0 (Tối thiểu có một biến có quan hệ tuyến tính với y) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-19 Cách xác định kiểm định F  Giá trị F tính toán: where F has (numerator) D1 = k and (denominator) D2 = (n – k - 1) degrees of freedom (continued) MRSS MESS kn RSS k ESS F    1 Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-20 6.5386 2252.8 14730.0 MSE MSR F  Regression Statistics Multiple R 0.72213 R Square 0.52148 Adjusted R Square 0.44172 Standard Error 47.46341 Observations 15 ANOVA df SS MS F Significance F Regression 2 29460.027 14730.013 6.53861 0.01201 Residual 12 27033.306 2252.776 Total 14 56493.333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404 Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392 Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888 (continued) Kết quả kiểm định F trên Excel With 2 and 12 degrees of freedom P-value for the F-Test Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-21 H0: β1 = β2 = 0 HA: Coù ít nhaát βi khaùc 0 a = .05 df1= 2 df2 = 12 F tính toán: Quyết định: Conclusion: Từ chối H0 ở mức ý nghĩa 5% The regression model does explain a significant portion of the variation in pie sales (There is evidence that at least one independent variable affects y) 0 a = .05 F.05 = 3.885 Reject H0Do not reject H0 6.5386F  MRSS MESS Critical Value: Fa = 3.885 Kết quả kiểm định F trên Excel (continued) F Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-22 Kiểm định tương quan tuyến tính của biến độc lập với biến phụ thuộc  Sử dụng phép kiểm định t  Thể hiện mối quan hệ tuyến tính giửa biến xi và y  Giả thuyết :  H0: βi = 0 (không có quan hệ tuyến tính)  HA: βi ≠ 0 (có quan hệ tương quan tuyến tính) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-23 Kiểm định tương quan tuyến tính của biến độc lập với biến phụ thuộc Xác định t tính toán : (df = n – k – 1) ib i s b t 0  (continued) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-24 Regression Statistics Multiple R 0.72213 R Square 0.52148 Adjusted R Square 0.44172 Standard Error 47.46341 Observations 15 ANOVA df SS MS F Significance F Regression 2 29460.027 14730.013 6.53861 0.01201 Residual 12 27033.306 2252.776 Total 14 56493.333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404 Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392 Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888 t-value for Price is t = -2.306, with p-value .0398 t-value for Advertising is t = 2.855, with p-value .0145 (continued) Kiểm định tương quan tuyến tính của biến độc lập với biến phụ thuộc Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-25 d.f. = 15-2-1 = 12 a = .05 ta /2 = 2.1788 Kiểm định tương quan tuyến tính của biến độc lập với biến phụ thuộc H0: βi = 0 HA: βi  0 The test statistic for each variable falls in the rejection region (p-values < .05) There is evidence that both Price and Advertising affect pie sales at a = .05 From Excel output: Reject H0 for each variable Coefficients Standard Error t Stat P-value Price -24.97509 10.83213 -2.30565 0.03979 Advertising 74.13096 25.96732 2.85478 0.01449 Decision: Conclusion: Reject H0Reject H0 a/2=.025 -tα/2 Do not reject H0 0 tα/2 a/2=.025 -2.1788 2.1788 Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-26 Ước lượng các thông số của hàm tương quan đám đông từ mẩu Khoảng ước lượng hệ số góc của đám đông β1 (the effect of changes in price on pie sales): Example: sản lượng bánh nướng hàng tuần ước lượng sẽ giảm trong khoảng 1.37 đến 48.58 đơn vị mỗi khi giá cả giảm $1 ib2/i stb a Coefficients Standard Error … Lower 95% Upper 95% Intercept 306.52619 114.25389 … 57.58835 555.46404 Price -24.97509 10.83213 … -48.57626 -1.37392 Advertising 74.13096 25.96732 … 17.55303 130.70888 where t has (n – k – 1) d.f. Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-27 Sai lệch tiêu chuẩn của hàm tương quan  Cách xác định sai lệch tiêu chuẩn của hàm tương quan: MRSS kn RSS s    1   Muốn đánh giá giá trị nầy lớn hay nhỏ, chúng ta cần phải so sánh với giá tri trung bình của biến phụ thuộc Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-28 Regression Statistics Multiple R 0.72213 R Square 0.52148 Adjusted R Square 0.44172 Standard Error 47.46341 Observations 15 ANOVA df SS MS F Significance F Regression 2 29460.027 14730.013 6.53861 0.01201 Residual 12 27033.306 2252.776 Total 14 56493.333 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404 Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392 Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888 Sai lệch tiêu chuẩn của hàm tương quan là 47.46 (continued) Độ lệch tiêu chuẩn của hàm tương quan Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-29  Độ lệch tiêu chuẩn của hàm tươg quan là 47.46  Với khoảng ước lượng 2 sigma, khoảng biến động sẽ nàm trong khoảng 2* (47.46)= 94.92.  Sản lượng bánh nướng bán ra trong tuần biến động từ 300 đến 500 do đó mức biến động nầy khá lớn. Như vậy có khả năng se tồn tại những biến khác tác động đến sản lượng bán ra mà chúng ta chưa xét đến để đưa vào hàm tương quan. (continued) Độ lệch tiêu chuẩn của hàm tương quan Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-30 Hiện tượng đa cộng tuyến (Multicollinearity)  Hiện tượng đa cộng tuyến : Hệ số tương quan giửa các biến độc lập rất cao  Lúc đó sự tác động của các biến độc lập vào biến phụ thuộc sẽ bị sai lệch Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-31 Hiện tượng đa cộng tuyến (Multicollinearity)  Việc tồn tại hai biến độc lập có tương quan cao gây tác động xấu đến kết quả của hàm tương quan  Dẫn đến sự không ổn định của các thông số hàm tương quan (Hệ số sai lệch tiêu chuẩn cao, và giá trị t tính toán thấp)  Dấu của các thông số của hàm tương quan bị sai lệch (continued) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-32 Một vài chỉ báo của hiện tượng đa cộng tuyến  Sai lệch về dấu của thông số của hàm tương quan  Sự thay đổi về lượng của các thông số của hàm tương quan khi thêm biến mới vào  Một biến độc lập từ chổ đủ độ tin cậy thống kê sẽ trở nên không đủ độ tin cậy thống kê khi thêm biến độc lập mới vào  Độ lệch tiêu chuẩn của hàm tương quan sẽ gia tăng khi biến độc lập mới được thêm vào Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-33 Phát hiện hiện tượng đa cộng tuyến (Variance Inflationary Factor) VIFj is used to measure collinearity: If VIFj > 5, xj is highly correlated with the other explanatory variables R2j is the coefficient of determination when the jth independent variable is regressed against the remaining k – 1 independent variables 21 1 j j R VIF   Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-34 Dummy-Variable Model Example (with 2 Levels) Let: y = pie sales x1 = price x2 = holiday (X2 = 1 if a holiday occurred during the week) (X2 = 0 if there was no holiday that week) 210 xbxbbyˆ 21  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-35 Qualitative (Dummy) Variables  Categorical explanatory variable (dummy variable) with two or more levels:  yes or no, on or off, male or female  coded as 0 or 1  Regression intercepts are different if the variable is significant  Assumes equal slopes for other variables  The number of dummy variables needed is (number of levels - 1) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-36 Same slope Dummy-Variable Model Example (with 2 Levels) (continued) x1 (Price) y (sales) b0 + b2 b0 1010 12010 xb b (0)bxbbyˆ xb)b(b(1)bxbbyˆ 121 121   Holiday No Holiday Different intercept If H0: β2 = 0 is rejected, then “Holiday” has a significant effect on pie sales Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-37 Sales: number of pies sold per week Price: pie price in $ Holiday: Interpretation of the Dummy Variable Coefficient (with 2 Levels) Example: 1 If a holiday occurred during the week 0 If no holiday occurred b2 = 15: on average, sales were 15 pies greater in weeks with a holiday than in weeks without a holiday, given the same price )15(Holiday 30(Price) - 300 Sales  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-38 Dummy-Variable Models (more than 2 Levels)  The number of dummy variables is one less than the number of levels  Example: y = house price ; x1 = square feet  The style of the house is also thought to matter: Style = ranch, split level, condo Three levels, so two dummy variables are needed Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-39 Dummy-Variable Models (more than 2 Levels)           not if 0 level split if 1 x not if 0 ranch if 1 x 32 3210 xbxbxbbyˆ 321  b2 shows the impact on price if the house is a ranch style, compared to a condo b3 shows the impact on price if the house is a split level style, compared to a condo (continued) Let the default category be “condo” Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-40 Interpreting the Dummy Variable Coefficients (with 3 Levels) With the same square feet, a ranch will have an estimated average price of 23.53 thousand dollars more than a condo With the same square feet, a split level will have an estimated average price of 18.84 thousand dollars more than a condo. Suppose the estimated equation is 321 18.84x23.53x0.045x20.43yˆ  18.840.045x20.43yˆ 1  23.530.045x20.43yˆ 1  10.045x20.43yˆ  For a condo: x2 = x3 = 0 For a ranch: x3 = 0 For a split level: x2 = 0 Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-41  The relationship between the dependent variable and an independent variable may not be linear  Useful when scatter diagram indicates non- linear relationship  Example: Quadratic model   The second independent variable is the square of the first variable Nonlinear Relationships εxβxββy 2j2j10  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-42 Polynomial Regression Model  where: β0 = Population regression constant βi = Population regression coefficient for variable xj : j = 1, 2, …k p = Order of the polynomial i = Model error εxβxββy 2j2j10  εxβxβxββy pjp 2 j2j10   If p = 2 the model is a quadratic model: General form: Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-43 Linear fit does not give random residuals Linear vs. Nonlinear Fit Nonlinear fit gives random residuals x re si d ua ls x y x re si d ua ls y x Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-44 Quadratic Regression Model Quadratic models may be considered when scatter diagram takes on the following shapes: x1 y x1x1 yyy β1 0 β1 0 β1 = the coefficient of the linear term β2 = the coefficient of the squared term x1 εxβxββy 2j2j10  β2 > 0 β2 > 0 β2 < 0 β2 < 0 Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-45 Testing for Significance: Quadratic Model  Test for Overall Relationship  F test statistic =  Testing the Quadratic Effect  Compare quadratic model with the linear model  Hypotheses  (No 2nd order polynomial term)  (2nd order polynomial term is needed) εxβxββy 2j2j10  εxββy j10  H0: β2 = 0 HA: β2  0 MSE MSR Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-46 Higher Order Models y x εxβxβxββy 3j3 2 j2j10  If p = 3 the model is a cubic form: Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-47 Interaction Effects  Hypothesizes interaction between pairs of x variables  Response to one x variable varies at different levels of another x variable  Contains two-way cross product terms 2 2 1521433 2 12110 xxβxxβxβxβxββy  Basic Terms Interactive Terms Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-48 Effect of Interaction  Given:  Without interaction term, effect of x1 on y is measured by β1  With interaction term, effect of x1 on y is measured by β1 + β3 x2  Effect changes as x2 increases ε xxβxβxββy 21322110  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-49 x2 = 1 x2 = 0 y = 1 + 2x1 + 3(1) + 4x1(1) = 4 + 6x1 y = 1 + 2x1 + 3(0) + 4x1(0) = 1 + 2x1 Interaction Example Effect (slope) of x1 on y does depend on x2 value x1 4 8 12 0 0 10.5 1.5 y y = 1 + 2x1 + 3x2 + 4x1x2 where x2 = 0 or 1 (dummy variable) Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-50 Interaction Regression Model Worksheet Case, i yi x1i x2i x1i x2i 1 1 1 3 3 2 4 8 5 40 3 1 3 2 6 4 3 5 6 30 : : : : : multiply x1 by x2 to get x1x2, then run regression with y, x1, x2 , x1x2 Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-51 ε xxβxβxββy 21322110   Hypothesize interaction between pairs of independent variables  Hypotheses:  H0: β3 = 0 (no interaction between x1 and x2)  HA: β3 ≠ 0 (x1 interacts with x2) Evaluating Presence of Interaction Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-52 Model Building  Goal is to develop a model with the best set of independent variables  Easier to interpret if unimportant variables are removed  Lower probability of collinearity  Stepwise regression procedure  Provide evaluation of alternative models as variables are added  Best-subset approach  Try all combinations and select the best using the highest adjusted R2 and lowest sε Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-53  Idea: develop the least squares regression equation in steps, either through forward selection, backward elimination, or through standard stepwise regression  The coefficient of partial determination is the measure of the marginal contribution of each independent variable, given that other independent variables are in the model Stepwise Regression Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-54 Best Subsets Regression  Idea: estimate all possible regression equations using all possible combinations of independent variables  Choose the best fit by looking for the highest adjusted R2 and lowest standard error sε Stepwise regression and best subsets regression can be performed using PHStat, Minitab, or other statistical software packages Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-55 Aptness of the Model  Diagnostic checks on the model include verifying the assumptions of multiple regression:  Each xi is linearly related to y  Errors have constant variance  Errors are independent  Error are normally distributed )yˆy(ei Errors (or Residuals) are given by Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-56 Residual Analysis Non-constant variance Constant variance x x re si d ua ls re si d ua ls Not Independent Independent x re si d ua ls x re si d ua ls  Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-57 The Normality Assumption  Errors are assumed to be normally distributed  Standardized residuals can be calculated by computer  Examine a histogram or a normal probability plot of the standardized residuals to check for normality Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-58 Chapter Summary  Developed the multiple regression model  Tested the significance of the multiple regression model  Developed adjusted R2  Tested individual regression coefficients  Used dummy variables  Examined interaction in a multiple regression model Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-59 Chapter Summary  Described nonlinear regression models  Described multicollinearity  Discussed model building  Stepwise regression  Best subsets regression  Examined residual plots to check model assumptions (continued)

Các file đính kèm theo tài liệu này:

  • pdfmultiple_regression_3541.pdf
Luận văn liên quan