Described nonlinear regression models
Described multicollinearity
Discussed model building
Stepwise regression
Best subsets regression
Examined residual plots to check model
assumptions
59 trang |
Chia sẻ: lylyngoc | Lượt xem: 2892 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Hàm tương quan đa biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-1
Hàm tương quan đa biến
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-2
Mục tiêu học tập
Thông hiểu việc xây dựng mô hình với việc
phân tích đa biến
Thực hiện việc xây dựng hàm tương quan đa
biến.
Phân tích và lý giải kết quả của hàm tương
quan đa biến
Thực hiện các phép kiểm định thống kê với
hàm tương quan đa biến
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-3
Mô hình của hàm tương quan đa biến
εxβxβxββy kk22110
kk22110 xbxbxbbyˆ
Hàm tương quan
của đám đông
Y-intercept Population slopes Random Error
Estimated
(or predicted)
value of y
Estimated slope coefficients
Hàm tương quan ước lượng
Estimated
intercept
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-4
Mô hình của hàm tương quan đa biến
(trường hợp hai biến)
Mô hình hai biến
y
x1
x2
22110 xbxbbyˆ
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-5
Mô hình của hàm tương quan đa biến
(trường hợp hai biến)
Hai biến
y
x1
x2
22110 xbxbbyˆ yi
yi
<
e = (y – y)
<
x2i
x1i Hàm tương quan sẽ có độ
chính xác của ướclượng
cao khi tối thiểu hóa tổng
bình phương sai lệch: e2
Quan sát thực tế
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-6
Multiple Regression Assumptions
Giả thuyết
Các sai lệch có phân phối chuẩn
Bình quân của các sai lệch co giá trị bằng 0
Phương sai của các sai lệch là cố định
Các sai lệch hoàn toàn độc lập
e = (y – y)
<
Sai lệch (errors) hay phần dư (residuals):
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-7
Ma trận hệ số tương quan
Ma trận hệ số tương quan giữa biến phụ thuôc và các
biến độc lập được tính trên Excel:
Tools / Data Analysis… / Correlation
Kiểm tra độ tin cậy thống kê của các hệ số tương quan
với phép kiểm định t
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-8
Ví dụ
Một nhà sản xuất bánh nướng muốn đánh giá sự
tác động của giá cả và quảng cáo đến sản lượng
hàng bán ra
Biến phụ thuộc: Sản lượng (Chiếc mỗi tuần)
Biến độc lập: giá cả ($) và chi phí quảng cáo (đơn vị
$100/tuần)
Thông tin được thu thập liên tục trong 15 tuần
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-9
Hàm tương quan đa biến
Sales = b0 + b1 (Price)
+ b2 (Advertising)
Week
Pie
Sales
Price
($)
Advertising
($100s)
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
6 380 7.50 4.0
7 430 4.50 3.0
8 470 6.40 3.7
9 450 7.00 3.5
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
Pie Sales Price Advertising
Pie Sales 1
Price -0.44327 1
Advertising 0.55632 0.03044 1
Correlation matrix:
Multiple regression model:
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-10
Giải thích ý nghĩa các hệ số tương
quan (bi)
bi
Giá trị trung bình của y sẽ thay đổi bi đơn vị khi
gia tăng một đơn vị Xi, giả định rằng các biến
khác đều cố định
Hằng số tương quan (b0)
Giá trị trung bình của y khi mọi biến Xi đều bằng
0.
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-11
Kết quả của hàm tương quan đa biến
Regression Statistics
Multiple R 0.72213
R Square 0.52148
Adjusted R Square 0.44172
Standard Error 47.46341
Observations 15
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404
Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392
Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888
ertising)74.131(Adv ce)24.975(Pri - 306.526 Sales
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-12
Hệ số xác định của hàm tương quan
đa biến
Tỷ lệ % biến thiên của y có thể giải thích bởi sự biến
thiên đồng thời của tất cả các Xi
squares of sum Total
regression squares of Sum
TSS
ESS
R2
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-13
Regression Statistics
Multiple R 0.72213
R Square 0.52148
Adjusted R Square 0.44172
Standard Error 47.46341
Observations 15
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404
Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392
Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888
.52148
56493.3
29460.0
SST
SSR
R2
52.1% of the variation in pie sales
is explained by the variation in
price and advertising
Hệ số xác định của hàm tương quan
đa biến
(continued)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-14
Hệ số xác định đã điều chỉnh (Adjusted
R2)
R2 hầu như không bao giờ giảm khi chúng ta thêm
biến độc lập mới vào mô hình
Gây khó khăn trong việc so sánh các mô hình trước và sau khi
thêm biến mới
Tác đông thực khi thêm biến mới
Chúng ta sẽ giãm bậc tự do khi có biến mới thêm
vào.
Việc thêm biến mới có đũ năng lực giải thích để bù
đấp cho sự mất mát khi giãm bậc tự do hay không?
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-15
Thể hiện % tổng biến thiên của y có thể giải thích
đượcbởi tất cả các biến Xi đã được điều chỉnh cho số
biến sử dụng
(n = Cở mẩu, k = số lượng các biến độc lập)
Hệ số xác định đã điều chỉnh (Adjusted
R2)
(continued)
1kn
1n
)R1(1R 22A
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-16
Hệ số xác định đã điều chỉnh (Adjusted
R2)
Tác dụng của việc sử dụng R2 đã điều chỉnh
Trừng phạt việc đưa quá nhiều biến không cần
thiết vào mô hình
Hữu dụng trong việc so sánh mô hình
Thường giá trị của nó nhỏ hơn R2
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-17
Regression Statistics
Multiple R 0.72213
R Square 0.52148
Adjusted R Square 0.44172
Standard Error 47.46341
Observations 15
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404
Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392
Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888
.44172R2A
44.2% of the variation in pie sales is
explained by the variation in price and
advertising, taking into account the sample
size and number of independent variables
Hệ số xác định đã điều chỉnh
(Adjusted R2)
(continued)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-18
Kiểm tra độ tin cậy của mô hình tương
quan
Dùng kiểm định F
Thể hiện tất cả các biến đôc lập có mối quan hệ tương
quan tuyến tính với biến phụ thuộc y hay không?
Giả thuyết :
H0: β1 = β2 = … = βk = 0 (không có quan hệ tuyến tính)
HA: Tối thiểu có βi ≠ 0 (Tối thiểu có một biến có quan hệ
tuyến tính với y)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-19
Cách xác định kiểm định F
Giá trị F tính toán:
where F has (numerator) D1 = k and
(denominator) D2 = (n – k - 1)
degrees of freedom
(continued)
MRSS
MESS
kn
RSS
k
ESS
F
1
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-20
6.5386
2252.8
14730.0
MSE
MSR
F
Regression Statistics
Multiple R 0.72213
R Square 0.52148
Adjusted R Square 0.44172
Standard Error 47.46341
Observations 15
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404
Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392
Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888
(continued)
Kết quả kiểm định F trên Excel
With 2 and 12 degrees
of freedom
P-value for
the F-Test
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-21
H0: β1 = β2 = 0
HA: Coù ít nhaát βi khaùc 0
a = .05
df1= 2 df2 = 12
F tính toán:
Quyết định:
Conclusion:
Từ chối H0 ở mức ý nghĩa 5%
The regression model does explain
a significant portion of the variation
in pie sales
(There is evidence that at least one
independent variable affects y)
0
a = .05
F.05 = 3.885
Reject H0Do not
reject H0
6.5386F
MRSS
MESS
Critical
Value:
Fa = 3.885
Kết quả kiểm định F trên Excel
(continued)
F
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-22
Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
Sử dụng phép kiểm định t
Thể hiện mối quan hệ tuyến tính giửa biến xi và y
Giả thuyết :
H0: βi = 0 (không có quan hệ tuyến tính)
HA: βi ≠ 0 (có quan hệ tương quan tuyến tính)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-23
Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
Xác định t tính toán :
(df = n – k – 1)
ib
i
s
b
t
0
(continued)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-24
Regression Statistics
Multiple R 0.72213
R Square 0.52148
Adjusted R Square 0.44172
Standard Error 47.46341
Observations 15
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404
Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392
Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888
t-value for Price is t = -2.306, with
p-value .0398
t-value for Advertising is t = 2.855,
with p-value .0145
(continued)
Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-25
d.f. = 15-2-1 = 12
a = .05
ta /2 = 2.1788
Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
H0: βi = 0
HA: βi 0
The test statistic for each variable falls
in the rejection region (p-values < .05)
There is evidence that both
Price and Advertising affect
pie sales at a = .05
From Excel output:
Reject H0 for each variable
Coefficients Standard Error t Stat P-value
Price -24.97509 10.83213 -2.30565 0.03979
Advertising 74.13096 25.96732 2.85478 0.01449
Decision:
Conclusion:
Reject H0Reject H0
a/2=.025
-tα/2
Do not reject H0
0
tα/2
a/2=.025
-2.1788 2.1788
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-26
Ước lượng các thông số của hàm
tương quan đám đông từ mẩu
Khoảng ước lượng hệ số góc của đám đông β1
(the effect of changes in price on pie sales):
Example: sản lượng bánh nướng hàng tuần ước lượng sẽ
giảm trong khoảng 1.37 đến 48.58 đơn vị mỗi khi giá cả
giảm $1
ib2/i
stb a
Coefficients Standard Error … Lower 95% Upper 95%
Intercept 306.52619 114.25389 … 57.58835 555.46404
Price -24.97509 10.83213 … -48.57626 -1.37392
Advertising 74.13096 25.96732 … 17.55303 130.70888
where t has
(n – k – 1) d.f.
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-27
Sai lệch tiêu chuẩn của hàm tương
quan
Cách xác định sai lệch tiêu chuẩn của hàm tương quan:
MRSS
kn
RSS
s
1
Muốn đánh giá giá trị nầy lớn hay nhỏ, chúng ta cần
phải so sánh với giá tri trung bình của biến phụ thuộc
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-28
Regression Statistics
Multiple R 0.72213
R Square 0.52148
Adjusted R Square 0.44172
Standard Error 47.46341
Observations 15
ANOVA df SS MS F Significance F
Regression 2 29460.027 14730.013 6.53861 0.01201
Residual 12 27033.306 2252.776
Total 14 56493.333
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 306.52619 114.25389 2.68285 0.01993 57.58835 555.46404
Price -24.97509 10.83213 -2.30565 0.03979 -48.57626 -1.37392
Advertising 74.13096 25.96732 2.85478 0.01449 17.55303 130.70888
Sai lệch tiêu chuẩn của hàm
tương quan là 47.46
(continued)
Độ lệch tiêu chuẩn của hàm tương quan
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-29
Độ lệch tiêu chuẩn của hàm tươg quan là 47.46
Với khoảng ước lượng 2 sigma, khoảng biến động sẽ
nàm trong khoảng 2* (47.46)= 94.92.
Sản lượng bánh nướng bán ra trong tuần biến động
từ 300 đến 500 do đó mức biến động nầy khá lớn.
Như vậy có khả năng se tồn tại những biến khác tác
động đến sản lượng bán ra mà chúng ta chưa xét đến
để đưa vào hàm tương quan.
(continued)
Độ lệch tiêu chuẩn của hàm tương quan
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-30
Hiện tượng đa cộng tuyến
(Multicollinearity)
Hiện tượng đa cộng tuyến : Hệ số tương quan giửa
các biến độc lập rất cao
Lúc đó sự tác động của các biến độc lập vào biến
phụ thuộc sẽ bị sai lệch
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-31
Hiện tượng đa cộng tuyến
(Multicollinearity)
Việc tồn tại hai biến độc lập có tương quan cao gây
tác động xấu đến kết quả của hàm tương quan
Dẫn đến sự không ổn định của các thông số hàm
tương quan (Hệ số sai lệch tiêu chuẩn cao, và giá
trị t tính toán thấp)
Dấu của các thông số của hàm tương quan bị sai
lệch
(continued)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-32
Một vài chỉ báo của hiện tượng đa
cộng tuyến
Sai lệch về dấu của thông số của hàm tương quan
Sự thay đổi về lượng của các thông số của hàm
tương quan khi thêm biến mới vào
Một biến độc lập từ chổ đủ độ tin cậy thống kê sẽ
trở nên không đủ độ tin cậy thống kê khi thêm biến
độc lập mới vào
Độ lệch tiêu chuẩn của hàm tương quan sẽ gia tăng
khi biến độc lập mới được thêm vào
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-33
Phát hiện hiện tượng đa cộng tuyến
(Variance Inflationary Factor)
VIFj is used to measure collinearity:
If VIFj > 5, xj is highly correlated with
the other explanatory variables
R2j is the coefficient of determination when the jth
independent variable is regressed against the
remaining k – 1 independent variables
21
1
j
j
R
VIF
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-34
Dummy-Variable Model Example
(with 2 Levels)
Let:
y = pie sales
x1 = price
x2 = holiday (X2 = 1 if a holiday occurred during the week)
(X2 = 0 if there was no holiday that week)
210 xbxbbyˆ 21
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-35
Qualitative (Dummy) Variables
Categorical explanatory variable (dummy
variable) with two or more levels:
yes or no, on or off, male or female
coded as 0 or 1
Regression intercepts are different if the variable
is significant
Assumes equal slopes for other variables
The number of dummy variables needed is
(number of levels - 1)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-36
Same
slope
Dummy-Variable Model Example
(with 2 Levels)
(continued)
x1 (Price)
y (sales)
b0 + b2
b0
1010
12010
xb b (0)bxbbyˆ
xb)b(b(1)bxbbyˆ
121
121
Holiday
No Holiday
Different
intercept
If H0: β2 = 0 is
rejected, then
“Holiday” has a
significant effect
on pie sales
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-37
Sales: number of pies sold per week
Price: pie price in $
Holiday:
Interpretation of the Dummy
Variable Coefficient (with 2 Levels)
Example:
1 If a holiday occurred during the week
0 If no holiday occurred
b2 = 15: on average, sales were 15 pies greater in
weeks with a holiday than in weeks without a
holiday, given the same price
)15(Holiday 30(Price) - 300 Sales
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-38
Dummy-Variable Models
(more than 2 Levels)
The number of dummy variables is one less than
the number of levels
Example:
y = house price ; x1 = square feet
The style of the house is also thought to matter:
Style = ranch, split level, condo
Three levels, so two dummy
variables are needed
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-39
Dummy-Variable Models
(more than 2 Levels)
not if 0
level split if 1
x
not if 0
ranch if 1
x 32
3210 xbxbxbbyˆ 321
b2 shows the impact on price if the house is a
ranch style, compared to a condo
b3 shows the impact on price if the house is a
split level style, compared to a condo
(continued)
Let the default category be “condo”
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-40
Interpreting the Dummy Variable
Coefficients (with 3 Levels)
With the same square feet, a
ranch will have an estimated
average price of 23.53
thousand dollars more than a
condo
With the same square feet, a
split level will have an
estimated average price of
18.84 thousand dollars more
than a condo.
Suppose the estimated equation is
321 18.84x23.53x0.045x20.43yˆ
18.840.045x20.43yˆ 1
23.530.045x20.43yˆ 1
10.045x20.43yˆ
For a condo: x2 = x3 = 0
For a ranch: x3 = 0
For a split level: x2 = 0
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-41
The relationship between the dependent
variable and an independent variable may not
be linear
Useful when scatter diagram indicates non-
linear relationship
Example: Quadratic model
The second independent variable is the square of
the first variable
Nonlinear Relationships
εxβxββy 2j2j10
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-42
Polynomial Regression Model
where:
β0 = Population regression constant
βi = Population regression coefficient for variable xj : j = 1, 2, …k
p = Order of the polynomial
i = Model error
εxβxββy 2j2j10
εxβxβxββy pjp
2
j2j10
If p = 2 the model is a quadratic model:
General form:
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-43
Linear fit does not give
random residuals
Linear vs. Nonlinear Fit
Nonlinear fit gives
random residuals
x
re
si
d
ua
ls
x
y
x
re
si
d
ua
ls
y
x
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-44
Quadratic Regression Model
Quadratic models may be considered when scatter
diagram takes on the following shapes:
x1
y
x1x1
yyy
β1 0 β1 0
β1 = the coefficient of the linear term
β2 = the coefficient of the squared term
x1
εxβxββy 2j2j10
β2 > 0 β2 > 0 β2 < 0 β2 < 0
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-45
Testing for Significance:
Quadratic Model
Test for Overall Relationship
F test statistic =
Testing the Quadratic Effect
Compare quadratic model
with the linear model
Hypotheses
(No 2nd order polynomial term)
(2nd order polynomial term is needed)
εxβxββy 2j2j10
εxββy j10
H0: β2 = 0
HA: β2 0
MSE
MSR
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-46
Higher Order Models
y
x
εxβxβxββy 3j3
2
j2j10
If p = 3 the model is a cubic form:
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-47
Interaction Effects
Hypothesizes interaction between pairs of x
variables
Response to one x variable varies at different
levels of another x variable
Contains two-way cross product terms
2
2
1521433
2
12110 xxβxxβxβxβxββy
Basic Terms Interactive Terms
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-48
Effect of Interaction
Given:
Without interaction term, effect of x1 on y is
measured by β1
With interaction term, effect of x1 on y is
measured by β1 + β3 x2
Effect changes as x2 increases
ε xxβxβxββy 21322110
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-49
x2 = 1
x2 = 0
y = 1 + 2x1 + 3(1) + 4x1(1)
= 4 + 6x1
y = 1 + 2x1 + 3(0) + 4x1(0)
= 1 + 2x1
Interaction Example
Effect (slope) of x1 on y does depend on x2 value
x1
4
8
12
0
0 10.5 1.5
y
y = 1 + 2x1 + 3x2 + 4x1x2
where x2 = 0 or 1 (dummy variable)
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-50
Interaction Regression Model
Worksheet
Case, i yi x1i x2i x1i x2i
1 1 1 3 3
2 4 8 5 40
3 1 3 2 6
4 3 5 6 30
: : : : :
multiply x1 by x2 to get x1x2, then
run regression with y, x1, x2 , x1x2
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-51
ε xxβxβxββy 21322110
Hypothesize interaction between pairs of
independent variables
Hypotheses:
H0: β3 = 0 (no interaction between x1 and x2)
HA: β3 ≠ 0 (x1 interacts with x2)
Evaluating Presence
of Interaction
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-52
Model Building
Goal is to develop a model with the best set of
independent variables
Easier to interpret if unimportant variables are
removed
Lower probability of collinearity
Stepwise regression procedure
Provide evaluation of alternative models as variables
are added
Best-subset approach
Try all combinations and select the best using the
highest adjusted R2 and lowest sε
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-53
Idea: develop the least squares regression
equation in steps, either through forward
selection, backward elimination, or through
standard stepwise regression
The coefficient of partial determination is the
measure of the marginal contribution of each
independent variable, given that other
independent variables are in the model
Stepwise Regression
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-54
Best Subsets Regression
Idea: estimate all possible regression equations
using all possible combinations of independent
variables
Choose the best fit by looking for the highest
adjusted R2 and lowest standard error sε
Stepwise regression and best subsets
regression can be performed using PHStat,
Minitab, or other statistical software packages
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-55
Aptness of the Model
Diagnostic checks on the model include
verifying the assumptions of multiple
regression:
Each xi is linearly related to y
Errors have constant variance
Errors are independent
Error are normally distributed
)yˆy(ei Errors (or Residuals) are given by
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-56
Residual Analysis
Non-constant variance Constant variance
x x
re
si
d
ua
ls
re
si
d
ua
ls
Not Independent Independent
x
re
si
d
ua
ls
x
re
si
d
ua
ls
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-57
The Normality Assumption
Errors are assumed to be normally distributed
Standardized residuals can be calculated by
computer
Examine a histogram or a normal probability plot
of the standardized residuals to check for
normality
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-58
Chapter Summary
Developed the multiple regression model
Tested the significance of the multiple
regression model
Developed adjusted R2
Tested individual regression coefficients
Used dummy variables
Examined interaction in a multiple regression
model
Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Chap 14-59
Chapter Summary
Described nonlinear regression models
Described multicollinearity
Discussed model building
Stepwise regression
Best subsets regression
Examined residual plots to check model
assumptions
(continued)
Các file đính kèm theo tài liệu này:
- multiple_regression_3541.pdf