Phân tích tương quan và hồi quy
Purposes
Examine for linearity assumption
Examine for constant variance for all
levels of x
Evaluate normal distribution assumption
Graphical Analysis of Residuals
Can plot residuals vs. x
Can create histogram of residuals to
check for normality
53 trang |
Chia sẻ: lylyngoc | Lượt xem: 7152 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Phân tích tương quan và hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHÂN TÍCH TƯƠNG QUAN VÀ
HOI QUY
MỤC TIÊU
Sau khi hoàn thành phần nầy, học viên sẽ co khả
năng:
Tính toán và phân tích hệ số tương quan giàn đơn giữa hai
biến
Xác định mức độ tin cậy thống kê của hệ số tương quan.
Tính toán và giải thích được hàm tương quan tuyến tính đơn
biến
Thông hiểu được các giả thuyết khi xây dựng hàm tương
quan
Biết được cách kiểm định trong hàm tương quan
Sơ đồ phân tán và hệ số tương quan
Sơ đồ phân tán thể hiện mối quan hệ giửa hai
biến
Phân tích hệ số tương quan dùng để đo lường mối
quan hệ đồng hành giửa hai biến.
Hệ số tương quan không thể hiện mối quan hệ
nhân quả.
Sơ đồ phân tán (scatter plot)
y
x
y
x
y
y
x
x
Quan hệ tuyến tính Quan hệ phi tuyến
Sơ đồ phân tán (scatter plot)
y
x
y
x
y
y
x
x
Strong relationships Weak relationships
(continued)
Sơ đồ phân tán (scatter plot)
y
x
y
x
X và y không có
quan hệ
(continued)
Hệ số tương quan
Hệ số tương quan của đám đông ký hiệu là ρ
(rho) thể hiện sự đồng hành của hai biến.
Hệ số tương quan của mẩu r dùng ước lượng cho
rho và nó thể hiện tương quan tuyến tính dựa trên
các phần tử quan sát được từ mẩu.
(continued)
Đặc điểm của ρ and r
Không có đơn vị đo lường
Biến động trong phạm vi -1 và1
Càng gần -1, mối quan hệ nghịch biến càng cao
Càng gần +1, mối quan hệ đồng biến càng cao
Càng gần 0, mối quan hệ tuyến tính càng yếu
r = +.3 r = +1
Một số ví dụ về các giá trị của r
y
x
y
x
y
x
y
x
y
x
r = -1 r = -.6 r = 0
Cách tính hệ số tương quan
])yy(][)xx([
)yy)(xx(
r
22
Các ký hiệu:
r = Hệ số tương quan của mẩu
n = Cở mẩu
x = các giá trị của biến độc lập
y = Các giá trị của biến phụ thuộc
])y()y(n][)x()x(n[
yxxyn
r
2222
Cách tính tương đương
Ví dụ
Ñoä cao
cuûa caây
Ñöôøng
kính thaân
caây
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713
010
20
30
40
50
60
70
0 2 4 6 8 10 12 14
0.886
](321)][8(14111)(73)[8(713)
(73)(321)8(3142)
]y)()y][n(x)()x[n(
yxxyn
r
22
2222
Đường kính x
Độ cao
y
Ví dụ về cách tính r
(continued)
r = 0.886 → relatively strong positive
linear association between x and y
Excel Output
Tree Height Trunk Diameter
Tree Height 1
Trunk Diameter 0.886231 1
Excel Correlation Output
Tools / data analysis / correlation…
Correlation between
Tree Height and Trunk Diameter
Kiểm định mức ý nghĩa của hệ số tương
quan
Giả thuyết
H0: ρ = 0 (Không có quan hệ tương quan)
HA: ρ ≠ 0 (Có quan hệ tương quan)
Công thức tính
(with n – 2 degrees of freedom)
2n
r1
r
t
2
Ví dụ
Có mối quan hệ tương quan giửa chiều cao và
đường kính của cây với mức ý nghĩa 5% ?
H0: ρ = 0 (No correlation)
H1: ρ ≠ 0 (correlation exists)
a =.05 , df = 8 - 2 = 6
4.68
28
.8861
.886
2n
r1
r
t
22
4.68
28
.8861
.886
2n
r1
r
t
22
Example: Test Solution
Kết luận: Có mối
quan hệ tương
quan giử chiều
cao và đường
kính của cây o
mức ý nghĩa 5%
Quyết định :
Từ chối H0
Reject H0Reject H0
a/2=.025
-tα/2
Do not reject H0
0
tα/2
a/2=.025
-2.4469 2.4469
4.68
d.f. = 8-2 = 6
Mô hình hồi quy tuyến tính giản đơn
Chỉ có một biến đôc lập: x
Mối quan hệ giửa x và y là quan hệ tuyến tính
Sự thay đổi của y được giả định là do sự thay
đổi của x.
Các mô hình thể hiện mối quan hệ
Quan hệ đồng biến
Quan hệ nghịch biến
Quan hệ phi tuyến
Khong có quan hệ
εxββy 10
Bộ phận dự đoán tương quan
Hàm tương quan của đám đông
Hằng số
Hệ số góc
Hệ số sai
lệch/phần dư
Biến phụ thuộc
Biến độc lập
Sai lệch ngẩu nhiên
Các giả thuyết của hàm tương quan
Các sai lệch ngẩu nhiên hoàn toàn độc lập với nhau
về phương diện thống kê.
Các sai lệch ngẩu nhiên có phân phối chuẩn
Phân phối xác suất của các sai lệch ngẩu nhiên có
phương sai không đổi
Quan hệ giửa x và y là quan hệ tuyến tính
Hàm tương quan tuyến tính của đám
đông
(continued)
Sai lệch ngẩu
nhiên của biến xi
y
x
Giá trị quan sát
của y tương ứng
với x.
Giá trị dự đoán
của y ứng với x
εxββy 10
xi
Slope = β1
Hằng số = β0
εi
xbbyˆ 10i
Hàm tương quan ước lượng của mẩu
Hằng số ước
lượng của hàm
tương quan
Hệ số góc ước
lượng
Giá trị ước
lượng/dự đoán
Biến độc lập
Sai lệch ngẩu nhiên có giá trị trung bình bằng 0
Tiêu chuẩn bình phương bé nhất (Least
Squares Criterion)
b0 và b1 được tính toán theo tiêu chuẩn tổng bình
phương bé nhất của phần dư (residuals)
2
10
22
x))b(b(y
)yˆ(ye
Hệ số của hàm tương quan theo tiêu
chuẩn tổng bình phương bé nhất
Công thức tính b1 và b0:
Hoặc:
n
x
x
n
yx
xy
b
2
2
1
)(
21 )(
))((
xx
yyxx
b
xbyb 10
và
b0 là giá trị trung bình của y khi x nhận giá
trị bằng 0
b1 là sự thay đổi theo ước lượng của giá trị
trung bình của y mổi khi x thay đổi một đơn
vị.
Yù nghĩa của hệ số góc và hằng số
của hàm tương quan
Ví dụ về hàm tươg quan giản đơn
Một nhà buôn bất động sản tiến hành khảo sát mối
quan hệ giửa giá bán căn hộ và diện tích căn hộ (đo
lường bằng m2.
Một mẩu gồm 10 căn hộ được chọn ra
Biến phụ thuộc (y): Giá bán căn hộ (1000USD)
Biến độc lập (x): Diện tích
Giá trị các quan sát
Giaù baùn ($1000)
(y)
Dieän tích
(x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Sử dụng excel để xây dựng hàm tương
quan
Tools / Data Analysis / Regression
Kết quả phân tích trên Excel
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
The regression equation is:
feet) (square 0.10977 98.24833 price house
050
100
150
200
250
300
350
400
450
0 500 1000 1500 2000 2500 3000
Square Feet
H
o
u
s
e
P
ri
c
e
(
$
1
0
0
0
s
)
Graphical Presentation
House price model: scatter plot and
regression line
meter) (square 0.10977 98.24833 price house
Slope
= 0.10977
Intercept
= 98.248
Giải thích ý nghĩa của hằng số b0
b0 là giá trị trung bình ước lượng của giá nhà khi giá
trị x (số m2) bằng 0.
Trong trường hợp nầy, không có giá tri x nào nhận
giá trị 0, cho nên b0 = 98.24833 thể hiện giá nhà
không được giải thích bởi số lượng met vuông.
meter) square*0.10977 98.24833 price house
Giải thích ý nghĩa của hệ số góc b1
Trong trường hợp nầy b1 = .10977 chỉ ra
rằng giá trung bình của can hộ sẽ gia tăng
0.10977 đơn vị ($1000) khi số met vuông
tăng 1 đơn vị
feet) (square 0.10977 98.24833 price house
Các đặc trưng của hàm tưoơng quan
theo phương pháp bình phương bé
nhất
Tổng giá trị của phần dư (residual) phải bằng 0.
Tổng bình phương của phần dư phải cực tiểu
Đường thể hiện hàm tương quan phải đi qua diểm thể hiện
giá trị trung bình của x và y.
Hệ số của hàm tương quan phải ước lượng không chệch
cho β0 và β1
0)ˆ( yy
2)ˆ( yy
Biến thiên giải thích được và không giải
thích được
Tổng biến thiên bao gồm hai bộ phận
RSS ESS TSS
Tổng biến
thiên
Tổng biến thiên
của sai
lệch/phần dư
Tổng biến thiên
có thể giải thích
2)( yyTSS 2)ˆ( yyESS 2)ˆ( yyRSS
(continued)
Xi
y
x
yi
TSS = (yi - y)2
ESS = (yi - yi )2
RSS = (yi - y)2
__
_
Biến thiên giải thích được và không giải
thích được
y
y
y
_y
Hệ số xác định thể hiện tỷ trọng của tổng biến thiên
của biến phụ thuộc có thể giải thích được bởi biến
thiên của biến độc lập.
Hệ số xác định được gọi là R bình phương (R2)
Hệ số xác định R2 (coefficient of
determination)
TSS
ESS
R 2 1R0
2 where
Hệ số xác định R2
(continued)
Chú ý: Trong trường hợp của hàm tương quan 1 biến , hệ số xác định
nầy bằng bình phương của hệ số tương quan
22 rR
R2 = +1
Ví dụ về các tình huống đặc biệt của
R2
y
x
y
x
R2 = 1
R2 = 1
Quan hệ tuyến tính hoàn hão
giửa x và y : 100% tổng biến
thiên của y được giải thích
bằng biến thiên của x.
Ví dụ về các tình huống đặc biệt của
R2
y
x
y
x
0 < R2 < 1
Mối quan hệ tuyến tính yếu:
Một bộ phận biến thiên của y
được giải thích bằng biến
thiên của x
Ví dụ về các tình huống đặc biệt của
R2
R2 = 0
Không có mối quan hệ tuyến
tính giửa x và y
y
xR2 = 0
Kết quả trên Excel
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
58.08% of the variation in
house prices is explained by
variation in square feet
0.58082
32600.5000
18934.9348
TSS
ESS
R2
Độ lệch tiêu chuẩn của ước lượng
Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc
xoay quanh đường tương quan được ước lượng bởi
côg thức
1
kn
RSS
s
Các ký hiệu
RSS = Tổng biến thiên của các sai lệch (phần dư)
n = Cở mẩu
k = Số lượng các biến độc lập
Độ lệch chuẩn của hệ số góc của
hàm tương quan
Độ lệch chuẩn của hệ số góc của hàm tương quan
(b1) được tính theo công thức sau:
n
x)(
x
s
)x(x
s
s
2
2
ε
2
ε
b1
where:
= sai lệch tiêu chuẩn của hệ số góc của hàm tương quan
= Sai lệch chuẩn của ước lượng
1b
s
2n
RSS
sε
Kết quả trên Excel
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
41.33032sε
0.03297s
1b
So sánh sai lệch chuẩn của ước lượng
và của hệ số góc của hàm tương quan
y
y y
x
x
x
y
x
1b
s small
1b
s large
s small
s large
Biến thiên của giá trị quan sát y
khỏi đường tương quan
Biến thiên của hệ số góc của đường
tương quan từ các mẩu khác nhau
Kiểm định t cho hệ số góc với hàm
tương quan một biến
Kiểm định t
Có mối quan hệ tuyến tính giửa x và y hay không?
Thiết lập giả thuyết
H0: β1 = 0
H1: β1 0
Test statistic
1b
11
s
βb
t
2nd.f.
House Price
in $1000s
(y)
Square meter
(x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
(m2) 0.1098 98.25 price house
Estimated Regression Equation:
Inference about the Slope:
t Test
(continued)
Kiểm định t cho hệ số góc
H0: β1 = 0
HA: β1 0
Test Statistic: t = 3.329
Có đủ bằng chứng cho thấy
diện tích căn hộ tác động đến
giá bán. affects house price
From Excel output:
Reject H0
Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039
1b
s tb1
Decision: Từ chối Ho
Kết luận
Reject H0Reject H0
a/2=.025
-tα/2
Do not reject H0
0
tα/2
a/2=.025
-2.3060 2.3060 3.329
d.f. = 10-2 = 8
Phân tích mô tả với hàm tương quan
Khoảng ước lượng của hệ số góc
Excel Printout for House Prices:
At 95% level of confidence, the confidence interval for
the slope is (0.0337, 0.1858)
1b/21
stb a
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
d.f. = n - 2
Phân tích mô tả với hàm tương quan
Since the units of the house price variable is
$1000s, we are 95% confident that the average
impact on sales price is between $33.70 and
$185.80 per square meter of house size
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
This 95% confidence interval does not include 0.
Conclusion: There is a significant relationship between
house price and square feet at the .05 level of significance
Residual Analysis
Purposes
Examine for linearity assumption
Examine for constant variance for all
levels of x
Evaluate normal distribution assumption
Graphical Analysis of Residuals
Can plot residuals vs. x
Can create histogram of residuals to
check for normality
Residual Analysis for Linearity
Not Linear Linear
x
re
si
d
ua
ls
x
y
x
y
x
re
si
d
ua
ls
Residual Analysis for
Constant Variance
Non-constant variance Constant variance
x x
y
x x
y
re
si
d
ua
ls
re
si
d
ua
ls
Các file đính kèm theo tài liệu này:
- simple_regression_5778.pdf