Tác dụng của việc sử dụng R2 đã điều chỉnh
•Trừng phạt việc đưa quá nhiều biến không cần
thiết vào mô hình
•Hữu dụng trong việc so sánh mô hình
Thường giá trị của nó nhỏ hơn R2
81 trang |
Chia sẻ: lylyngoc | Lượt xem: 5316 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Chương 4: Xữ lý dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 4: Xữ lý dữ liệu
I. Các đại lượng đo lường sự phân tán
II. Ước lượng thông số đám đông từ mẫu
III.Một số phép kiểm định cơ bản
IV.Kiểm định phi tham số: Chi-square
V. Phân tích nhân tố (factor analysis)
VI.Phân tích tương quan (Regression
analysis)
Sử dụng các công cụ thống kê trong phân tích
Mục tiêu và kiểu của các câu hỏi nghiên cứu
Mục tiêu chung
Mục tiêu cụ thể
Kiểu câu hỏi/ giả thiết
Kiểu thống kê
Khác biệt Liên quan Mô tả
Mức độ liên
quan, các biến
liên quan
So sánh
nhóm
Tóm lược
dữ liệu
Quan hệ giữa các biến Mô tả
Thống kê khác biệt
(v.d. t-test, ANOVA)
Thống kê liên
quan
(v.d. tương
quan, hồi quy)
Thống kê mô
tả (v.d. trung
bình, tỷ lệ)
I. Các đại lượng đo lường độ phân tán
N
i
NXi
1
/
n
i
i nXX
1
)/(
• Đám đông • Mẩu• Thông số
• 1.Trung
bình
N
i
NXi
1
22 /)( )1/()(
1
22
n
i
nXXis
2 2
2 2ss
),( 2NXi ),(
2
X
i NX
• 2. Phương
sai
• 3. Độ lệch
tiêu chuẩn
• 4. Hàm
phân phối
I. Các đại lượng đo lường độ phân tán
• Thông số • Đám đông Mẩu
PsPp
N
PP pp
Pp
)1(2
n
PP ss
Ps
)1(2
2
2
pp pp
2 2
ss pp
• 5. Tỷ lệ
• 6. Phương sai
• 7. Độ lệch
• tiêu chuẩn
Phân phối chuẩn một đơn vị
Đo lường dạng hình của phân phối (Measures
of Shape)
• Độ lệch (skewness) đo lường độ lệch của phân phối về một
trong hai phía.
• Phân phối lệch trái (negative skew, left-skewed) khi đuôi phía
trái dài hơn, và phần lớn số liệu tập trung ở phía phải của
phân phối.
• Phân phối lệch phải (positive sknew, right-skewed) khi đuôi
phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái
của phân phối.
• Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị
skewness âm. Độ càng lớn thì giá trị sknewness càng lớn
hơn 0.
• Với phân phối chuẩn, độ lệch gần như nhận giá trị 0
Đo lường dạng hình của phân phối (Measures
of Shape)
Đo lường dạng hình của phân phối (Measures
of Shape)
• Độ nhọn (kurtosis)
– Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân
phối so với phân phối bình thường (có độ nhọn bằng 0).
Phân phối có dạng nhọn khi giá trị kurtosis dương và có
dạng bẹt khi giá trị kurtosis âm.
– Với phân phối bình thường, giá trị của độ lệch và độ nhọn
bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis
và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình
thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2,
phân phối là không bình thường).
II. Ước lượng thông số đám đông
μ
Đám đông
S S
Pp
X
Ps
II. Ước lượng thông số đám đông
II.1.1 Ước lượng trung
bình đám đông
– Chuyển phân phối chuẩn
tổng quát trở về phân
phối chuẩn một đơn vị
với biến ngẩu nhiên
– Tìm xác xuất P sao cho:
– Đối với phân phối chuẩn
một đơn vị, ta có
X
X
Z
)1()( bZaP
)1()( 2/2/ ZZZP
30n
II. Ước lượng thông số đám đông
Như vậy, chúng ta sẽ có :
Hay:
Suy ra:
Ở đây, ta có:
2/2/ ZZZ
2/2/
Z
X
Z
X
XX
ZXZX .. 22
2
2
2
2 2
nnXX
II. Ước lượng thông số đám đông
II.1.2 Ước lượng trung
bình đám đông
– Chuyển phân phối chuẩn
tổng quát trở về phân
phối t
– Tìm xác xuất P sao cho:
– Đối với phân phối t
(phân phối student), ta có
X
X
t
)1()( btaP
)1(),( )1(,2/)1(2/ nn tttP
n<30
II. Ước lượng thông số đám đông
Như vậy, chúng ta sẽ có :
Hay:
Suy ra:
Ở đây, ta có:
)1(,2/)1(2/ , nn ttt
)1(2/)1(2/ ,,
n
X
n t
X
t
XnXn
tXtX .,., )1(2)1(2
2
2
2
2 2
nnXX
II. Ước lượng thông số đám đông
SP
ps PPZ
II.2.1 Ước lượng tỷ lệ đám đông(Khi n lớn hơn hoặc bằng 30
phần tử)
– Chuyển phân phối
tổng quát về phân
phối chuẩn
– Tỷ lệ đám đông sẽ
nằm trong khoảng
SS PspPs
ZPPZP .. 22
II. Ước lượng thông số đám đông
SP
ps PPt
II.2.1 Ước lượng tỷ lệ đám đông(Khi n nhỏhơn 30 phần tử)
– Chuyển phân phối
tổng quát về phân
phối student (t)
– Tỷ lệ đám đông sẽ
nằm trong khoảng
Ss PnspPns
tPPtP .., )1(,2)1(2
III. Một số phép kiểm định giả thuyết
III.1 Kiểm định trung bình và tỷ lệ đám đông
Mục đích
Phát hiện xem các giá trị trung bình/tỷ lệ của đám đông có sự
thay đổi hay không
Phương pháp tiến hành
– Lấy mẩu từ đám đông sau đó tính trung bình hoặc tỷ lệ mẩu
– Sử dụng trung bình hoặc tỷ lệ mẩu để kiểm định có sự thay
đổi về trung bình và tỷ lệ đám đông hay không
Các kỹ thuật kiểm định cơ bản
Các kỹ thuật kiểm định dùng theo loại dữ liệu và trắc nghiệm
Thang đo One-sample
Case
Two-Samples Tests k-Samples Tests
Related
Samples
Independent
Samples
Related
Samples
Independent
Samples
Nominal - Binomial
- χ2 one-sample
test
- McNemar - Fisher exact
test
- χ2 two-
sample test
- Cochran Q - χ2 for k-
samples
Ordinal - Kolmogorov-
Smirnov one-
sample test
- Runs test
- Sign test
- Wilcoxon
matched-pairs
test
-Median test
Mann-
Whitney U
- Kolmogorov-
Smirnov
Wald-
Wolfowitz
-Friedman
two-way
ANOVA
- Median
extension
- Kruskal-
Wallis one-
way ANOVA
Interval and Ratio - T-test
- Z test
- T-test for
paired
samples
- T-test
- Z test
- Repeated-
measured
ANOVA
- One-way
ANOVA
- N-way
ANOVA
Sai lầm trong kiểm định
Quyết định Bản chất của giả thuyết Ho
Đúng Sai
Chấp nhận H0 Quyết định
đúng
Sai lầm loại II
(Beta)
Từ chối H0 Sai lầm loại I
(alpha)
Quyết định
đúng
Giá trị xác suất (p Values)
• Giá trị p value được so sánh với mức ý nghĩa
(significant level - α), và dựa trên kết quả này để
bác bỏ hay không bác bỏ giả thiết.
• Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả
thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0).
• Nếu giá trị p value bằng hoặc lớn hơn mức ý
nghĩa, không bác bỏ giả thiết Ho (p value > α,
không bác bỏ giả thiết H0).
Kiểm định ý nghĩa: các kiểu kiểm định
• Có hai loại: parametric (tham số) và
nonparametric (phi tham số).
– Parametric tests là công cụ mạnh vì xử lý các
dữ liệu dạng scale (interval, ratio).
– Nonparametric tests là công cụ xử lý các dữ
liệu dạng nominal và ordinal.
Kiểm định ý nghĩa: các kiểu kiểm định
• Parametric tests đòi hỏi một số giả định:
– Các quan sát phải độc lập với nhau.
– Các quan sát phải được rút ra từ các đám
đông có phân phối chuẩn.
– Các nhóm trong đám đông phải có phương
sai tương đương.
– Thang đo phải ở dạng scale để các tính toán
có thể thực hiện được.
Kiểm định ý nghĩa: các kiểu kiểm định
• Nonparametric tests ít đòi hỏi các giả định:
– Không đòi hỏi các quan sát phải được rút ra từ các
đám đông có phân phối chuẩn.
– Không đòi hỏi các nhóm phải có phương sai tương
đương.
– Là cách duy nhất để xử lý dữ liệu danh xưng
(nominal).
– Là cách đúng đắn để xử lý dữ liệu với thang đo thứ
tự (ordinal), mặc dù parametric có thể áp dụng được.
– Dễ hiểu và dễ sử dụng.
III.1 Kiểm định trung bình và tỷ lệ đám đông
oH :0
oH :1
X
tt
X
Z
Trình tự
X
tt
X
t
– Bước 1: Thiết lập giả thuyết
– Bước 2: Chọn alpha
– Bước 3: Xác định phép kiểm
định (Z hoặc t) trong trường
hợp kiểm định trung bình
III.1 Kiểm định trung bình và tỷ lệ đám đông
Trong trường hợp kiểm
định tỷ lệ đám đông,
chúng ta sẽ xác định Ztt
hoặc ttt như sau
Sp
ps
tt
PP
Z
SP
ps
tt
PP
t
III.1 Kiểm định trung bình và tỷ lệ đám đông
Bước 4: xác định giá trị
Z tthoặc ttt có nằm trong vùng
chấp nhận hay không
Chấp nhận H0 nếu
Từ chối H0, chấp nhận H1, nếu
Tương tự trong trường hợp kiểm định
t, ta chấp nhận Ho nếu
Từ chối Ho và chấp nhận H1 nếu
],[ 22/ ZZZtt
],[ 22/ ZZZtt
],[ )1(,2)1(,2/ nntt ttt
],[ )1(,2)1(,2/ nntt ttt
Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1. One-Sample T Test
Analyze Compare Means One-Sample T Test
Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1. One-Sample T Test
Analyze Compare Means One-Sample T Test
III.2 Kiểm định sự khác biệt giửa hai trung bình,
tỷ lệ
III.2.1 Kiểm định sự khác biệt giửa hai trung bình/tỷ lệ
Trường hợp áp dụng:
– Khi đám đông được phân ra thành 2 hay nhiều nhóm
– Chúng ta muốn xác định các trung bình/tỷ lệ đám đông có
khác biệt hay không
– Dựa vào mẩu chúng ta sẽ tìm được hai trung bình/tỷ lệ và
sử dụng chúng để kiểm định cho trung bình/tỷ lệ đám đông
III.2 Kiểm định sự khác biệt giửa hai trung bình,
tỷ lệ
Quy trình: tương tự như kiểm
định trung bình/tỷ lệ
Bước 1: Xác định giả thuyết
Bước 2: Chọn alpha
Bước 3: Xác định Ztt hoặc ttt
(kiểm định 2 trung bình)
)(:
)(:
21211
2121
pp
ppo
PPH
PPH
)
11
)((
)(
212
2
22
1
2
1
21
2
2
2
2
1
2
1
21
nnnn
XX
t
nn
XX
Z
tt
tt
III.2 Kiểm định sự khác biệt giửa hai trung bình,
tỷ lệ
Nếu kiểm định sự khác biệt giửa hai tỷ lệ chúng ta sẽ
xác định giá trị Ztt theo cách sau
21
2211
2
21
21
..
)
11
)(1(
nn
nPnP
p
nn
pp
PP
Z
ss
ss
tt
III.2 Kiểm định sự khác biệt giửa hai trung bình,
tỷ lệ
• Bước 4: Khẳng định hay
bác bỏ giả thuyết
• Chấp nhận Ho nếu
• Từ chối Ho nếu
],[ 22/ ZZZtt
],[ 22/ ZZZtt
Ví dụ
• Ví dụ 3. Số liệu điều tra sử dụng xe máy
– Giả thiết Ho: tuổi trung bình của người sử
dụng xe máy nam và nữ là như nhau.
– Giả thuyết H1: Có sự khác biệt về độ tuổi sử
dụng
3. Two-Sample T Test
Ví dụ
3. Two-Sample T Test
Analyze Compare Means Independent-Samples T Test
Ví dụ
3. Two-Sample T Test
Ví dụ
3. Two-Sample T Test
Chọn biến Age cho ô
Test Variable(s)
Grouping Variable:
Group 1 = 1 (male);
Group 2 = 0 (female)
Ví dụ
3. Two-Sample T Test
P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều.
Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi
trung bình giữa người sử dụng xe máy là Nam và Nữ.
Independent Samples Test
1.239 .268 -.315 98 .754 -.93 2.95 -6.77 4.92
-.321 91.785 .749 -.93 2.89 -6.66 4.81
Equal variances
assumed
Equal variances
not assumed
Age of motorbike user
F Sig.
Levene's Test for
Equality of Variances
t df Sig. (2-tailed)
Mean
Difference
Std. Error
Difference Lower Upper
95% Confidence
Interval of the
Difference
t-test for Equality of Means
III.3 Kiểm định sự khác biệt giửa nhiều trung
bình (ANOVA)
• Bước 1: Thiết lập giả thuyết
• Bước 2: Chọn alpha
Bước 3: Xác định giá trị Ftt
k
ko
H
H
......:
......:
211
21
2
1
2
1 1
( ) /( 1)
/( )
i
k
i
i
tt nk
ij i
i j
X X k
F
X X n k
III.3 Kiểm định sự khác biệt giửa nhiều trung
bình (ANOVA)
• Bước 4: So sánh giửa Ftt
với Ftc
• Nếu Ftt nhỏ hơn Ftc, chúng
ta chấp nhận Ho, nếu ngược
lại, chúng ta từ chối Ho
• K: số nhóm
• n: tổng số phần tử lấy ra từ k
mẩu, số phần tử của mỗi
mẩu là nj
)(,1, knktc FF
Ví dụ áp dụng: Anova
• Ví dụ 5. Số liệu điều tra sử dụng xe máy
• Giả thiết: Không có sự khác biệt giữa các người sử
dụng xe máy ở các nhóm tuổi khác nhau về số ngày
sử dụng bình quân trong tháng.
5. One-Way ANOVA (Parametric Test)
Analyze Compare Means One-Way ANOVA…
Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)
Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)
ANOVA
Number of used days in a month
1428.944 5 285.789 6.737 .000
3987.806 94 42.423
5416.750 99
Between Groups
Within Groups
Total
Sum of
Squares df Mean Square F Sig.
P value < 0.05.
Kết luận: bác bỏ giả thiết;
Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các
nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng
IV. Phân tích nhân tố (factor analysis)
• Mục đích
– làm giảm biến
– dịch chuyển các yếu tố thành phần đo lường một
biến nầy sang biến khác
• Cách thức phân tích
– Vào analize
– Chọn data reduction
– Chọn factor analysis
IV. Phân tích nhân tố (factor analysis)
• Trình tự
– Đưa tất cả các yếu tố thành phần vào mục biến số
(variables)
– Nhấn vào mục descriptive trên hộp thoại để xác định
các tham số thống kê mô tả. Sau đó nhấn continue
– Nhấn vào mục Extraction chọn phương pháp phân
tích là “Principal components” và phần extract với
“eigenvalue” over 1
– Nhấn mục Rotation: Chọn phương pháp “varimax”
– Nhấn mục Score, chọn phương pháp “regression”
• Kết quả sẽ hiển thị trên phần mềm SPSS
IV. Phân tích nhân tố (factor analysis)
• Phân tích kết quả:
– Dựa vào biểu “Total Variance explained”: số nhân tố
rút ra phải có giá trị eigenvalue lớn hơn 1
– Biểu “Rotated component matrix” cho biết yếu tố
thành phần nào đo lường được nhân tố nào: những
yếu tố thành phần nào có hệ số tải nhân tố lớn trong
nhân tố nào thì nó sẽ đo lường nhân tố đó
– Hệ số tải nhân tố (factor loading) là hệ số tương quan
đơn giửa các yếu tố thành phần và các nhân tố
Phân tích độ tin cậy của thang đo
• Dùng hệ số cronbach alpha
– Các yếu tố thành phần sẽ đo lường được một
biến (nhân tố) nếu cronbach alpha lớn hơn
hoặc bằng:
• 0.6 (nghiên cứu khám phá)
• 0.7 (nghiên cứu giải thích)
• 0.8 (nghiên cứu thực nghiệm)
– Trên SPSS: vào scale, reliability
V. Hàm tương quan
• V.1 Hệ số tương quan và sơ đồ phân tán
• V.2 Hàm tương quan đơn biến
• V.3 Hàm tương quan đa biến
V.1 Sơ đồ phân tán và hệ số tương
quan
• Sơ đồ phân tán thể hiện mối quan hệ
giửa hai biến
– Phân tích hệ số tương quan dùng để đo
lường mối quan hệ đồng hành giửa hai
biến.
– Hệ số tương quan không thể hiện mối quan
hệ nhân quả.
V.1 Sơ đồ phân tán (scatter plot)
y
x
y
x
y
y
x
x
Quan hệ tuyến tính Quan hệ phi tuyến
V.1 Sơ đồ phân tán (scatter plot)
y
x
y
x
y
y
x
x
Strong relationships Weak relationships
(continued)
V.1 Sơ đồ phân tán (scatter plot)
y
x
y
x
X và y không có
quan hệ
(continued)
V.1 Hệ số tương quan
• Hệ số tương quan của đám đông ký hiệu
là ρ (rho) thể hiện sự đồng hành của hai
biến.
• Hệ số tương quan của mẩu r dùng ước
lượng cho rho và nó thể hiện tương quan
tuyến tính dựa trên các phần tử quan sát
được từ mẩu.
(continued)
V.1 Đặc điểm của ρ and r
• Không có đơn vị đo lường
• Biến động trong phạm vi -1 và1
– Càng gần -1, mối quan hệ nghịch biến càng cao
– Càng gần +1, mối quan hệ đồng biến càng cao
– Càng gần 0, mối quan hệ tuyến tính càng yếu
r = +.3 r = +1
V.1 Một số ví dụ về các giá trị của r
y
x
y
x
y
x
y
x
y
x
r = -1 r = -.6 r = 0
V.1 Cách tính hệ số tương quan
])yy(][)xx([
)yy)(xx(
r
22
Các ký hiệu:
r = Hệ số tương quan của mẩu
n = Cở mẩu
x = các giá trị của biến độc lập
y = Các giá trị của biến phụ thuộc
])y()y(n][)x()x(n[
yxxyn
r
2222
Cách tính tương đương
V.1 Kiểm định mức ý nghĩa của hệ
số tương quan
• Giả thuyết
H0: ρ = 0 (Không có quan hệ tương
quan)
HA: ρ ≠ 0 (Có quan hệ tương quan)
• Công thức tính
– (with n – 2 degrees of freedom)
2n
r1
r
t
2
V.2. Mô hình hồi quy tuyến tính giản
đơn
• Chỉ có một biến đôc lập: x
• Mối quan hệ giửa x và y là quan hệ
tuyến tính
• Sự thay đổi của y được giả định là do
sự thay đổi của x.
V.2.1 Các mô hình thể hiện mối
quan hệ
Quan hệ đồng biến
Quan hệ nghịch biến
Quan hệ phi tuyến
Khong có quan hệ
εxββy 10
Bộ phận dự đoán tương quan
V.2.2 Hàm tương quan của đám đông
Hằng số
Hệ số góc
Hệ số sai
lệch/phần dư
Biến phụ thuộc
Biến độc lập
Sai lệch ngẩu nhiên
V.2.2 Hàm tương quan tuyến tính của
đám đông
(continued)
Sai lệch ngẩu
nhiên của biến xi
y
x
Giá trị quan sát
của y tương ứng
với x.
Giá trị dự đoán
của y ứng với x
εxββy 10
xi
Slope = β1
Hằng số = β0
εi
xbbyˆ 10i
V.2.2 Hàm tương quan ước lượng của
mẩu
Hằng số ước
lượng của hàm
tương quan
Hệ số góc ước
lượng
Giá trị ước
lượng/dự đoán
Biến độc lập
Sai lệch ngẩu nhiên có giá trị trung bình bằng 0
Các giả thuyết của hàm tương quan
– Các sai lệch ngẩu nhiên hoàn toàn độc lập với
nhau về phương diện thống kê.
– Các sai lệch ngẩu nhiên có phân phối chuẩn
– Phân phối xác suất của các sai lệch ngẩu nhiên có
phương sai không đổi
– Quan hệ giửa x và y là quan hệ tuyến tính
Tiêu chuẩn bình phương bé nhất (Least
Squares Criterion)
• b0 và b1 được tính toán theo tiêu chuẩn
tổng bình phương bé nhất của phần dư
(residuals)
2
10
22
x))b(b(y
)yˆ(ye
Hệ số của hàm tương quan theo tiêu
chuẩn tổng bình phương bé nhất
• Công thức tính b1 và b0:
Hoặc:
n
x
x
n
yx
xy
b
2
2
1
)(
21 )(
))((
xx
yyxx
b
xbyb 10
và
Các đặc trưng của hàm tưoơng
quan theo phương pháp bình
phương bé nhất
• Tổng giá trị của phần dư (residual) phải bằng 0.
• Tổng bình phương của phần dư phải cực tiểu
•
• Đường thể hiện hàm tương quan phải đi qua diểm
thể hiện giá trị trung bình của x và y.
• Hệ số của hàm tương quan phải ước lượng không
chệch cho β0 và β1
0)ˆ( yy
2)ˆ( yy
This image cannot currently be displayed.
V.2.3 Biến thiên giải thích được và không
giải thích được
• Tổng biến thiên bao gồm hai bộ phận
RSS ESS TSS
Tổng biến
thiên
Tổng biến thiên
của sai
lệch/phần dư
Tổng biến thiên
có thể giải thích
2)( yyTSS 2)ˆ( yyESS 2)ˆ( yyRSS
(continued)
Xi
y
x
yi
TSS = (yi - y)2
ESS = (yi - yi )2
RSS = (yi - y)2
__
_
V.2.3 Biến thiên giải thích được và không
giải thích được
y
y
y
_y
• Hệ số xác định thể hiện tỷ trọng của tổng
biến thiên của biến phụ thuộc có thể giải
thích được bởi biến thiên của biến độc lập.
• Hệ số xác định được gọi là R bình phương
(R2)
V.2.3 Hệ số xác định R2 (coefficient of
determination)
TSS
ESS
R 2 1R0
2 where
R2 = +1
V.2.3 Ví dụ về các tình huống đặc biệt của
R2
y
x
y
x
R2 = 1
R2 = 1
Quan hệ tuyến tính hoàn hão
giửa x và y : 100% tổng biến
thiên của y được giải thích
bằng biến thiên của x.
V.2.3 Ví dụ về các tình huống đặc biệt của
R2
y
x
y
x
0 < R2 < 1
Mối quan hệ tuyến tính yếu:
Một bộ phận biến thiên của y
được giải thích bằng biến
thiên của x
V2.3 Ví dụ về các tình huống đặc biệt của
R2
R2 = 0
Không có mối quan hệ tuyến
tính giửa x và y
y
xR2 = 0
V.2.4 Kiểm định giả thuyết
• SE (bi): sai lệc tiêu chuẩn
của hệ số bi
– Nếu t nhỏ hơn hoặc bằng ttc,
chúng ta sẽ chấp nhận giả
thuyết H0: ßi = 0
– Nếu t lớn hơn ttc, chúng ta sẽ
từ chối giả thuyết H0. Điều
nầy có nghĩa là biến xi có tác
động đến biến Y
11
1( )
b
t
SE b
•Dùng phép kiểm định t,
với t được tính như sau:
•Giả thuyết Ho: ßi = 0
• H1: ßi ≠ 0
Độ lệch chuẩn của hệ số góc của hàm tương
quan: SEbi
• Độ lệch chuẩn của hệ số góc của hàm tương
quan (b1) được tính theo công thức sau:
1
ε ε
b 2 2
2
s s
SE
(x x) ( x)
x
n
where:
= sai lệch tiêu chuẩn của hệ số góc của hàm tương quan
= Độ lệch chuẩn của ước lượng
1b
SE
2n
RSS
sε
Độ lệch chuẩn của ước lượng (Sε)
• Độ lệch tiêu chuẩn của biến thiên của biến
phụ thuộc xoay quanh đường tương quan
được ước lượng bởi côg thức
1
kn
RSS
s
Các ký hiệu
RSS = Tổng biến thiên của các sai lệch (phần dư)
n = Cở mẩu
k = Số lượng các biến độc lập (trong trường hợp hàm
một biến thì số biến độc lập là 1)
V.3 Mô hình của hàm tương quan đa
biến
εxβxβxββy kk22110
kk22110 xbxbxbbyˆ
Hàm tương quan
của đám đông
Y-intercept Population slopes Random Error
Estimated
(or predicted)
value of y
Estimated slope coefficients
Hàm tương quan ước lượng
Estimated
intercept
Hệ số xác định của hàm tương
quan đa biến
• Tỷ lệ % biến thiên của y có thể giải thích bởi
sự biến thiên đồng thời của tất cả các Xi
squares of sum Total
regression squares of Sum
TSS
ESS
R2
Hệ số xác định đã điều chỉnh (Adjusted
R2)
• R2 hầu như không bao giờ giảm khi chúng ta
thêm biến độc lập mới vào mô hình
– Gây khó khăn trong việc so sánh các mô hình
trước và sau khi thêm biến mới
• Tác đông thực khi thêm biến mới
– Chúng ta sẽ giãm bậc tự do khi có biến mới
thêm vào.
– Việc thêm biến mới có đũ năng lực giải
thích để bù đấp cho sự mất mát khi giãm
bậc tự do hay không?
• Thể hiện % tổng biến thiên của y có thể giải
thích đượcbởi tất cả các biến Xi đã được điều
chỉnh cho số biến sử dụng
(n = Cở mẩu, k = số lượng các biến độc lập)
Hệ số xác định đã điều chỉnh (Adjusted
R2)
(continued)
1kn
1n
)R1(1R 22A
Hệ số xác định đã điều chỉnh (Adjusted
R2)
Tác dụng của việc sử dụng R2 đã điều chỉnh
• Trừng phạt việc đưa quá nhiều biến không cần
thiết vào mô hình
• Hữu dụng trong việc so sánh mô hình
Thường giá trị của nó nhỏ hơn R2
Kiểm tra độ tin cậy của mô hình tương
quan
• Dùng kiểm định F: Thể hiện tất cả các biến
đôc lập có mối quan hệ tương quan tuyến tính
với biến phụ thuộc y hay không?
• Giả thuyết :
– H0: β1 = β2 = … = βk = 0 (không có quan hệ tuyến
tính)
– HA: Tối thiểu có βi ≠ 0 (Tối thiểu có một biến
có quan hệ tuyến tính với y)
Cách xác định giá trị F
• Giá trị F tính toán:
where F has (numerator) D1 = k and
(denominator) D2 = (n – k - 1)
degrees of freedom
(continued)
MRSS
MESS
kn
RSS
k
ESS
F
1
Kiểm định tương quan tuyến tính giửa xi và y
(kiểm định t)
)(biSE
ibi
t
•Giả thuyết kiểm định: ßi = 0
•Dùng phép kiểm định t, với t được
tính như sau:
•Nếu giá trị t nhỏ hơn hoặc
bằng P-value thì chúng ta bác
bỏ giả thuyết Ho
•Nếu giá trị t lớn hơn P-value
thì chúng ta chấp nhận Ho
Các file đính kèm theo tài liệu này:
- ppnc4_2683.pdf