Các phương pháp chọn mẫu trong điều tra
• Từmỗi đơn vịcủa giai đoạn chọn đầu tiên, danh
sách của các đơn vị chọn mẫu nhỏhơn lại được
chuẩn bị. (ví dụ, nếu đơn vịcủa giai đoạn 1 là thị
trấn, thì đơn vịcủa giai đoạn 2 có thểlà nhà hay
hộgia đình).
• Một mẫu của những đơn vị giai đoạn hai này lại
được chọn ngẫu nhiên từ những đơn vị được
chọn trong giai đoạn đầu tiên. Sau đó chúng được
nghiên cứu.
• Qui trình chọn mẫu này có thể bao gồm 3 giai
đoạn hay nhiều hơn.
27 trang |
Chia sẻ: lylyngoc | Lượt xem: 12602 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Các phương pháp chọn mẫu trong điều tra, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
1
TS. Phạm Việt Cường
Bộ môn Thống kê
Đại học Y tế Công Cộng
2
1. Giới thiệu chung về chọn mẫu
2. Mẫu ngẫu nhiên đơn
3. Mẫu ngẫu nhiên hệ thống
4. Mẫu phân tầng
5. Mẫu cụm
6. Tính Cỡ mẫu
3
• Điều tra trên mẫu là gì?
– các thông tin được thu thập từ một nhóm (mẫu) các
thực thể nằm trong một quần thể lớn hơn của các thực
thể đó.
• Tại sao các cuộc điều tra có chọn mẫu được sử dụng nhiều
(so với việc sử dụng toàn bộ toàn bộ quần thể hay tổng điều
tra dân số)
+ Tiết kiệm thời gian (ảnh hưởng lên tính thời sự của số
liệu, sự thay đổi của thông tin thu thập theo thời gian)
+ Tiền bạc
+ Tăng độ xác thực??
2
4
• Nghiên cứu không thực nghiệm/nghiên cứu
quan sát
• Nghiên cứu cắt ngang.
• Điều tra mô tả: ước lượng/đo lường mức độ
của một tập hợp các biến trong một quần
thể xác định
‒ 1. ước lượng thông số quần thể
‒ 2. Thử nghiệm/ kiểm định giả thuyết (mục tiêu thứ cấp).
Điều tra mẫu
5
Ưu điểm
• Chọn mẫu làm giảm nhu
cầu về nguồn lực
• Đạt được kết quả một
cách nhanh chóng hơn
• Thông qua việc chọn
mẫu có thể thu thập
được các số liệu chính
xác hơn
Nhược điểm
• Luôn có sai số chọn mẫu
• Việc chọn mẫu có thể
tạo ra cảm giác “bị phân
biệt” trong quần thể
• Đối với những sự kiện ít
xảy ra, những mẫu nhỏ
có thể không xác định
được đầy đủ những
trường hợp/sự kiện
quan tâm bệnh cho NC
6
• Tổng các lỗi do điều tra = Lỗi (sai số)do chon
mẫu (sampling error)+ Lỗi (sai số)không do
chọn mẫu (non-sampling error)
• Tổng điều tra : không có lỗi (sai số)do chọn
mẫu, nhưng lỗi không do chọn mẫu tương đối
cao
• Điều tra : có một số lỗi (sai số)do chọn mẫu
(nhưng kiểm soát được), nhưng có ít các lỗi
(sai số) không do chọn mẫu.
3
7
• Quần thể (population) – tổng các phần tử trong
nghiên cứu
• hay Quần thể đích (target population) – là một
quần thể lý tưởng cho việc đáp ứng các mục tiêu
của cuộc điều tra.
• Phần tử (element)– một đơn vị phân tích của cuộc
điều tra
• Đơn vị liệt kê (listing units): khi không chọn phần tử
• Đại diện – không sai chệch (unbiased)
8
• Thông số mẫu hay thống kê mẫu (sample statistic): các con
số, chỉ số thống kê được tính từ mẫu dùng để ước lượng
giá trị thực/thông số quần thể
• Tham số quần thể (population parameter)
• Khung mẫu: Danh sách quần thể nghiên cứu (đơn vị chọn
mẫu, đơn vị phân tích) mà mẫu được chọn
• Đơn vị chọn mẫu
• Chọn mẫu nhiều giai đoạn
– đơn vị chọn mẫu đầu tiên (primary sampling unit)
– đơn vị chọn mẫu thứ hai (secondary sampling unit)
– đơn vị chọn mẫu cuối cùng (ultimate)-đơn vị liệt kê (listing units)
– Đơn vị chọn mẫu cuối cùng có thể không phải là phần tử. Ví dụ hộ
gia đình chứ không phải trẻ (<5 tuổi) hoặc phụ nữ (15-49)
9
• Chọn mẫu xác xuất:
– Mẫu ngẫu nhiên đơn - Simple Random Sampling
– Mẫu ngẫu nhiên hệ thống - Systematic Sampling
– Mẫu phân tầng - Stratified Sampling
– Mẫu cụm - Clustered Sampling
• Chọn mẫu không xác xuất
– Mẫu chỉ tiêu - Quota sampling
– Mẫu chủ định - Purposive or judgement sampling
– Mẫu thuận tiện - Hapharzad or convinient sampling
– Mẫu theo sự giới thiệu của đối tượng (Snowball sampling, Respondent
driven)
4
10
• Tất cả các cá thể (nhân tố/phần tử) trong quần thể đều có cơ hội/
xác suất được chọn lựa.
• Cơ hội không nhất thiết là phải giống nhau.
• Cần thiết phải có một khung mẫu cụ thể của các cá thể hay từ cụm
các cá thể, mà từ đó mẫu được chọn ra.
• Mẫu xác xuất là mẫu đại diện của quần thể lớn cho phép tăng
cường tính giá trị ngoại suy của nghiên cứu thông qua các tính toán
Thống kê
• Sử dụng mẫu xác suất khi ta muốn tăng cường tính giá trị ngoại suy
của nghiên cứu.
• Cần các thông tin có tính giá trị cao từ điều tra, nhất là khi ra các
quyết định liên quan đến các vấn đề đang tranh luận.
11
• Mẫu đại diện của quần thể (representative
of population): hiểu theo nhiều nghĩa
– Không có sai chệch (unbiased)
– Tính xác thực (accuracy: tính giá trị và độ tin cậy) cao của
đại lượng thống kê mẫu (sample statistic)
• Cách làm tăng tính đại diện:
– Cố gắng đảm bảo tất cả các cá thể (nhân tố/
phần tử) trong quần thể đều có cơ hội/xác suất
được chọn lựa như nhau.
– Tăng cỡ mẫu (tăng độ chính xác: precision)
12
1. Các trường hợp trong mẫu được chọn từ quần
thể nào?
2. Phương pháp nào dùng để chọn các trường hợp
mẫu từ quần thể trên?
3. Các trường hợp mẫu được nghiên cứu có đại
diện cho quần thể mà mẫu được chọn từ đó
không?
4. Các phát hiện từ mẫu này có có thể suy ra cho
các quần thể lớn hơn quần thể mà từ đó mẫu
được chọn hay không?
5
13
– Đại diện (representative or unbiased).
– Có thể đo lường được xác suất chọn
– Kích thước mẫu
– Tính bao phủ
– Có định hướng mục đích
– Khả thi
– Tiết kiệm và chi phí hiệu quả (cost
efficiency)
14
Simple Random Sampling
15
• Tất cả các mẫu có cùng kích thước đều có cơ hội được
chọn như nhau.
• Tất cả các đơn vị mẫu trong khung mẫu đều có cơ hội
được chọn như nhau
• Chọn lựa ngẫu nhiên từ khung mẫu có thể thực hiện được
thông qua
– bắt thăm (lottery method),
– sử dụng bảng số ngẫu nhiên, hoặc sử dụng máy vi tính.
• Phương pháp đơn giản nhưng it khi được sử dụng
đơn độc trong các cuộc điều tra lớn. (Khung mẫu?)
• Quan trọng vì làm nền tảng cho các PP chọn mẫu khác
dựa vào
6
16
• Trong một quần thể có N phần tử thì sẽ có “A” khả năng có được
những mẫu có kích thước n
• A = N!/n!(N-n)!
• Ví dụ: với N = 25, n = 5 ta có A = 25!/(5!)(25-5)! = 53.130 mẫu với n
= 5.
• Vậy chọn mẫu ngẫu nhiên đơn kích thước n từ một quần thể N, là
chọn mẫu trong đó mỗi mẫu của “A” mẫu có một xác suất chọn
tương tự như nhau và là 1/ “A”.
• Từng phần tử mẫu n trong bất cứ mẫu nào cho trước cũng có xác
suất chọn ngang nhau và bằng n/N.
17
• Thông qua bắt thăm (lottery method)
– Số của các cá thể được viết vào “thăm”
– Cho vào hộp trộn kỹ và chọn đủ số mẫu cần thiết
– Giả thuyết: Tất cả các “thăm” đều được trộn một cách kỹ càng
• Ví dụ bốc thăm tại chọn mẫu điều tra nền Chí Linh.
– Cỡ cụm trong tự nhiên (thôn, xóm, làng, tổ, đội) lớn hơn kích
thước cụm (Ví dụ 25 hộ so với 130)
– Chia mảng của thôn với kích thước mỗi mảng tương đương với
25 HH
– Chọn ngẫu nhiên một mảng trong thôn theo cách bốc thăm.
18
• Sử dụng bảng số ngẫu nhiên
– Qui ước cách sử dụng chọn số theo bảng số. Ví dụ bắt
đầu từ 4 cột số ở góc trên bên trái và đi từ trên xuống
dưới và khi hết lại bắt đầu từ 4 cột số liên tục bên
phải.,vv.
– Chọn (tập hợp) số có các chữ số nằm trong khoảng
giá trị của quần thể. Ví dụ trong khoảng 0001-1917.
(tài liệu phát tay Kalton)
– Dừng lại khi chọn đủ số cá thể của mẫu nghiên cứu.
(loại bỏ các số trùng lắp khi chọn từ bảng số ngẫu
nhiên)
7
19
Mẫu ngẫu nhiên đơn
Ưu điểm
• Vì mọi đơn vị trong quần
thể có một cơ hội được
chọn vào mẫu như nhau,
mẫu được đảm bảo là đại
diện và chỉ bị ảnh hưởng
bởi sai số chọn mẫu
• Có thể tính toán những
ước lượng (estimates)
một cách dễ dàng
Nhược điểm
• Nếu khung mẫu lớn,
phương pháp này không
thực thi.
• Mẫu có thể chứa không
đủ các cá thể ở các nhóm
nhỏ trong quần thể mà
người nghiên cứu quan
tâm
20
Systematic Random Sampling
21
Mẫu ngẫu nhiên hệ thống
• Xác định khoảng cách mẫu k=N/n (làm tròn lên
và xuống)
• Sự lựa chọn của mọi đơn vị thứ k trong quần thể
hay khung mẫu,
• l/k là tỉ lệ chọn mẫu
• Đơn vị mẫu đầu tiên được chọn ngẫu nhiên từ k
đơn vị mẫu đầu tiên.
• Lưu ý
– Khi k được làm tròn lên
– Khi k được làm tròn xuống
8
22
Mẫu ngẫu nhiên hệ thống
Các cách chọn mẫu hệ thống
• Chọn mẫu sau khi xây dựng khung mẫu
• Chọn mẫu cùng lúc với xây dựng khung mẫu.
• Xác định số bắt đầu ngẫu nhiên
– trong khoảng cách mẫu k.
– ngoài khoảng cách mẫu k.
23
Mẫu ngẫu nhiên hệ thống
• N= 70, n = 10, khoảng cách mẫu k = 70/10 = 7
• Chọn ngẫu nhiên từ 1-7 một số, ví dụ 3.
– 1 2 3 4 5 6 7
• Chọn ra đơn vị thứ k đối với mỗi cá thể trong danh
sách mẫu bắt đầu từ số ngẫu nhiên được chọn
• Ví dụ: 3+7 = 10, 10+7 = 17
• Cá thể thứ 3, 10 và 17 được chọn vào mẫu
24
Mẫu ngẫu nhiên hệ thống
1 2 3* 4 5 6 7 8 9 10 11* 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70
n=6, k=11,6 = 12, số ngẫu nhiên được chọn là 11, số cá
thể thứ 6 được chọn vào mẫu là cá thể thứ 1 trong khung
mẫu
9
25
Mẫu ngẫu nhiên hệ thống
Ưu điểm
• Dễ chọn mẫu
• Có thể xác định khung
mẫu hợp lý một cách dễ
dàng
• Mẫu được dàn trải trong
toàn bộ quần thể tham
chiếu (reference
population)
Nhược điểm
• Có thể gây sai số nếu có
một sự thay đổi theo chu
kỳ xảy ra đồng thời với
chọn mẫu
26
1. Khung mẫu không hoàn chỉnh (thiếu đơn vị mẫu)
2. Các đơn vị mẫu cụm
3. Không có các đơn vị mẫu được chọn trong cuộc điều tra
4. Các đơn vị mẫu bị lặp lại trong khung
Cách giải quyết khi không có khung mẫu phù hợp trong thực tế:
– Sử dụng danh sách của các tập hợp phần tử (elements)
mẫu mà ta mong muốn chọn cho nghiên cứu sau đó lấy
mẫu của các đơn vị tập hợp này. Khung mẫu sau đó sẽ
được xây dụng bên trong các đơn vị được chọn và các
phần tử sẽ được chọn trong khung mẫu này.
– Ví dụ sử dụng danh sách hộ gia đình khi không có danh
sách của các cá thể
27
10
28
• Phụ thuộc vào nguồn lực (thời gian, nhân
lực, tài chính)
• Độ chính xác mong muốn
• Kỳ vọng của nhà nghiên cứu
29
• z : hệ số tin cậy
• p : tỷ lệ dự đoán từ các nghiên cứu trước hoặc 50%
• d : độ chính xác tuyệt đối + x đơn vị
Ví dụ: một nghiên cứu cắt ngang, để đánh
giá tỷ lệ thừa cân của trẻ 6-12 tuổi tại tỉnh X.
Tỷ lệ của một nghiên cứu khác là 15%.
Cần có tối thiểu 196 trẻ 6-12 tuổi để nghiên cứu
p=.15
z=1.96 ~ mức chính xác 95%
d=0.05 ~ độ chính xác +5%
30
• Tỷ lệ thấp
– Sử dụng công thức tính cỡ mẫu với độ chính xác tương đối
• Non-Response/không đáp ứng
– Cộng thêm một tỷ lệ nhất định để đảm bảo cỡ mẫu tối thiểu.
• “Tính ngược”
– Không nên
11
31
• Mẫu cho quần thể nhỏ (lớn hơn không đáng kể so với
mẫu)
• Mẫu cho quần thể không quá lớn so với mẫu (f>1/10)
• Mẫu cho quần thể lớn hơn rất nhiều (quần thể vô hạn)
(f<1/10)
• Ví dụ: dùng phần mềm tính cỡ mẫu với P và d, mức độ
tin cậy cố định và quần thể thay đổi
32
33
• Mẫu ngẫu nhiên đơn
• Mẫu ngẫu nhiên hệ thống
• Cách tính cỡ mẫu
• Câu hỏi??
12
34
35
• Quần thể được chia thành từng bộ phận
hoặc tầng độc lập và sau đó được gộp lại
để ước lượng tham số của quần thể
• Một tầng là một bộ phận của quần thể có ít
nhất một đặc điểm chung
• Ví dụ: nam và nữ, các nhóm tuổi
36
• Mẫu phân tầng làm giảm sai số chọn mẫu
• Mẫu phân tầng đảm bảo số lượng quan
sát trong từng tầng
• Ước lượng từ mẫu phân tầng sẽ chính xác
hơn từ mẫu ngẫu nhiên nếu:
– Có ựu tương đồng trong từng tầng
– Có sự biến thiên đủ lớn giữa các tầng
13
37
• Tổng số quần thể sẽ là với
là cỡ mẫu trong tầng l
• Trung bình chung sẽ là:
• Với là phân số mẫu của tầng thứ l
38
Chọn mẫu phân tầng yêu cầu 2 bước:
• Xác định các tầng thích hợp
• Sử dụng cách chọn ngẫu nhiên đơn/hệ
thống để chọn các đơn vị mẫu trong từng
tầng
Trong mỗi tầng, một mẫu ngẫu nhiên đơn
với kích cỡ là được chọn để ước lượng
trung bình trong tầng
39
Phương sai của mẫu phân tầng được tính tóan
Nếu phân số mẫu nhỏ thì phương sai sẽ là:
14
40
• Phân bố mẫu khác tỷ lệ (cùng cỡ mẫu
cho các tầng)
• Phân bố mẫu cùng tỷ lệ (xác xuất chọn)
n/N. Tự cân bằng
• Các tầng cùng cỡ mẫu tính theo mức độ
chính xác cho quần thể lớn (mỗi NC tiến
hành trên một tầng)
41
• Cỡ mẫu được chia thành từng phần tương
ứng với tỷ lệ của quần thể
• Chọn theo cách ngẫu nhiên đơn, hoặc
ngẫu nhiên hệ thống các đơn vị cần thiết
• Không cần gán trọng số cho tầng vì đây là
lọai đã phân bổ theo trọng số (seft-weight)
42
Khối lớp Số HS
10 678
11 600
12 560
Tổng 1838
Tỷ lệ
0,37
0,33
0,30
1
Mẫu
89
78
73
240
15
43
• Đảm bảo cỡ mẫu cần thiết cho mỗi tầng
• Chọn số lượng mẫu trong mỗi tầng là như
nhau
• Cần gán trọng số (weight) khi phân tích để
đảm bảo nguyên tắc tất cả các đối tượng
đều có cơ hội như nhau để được trọng vào
mẫu
44
Khối lớp Số HS
10 678
11 600
12 560
Tổng 1838
Tỷ lệ
0,37
0,33
0,30
1
Mẫu
80
80
80
240
45
Mẫu phân tầng
Ưu điểm
• Mọi đơn vị trong tầng đều có cơ
hội được chọn như nhau
• Tỉ lệ chọn mẫu giống nhau trong
tất cả các tầng đảm bảo tính đại
diện tương ứng của các đặc
điểm đã được phân tầng trong
mẫu.
• Đảm bảo tính đại diện của các
nhóm nhỏ cần nghiên cứu
Nhược điểm
• Khung mẫu của toàn quần thể phải
được xây dựng riêng biệt cho mỗi
tầng
• Thay đổi tỷ lệ chọn mẫu giữa các
tầng để đảm bảo đủ số lượng của
các nhóm nhỏ trong NC sẽ ảnh
hưởng đến tính đại diện tương
ứng của các nhóm nhỏ trong tổng
thể mẫu.
16
46
• Tính cỡ mẫu chung, sau đó phân bổ theo
tầng
– Ứớc lượng chung cho quần thể
– So sánh các tầng
• Tính riêng cho từng tầng
– Ước lượng cho từng tầng
– So sánh các tầng
47
48
• Quần thể được coi là tập hợp của nhiều nhóm
nhỏ:
– Phường/xã; trường/lớp học, hộ gia đình…
• Các cụm thường có một số đặc điểm chung
• Việc lập danh sách mẫu cho quần thể gặp nhiều
khó khăn (quần thể lớn)
17
49
Vùng 4
Vùng 5
Vùng 3
Vùng 2 Vùng 1
50
• Điểm mạnh
– Đơn giản vì không cần danh sách của các
đơn vị mẫu trong quần thể
– Không phải đi lại nhiều/đỡ tốn nguồn lực
• Điểm yếu
– Thiết chính xác nếu như các cụm tương
đồng nhau phương sai mẫu lớn hơn
phương sai quần thể.
– Khó khăn trong việc đo lường sai số mẫu
Đánh giá tỷ lệ tiêm vacxin:
• Không cần danh sách quần thể
• Toàn bộ các làng/xã
• Chọn ngẫu nhiên 30 cụm
• Mỗi cụm 7 trẻ: 30x7=210
18
52
Cần
– Bản đồ của
– Phân bố quần thể (theo làng hoặc địa bàn)
– Phân bố tuổi (12-23 tháng: 3%)
1600
220
3200
400
800
200
1200
200
1600
400
53000
7300
106000
13000
26500
6600
40000
6600
53000
13200
A
B
C
D
E
F
G
H
I
J
12-23 tháng Dân số Làng
53
Tại thực địa
Đi ra giữa làng, chọn một hướng ngẫu nhiên
Số lượng hộ theo hướng đó
VD: 21
Chọn hộ đầu tiên để vào
Chọn các hộ tiếp theo “nguyên tắc” cho đến khi đủ
7 trẻ
Chọn mẫu cụm đơn giản (1 giai đọan)
• Chỉ cần xác định những người sống trong
những cụm được lựa chọn (VD: một số
nhóm các hộ gia đình)
• Chọn số lượng cụm cần thiết
• Chọn toàn bộ số đối tượng trong cụm
54
19
55
Mỗi cụm trong 20 cụm dưới đây là một Hộ gia đình
với số lượng các thành viên trong hộ khác nhau
Các cụm để chọn mẫu
56
20 Hộ gia đình
1 2 3
4
5
6
7
8 9
10
11
12
13
14
15
16 17
18
19
20
Các cụm để chọn mẫu
57
Bảng số ngẫu nhiên để chọn mẫu cụm
Đi dọc xuống theo
danh sách và
chọn 2 số ngẫu
nhiên đầu tiên
giữa số 1 và tổng
số cụm
1
3
4
5
6
7
8
9
10
11
12
13
14
15 16
17
19
20
21
22
23
24
25
26
27
28
29
30
41
42
43 44
45
46
47
48
49
50
31 32
33
34
35
36
37 38
39
40
51
52
53
54
55
56
57
58 59
60
(A) (B) (C) (D) (E) (F)
18
2
20
58
Chọn ngẫu nhiên 2 cụm và xác định đối tượng nghiên
cứu
1 2 3
4
5
6
7
8 9
10
11
12
13
14
15
16 17
18
19
20
2
18
2 và 18 được chọn từ bảng số ngẫu nhiên
59
Chọn tất cả những người có trong các cụm
đã được lựa chọn
4 3 2 1
5
8
7
6
9
• Giai đoạn 1
• Chọn các cụm ở giai đoạn đầu tiên với xác
suất tương ứng với kích thước (PPS) và
chọn ở giai đoạn hai một số lượng như
nhau mỗi cụm, lựa chọn bằng phương
pháp chọn mẫu ngẫu nhiên đơn hoặc hệ
thống
60
21
61
Liệt kê danh sách các cụm để chọn ở giai đoạn 1
1 2 3
4
5
6
7
8 9
10
11
12
13
14
15
16 17
18
19
20
Giai đoạn 1
62
Chọn 2 cụm ở giai đoạn 1
Với xác xuất tương ứng với kích thước
1 2 3
4
5
6
7
8 9
10
11
12
13
14
15
16 17
18
19
20
63
Đếm người trong mỗi cụm được chọn
3 3 2 1 4
12
1 2
3 4 5
Cụm 3 và 12 là hai cụm được chọn
22
64
Lựa chọn hai người bằng SRS trong mỗi cụm được chọn
Cụm 3
1
3
5
6
7
8
9
10
11
12
13
14
15 16
17
18 19
20
21
22
23
24
25
26
27
28
29
30
41
42
43 44
45
46
47
48
49
50
31 32
33
34
35
36
37 38
39
40
51
52
53
54
55
56
57
58 59
60
(A) (B) (C) (D) (E) (F)
2
4
5
6
7
8
9
10
11
12
13
14
15 16
17
18 19
20
21
22
23
24
25
26
27
28
29
30
41
42
43 44
45
46
47
48
49
50
31 32
33
34
35
36
37 38
39
40
51
52
53
54
55
56
57
58 59
60
(A) (B) (C) (D) (E) (F)
2
4
3
1
Cụm 12
Chọn ngẫu nhiên 2 số trong
khoảng giá trị từ 1 đến 4
Chọn ngẫu nhiên 2 số trong
khoảng giá trị từ 1 đến 4
Giai đoạn 1
65
Hai người được chọn tại mỗi cụm ở giai đoạn 1
Ngẫu nhiên chọn
được 2 và 4
3 3 2 1 4
12
1 2
3 4 5
Ngẫu nhiên
chọn được 1
và 3
Giai đoạn 1
66
Chọn các cụm giai đoạn đầu với xác xuất tỉ lệ
với kích thước quần thể (PPS) và giai đoạn hai
với số lượng người như nhau ở mỗi cụm, lựa
chọn như chọn mẫu xác xuất với chỉ tiêu
Giai đoạn 2
23
67
Đếm số người trong mỗi cụm được chọn
Giai đoạn 2
3
12
3 2 1 4
1 2
3 4 5
Bắt đầu tương tự như trước:
• Sau đó liệt kê toàn bộ
những người trong mỗi
cụm được chọn
• Chọn cụm bằng phương
pháp PPS tại giai đoạn 1
68
Chọn người đầu tiên ngẫu nhiên bằng phương pháp SRS
trong mỗi cụm được chọn
Cụm 3
1
3
5
6
7
8
9
10
11
12
13
14
15 16
17
18 19
20
21
22
23
24
25
26
27
28
29
30
41
42
43 44
45
46
47
48
49
50
31 32
33
34
35
36
37 38
39
40
51
52
53
54
55
56
57
58 59
60
(A) (B) (C) (D) (E) (F)
2
4
Cụm 12
5
6
7
8
9
10
11
12
13
14
15 16
17
18 19
20
21
22
23
24
25
26
27
28
29
30
41
42
43 44
45
46
47
48
49
50
31 32
33
34
35
36
37 38
39
40
51
52
53
54
55
56
57
58 59
60
(A) (B) (C) (D) (E) (F)
2
3
1
4
Giai đoạn 2
Chọn một số ngẫu nhiên
trong khoảng từ 1 đến 4
Chọn một số ngẫu nhiên trong
khoảng từ 1 đến 4
69
Chọn ngẫu nhiên người đầu tiên trong mỗi cụm được
chọn
Giai đoạn 2
3 1 4
1 2
3 5
3
12
4
2
24
70
Để mọi người trong hộ gia đình tự sắp xếp và chọn người gần nhất
tiếp theo đến khi đủ số lượng (VD: 2 người trong một cụm)
Giai đoạn 2
3 1 4
1 2
3 5
3
12
4
2
71
• Giai đoạn 1
Chọn các cụm với xác xuất tương ứng
với kích thước
• Giai đoạn 2
Lựa chọn ngẫu nhiên người đầu tiên
Lựa chọn người gần nhất tiếp theo trong
cụm đến khi đủ số lượng
Chọn mẫu PPS tại giai đoạn đầu và chọn mẫu xác xuất
ở giai đoạn hai
72
• Xác định biến nghiên cứu chính
• Xác định dạng của ước lượng (%, TB, tỷ số,..)
• Xác định giá trị kỳ vọng của yếu tố đang quan tâm
• Quyết định mức chính xác
• Quyết định mức độ sai số
• Hiệu chỉnh cho hiệu quả thiết kế
• Hiệu chỉnh cho số lượng không đáp ứng
25
73
z: hệ số tin cậy
p: tỷ lệ dự đoán
q: 1 - p
d: độ chính xác tuyệt đối
de: hiệu quả thiết kế
z² * p * q 1.96²*0.15*0.85 n = -------------- ---------------------- = 544
d² 0.03²
Mẫu cụm
z² * p * q 2*1.96²*0.15*0.85 n = de* -------------- ------------------------ = 1088
d² 0.03²
Ngẫu nhiên đơn/ngẫu nhiên hệ thống
74
Phương sai quần thể
p(1-p) Var srs = ----------
n
Phương sai cụm
p= tỷ lệ quần thể
pi= tỷ lệ trong mỗi cụm
n= số lượng đơn vị mẫu
k= số cụm
Σ (pi-p)²
Var clus = -------------
k(k-1)
Design effect = ------------------
Var srs
Var clust
srs= ngẫu nhiên đơn
Tính toán DE cụ thể
Nếu không có, lấy DE=2
75
• Người nghiên cứu quyết định số cụm/số
đối tượng trong cụm
• Tăng số cụm nếu sự đồng nhất trong cụm
cao.
• Ví dụ: VMIS
– 24 tỉnh/8 vùng sinh thái
– 3 huyện một tỉnh tổng cộng 72 huyện
– PPS xã, mỗi xã chọn 90 hộ gia đình
26
76
77
• Việc chọn lựa được thực hiện theo các giai đoạn
cho tới khi chọn được đơn vị chọn mẫu cuối
cùng (ví dụ, các hộ gia đình hay con người) .
• Trong giai đoạn đầu tiên, danh sách các đơn vị
chọn mẫu kích thước lớn được chuẩn bị. (thị
trấn,làng xã hoặc trường học)
• Một mẫu của những nhóm trên được chọn một
cách ngẫu nhiên, với xác suất chọn tỉ lệ với kích
thước quần thể.
78
• Từ mỗi đơn vị của giai đoạn chọn đầu tiên, danh
sách của các đơn vị chọn mẫu nhỏ hơn lại được
chuẩn bị. (ví dụ, nếu đơn vị của giai đoạn 1 là thị
trấn, thì đơn vị của giai đoạn 2 có thể là nhà hay
hộ gia đình).
• Một mẫu của những đơn vị giai đoạn hai này lại
được chọn ngẫu nhiên từ những đơn vị được
chọn trong giai đoạn đầu tiên. Sau đó chúng được
nghiên cứu.
• Qui trình chọn mẫu này có thể bao gồm 3 giai
đoạn hay nhiều hơn.
27
79
Ưu điểm
• Giảm chi phí chuẩn
bị khung mẫu
Nhược điểm
• Sai số chọn mẫu tăng
lên so với chọn mẫu
ngẫu nhiên đơn (đối với
cùng kích thước mẫu)
80
Các file đính kèm theo tài liệu này:
- 05_survey_sampling_218.pdf