Các phương pháp chọn mẫu trong điều tra

•  Từmỗi đơn vịcủa giai đoạn chọn đầu tiên, danh sách của các đơn vị chọn mẫu nhỏhơn lại được chuẩn bị. (ví dụ, nếu đơn vịcủa giai đoạn 1 là thị trấn, thì đơn vịcủa giai đoạn 2 có thểlà nhà hay hộgia đình). •  Một mẫu của những đơn vị giai đoạn hai này lại được chọn ngẫu nhiên từ những đơn vị được chọn trong giai đoạn đầu tiên. Sau đó chúng được nghiên cứu. •  Qui trình chọn mẫu này có thể bao gồm 3 giai đoạn hay nhiều hơn.

27 trang | Chia sẻ: lylyngoc | Lượt xem: 12826 | Lượt tải: 5

Bạn đang xem trước 20 trang tài liệu Các phương pháp chọn mẫu trong điều tra, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1 1 TS. Phạm Việt Cường Bộ môn Thống kê Đại học Y tế Công Cộng 2 1.  Giới thiệu chung về chọn mẫu 2.  Mẫu ngẫu nhiên đơn 3.  Mẫu ngẫu nhiên hệ thống 4.  Mẫu phân tầng 5.  Mẫu cụm 6.  Tính Cỡ mẫu 3 •  Điều tra trên mẫu là gì? –  các thông tin được thu thập từ một nhóm (mẫu) các thực thể nằm trong một quần thể lớn hơn của các thực thể đó. •  Tại sao các cuộc điều tra có chọn mẫu được sử dụng nhiều (so với việc sử dụng toàn bộ toàn bộ quần thể hay tổng điều tra dân số) + Tiết kiệm thời gian (ảnh hưởng lên tính thời sự của số liệu, sự thay đổi của thông tin thu thập theo thời gian) + Tiền bạc + Tăng độ xác thực?? 2 4 •  Nghiên cứu không thực nghiệm/nghiên cứu quan sát •  Nghiên cứu cắt ngang. •  Điều tra mô tả: ước lượng/đo lường mức độ của một tập hợp các biến trong một quần thể xác định ‒  1. ước lượng thông số quần thể ‒  2. Thử nghiệm/ kiểm định giả thuyết (mục tiêu thứ cấp). Điều tra mẫu 5 Ưu điểm •  Chọn mẫu làm giảm nhu cầu về nguồn lực •  Đạt được kết quả một cách nhanh chóng hơn •  Thông qua việc chọn mẫu có thể thu thập được các số liệu chính xác hơn Nhược điểm •  Luôn có sai số chọn mẫu •  Việc chọn mẫu có thể tạo ra cảm giác “bị phân biệt” trong quần thể •  Đối với những sự kiện ít xảy ra, những mẫu nhỏ có thể không xác định được đầy đủ những trường hợp/sự kiện quan tâm bệnh cho NC 6 •  Tổng các lỗi do điều tra = Lỗi (sai số)do chon mẫu (sampling error)+ Lỗi (sai số)không do chọn mẫu (non-sampling error) •  Tổng điều tra : không có lỗi (sai số)do chọn mẫu, nhưng lỗi không do chọn mẫu tương đối cao •  Điều tra : có một số lỗi (sai số)do chọn mẫu (nhưng kiểm soát được), nhưng có ít các lỗi (sai số) không do chọn mẫu. 3 7 •  Quần thể (population) – tổng các phần tử trong nghiên cứu •  hay Quần thể đích (target population) – là một quần thể lý tưởng cho việc đáp ứng các mục tiêu của cuộc điều tra. •  Phần tử (element)– một đơn vị phân tích của cuộc điều tra •  Đơn vị liệt kê (listing units): khi không chọn phần tử •  Đại diện – không sai chệch (unbiased) 8 •  Thông số mẫu hay thống kê mẫu (sample statistic): các con số, chỉ số thống kê được tính từ mẫu dùng để ước lượng giá trị thực/thông số quần thể •  Tham số quần thể (population parameter) •  Khung mẫu: Danh sách quần thể nghiên cứu (đơn vị chọn mẫu, đơn vị phân tích) mà mẫu được chọn •  Đơn vị chọn mẫu •  Chọn mẫu nhiều giai đoạn –  đơn vị chọn mẫu đầu tiên (primary sampling unit) –  đơn vị chọn mẫu thứ hai (secondary sampling unit) –  đơn vị chọn mẫu cuối cùng (ultimate)-đơn vị liệt kê (listing units) –  Đơn vị chọn mẫu cuối cùng có thể không phải là phần tử. Ví dụ hộ gia đình chứ không phải trẻ (<5 tuổi) hoặc phụ nữ (15-49) 9 •  Chọn mẫu xác xuất: –  Mẫu ngẫu nhiên đơn - Simple Random Sampling –  Mẫu ngẫu nhiên hệ thống - Systematic Sampling –  Mẫu phân tầng - Stratified Sampling –  Mẫu cụm - Clustered Sampling •  Chọn mẫu không xác xuất –  Mẫu chỉ tiêu - Quota sampling –  Mẫu chủ định - Purposive or judgement sampling –  Mẫu thuận tiện - Hapharzad or convinient sampling –  Mẫu theo sự giới thiệu của đối tượng (Snowball sampling, Respondent driven) 4 10 •  Tất cả các cá thể (nhân tố/phần tử) trong quần thể đều có cơ hội/ xác suất được chọn lựa. •  Cơ hội không nhất thiết là phải giống nhau. •  Cần thiết phải có một khung mẫu cụ thể của các cá thể hay từ cụm các cá thể, mà từ đó mẫu được chọn ra. •  Mẫu xác xuất là mẫu đại diện của quần thể lớn cho phép tăng cường tính giá trị ngoại suy của nghiên cứu thông qua các tính toán Thống kê •  Sử dụng mẫu xác suất khi ta muốn tăng cường tính giá trị ngoại suy của nghiên cứu. •  Cần các thông tin có tính giá trị cao từ điều tra, nhất là khi ra các quyết định liên quan đến các vấn đề đang tranh luận. 11 •  Mẫu đại diện của quần thể (representative of population): hiểu theo nhiều nghĩa –  Không có sai chệch (unbiased) –  Tính xác thực (accuracy: tính giá trị và độ tin cậy) cao của đại lượng thống kê mẫu (sample statistic) •  Cách làm tăng tính đại diện: –  Cố gắng đảm bảo tất cả các cá thể (nhân tố/ phần tử) trong quần thể đều có cơ hội/xác suất được chọn lựa như nhau. –  Tăng cỡ mẫu (tăng độ chính xác: precision) 12 1.  Các trường hợp trong mẫu được chọn từ quần thể nào? 2.  Phương pháp nào dùng để chọn các trường hợp mẫu từ quần thể trên? 3.  Các trường hợp mẫu được nghiên cứu có đại diện cho quần thể mà mẫu được chọn từ đó không? 4.  Các phát hiện từ mẫu này có có thể suy ra cho các quần thể lớn hơn quần thể mà từ đó mẫu được chọn hay không? 5 13 – Đại diện (representative or unbiased). – Có thể đo lường được xác suất chọn – Kích thước mẫu – Tính bao phủ – Có định hướng mục đích – Khả thi – Tiết kiệm và chi phí hiệu quả (cost efficiency) 14 Simple Random Sampling 15 •  Tất cả các mẫu có cùng kích thước đều có cơ hội được chọn như nhau. •  Tất cả các đơn vị mẫu trong khung mẫu đều có cơ hội được chọn như nhau •  Chọn lựa ngẫu nhiên từ khung mẫu có thể thực hiện được thông qua –  bắt thăm (lottery method), –  sử dụng bảng số ngẫu nhiên, hoặc sử dụng máy vi tính. •  Phương pháp đơn giản nhưng it khi được sử dụng đơn độc trong các cuộc điều tra lớn. (Khung mẫu?) •  Quan trọng vì làm nền tảng cho các PP chọn mẫu khác dựa vào 6 16 •  Trong một quần thể có N phần tử thì sẽ có “A” khả năng có được những mẫu có kích thước n •  A = N!/n!(N-n)! •  Ví dụ: với N = 25, n = 5 ta có A = 25!/(5!)(25-5)! = 53.130 mẫu với n = 5. •  Vậy chọn mẫu ngẫu nhiên đơn kích thước n từ một quần thể N, là chọn mẫu trong đó mỗi mẫu của “A” mẫu có một xác suất chọn tương tự như nhau và là 1/ “A”. •  Từng phần tử mẫu n trong bất cứ mẫu nào cho trước cũng có xác suất chọn ngang nhau và bằng n/N. 17 •  Thông qua bắt thăm (lottery method) –  Số của các cá thể được viết vào “thăm” –  Cho vào hộp trộn kỹ và chọn đủ số mẫu cần thiết –  Giả thuyết: Tất cả các “thăm” đều được trộn một cách kỹ càng •  Ví dụ bốc thăm tại chọn mẫu điều tra nền Chí Linh. –  Cỡ cụm trong tự nhiên (thôn, xóm, làng, tổ, đội) lớn hơn kích thước cụm (Ví dụ 25 hộ so với 130) –  Chia mảng của thôn với kích thước mỗi mảng tương đương với 25 HH –  Chọn ngẫu nhiên một mảng trong thôn theo cách bốc thăm. 18 •  Sử dụng bảng số ngẫu nhiên –  Qui ước cách sử dụng chọn số theo bảng số. Ví dụ bắt đầu từ 4 cột số ở góc trên bên trái và đi từ trên xuống dưới và khi hết lại bắt đầu từ 4 cột số liên tục bên phải.,vv. –  Chọn (tập hợp) số có các chữ số nằm trong khoảng giá trị của quần thể. Ví dụ trong khoảng 0001-1917. (tài liệu phát tay Kalton) –  Dừng lại khi chọn đủ số cá thể của mẫu nghiên cứu. (loại bỏ các số trùng lắp khi chọn từ bảng số ngẫu nhiên) 7 19 Mẫu ngẫu nhiên đơn Ưu điểm •  Vì mọi đơn vị trong quần thể có một cơ hội được chọn vào mẫu như nhau, mẫu được đảm bảo là đại diện và chỉ bị ảnh hưởng bởi sai số chọn mẫu •  Có thể tính toán những ước lượng (estimates) một cách dễ dàng Nhược điểm •  Nếu khung mẫu lớn, phương pháp này không thực thi. •  Mẫu có thể chứa không đủ các cá thể ở các nhóm nhỏ trong quần thể mà người nghiên cứu quan tâm 20 Systematic Random Sampling 21 Mẫu ngẫu nhiên hệ thống •  Xác định khoảng cách mẫu k=N/n (làm tròn lên và xuống) •  Sự lựa chọn của mọi đơn vị thứ k trong quần thể hay khung mẫu, •  l/k là tỉ lệ chọn mẫu •  Đơn vị mẫu đầu tiên được chọn ngẫu nhiên từ k đơn vị mẫu đầu tiên. •  Lưu ý –  Khi k được làm tròn lên –  Khi k được làm tròn xuống 8 22 Mẫu ngẫu nhiên hệ thống Các cách chọn mẫu hệ thống •  Chọn mẫu sau khi xây dựng khung mẫu •  Chọn mẫu cùng lúc với xây dựng khung mẫu. •  Xác định số bắt đầu ngẫu nhiên –  trong khoảng cách mẫu k. –  ngoài khoảng cách mẫu k. 23 Mẫu ngẫu nhiên hệ thống •  N= 70, n = 10, khoảng cách mẫu k = 70/10 = 7 •  Chọn ngẫu nhiên từ 1-7 một số, ví dụ 3. –  1 2 3 4 5 6 7 •  Chọn ra đơn vị thứ k đối với mỗi cá thể trong danh sách mẫu bắt đầu từ số ngẫu nhiên được chọn •  Ví dụ: 3+7 = 10, 10+7 = 17 •  Cá thể thứ 3, 10 và 17 được chọn vào mẫu 24 Mẫu ngẫu nhiên hệ thống 1 2 3* 4 5 6 7 8 9 10 11* 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70  n=6, k=11,6 = 12, số ngẫu nhiên được chọn là 11, số cá thể thứ 6 được chọn vào mẫu là cá thể thứ 1 trong khung mẫu 9 25 Mẫu ngẫu nhiên hệ thống Ưu điểm •  Dễ chọn mẫu •  Có thể xác định khung mẫu hợp lý một cách dễ dàng •  Mẫu được dàn trải trong toàn bộ quần thể tham chiếu (reference population) Nhược điểm •  Có thể gây sai số nếu có một sự thay đổi theo chu kỳ xảy ra đồng thời với chọn mẫu 26 1.  Khung mẫu không hoàn chỉnh (thiếu đơn vị mẫu) 2.  Các đơn vị mẫu cụm 3.  Không có các đơn vị mẫu được chọn trong cuộc điều tra 4.  Các đơn vị mẫu bị lặp lại trong khung Cách giải quyết khi không có khung mẫu phù hợp trong thực tế: –  Sử dụng danh sách của các tập hợp phần tử (elements) mẫu mà ta mong muốn chọn cho nghiên cứu sau đó lấy mẫu của các đơn vị tập hợp này. Khung mẫu sau đó sẽ được xây dụng bên trong các đơn vị được chọn và các phần tử sẽ được chọn trong khung mẫu này. –  Ví dụ sử dụng danh sách hộ gia đình khi không có danh sách của các cá thể 27 10 28 •  Phụ thuộc vào nguồn lực (thời gian, nhân lực, tài chính) •  Độ chính xác mong muốn •  Kỳ vọng của nhà nghiên cứu 29 •  z : hệ số tin cậy •  p : tỷ lệ dự đoán  từ các nghiên cứu trước hoặc 50% •  d : độ chính xác tuyệt đối  + x đơn vị Ví dụ: một nghiên cứu cắt ngang, để đánh giá tỷ lệ thừa cân của trẻ 6-12 tuổi tại tỉnh X. Tỷ lệ của một nghiên cứu khác là 15%. Cần có tối thiểu 196 trẻ 6-12 tuổi để nghiên cứu p=.15 z=1.96 ~ mức chính xác 95% d=0.05 ~ độ chính xác +5% 30 •  Tỷ lệ thấp –  Sử dụng công thức tính cỡ mẫu với độ chính xác tương đối •  Non-Response/không đáp ứng –  Cộng thêm một tỷ lệ nhất định để đảm bảo cỡ mẫu tối thiểu. •  “Tính ngược” –  Không nên 11 31 •  Mẫu cho quần thể nhỏ (lớn hơn không đáng kể so với mẫu) •  Mẫu cho quần thể không quá lớn so với mẫu (f>1/10) •  Mẫu cho quần thể lớn hơn rất nhiều (quần thể vô hạn) (f<1/10) •  Ví dụ: dùng phần mềm tính cỡ mẫu với P và d, mức độ tin cậy cố định và quần thể thay đổi 32 33 •  Mẫu ngẫu nhiên đơn •  Mẫu ngẫu nhiên hệ thống •  Cách tính cỡ mẫu •  Câu hỏi?? 12 34 35 •  Quần thể được chia thành từng bộ phận hoặc tầng độc lập và sau đó được gộp lại để ước lượng tham số của quần thể •  Một tầng là một bộ phận của quần thể có ít nhất một đặc điểm chung •  Ví dụ: nam và nữ, các nhóm tuổi 36 •  Mẫu phân tầng làm giảm sai số chọn mẫu •  Mẫu phân tầng đảm bảo số lượng quan sát trong từng tầng •  Ước lượng từ mẫu phân tầng sẽ chính xác hơn từ mẫu ngẫu nhiên nếu: –  Có ựu tương đồng trong từng tầng –  Có sự biến thiên đủ lớn giữa các tầng 13 37 •  Tổng số quần thể sẽ là với là cỡ mẫu trong tầng l •  Trung bình chung sẽ là: •  Với là phân số mẫu của tầng thứ l 38 Chọn mẫu phân tầng yêu cầu 2 bước: •  Xác định các tầng thích hợp •  Sử dụng cách chọn ngẫu nhiên đơn/hệ thống để chọn các đơn vị mẫu trong từng tầng Trong mỗi tầng, một mẫu ngẫu nhiên đơn với kích cỡ là được chọn để ước lượng trung bình trong tầng 39 Phương sai của mẫu phân tầng được tính tóan Nếu phân số mẫu nhỏ thì phương sai sẽ là: 14 40 •  Phân bố mẫu khác tỷ lệ (cùng cỡ mẫu cho các tầng) •  Phân bố mẫu cùng tỷ lệ (xác xuất chọn) n/N. Tự cân bằng •  Các tầng cùng cỡ mẫu tính theo mức độ chính xác cho quần thể lớn (mỗi NC tiến hành trên một tầng) 41 •  Cỡ mẫu được chia thành từng phần tương ứng với tỷ lệ của quần thể •  Chọn theo cách ngẫu nhiên đơn, hoặc ngẫu nhiên hệ thống các đơn vị cần thiết •  Không cần gán trọng số cho tầng vì đây là lọai đã phân bổ theo trọng số (seft-weight) 42 Khối lớp Số HS 10 678 11 600 12 560 Tổng 1838 Tỷ lệ 0,37 0,33 0,30 1 Mẫu 89 78 73 240 15 43 •  Đảm bảo cỡ mẫu cần thiết cho mỗi tầng •  Chọn số lượng mẫu trong mỗi tầng là như nhau •  Cần gán trọng số (weight) khi phân tích để đảm bảo nguyên tắc tất cả các đối tượng đều có cơ hội như nhau để được trọng vào mẫu 44 Khối lớp Số HS 10 678 11 600 12 560 Tổng 1838 Tỷ lệ 0,37 0,33 0,30 1 Mẫu 80 80 80 240 45 Mẫu phân tầng Ưu điểm •  Mọi đơn vị trong tầng đều có cơ hội được chọn như nhau •  Tỉ lệ chọn mẫu giống nhau trong tất cả các tầng đảm bảo tính đại diện tương ứng của các đặc điểm đã được phân tầng trong mẫu. •  Đảm bảo tính đại diện của các nhóm nhỏ cần nghiên cứu Nhược điểm •  Khung mẫu của toàn quần thể phải được xây dựng riêng biệt cho mỗi tầng •  Thay đổi tỷ lệ chọn mẫu giữa các tầng để đảm bảo đủ số lượng của các nhóm nhỏ trong NC sẽ ảnh hưởng đến tính đại diện tương ứng của các nhóm nhỏ trong tổng thể mẫu. 16 46 •  Tính cỡ mẫu chung, sau đó phân bổ theo tầng – Ứớc lượng chung cho quần thể –  So sánh các tầng •  Tính riêng cho từng tầng – Ước lượng cho từng tầng –  So sánh các tầng 47 48 •  Quần thể được coi là tập hợp của nhiều nhóm nhỏ: –  Phường/xã; trường/lớp học, hộ gia đình… •  Các cụm thường có một số đặc điểm chung •  Việc lập danh sách mẫu cho quần thể gặp nhiều khó khăn (quần thể lớn) 17 49 Vùng 4 Vùng 5 Vùng 3 Vùng 2 Vùng 1 50 •  Điểm mạnh – Đơn giản vì không cần danh sách của các đơn vị mẫu trong quần thể –  Không phải đi lại nhiều/đỡ tốn nguồn lực •  Điểm yếu –  Thiết chính xác nếu như các cụm tương đồng nhau  phương sai mẫu lớn hơn phương sai quần thể. –  Khó khăn trong việc đo lường sai số mẫu Đánh giá tỷ lệ tiêm vacxin: •  Không cần danh sách quần thể •  Toàn bộ các làng/xã •  Chọn ngẫu nhiên 30 cụm •  Mỗi cụm 7 trẻ: 30x7=210 18 52 Cần –  Bản đồ của –  Phân bố quần thể (theo làng hoặc địa bàn) –  Phân bố tuổi (12-23 tháng: 3%) 1600 220 3200 400 800 200 1200 200 1600 400 53000 7300 106000 13000 26500 6600 40000 6600 53000 13200 A B C D E F G H I J 12-23 tháng Dân số Làng 53 Tại thực địa Đi ra giữa làng, chọn một hướng ngẫu nhiên Số lượng hộ theo hướng đó   VD: 21 Chọn hộ đầu tiên để vào Chọn các hộ tiếp theo “nguyên tắc” cho đến khi đủ 7 trẻ Chọn mẫu cụm đơn giản (1 giai đọan) •  Chỉ cần xác định những người sống trong những cụm được lựa chọn (VD: một số nhóm các hộ gia đình) •  Chọn số lượng cụm cần thiết •  Chọn toàn bộ số đối tượng trong cụm 54 19 55 Mỗi cụm trong 20 cụm dưới đây là một Hộ gia đình với số lượng các thành viên trong hộ khác nhau Các cụm để chọn mẫu 56 20 Hộ gia đình 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Các cụm để chọn mẫu 57 Bảng số ngẫu nhiên để chọn mẫu cụm Đi dọc xuống theo danh sách và chọn 2 số ngẫu nhiên đầu tiên giữa số 1 và tổng số cụm 1 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 19 20 21 22 23 24 25 26 27 28 29 30 41 42 43 44 45 46 47 48 49 50 31 32 33 34 35 36 37 38 39 40 51 52 53 54 55 56 57 58 59 60 (A) (B) (C) (D) (E) (F) 18 2 20 58 Chọn ngẫu nhiên 2 cụm và xác định đối tượng nghiên cứu 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 18 2 và 18 được chọn từ bảng số ngẫu nhiên 59 Chọn tất cả những người có trong các cụm đã được lựa chọn 4 3 2 1 5 8 7 6 9 •  Giai đoạn 1 •  Chọn các cụm ở giai đoạn đầu tiên với xác suất tương ứng với kích thước (PPS) và chọn ở giai đoạn hai một số lượng như nhau mỗi cụm, lựa chọn bằng phương pháp chọn mẫu ngẫu nhiên đơn hoặc hệ thống 60 21 61 Liệt kê danh sách các cụm để chọn ở giai đoạn 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Giai đoạn 1 62 Chọn 2 cụm ở giai đoạn 1 Với xác xuất tương ứng với kích thước 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 63 Đếm người trong mỗi cụm được chọn 3 3 2 1 4 12 1 2 3 4 5 Cụm 3 và 12 là hai cụm được chọn 22 64 Lựa chọn hai người bằng SRS trong mỗi cụm được chọn Cụm 3 1 3 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 41 42 43 44 45 46 47 48 49 50 31 32 33 34 35 36 37 38 39 40 51 52 53 54 55 56 57 58 59 60 (A) (B) (C) (D) (E) (F) 2 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 41 42 43 44 45 46 47 48 49 50 31 32 33 34 35 36 37 38 39 40 51 52 53 54 55 56 57 58 59 60 (A) (B) (C) (D) (E) (F) 2 4 3 1 Cụm 12 Chọn ngẫu nhiên 2 số trong khoảng giá trị từ 1 đến 4 Chọn ngẫu nhiên 2 số trong khoảng giá trị từ 1 đến 4 Giai đoạn 1 65 Hai người được chọn tại mỗi cụm ở giai đoạn 1 Ngẫu nhiên chọn được 2 và 4 3 3 2 1 4 12 1 2 3 4 5 Ngẫu nhiên chọn được 1 và 3 Giai đoạn 1 66 Chọn các cụm giai đoạn đầu với xác xuất tỉ lệ với kích thước quần thể (PPS) và giai đoạn hai với số lượng người như nhau ở mỗi cụm, lựa chọn như chọn mẫu xác xuất với chỉ tiêu Giai đoạn 2 23 67 Đếm số người trong mỗi cụm được chọn Giai đoạn 2 3 12 3 2 1 4 1 2 3 4 5 Bắt đầu tương tự như trước: •  Sau đó liệt kê toàn bộ những người trong mỗi cụm được chọn •  Chọn cụm bằng phương pháp PPS tại giai đoạn 1 68 Chọn người đầu tiên ngẫu nhiên bằng phương pháp SRS trong mỗi cụm được chọn Cụm 3 1 3 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 41 42 43 44 45 46 47 48 49 50 31 32 33 34 35 36 37 38 39 40 51 52 53 54 55 56 57 58 59 60 (A) (B) (C) (D) (E) (F) 2 4 Cụm 12 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 41 42 43 44 45 46 47 48 49 50 31 32 33 34 35 36 37 38 39 40 51 52 53 54 55 56 57 58 59 60 (A) (B) (C) (D) (E) (F) 2 3 1 4 Giai đoạn 2 Chọn một số ngẫu nhiên trong khoảng từ 1 đến 4 Chọn một số ngẫu nhiên trong khoảng từ 1 đến 4 69 Chọn ngẫu nhiên người đầu tiên trong mỗi cụm được chọn Giai đoạn 2 3 1 4 1 2 3 5 3 12 4 2 24 70 Để mọi người trong hộ gia đình tự sắp xếp và chọn người gần nhất tiếp theo đến khi đủ số lượng (VD: 2 người trong một cụm) Giai đoạn 2 3 1 4 1 2 3 5 3 12 4 2 71 •  Giai đoạn 1   Chọn các cụm với xác xuất tương ứng với kích thước •  Giai đoạn 2   Lựa chọn ngẫu nhiên người đầu tiên   Lựa chọn người gần nhất tiếp theo trong cụm đến khi đủ số lượng Chọn mẫu PPS tại giai đoạn đầu và chọn mẫu xác xuất ở giai đoạn hai 72 •  Xác định biến nghiên cứu chính •  Xác định dạng của ước lượng (%, TB, tỷ số,..) •  Xác định giá trị kỳ vọng của yếu tố đang quan tâm •  Quyết định mức chính xác •  Quyết định mức độ sai số •  Hiệu chỉnh cho hiệu quả thiết kế •  Hiệu chỉnh cho số lượng không đáp ứng 25 73 z: hệ số tin cậy p: tỷ lệ dự đoán q: 1 - p d: độ chính xác tuyệt đối de: hiệu quả thiết kế z² * p * q 1.96²*0.15*0.85 n = -------------- ---------------------- = 544 d² 0.03² Mẫu cụm z² * p * q 2*1.96²*0.15*0.85 n = de* -------------- ------------------------ = 1088 d² 0.03² Ngẫu nhiên đơn/ngẫu nhiên hệ thống 74 Phương sai quần thể p(1-p) Var srs = ---------- n Phương sai cụm p= tỷ lệ quần thể pi= tỷ lệ trong mỗi cụm n= số lượng đơn vị mẫu k= số cụm Σ (pi-p)² Var clus = ------------- k(k-1) Design effect = ------------------ Var srs Var clust srs= ngẫu nhiên đơn Tính toán DE cụ thể Nếu không có, lấy DE=2 75 •  Người nghiên cứu quyết định số cụm/số đối tượng trong cụm •  Tăng số cụm nếu sự đồng nhất trong cụm cao. •  Ví dụ: VMIS –  24 tỉnh/8 vùng sinh thái –  3 huyện một tỉnh tổng cộng 72 huyện –  PPS xã, mỗi xã chọn 90 hộ gia đình 26 76 77 •  Việc chọn lựa được thực hiện theo các giai đoạn cho tới khi chọn được đơn vị chọn mẫu cuối cùng (ví dụ, các hộ gia đình hay con người) . •  Trong giai đoạn đầu tiên, danh sách các đơn vị chọn mẫu kích thước lớn được chuẩn bị. (thị trấn,làng xã hoặc trường học) •  Một mẫu của những nhóm trên được chọn một cách ngẫu nhiên, với xác suất chọn tỉ lệ với kích thước quần thể. 78 •  Từ mỗi đơn vị của giai đoạn chọn đầu tiên, danh sách của các đơn vị chọn mẫu nhỏ hơn lại được chuẩn bị. (ví dụ, nếu đơn vị của giai đoạn 1 là thị trấn, thì đơn vị của giai đoạn 2 có thể là nhà hay hộ gia đình). •  Một mẫu của những đơn vị giai đoạn hai này lại được chọn ngẫu nhiên từ những đơn vị được chọn trong giai đoạn đầu tiên. Sau đó chúng được nghiên cứu. •  Qui trình chọn mẫu này có thể bao gồm 3 giai đoạn hay nhiều hơn. 27 79 Ưu điểm •  Giảm chi phí chuẩn bị khung mẫu Nhược điểm •  Sai số chọn mẫu tăng lên so với chọn mẫu ngẫu nhiên đơn (đối với cùng kích thước mẫu) 80

Các file đính kèm theo tài liệu này:

05_survey_sampling_218.pdf