Chọn mẫu (sampling) là việc chọn lấy một số thành phần của một dân số (population), và từ đó, có thể rút ra các kết luận về chính dân số đó.
Một thành phần của dân số (population element) là một cá thể của đối tượng nghiên cứu hoặc một cá nhân người tham gia nghiên cứu mà nhà nghiên cứu sẽ tiến hành các đo lường. Đây chính là đơn vị nghiên cứu (unit of study).
Một dân số bao gồm tất cả các thành phần của dân số mà chúng ta muốn nghiên cứu.
Một điều tra tổng thể (census) là một nghiên cứu thực hiện trên tất cả mọi thành phần của dân số.
Danh sách của tất cả các thành phần của dân số mà dựa vào đó chúng ta rút ra mẫu được gọi là “khung mẫu” (sample frame).
1. Tại sao phải lấy mẫu?
Khi thực hiện nghiên cứu, chúng ta rất hiếm khi điều tra tổng thể, vì lý do cơ bản là hết sức tốn kém và tốn rất nhiều thời gian, công sức. Trong khi đó, nếu chúng ta chỉ điều tra mẫu, thì có nhiều lợi thế như: (1) chi phí thấp, (2) vẫn đạt được tốt hơn độ chính xác cần có của kết quả, (3) đạt tốc độ thu thập dữ liệu nhanh; và (4) có được sự sẵn có của các thành phần dân số.
Chi phí thấp
Rõ ràng là điều tra nghiên cứu trên một mẫu nào đó của dân số sẽ có lợi thế về chi phí nhiều hơn là điều tra tổng thể.
Đạt được tốt hơn độ chính xác cần có của kết quả
Chất lượng của một nghiên cứu thực hiện điều tra chọn mẫu hoặc nghiên cứu trên mẫu thường đạt kết quả tốt hơn so với thực hiện điều tra tổng thể hoặc nghiên cứu tồng thể vì:
- Phỏng vấn tốt hơn.
- Điều tra nhiều hơn, sâu hơn về các thông tin nghi ngờ, sai, hoặc sót.
- Xử lý thông tin tốt hơn.
Chỉ khi nào dân số nghiên cứu quá nhỏ, dễ tiếp cận, và biến động nhiều thì điều tra tổng thể mới có thể đạt độ chính xác cao hơn điều tra mẫu.
Tốc độ thu thập dữ liệu cao hơn
Tốc độ thực hiện nhanh giúp làm giảm thời gian giữa giai đoạn chuẩn bị các thông tin cần thiết và giai đoạn thu thập thông tin.
Tính sẵn có của các thành phần dân số
Thông thường, một số thành phần dân số luôn có sẵn, và chúng ta có thể chọn lựa để thực hiện lấy mẫu để điều tra, nghiên cứu.
Mẫu và Tổng thể
Lợi thế của điều tra mẫu so với điều tra tổng thể sẽ mất đi nếu dân số nhỏ và có tính biến động cao. Có hai điều kiện làm cho việc nghiên cứu tổng thể phù hợp hơn: (1) có tính khả thi khi dân số nhỏ và (2) cần thiết khi mà mỗi cá thể đều rất khác biệt nhau.
2. Thế nào là một mẫu tốt?
Một mẫu được coi là tốt khi nó có thể đại diện cho các tính chất của dân số mà nó được rút ra. Nói theo thuật ngữ đo lường, nó phải có tính hiệu lực (validity). Tính hiệu lực của mẫu tùy thuộc vào hai tính chất: tính đúng đắn (accuracy) và tính chính xác (precision).
Tính đúng đắn (Accuracy)
Tính đúng đắn là mức độ mà mẫu tránh được các thiên lệch (bias). Khi mẫu được rút ra đúng cách, thì các các tính chất của một số thành phần nào đó của dân số sẽ được thể hiện ít hơn mức độ thực có của chúng. Ngược lại, sẽ có một số thành phần khác sẽ được thể hiện nhiều hơn mức độ thực có của chúng. Kết quả là, các biến số này của các thành phần sẽ bù trù lẫn nhau, và dẫn đến việc giá trị của mẫu sẽ gần với giá trị của dân số.
Tuy nhiên, để hiệu quả bù trừ này xảy ra, mẫu của chúng ta phải có đủ số lượng các thành phần, và chúng phải được rút ra từ dân số một cách đúng đắn để không gây ra sự thiên lệch.
Một mẫu đúng (không thiên lệch) là một mẫu mà các sai số được đánh giá quá cao hay quá thấp bù trừ lẫn nhau. Và do đó, phương sai hệ thống (Systematic variance) được định nghĩa như là “biến động trong đo lường do các ảnh hưởng biết được hay không biết được gây ra làm cho các điểm số bị thiên lệch về một phía nào đó”.
Tăng cỡ mẫu (sample size) có thể làm giảm được phương sai hệ thống như là một nguồn sai số. Tuy nhiên, dù có tăng cỡ mẫu thì phương sai hệ thống vẫn có thể xảy ra nếu khung mẫu mà ta dựa vào để rút mẫu đã bị thiên lệch.
Tính chính xác (Precision)
Tiêu chuẩn thứ hai để thiết kế một mẫu tốt là tính chính xác của các ước lượng. Các nhà nghiên cứu đồng ý với nhau là không có mẫu nào có thể đại diện một cách đầy đủ dân số của nó ở mọi phương diện, mọi khía cạnh. Tuy nhiên, để diễn giải các phát hiện của nghiên cứu, chúng ta cần phải đo lường coi mẫu thể hiện được dân số chính xác tới mức nào. Các chỉ tiêu dạng số mô tả mẫu có thể khác với dân số do sai số ngẫu nhiên sinh ra trong quá trình chọn mẫu. Sai số này được gọi là sai số chọn mẫu (sampling error) hay là sai số chọn mẫu ngẫu nhiên (random sampling error), và nó phản ảnh ảnh hưởng của cơ hội rút ra các thành viên của mẫu.
Tính chính xác được đo lường bằng chỉ số sai số chuẩn của ước lượng, một dạng độ lệch chuẩn. Sai số chuẩn càng nhỏ có nghĩa là độ chính xác càng cao, và ngược lại. Một thiết kế chọn mẫu được coi là lý tưởng khi nó tạo ra sai số chuẩn của ước lượng nhỏ. Tuy nhiên, không phải là tất cả các kiểu thiết kế mẫu đều tạo ra các ước lượng cho mức độ chính xác, và các mẫu có cỡ mẫu bằng nhau có thể sinh ra các mức độ sai số khác nhau.
3. Các kiểu thiết kế mẫu (Types of Sample Design)
Khi thiết kế mẫu (hay là chọn lựa các chọn mẫu), các nhà nghiên cứu phải trả lời nhiều vấn đề. (Hình 6.1). Quá trình ra quyết định chọn mẫu phụ thuộc vào nhiều yếu tố. Có thể kế đến như bản chất của câu hỏi quản lý và các câu hỏi điều tra cụ thể được rút ra từ các câu hỏi nghiên cứu. Ngoài ra, các yếu tố khác ảnh hưởng đến thiết kế mẫu còn là các yêu cầu của dự án nghiên cứu và mục tiêu của nó, mức độ rủi ro mà các nhà nghiên cứu chấp nhận, ngân sách nghiên cứu, quỹ thời gian, các nguồn lực có thể có và văn hóa.
Tính đại diện (Representation)
Các thành phần trong một mẫu được chọn ra theo một trong hai qui trình: xác suất hay phi xác suất.
Chọn mẫu phi xác suất (Nonprobability sampling) có tính chất là tùy ý và có mục tiêu. Khi chúng ta chọn mẫu có mục tiêu, chúng ta thường chọn mẫu theo một kế hoạch định trước, và mỗi đơn vị nghiên cứu được rút ra từ dân số không có cơ hội được chọn ngang bằng nhau.
Sự khác biệt căn bản giữa chọn mẫu phi xác suất và chọn mẫu xác suất là tính chất “ngẫu nhiên”. Chọn mẫu xác suất (Probability sampling) dựa trên các thành phần được chọn với cơ hội lựa chọn cho trước khác không. Chọn mẫu xác suất cho phép chúng ta xác định được các ước lượng về mức chính xác, và cho chúng ta cơ hội để tổng quát hóa các phát hiện cho các dân số nghiên cứu dựa trên dân số mẫu. Trong khi các nghiên cứu khám phá không đòi hỏi nhiều về việc này, nhưng các nghiên cứu giải thích, mô tả và nhân quả lại đòi hỏi điều này.
Hình 6.1 Thiết kế chọn mẫu trong phạm vi quá trình nghiên cứu
Chọn thành phần
Các thành phần của mẫu được chọn theo từng cá thể và trực tiếp từ dân số. Cách chọn thành phần có hai loại cụ thể là không hạn chế và hạn chế. Chọn thành phần không hạn chế là cách thức mà các thành phần được rút ra theo từng cá thể từ dân số lớn. Cách chọn thành phần có hạn chế là các hình thức chọn mẫu còn lại (Hình 6.2).