Khi lựa chọn cách chọn mẫu phù hợp nhất cho nghiên cứu, chúng ta phải trả lời một số câu hỏi đặt ra. Các câu hỏi này cũng chính là các nguyên tắc, hay là các bước mà chúng ta phải theo. Mỗi một câu hỏi đòi hỏi một thông tin duy nhất.
Các câu hỏi đi theo một trình tự nhất định. Tuy nhiên, để trả lời tốt một câu hỏi, ta phải xem xét lại câu hỏi và câu trả lời trước đó.
- Dân số mục tiêu là gì?
- Các chỉ tiêu (parameters) cần quan tâm là gì?
- Khung mẫu là gì ?
- Phương pháp chọn mẫu phù hợp là gì?
- Cần cỡ mẫu bao nhiêu?
1. Dân số mục tiêu là gì?
Thông thường, khi chúng ta xác định vấn đề nghiên cứu và đặt ra câu hỏi nghiên cứu thì chúng ta đã dân số mục tiêu là gì rồi. Tuy nhiên, cũng có khi chúng ta vẫn chưa rõ ràng về dân số mục tiêu. Nếu chúng ta không biết rõ mục tiêu thì rất khó chọn mẫu phù hợp.
Ngoài ra, chúng ta vẫn có thể nhầm lẫn hoặc không biết chắc chắn là dân số bao gồm các cá nhân, hộ gia đình, gia đình hoặc là kết hợp các loại này.
Rõ ràng là đối với một nghiên cứu kinh tế thì việc xác định thành phần là một cá nhân hay là một hộ gia đình sẽ đưa đến các kết quả hoàn toàn khác nhau. Vì vậy, cần chú ý là ta ph ải xác định rõ khung phân tích, và khung hành động để chọn lựa đúng dân số liên quan.
2. Các chỉ tiêu (parameters) cần quan tâm là gì?
Các chỉ số thể hiện cho dân số là các chỉ tiêu mô tả tổng hợp (ví dụ giá trị trung bình, phương sai, v.v.) các biến số của dân số mà chúng ta quan tâm.
Các chỉ số thống kê mẫu (Sample statistics) là các chỉ tiêu mô tả cùng các biến số trên, nhưng không phải của dân số mà là của mẫu. Các chỉ số thống kê mẫu được dùng để ước lượng các chỉ số thống kê của dân số. Các chỉ số thống kê mẫu chính là cơ sở để chúng ta tham chiếu cho các chỉ số thống kê của dân số.
Tùy thuộc vào cách mà chúng ta đặt ra câu hỏi đo lường như thế nào (xem lại Hình 2.1, Chương 2), mỗi câu lại có thể thu thập dữ liệu ở các mức độ khác nhau. Mỗi mức độ khác biệt của dữ liệu lại sinh ra sự khác biệt về thống kê mẫu. Vì vậy, việc chọn lựa các chỉ tiêu cần quan sát sẽ thực tế quyết định kiểu chọn mẫu và cỡ mẫu.
Khi các biến số được đo lường với kiểu dữ liệu khoảng cách hay tỷ số (xem Chương 5), chúng ta sẽ sử dụng giá trị trung bình mẫu để ước lượng trung bình dân số, và độ lệch chuẩn của mẫu để ước lượng độ lệch chuẩn của dân số.
Khi các biến số được đo lường ở dạng thang đo danh nghĩa hoặc thứ bậc, chúng ta sẽ sử dụng các tỷ lệ của mẫu để ước lượng các tỷ lệ của dân số, và dùng chỉ số pq để ước lượng phương sai của dân số.
Trong trường hợp này, tỷ lệ của dân số sẽ bằng số lượng thành phần có trong dân số thuộc về một loại nào đó chia cho tổng số thành phần của dân số. Các đo lường tỷ lệ như thế này rất cần thiết cho dữ liệu danh nghĩa và được sử dụng rộng rãi cho các đo lường khác nữa.
Chỉ tiêu tỷ lệ thường dùng nhất chính là tỷ lệ phần trăm.
3. Khung mẫu là gì?
Khung mẫu có liên quan rất gần với dân số. Đó chính là danh sách của tất cả các thành phần có trong dân số mà từ đó chúng ta sẽ rút mẫu ra. Một khung mẫu lý tưởng chính là một danh sách hoàn thiện, đầy đủ và đúng tất cả các thành viên của dân số.
Tuy nhiên, trên thực tế, khung mẫu thường rất khác biệt với dân số lý thuyết.
Thường là chúng ta chấp nhận một khung mẫu bao gồm cả các người hoặc các trường hợp mà chúng ta không quan tâm. Nhưng chúng ta có thể giải quyết vấn đề này dễ dàng bằng cách rút một mẫu từ một dân số lớn hơn, và rồi sử dụng một quy trình lọc để loại bỏ các trường hợp mà chúng ta không quan tâm, hoặc không phải là thành viên của nhóm mà chúng ta muốn nghiên cứu.
4. Phương pháp chọn mẫu phù hợp là gì?
Nhà nghiên cứu phải đối mặt với một lựa chọn căn bản: chọn mẫu xác xuất hay phi xác suất. Với cách chọn mẫu xác suất, nhà nghiên cứu có thể đạt được các ước lượng cho nhiều chỉ tiêu nghiên cứu khác nhau dựa trên sự tin cậy về xác suất. Trong khi đó, chọn mẫu phi xác suất không cho được điều này.
Tuy nhiên, chọn mẫu xác suất có một vài hệ quả. Nhà nghiên cứu buộc phải theo các quy trình phù hợp mà:
- Phỏng vấn viên, điều tra viên không thể chỉnh sửa sự chọn lựa đã có.
- Chỉ có các thành phần được chọn từ khung mẫu gốc mới được tính tới.
- Không được thay thế thành phần này bằng thành phần khác ngoại trừ khi có các chỉ dẫn cụ thể theo các nguyên tắc định trước.
5. Cần cỡ mẫu bao nhiêu là vừa?
Cỡ mẫu chính là số đơn vị nghiên cứu mà ta cần có trong một mẫu khi rút ra từ dân số mục tiêu. Có nhiều quan niệm không chính xác về cỡ mẫu. Thứ nhất là một mẫu phải đủ lớn, nếu không nó sẽ không đại diện cho dân số. Thứ hai là một mẫu phải tương ứng với một tỷ lệ nào đó so với kích cỡ của dân số mà nó được rút ra.
Trên thực tế, cả hai câu chuyện này đều không chính xác.
Với mẫu phi xác suất, các nhà nghiên cứu khẳng định là số lượng nhóm phụ, các nguyên tắc lựa chọn và hạn chế về ngân sách là các yếu tố quyết định cỡ mẫu. Với cách chọn mẫu xác suất, cỡ mẫu phụ thuộc vào sự biến thiên của các chỉ số thống kê của dân số và mức độ chính xác của kết quả mà ta muốn có.
Một số nguyên tắc ảnh hưởng đến việc xác định cỡ mẫu là:
- Dân số càng biến thiên nhiều thì cỡ mẫu phải càng lớn để đạt tính chính xác;
- Độ chính xác mong muốn càng tăng thì cỡ mẫu phải càng lớn.
- Phạm vi sai số càng nhỏ thì cỡ mẫu phải càng lớn.
- Mức độ tin cậy của ước lượng càng cao thì cỡ mẫu càng phải lớn.
- Khi dân số có nhiều nhóm phụ, thì cỡ mẫu phải lớn để cỡ mẫu của từng nhóm phụ phải đạt yêu cầu tối thiểu
Các hạn chế về ngân sách cũng ảnh hưởng đến cỡ mẫu, cách chọn mẫu và phương pháp thu thập dữ liệu. Hầu hết các nghiên cứu đều bị giới hạn ngân sách, và điều này thúc đẩy các nhà nghiên cứu áp dụng các phương pháp chọn mẫu phi xác suất.