Cách đối diện với dữ liệu bị thiếu Missing values khi phân tích dữ liệu

Dữ liệu bị thiếu missing values là gì?

– Nếu khảo sát bằng phiếu khảo sát giấy: thì những câu hỏi khảo sát mà người được khảo sát họ không đánh vào bất cứ lựa chọn nào cả, thì đó là missing values.

– Nếu khảo sát online: do thiếu ràng buộc khi thiết kế bảng khảo sát, người được khảo sát không cần chọn hết tất cả các câu hỏi vẫn bấm Submit được.

Cả hai cách trên đều làm cho file dữ liệu sẽ xuất hiện những ô không có giá trị.

Hậu quả của missing values

Nếu bạn có dữ liệu bị thiếu (missing values), điều này có thể gây ra một số vấn đề. Vấn đề rõ ràng nhất là không có đủ dữ liệu để chạy phân tích. Các phân tích EFA, CFA và mô hình  đường dẫn SEM đòi hỏi một số lượng nhất định các mẫu quan sát dữ liệu để tính các ước tính. Con số này tăng cùng với sự phức tạp của mô hình của bạn. Nếu dữ liệu thiếu một số giá trị, phân tích sẽ không chạy.

Một số người có thể không trả lời được những câu hỏi cụ thể trong cuộc khảo sát vì một số vấn đề phổ biến. Ví dụ: nếu bạn hỏi về giới tính, và phụ nữ ít có khả năng báo cáo giới tính của họ hơn nam giới, thì bạn sẽ có dữ liệu nam giới bị chệch . Có lẽ chỉ có 50% phụ nữ báo cáo về giới tính của họ, nhưng 95% nam giới cho biết giới tính. Nếu bạn sử dụng giới tính trong các mô hình nhân quả, thì bạn sẽ có kết quả bị chệnh đối với nam giới, nghĩa là số lượng nam nhiều hơn nữ (bởi vì bạn sẽ không sử dụng các phiếu phản hồi không có đầy đủ dữ liệu)

Hiển thị số lượng quan sát missing như thế nào?

Để tìm hiểu xem có bao nhiêu giá trị bị thiếu trong mỗi biến, trong SPSS chuyển đến Analyze -> Descriptive Statistics -> Frequencies. Nhập các biến trong danh sách các biến. Sau đó nhấn OK. Bảng trong đầu ra sẽ hiển thị số lượng các giá trị còn thiếu cho mỗi biến.

Ngưỡng thiếu dữ liệu rất linh hoạt, nhưng nói chung, nếu bạn thiếu hơn 10% phản hồi đối với một biến cụ thể hoặc từ một người trả lời cụ thể thì biến đó hoặc người trả lời có thể là vấn đề. Có một số cách để đối phó với các biến có vấn đề:

– Chỉ cần không sử dụng biến đó( ý là bỏ luôn biến đó không xài nữa)

– Sử dụng luôn các giá trị còn thiếu, bằng cách chế số cho các giá trị này. Điều này chỉ nên được thực hiện cho dữ liệu liên tục hoặc khoảng thời gian (như Độ tuổi hoặc thang Likert) chứ không phải cho dữ liệu phân loại (như Giới tính).

– Nếu tập dữ liệu của bạn đủ lớn, chỉ cần không sử dụng câu trả lời có các giá trị thiếu cho biến đó. Điều này có thể tạo ra một sự chệnh như nói ở trên, tuy nhiên nếu số lượng phản hồi bị missing lớn hơn 10% thì lúc đó mới có sự chệnh đáng kể.

Chế số cho missing values

Để chế số giá trị trong SPSS cho các missing values, trong SPSS vào Transform, Replace Missing Values; Sau đó chọn các biến mà cần điền dữ liệu trống, và nhấn OK. Xem ảnh chụp màn hình bên dưới. Trong ảnh chụp màn hình này, sử dụng phương pháp thay thế Trung bình.  Có nghĩa là sẽ tính giá trị trung bình cộng của cá giá trị không bị thiếu, và lấy giá trị đó điền vào các ô bị thiếu.

Nếu một người trả lời không trả lời được phần lớn các câu hỏi, có thể là vô ích khi thử nghiệm các mô hình nhân quả. Ví dụ, nếu họ trả lời các câu hỏi về chế độ ăn kiêng, nhưng không trả lời các câu hỏi ở mục giảm cân, đối với cá nhân này không thể kiểm tra mô hình nhân quả cho rằng chế độ ăn uống có ảnh hưởng tích cực đến việc giảm cân. Chỉ đơn giản là không có dữ liệu cho người đó. Khuyến nghị là xác định trước những biến nào sẽ được sử dụng trong mô hình của bạn (thường chúng ta thu thập dữ liệu về nhiều biến hơn chúng ta thực sự sử dụng trong mô hình của chúng ta), sau đó xác định xem người trả lời có vấn đề không. Nếu vậy, hãy loại bỏ người trả lời đó khỏi phân tích.