Đa cộng tuyến là hiện tượng các biến độc lập có mối tương quan rất mạnh với nhau. Mô hình hồi quy xảy ra hiện tượng đa cộng tuyến sẽ khiến nhiều chỉ số bị sai lệch, dẫn đến kết quả của việc phân tích định lượng không còn mang lại nhiều ý nghĩa. Bài viết này chúng ta sẽ cùng đi vào tìm hiểu nguyên nhân, dấu hiệu nhận biết và cách khắc phục
hiện tượng đa cộng tuyến.
1. Nguyên nhân gây ra đa cộng tuyến
Có nhiều nguyên nhân gây ra hiện tượng đa cộng tuyến, tuy nhiên, ở các đề tài về kinh tế xã hội, có 2 nguyên nhân chủ yếu là:
- Do khi lập bảng khảo sát, chúng ta xây dựng nên các nhân tố không khác biệt nhau nhiều về tính chất, ý nghĩa. Ví dụ: Tiền lương và Thu nhập/ Sở thích và Điều quan tâm…
- Do đặc trưng của chính môi trường được khảo sát gây nên hiện tượng đa cộng tuyến. Cùng một bảng khảo sát nhưng có thể mở môi trường khảo sát số 1 không có đa cộng tuyến xảy ra nhưng ở môi trường số 2 lại có đa cộng tuyến. Bởi vì đặc điểm môi trường khảo sát số 2 có điểm khác biệt rất nhiều so với môi trường 1. Tại môi trường số 2, các nhóm nhân tố dù ban đầu khi lập cơ sở lý luận thì chúng không có mối tương quan quá cao nhưng ở môi trường này giữa chúng lại có sự tương quan mạnh, điều này dẫn đến đa cộng tuyến khi thu thập dữ liệu khảo sát. Chính vì vậy, ở mỗi môi trường đặc trưng, bạn cần điều chỉnh bảng khảo sát cho hợp lý.
Dữ liệu sau thu thập vô tình vượt qua được kiểm định tính phân biệt trong EFA nhưng khi thực hiện phân tích hồi quy đa biến, đa cộng tuyến được biểu hiện ra thông qua hệ số VIF.
2. Dấu hiệu nhận biết hiện tượng đa cộng tuyến
– Dựa vào ma trận tương quan Pearson: Khi phân tích tương quan Pearson, tại ma trận trương quan, chúng ta sẽ chú ý vào giá trị sig giữa các biến độc lập với nhau.
Bước 1: Xác định các cặp biến độc lập có sig < 0.05.
Bước 2: Nhìn vào hệ số tương quan Pearson. Nếu hệ số tương quan Pearson từ 0.5 trở lên, chúng ta sẽ đặt ra nghi ngờ có thể xảy ra đa cộng tuyến.
Như ví dụ trên, cặp biến độc lập TN và CV có giá trị sig tương quan là 0.000 < 0.05. Ta sẽ nhìn vào hệ số tương quan Pearson (Pearson Correlation), giá trị này là 0.898 > 0.5. Như vậy cặp biến độc lập này có mối tương quan tuyến tính rất mạnh. Chúng ta nhận xét: Có thể xảy ra đa cộng tuyến giữa cặp biến này.
** Lưu ý: Ở bước xem xét ma trận tương quan Pearson, chúng ta chỉ ước tính việc xảy ra đa cộng tuyến dựa vào giá trị hệ số tương quan Pearson. Điều này chỉ dừng lại ở mức nghi ngờ, việc chứng minh bằng bằng con số xem thực sự có đa cộng tuyến hay không sẽ được trình bày ở dấu hiệu nhận biết sau đây.
– Dựa vào giá trị VIF ở hồi quy: Ở bước tương quan Pearson. Chúng ta xác định đa cộng tuyến “bằng cảm tính” thì ở bước hồi quy, chúng ta sẽ dùng những con số chính xác để xác định có hay không hiện tượng đa cộng tuyến.
Thực hiện phân tích hồi quy đa biến cho ví dụ ở trên, ta có được kết quả bảng Coefficients như hình dưới đây:
Giá trị VIF của 2 biến TN và CV khá cao (lớn hơn 2). Các bạn đọc tham khảo một số tài liệu, sách về thống kê sẽ cho rằng: Nếu VIF < 10 thì không có hiện tượng đa cộng tuyến xảy ra. Tuy nhiên, mốc đánh giá ở mức 10 sẽ phù hợp với những đề tài về kỹ thuật, vật lý không sử dụng thang đo Likert. Còn ở các đề tài về kinh tế, xã hội, các nhà nghiên cứu cho rằng VIF > 2 sẽ có hiện tượng đa cộng tuyến xảy ra. Điều này cũng được chính tác giả kiểm chứng qua việc xử lý dữ liệu cho hơn 100 đề tài nghiên cứu ở các lĩnh vực: kinh tế – xã hội, kỹ thuật, y học, nông nghiệp. Như vậy, ở ví dụ ở trên, mô hình hồi quy đang có hiện tượng đa cộng tuyến xảy ra.
** Lưu ý: Nếu bảng khảo sát của bạn có các biến định lượng sử dụng thang đo Likert. Và khi tiến hành phân tích hồi quy, bạn cho cả các biến định lượng này cùng biến định tính như tuổi, giới tính, nghề nghiệp, thu nhập,… vào cùng chạy trên một phương trình, bạn cần lưu ý rằng: các biến định lượng sẽ lấy tiêu chuẩn hệ số VIF là 2, và các biến định tính sẽ lấy hệ số VIF là 10. Điều này dựa vào kinh nghiệm của tác giả và không có tài liệu nào hiện tại viết về vấn đề này.
3. Cách khắc phục hiện tượng đa cộng tuyến
– Giải pháp 1: Loại bỏ biến độc lập có hệ số VIF vượt qua giá trị tiêu chuẩn. Bạn nên bỏ biến có VIF lớn nhất rồi chạy lại phân tích hồi quy xem thử có còn hiện tượng đa cộng tuyến hay không. Trong ví dụ ở trên, tác giả loại bỏ nhân tố TN (VIF = 5.179) thì khi chạy lại hồi quy không còn hiện tượng đa cộng tuyến.
– Giải pháp 2: Có thể đa cộng tuyến xảy ra do cỡ mẫu thu thập nhỏ. Bạn hãy thử thu thập thêm phiếu trả lời để tăng cỡ mẫu lên khoảng gấp 1,5 đến 2 lần. Khi cỡ mẫu lớn hơn sẽ làm giảm phương sai và ý nghĩa các kiểm định cũng sẽ có giá trị hơn.
– Giải pháp 3: Nếu vấn đề xuất phát từ chính bước chọn mô hình nghiên cứu và lập bảng khảo sát. Bạn có thể sẽ phải hủy bỏ dữ liệu thu thập và điều chỉnh lại mô hình, tiến hành khảo sát lại. Cho nên, bước lập cơ sở lý luận để đưa ra mô hình đề xuất và bảng khảo sát là rất quan trọng, các bạn nên làm cho thật tốt phần này qua sự hướng dẫn của giảng viên, những người có chuyên môn.