Phân tích tương quan Pearson là một trong các bước chúng ta thực hiện trong bài nghiên cứu sử dụng phân tích định lượng SPSS. Thường bước này sẽ được thực hiện trước khi phân tích hồi quy.
Mục đích chạy tương quan Pearson nhằm kiểm tra mối tương quan tuyến tính chặt chẽ giữa biến phụ thuộc với các biến độc lập và sớm nhận diện vấn đề đa cộng tuyến khi các biến độc lập cũng có tương quan mạnh với nhau.
1. Một số tiêu chí trong tương quan Pearson
Tương quan Pearson r có giá trị dao động từ -1 đến 1 (lưu ý, hệ số r chỉ có ý nghĩa khi sig nhỏ hơn 0.05):
- Nếu r càng tiến về 1, -1: tương quan tuyến tính càng mạnh, càng chặt chẽ. Tiến về 1 là tương quan dương, tiến về -1 là tương quan âm.
- Nếu r càng tiến về 0: tương quan tuyến tính càng yếu.
- Nếu r = 1: tương quan tuyến tính tuyệt đối, khi biểu diễn trên đồ thị phân tán Scatter như hình vẽ ở trên, các điểm biểu diễn sẽ nhập lại thành 1 đường thẳng.
- Nếu r = 0: không có mối tương quan tuyến tính. Lúc này sẽ có 2 tình huống xảy ra. Một, không có một mối liên hệ nào giữa 2 biến. Hai, giữa chúng có mối liên hệ phi tuyến.
Một số bài viết trên Internet chia sẻ mối tương quan r nhỏ hơn 0.2 thì không có tương quan giữa cặp biến đó – điều này hoàn toàn sai. Không có bất cứ tài liệu hay công thức nào chứng minh r < 0.2 thì cặp biến không có tương quan cả. Nếu sig < 0.05 thì có tương quan, khi đó r tiến càng gần 1 tương quan càng mạnh, càng tiến gần 0 tương quan càng yếu; nếu sig > 0.05 thì mới không có tương quan.
2. Thực hành phân tích tương quan Pearson
Các bạn truy cập vào thẻ Analyze > Correlate > Bivariate…
Hộp thoại Bivariate Correlations xuất hiện, các bạn đưa các biến độc lập và biến phụ thuộc từ cột bên trái sang bên phải. Để thuận tiện cho quá trình đọc số liệu, các bạn nên sắp sếp biến phụ thuộc nằm trên cùng (trong hình là biến HL). Sau đó các bạn chọn OK.
Bảng tương quan Correlations xuất hiện trong Output của các bạn. Tiến hành đọc số liệu:
Yếu tố cần quan tâm đầu tiên là giá trị sig. Giá trị sig nhỏ hơn 0.05 thì hệ số tương quan r mới có ý nghĩa thống kê, giá trị sig lớn hơn 0.05 nghĩa là không có tương quan giữa 2 biến này, khi đó r dù âm/dương, cao/thấp cũng không mang ý nghĩa gì cả.
> VỚI GIÁ TRỊ SIG TÔ MÀU CAM:
Giá trị sig tô màu cam nào nhỏ hơn 0.05 nghĩa là biến độc lập đó có tương quan tuyến tính với biến phụ thuộc, giá trị sig tô màu cam nào lớn hơn 0.05 nghĩa là biến độc lập đó KHÔNG tương quan với biến phụ thuộc. Lưu ý rằng, biến có sig tương quan với biến phụ thuộc lớn hơn 0.05, chúng ta kết luận rằng không có sự tương quan tuyến tính giữa cặp biến đó chứ không loại và chạy lại lần 2.
Khi sig nhỏ hơn 0.05, các bạn chú ý tới hệ số tương quan Pearson r để đánh giá mức độ tương quan mạnh/yếu giữa các biến độc lập với biến phụ thuộc. Thường chúng ta kỳ vọng sig tương quan giữa các biến độc lập với biến phụ thuộc nhỏ hơn 0.05.
> VỚI GIÁ TRỊ SIG TÔ MÀU HỒNG:
Giá trị sig tô màu hồng đại diện cho mối tương quan giữa các biến độc lập với nhau. Nếu sig nhỏ hơn 0.05 thì các bạn sẽ bắt đầu lưu ý tới hệ số tương quan Pearson để xem tính tương quan mạnh hay yếu giữa các biến độc lập. Nếu sig < 0.05 và giá trị tương quan Pearson lớn hơn 0.4 (kinh nghiệm thường gặp), chúng ta cần chú ý đến khả năng xảy ra hiện tượng đa cộng tuyến.
Cần lưu ý, ở bước Pearson chúng ta chỉ đặt nghi vấn chứ không có bất kỳ một tính toán, so sánh chính xác nào để chứng minh rằng giữa 2 biến độc lập có đa cộng tuyến xảy ra. Nghi vấn này sẽ được trả lời dựa vào hệ số VIF khi phân tích hồi quy, mời các bạn xem tại bài viết Cách phân tích và đọc kết quả hồi quy trong SPSS.
Thường chúng ta kỳ vọng sig tương quan giữa các biến độc lập với nhau lớn hơn 0.05 hoặc nếu sig nhỏ hơn 0.05 thì r thấp.
** Ý NGHĨA 2 DÒNG CUỐI TRONG KẾT QUẢ PEARSON
Khi sig nhỏ hơn 0.05 thì chỗ hệ số tương quan Pearson chúng ta sẽ thấy ký hiệu * hoặc **.
- Ký hiệu ** cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức tin cậy đến 99% (tương ứng mức ý nghĩa 1% = 0.01).
- Ký hiệu * cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức tin cậy đến 95% (tương ứng mức ý nghĩa 5% = 0.05).