Quy trình các bước kiểm định và phân tích hồi quy dữ liệu điều tra bảng hỏi

Sau khi đã xử lý xong dữ liệu từ bảng hỏi khảo sát điều tra, đảm bảo các yêu cầu về quy mô mẫu tối thiểu, nhà nghiên cứu thực hiện phương pháp định lượng cần tiến hành các bước theo quy trình phân tích hồi quy sau đây để kiểm định mô hình và giả thuyết nghiên cứu bằng phần mềm SPSS hoặc STATA:

Bước 1: Phân tích mô tả

Mục đích nhằm miêu tả các biến số dữ liệu về số lượng, đặc điểm và cấu trúc phân bổ của mẫu nghiên cứu. Mặt khác, nhà nghiên cứu cũng sử dụng phân tích mô tả để kiểm định lại lần cuối các dữ liệu thu thập được có hợp lệ hay không trong các ngưỡng giá trị nhỏ nhất, lớn nhất, độ lệch chuẩn, tổng mẫu …

Thực hiện: Phân tích mô tả gồm phân tích mô tả giá trị trung bình, min, max, độ lệch chuẩn (xem phân tích SPSS tại đây) và phân tích tần số (frequency) (xem phân tích SPSS tại đây) đối với các biến quan sát.

Bước 2: Phân tích thành tố khám phá EFA

Mục đích nhằm xác định, từ cơ sở dữ liệu sơ cấp thực tế thu thập được, xem (i) có bao nhiêu thành tố hình thành (tương ứng với các biến độc lập) và (ii) phân bổ các biến quan sát (các câu hỏi) đối với từng thành tố.

Thực hiện: phân tích thành phần chính PCA (Principal Components Analysis) đối với tất cả các biến quan sát của tất cả các biến độc lập, cụ thể xem phân tích thành tố khám phá EFA bằng SPSS.

Yêu cầu:

  1. Hệ số KMO (Kaiser-Meyer-Olkin) phải đạt giá trị 0,7 trở lên (0,7 ≤ KMO ≤ 1), phản ánh các biến quan sát đủ điều kiện để hình thành nên các thành tố;
  2. Kiểm định Bartlett (Bartlett’s test of sphericity) có ý nghĩa thống kê ở ngưỡng 95% (sig Bartlett’s Test < 0.05), tức hệ số KMO mới có giá trị đúng;
  3. Tổng phương sai trích (Total Variance Explained) ≥ 50% tức tổng thông tin của các thành tố hình thành phải giải thích được trên 50% tổng lượng thông tin của dữ liệu thực tế.

Ý nghĩa và hướng xử lý tiếp theo: so sánh về số lượng các thành tố thực tế hình thành từ dữ liệu thực tế trên đây với các biến độc lập (thành tố) lý thuyết đã xây dựng từ cơ sở lý luận (theoretical framework) của nghiên cứu. Hai vấn đề có thể phát sinh là:

  1. Nếu số lượng thành thực tế bằng số lượng thành tố lý thuyết tức các lý luận của nghiên cứu đã phù hợp với thực tế, cần tiếp tục kiểm tra vấn đề thứ hai sau đây. Nếu khác là lý luận đã xây dựng không phù hợp với thực tế;
  2. Tiếp tục kiểm tra xem phân bổ thực tế của các biến quan sát (các câu hỏi trong bảng hỏi) có phân bổ đúng vào thành tố của nó như phần cơ sở lý luận đã xây dựng hay không. Nếu khớp có nghĩa là các biến quan sát xây dựng từ lý luận phù hợp với thực tế; nếu không khớp là lý luận và thực tế lệch nhau, mặc dù chỉ ở các nội dung chi tiết.

Nếu các thành tố thực tế phù hợp các thành tố lý thuyết đã xây dựng, chúng ta tiếp tục thực hiện bước 3.

Nếu có sự không phù hợp giữa các thành tố thực tế và lý thuyết, về cả số lượng các thành tố hay phân bổ các biến quan sát, hai hướng xử có thể thực hiện là:

  1. Lấy theo số thành tố thực tế và phân bổ các biến quan sát thực tế; và điều chỉnh tên các thành tố cho phù hợp với lý thuyết để tiến hành bước 3 tiếp theo và phân tích diễn giải thực trạng này trong phần kết quả nghiên cứu.
  2. Hoặc, một cách khác là điều chỉnh hay làm lại cơ sở lý luận (theoretical framework) của nghiên cứu cho phù hợp với các thành tố thực tế, khi đó có thể nói là đang làm lại từ đâu nghiên cứu mặc dù có thể kế thừa từ những nội dung đã làm.

Bước 3: Phân tích thành tố khẳng đinh CFA

Mục đích nhằm đánh giá và kiểm định thang đo của từng thành tố hay từng biến độc lập một cách riêng lẻ.

Thực hiện: phân tích hệ số Cronbach’s Alpha và phân tích thành phần chính PCA (Principal Components Analysis) đối với các biến quan sát của từng biến độc lập. Nói cách khác nếu có n biến độc lập thì cần tiến hành n lần phân tích CPA. Xem chi tiết phân tích hệ số Cronbach’s Alpha với SPSS và hướng dẫn phân tích CFA bằng SPSS.

Yêu cầu: tiến hành với từng thành tố hay từng biến độc lập riêng lẻ và đảm bảo các yêu cầu sau:

  1. Hệ số Cronbach’s Alpha phải đạt giá trị 0,7 trở lên (0,7 ≤ Cronbach’s Alpha ≤ 1);
  2. Hệ số KMO (Kaiser-Meyer-Olkin) phải đạt giá trị 0,7 trở lên (0,7 ≤ KMO ≤ 1), phản ánh các biến quan sát đủ điều kiện để hình thành nên thành tố hay biến độc lập đang kiểm định;
  3. Kiểm định Bartlett (Bartlett’s test of sphericity) có ý nghĩa thống kê ở ngưỡng 95% (sig Bartlett’s Test < 0.05), tức hệ số KMO mới có giá trị đúng;
  4. Chỉ có duy nhất một thành tố hình thành với trị số Eigenvalue ≥ 1;
  5. Tổng phương sai trích (Total Variance Explained) ≥ 50% tức tổng thông tin của thành tố hình thành hay biến độc lập này phải giải thích được trên 50% tổng lượng thông tin của dữ liệu thực tế.

Ý nghĩa và hướng xử lý tiếp theo: Đảm bảo các biến quan sát phân bổ trong từng thành tố hay biến độc lập phản ánh đúng, đủ và duy nhất biến độc lập mà nó thuộc về; cũng như biến độc lập hình từ các biến quan sát phản ánh đúng và đa phần tổng ý nghĩa thực tế mà các biến quan sát hàm chứa.

Trong trường hợp các yêu cầu phía trên không được đảm bảo, cần tiến hành xử lý theo hai hướng ưu tiên từng bước như sau:

  1. Xử lý lại dữ liệu loại đi các đối tượng (observations) ngoại lại, chứa các giá trị quá khác biệt, phương pháp này nên ưu tiên với mẫu lớn;
  2. Loại các biến quan sát (câu hỏi) thành phần không phù hợp để đạt được các tiêu chí yêu cầu.

Kết thúc bước 3 này, các biến độc lập đã được kiểm định phù hợp, hay phản ánh đúng phần lớn thực tế, mới đủ điều kiện đưa vào phân tích mô hình hồi quy ở bước 5 trong quy trình phân tích hồi quy.

Bước 4: Phân tích tương quan giữa các biến độc lập

Mục đích nhằm kiểm tra mối liên kết giữa các biến, chủ yếu giữa các biến độc lập.

Thực hiện: Phân tích hệ số tương quan Pearson thường được sử dụng. Cụ thể xem hướng dẫn phân tích hệ số Pearson với phần mềm SPSS.

Yêu cầu: Nếu quan hệ tương quan giữa hai biến độc lập quá lớn (thường > 0,8 đến 1 và có ý nghĩa thống kê ở ngưỡng 95%) thì cần xem xét loại bỏ một trong hai biến không đưa vào phân tích hồi quy, vì sẽ làm xuất hiện hiện tượng đa cộng tuyến (multicollinearity) làm sai lệch kết quả hồi quy.

Tuy nhiên, khi chạy mô hình phân tích hồi quy, phần mềm thống kê sẽ tự loại bỏ một trong hai biến có hệ số tương quan quá lớn (thường > 0,9) hoặc sẽ chỉ rõ biến nào gây ra hiện tượng đa cộng tuyến thông qua giá trị chỉ số VIF càng lớn. Biến độc lập nào có giá trị VIF lớn nhất (và thường > 4) là biến gây ra hiện tượng đa cộng tuyến nhiều nhất nên cần loại bỏ. Do đó, bất chấp hệ số tương quan giữa các biến như thế nào, tất cả các biến độc lập vẫn có thể đều được đưa vào kiểm định mô hình hồi quy.

Ý nghĩa và hướng xử lý tiếp theo: Phân tích tương quan cho phép xác định quan hệ giữa các biến và giải thích vì sao xuất hiện hiện tượng đa cộng tuyến (multicollinearity) và cần phải xử lý cặp các biến nào. Để xử lý vấn đề này nếu vẫn cần phải kiểm định cả 2 biến độc lập có tương quan trong phân tích hồi quy (căn cứ chủ yếu vào giá trị hệ số VIF), phải tiến hành kiểm định hồi quy hai lần trong đó lần lượt loại bỏ và thay thế từng biến. Ví dụ biến x1 và x2 có tương quan lớn > 0.9; khi đó thay vì chỉ kiểm định 1 phương trình hồi quy gốc là Y = x1 + x2 + x3; thì phải kiểm định 2 phương trình là Y = x1 + x3 và Y = x2 + x3, để đánh giá được tác động của cả 2 biến x1 và x2 đến Y.

Bước 5: Phân tích hồi quy để kiểm định mô hình và giả thuyết nghiên cứu

Mục đích nhằm kiểm định mô hình và giả thuyết nghiên cứu lý thuyết đã đề xuất trên cơ sở các chỉ số kiểm định định lượng của mô hình tổng thể và của riêng từng biến độc lập trong phương trình hay mô hình hồi quy.

Thực hiện: Chạy mô hình kiểm định phương trình hồi quy, phổ thông nhất là phân tích hồi quy bội tuyến tính. Xem hướng dẫn cụ thể phân tích hồi quy với phần mềm SPSS.

Yêu cầu:

  1. Test F phải có ý nghĩa thống kê ở ngưỡng tin cậy 95% (Sig. ≤ 0.5), có nghĩa là mô hình phù hợp (valid) về mặt tổng thể để có thể phản ánh đúng thực tế.
  2. Giá trị R bình phương hiệu chỉnh (Adjusted R Square) ≥ 0,7 là ngưỡng tốt nhất, có nghĩa là mô hình giải thích được trên 70% biến thiên của thực tế; trong một số trường hợp giá trị Adjusted R Square có thể chấp nhận được ở ngưỡng ≥ 0,5.
  3. Không có hiện tượng đa cộng tuyến với các giá trị VIF của các biến quan sát đạt ngưỡng VIF yêu cầu quy định, tốt nhất là ngưỡng VIF < 2, phổ biến được chấp nhận là VIF < 4 hoặc 5, và trong một số trường hợp đặc biệt với quy mô mẫu rất nhỏ thì VIF < 10 cũng có thể chấp nhận được..

Ý nghĩa và hướng xử lý tiếp theo: Kết quả phân tích hồi quy sẽ cho phép nhà nghiên cứu kiểm định mô hình và các giả thuyết lý thuyết đã xây dựng. Cụ thể:

  1. Mô hình nghiên cứu tổng thể có ý nghĩa (valid) khi Test F có ý nghĩa thống kê ở ngưỡng tin cậy 95% (Sig. ≤ 0.5). Chỉ số này thường sẽ đạt được khi có ít nhất 1 biến độc lập trong mô hình hồi quy có tác động đáng kể đến biến phụ thuộc ở ngưỡng 95%.
  2. Để kiểm định từng giả thuyết nghiên cứu, cần xem xét test T của từng biến độc lập tương ứng gắn với mỗi giả thuyết. Thông thường 1 giả thuyết đi cùng với 1 biến độc lập. Nhưng cũng nhiều trường hợp 1 giả thuyết đi với nhiều biến độc lập, khi đó cần đánh giá kiểm định test T của tất cả các biến độc lập liên quan:
    • Trường hợp 1: nếu tất cả các biến độc lập đều có test T có ý nghĩa thống kê ở ngưỡng 95% (Sig.≤ 0.5) thì kết luận giả thuyết đó được kiểm định đúng (valid);
    • Trường hợp 2: nếu tất cả các biến độc lập đều có test T đều không có ý nghĩa thống kê ở ngưỡng 95% (Sig.> 0.5) thì kết luận giả thuyết đó không được kiểm định đúng (invalid); chú ý không nên kết luận là giả thuyết sai mà chỉ là không được kiểm định đúng theo đúng nghĩa thống kê;
    • Trường hợp 3: nếu một số các biến độc lập có test T có ý nghĩa thống kê và một số khác không có ý nghĩa thống kê ở ngưỡng 95% (Sig.≤ 0.5), thì kết luận giả thuyết đó được kiểm định đúng một phần (partially valid).

Trên đây là quy trình các bước kiểm định và phân tích hồi quy, chúc các bạn thành công!