Một công việc quan trọng của bất kỳ thủ tục thống kê xây dựng mô hình từ dữ liệu nào cũng đều là chứng minh sự phù hợp của mô hình. Để biết mô hình hồi quy tuyến tính đã xây dựng trên dữ liệu mẫu phù hợp đến mức độ nào với dữ liệu, chúng ta cần dùng một thước đo nào đó về độ phù hợp của nó.
1. R bình phương là gì?
Một thước đo sự phù hợp của mô hình tuyến tính thường dùng là hệ số xác định R bình phương (Coefficient of Determination). Công thức tính R bình phương (R square) xuất phát từ ý tưởng xem toàn bộ biến thiên quan sát được của biến phụ thuộc được chia thành 2 phần: phần biến thiên do Hồi quy (Regression) và phần biến thiên do Phần dư (Residual). Nếu phần biến thiên do Phần dư càng nhỏ, nghĩa là khoảng cách từ các điểm quan sát đến đường ước lượng hồi quy càng nhỏ thì phần biến thiên do Hồi quy sẽ càng cao, khi đó giá trị R bình phương sẽ càng cao.
Hệ số R bình phương là hàm không giảm theo số biến độc lập được đưa vào mô hình, nếu chúng ta càng đưa thêm biến độc lập vào mô hình thì R bình phương càng tăng. Tuy nhiên, điều này cũng được chứng minh rằng không phải phương trình càng có nhiều biến thì càng tốt hơn.
2. R bình phương hiệu chỉnh là gì?
Ý nghĩa của R bình phương hiệu chỉnh cũng giống như R bình phương là phản ánh mức độ phù hợp của mô hình. R bình phương hiệu chỉnh được tính từ R bình phương thường được sử dụng hơn vì giá trị này phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến. R bình phương hiệu chỉnh không nhất thiết tăng lên khi chúng ta đưa thêm các biến độc lập vào mô hình.
So sánh 2 giá trị như ở hình trên, giá trị R bình phương hiệu chỉnh (Adjusted R Square) nhỏ hơn giá trị R bình phương (R Square), dùng nó để đánh giá độ phù hợp của mô hình sẽ an toàn hơn vì nó không thổi phồng mức độ phù hợp của mô hình.
3. Ý nghĩa của R bình phương hiệu chỉnh
Mức dao động của R bình phương hiệu chỉnh là từ 0 đến 1, tuy nhiên việc đạt được mức giá trị bằng 1 là gần như không tưởng dù mô hình đó tốt đến nhường nào.
Về ý nghĩa của R bình phương hiệu chỉnh, như đã đề cập ở trên. Chỉ số này phản ánh mức độ giải thích của các biến độc lập đối với biến phụ thuộc trong mô hình hồi quy.
Trong ví dụ đọc kết quả hồi quy trên SPSS ở trên, giá trị R bình phương hiệu chỉnh là 0.725. Như vậy, các biến độc lập giải thích được 72.5% sự biến thiên của biến phụ thuộc. Phần còn lại 27.5% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên.
4. R bình phương hiệu chỉnh dưới 0.5 (50%)
Không có tiêu chuẩn chính xác R bình phương hiệu chỉnh ở mức bao nhiêu thì mô hình mới đạt yêu cầu, chỉ số này nếu càng tiến về 1 thì mô hình càng có ý nghĩa, càng tiến về 0 thì ý nghĩa mô hình càng yếu.
Thường chúng ta chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu, từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, tùy vào dạng nghiên cứu và dạng dữ liệu, không phải lúc nào cũng bắt buộc rằng mô hình hồi quy phải đạt giá trị R bình phương hiệu chỉnh lớn hơn 0.5 mới có ý nghĩa.
Như vậy, nếu kết quả hồi quy bạn phân tích được có R bình phương hiệu chỉnh dưới 50% (0.5) thì kết quả vẫn có thể được chấp nhận.