Phân tích hồi quy nhị phân Binary Logistic trong SPSS

1. Khái niệm hồi quy nhị phân (Binary Logistic)

Hồi quy nhị phân hay còn gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ xảy ra. Đặc trưng của hồi quy nhị phân là biến phụ thuộc chỉ có 2 giá trị: 0 và 1.

Trên thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng kinh tế, xã hội,… mà chúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không, công ty có phá sản hay không, khách hàng có mua hay không,… Những biến nghiên cứu có 2 biểu hiện như vậy được mã hóa thành 2 giá trị 0 và 1 – được gọi là biến nhị phân.

Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với dạng hồi quy thông thường vì nó sẽ vi phạm các giả định, dễ thấy nhất là khi biến phụ thuộc chỉ có hai biểu hiện thì không phù hợp khi giả định rằng phần dư có phân phối chuẩn, mà thay vào đó nó sẽ có phân phối nhị thức, điều này sẽ làm mất hiệu lực thống kê của các kiểm định trong phép hồi quy thông thường.

2. Phương trình hồi quy nhị phân

Phương trình hồi quy nhị phân Binary Logistic có dạng:

Hồi quy nhị phân Binary Logistic
Trong đó:
Hồi quy Binary Logistic trong SPSS

Ứng dụng rất mạnh của hồi quy nhị phân Binary Logistic là khả năng dự báo. Từ phương trình hồi quy, chúng ta có phương trình mô hình hàm dự báo như sau:

Hồi quy nhị phân Binary Logistic
Trong đó Pi = E(Y = 1/X) = P(Y = 1) gọi là xác suất để sự kiện xảy ra (Y = 1) khi biến độc lập X có giá trị cụ thể X.

3. Thực hành phân tích hồi quy nhị phân trên SPSS

Thực hiện phân tích hồi quy nhị phân bằng phần mềm SPSS ở ví dụ dưới dây. Đây là nghiên cứu của một ngân hàng nhằm xem xét khả năng trả nợ của các cá nhân để quyết định có nên cho họ vay vốn hay không. Biến phụ thuộc TraNo mang 2 giá trị, 0 biểu hiện ý nghĩa không trả được nợ, 1 biểu hiện ý nghĩa trả được nợ. Có 3 biến độc lập trong mô hình tác động lên biến phụ thuộc TraNo gồm:

  1. Trình độ học vấn (HocVan): số năm đi học
  2. Độ tuổi (Tuoi): số tuổi đến hiện tại
  3. Thu nhập hàng tháng (ThuNhap): mức thu nhập hàng tháng tính bằng triệu đồng

Lưu ý, với biến độc lập là biến định tính phân thành nhóm, chúng ta cần mã hóa chúng về biến giả Dummy rồi mới thực hiện hồi quy.
Thực hiện hồi quy nhị phân trên phần mềm SPSS. Chúng ta vào Analyze > Regression > Binary Logistic.

Đưa biến phụ thuộc Y vào mục Dependent. Đưa các biến độc lập vào mục Covariates.

Tại mục Options. Tích vào hàng Classification plots, chọn Continue để quay lại cửa sổ ban đầu.
Tại mục Method, chọn phương pháp Enter. Tiếp tục nhấp vào OK để xuất các bảng kết quả.
Bảng Case Processing Summary cho chúng ta các thông tin mô tả đặc điểm dữ liệu đưa vào phân tích hồi quy nhị phân. Cụ thể ở đây, có 300 quan sát được đưa vào phân tích (Included in Analysis), không có quan sát nào bị thiếu số liệu (Missing Cases), không có quan sát nào không được chọn (Unselected Cases).

Bảng Dependent Variable Encoding cho biết biến phụ thuộc đang mang 2 giá trị, “Không trả được nợ” mã hóa là 0 và “Trả được nợ” mã hóa là 1.

Phần tiếp theo là mục Block 0. Chúng ta sẽ bỏ qua phần này bởi vì các kết quả phân tích ở Block 0 nằm ở trường hợp không có bất kỳ biến độc lập nào được đưa vào mô hình. Chúng ta sẽ sử dụng kết quả ở Block 1: Mô hình với đầy đủ các biến độc lập được đưa vào xử lý.

Bảng đầu tiên là Omnibus Tests of Model Coefficients. Bảng này cho kết quả phân tích các hệ số của mô hình. Step 1 là bước thứ nhất trong chạy mô hình Logistic. Do ở đây chúng ta dùng phương pháp Enter đưa các biến độc lập vào cùng một lần nên chỉ xuất hiện Step 1 trong kết quả thống kê. Trường hợp dùng các phương pháp khác bảng này sẽ có thêm các Step 2, 3, 4 tùy số lượng biến đưa vào.

Cột Chi-square và Sig. thể hiện kết quả của kiểm định Chi bình phương, đây là kiểm định để xem hệ số hồi quy của các biến độc lập có đồng thời bằng 0 hay không. Do phương pháp được chọn là Enter nên 3 giá trị sig của Step, Block và Model đều như nhau (hiện không có nhiều tài liệu đề cập đến việc chạy hồi quy Logistic bằng các phương pháp khác). Trong trường hợp này, sig của cả 3 chỉ số này đều bằng 0.000 < 0.05 (độ tin cậy 95%) nên mô hình hồi quy có ý nghĩa thống kê.

Bảng Model Summary cho kết quả tóm tắt của mô hình. Cột -2 Log likelihood (ký hiệu à -2LL) là một thông số để xem xét so sánh giữa các mô hình hồi quy với nhau, mô hình nào có -2LL nhỏ hơn sẽ tốt hơn. Thông số này không mang nhiều ý nghĩa nếu không có sự so sánh với mô hình hồi quy khác.
Hai cột Cox & Snell R Square và Nagelkerke R Square là giá trị R bình phương giả. Hồi quy logistic không sử dụng giá trị R bình phương giống với hồi quy tuyến tính. Cũng giống như -2LL, 2 chỉ số này dùng để so sánh các mô hình hồi quy khác nhau trên cùng một bộ số liệu, cùng một biến phụ thuộc để xem mô hình nào tốt hơn. Mô hình tốt hơn sẽ có R bình phương lớn hơn.
Bảng Classification Table cho thấy phân loại đối tượng trả được nợ và không trả được nợ theo hai tiêu chí: quan sát thực tế và dự đoán. Ý nghĩa:
  • Trong 129 trường hợp quan sát không trả được nợ, thì dự đoán có 122 trường hợp không trả được, tỉ lệ dự đoán đúng là 122/129 = 94.6%.
  • Trong 171 trường hợp quan sát trả được nợ, dự đoán có 168 trường hợp trả được, tỉ lệ dự đoán đúng là 168/171 = 98.2%.

Như vậy, tỷ lệ trung bình dự đoán đúng là (94.6 + 98.2)/2 = 96.7%.

Bảng Variables in the Equation cung cấp nhiều thông tin về phương trình hồi quy. Chúng ta sẽ quan tâm cột Sig của kiểm định Wald đầu tiên (kiểm định Wald dùng để kiểm tra biến độc lập có ý nghĩa trong mô hình hồi quy hay không). Cụ thể trong trường hợp này, Sig kiểm định Wald của Tuoi, ThuNhap nhỏ hơn 0.05 (độ tin cậy 95%), 2 biến Tuoi và ThuNhap đều có sự ảnh hưởng lên khả năng trả nợ. Biến HocVan có sig kiểm định Wald bằng 0.278 > 0.05, HocVan không có sự tác động lên khả năng trả nợ.

Cột B là hệ số hồi quy của các biến độc lập, giá trị này có thể âm hoặc dương. Nếu B nhận dấu âm, nghĩa là biến độc lập đang tác động nghịch lên biến phụ thuộc, ngược lại, B mang dấu dương thể hiện biến độc lập tác động thuận lên biến phụ thuộc. Với kết quả ở trên, thế vào phương trình hồi quy logistic ta có (trường hợp biến độc lập có Sig kiểm định Wald > 0.05 sẽ không được đưa vào phương trình hồi quy):

Chúng ta có thể diễn giải ý nghĩa của các hệ số hồi quy Binary Logistic như sau. Học vấn cao, thu nhập cao, độ tuổi cao đều làm tăng khả năng trả nợ, trong đó biến HocVan có tác động mạnh nhất lên khả năng trả nợ (có hệ số B cao nhất), tiếp đến là Tuoi và cuối cùng là ThuNhap.
Một điểm rất mạnh của hồi quy nhị phân đó chính là khả năng dự báo. Sử dụng ví dụ ở trên, giả sử có anh Nguyễn Văn A đến ngân hàng vay vốn, hanh A cung cấp đầy đủ các thông tin như sau:
  • Độ tuổi: 35 tuổi
  • Thu nhập: 17 triệu/tháng
Thế vào phương trình mô hình dự báo ta có:
Mô hình Binary Logistic cho biết khả năng trả được nợ của người này là 94.26% > 50% = 0.5. Như vậy ngân hàng có thể xem xét cho anh A vay vì khả năng thu hồi nợ ở mức chấp nhận được.