1. Khái niệm hồi quy nhị phân (Binary Logistic)
Hồi quy nhị phân hay còn gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ xảy ra. Đặc trưng của hồi quy nhị phân là biến phụ thuộc chỉ có 2 giá trị: 0 và 1.
Trên thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng kinh tế, xã hội,… mà chúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không, công ty có phá sản hay không, khách hàng có mua hay không,… Những biến nghiên cứu có 2 biểu hiện như vậy được mã hóa thành 2 giá trị 0 và 1 – được gọi là biến nhị phân.

2. Phương trình hồi quy nhị phân
Phương trình hồi quy nhị phân Binary Logistic có dạng:
Ứng dụng rất mạnh của hồi quy nhị phân Binary Logistic là khả năng dự báo. Từ phương trình hồi quy, chúng ta có phương trình mô hình hàm dự báo như sau:
3. Thực hành phân tích hồi quy nhị phân trên SPSS
Thực hiện phân tích hồi quy nhị phân bằng phần mềm SPSS ở ví dụ dưới dây. Đây là nghiên cứu của một ngân hàng nhằm xem xét khả năng trả nợ của các cá nhân để quyết định có nên cho họ vay vốn hay không. Biến phụ thuộc TraNo mang 2 giá trị, 0 biểu hiện ý nghĩa không trả được nợ, 1 biểu hiện ý nghĩa trả được nợ. Có 3 biến độc lập trong mô hình tác động lên biến phụ thuộc TraNo gồm:
- Trình độ học vấn (HocVan): số năm đi học
- Độ tuổi (Tuoi): số tuổi đến hiện tại
- Thu nhập hàng tháng (ThuNhap): mức thu nhập hàng tháng tính bằng triệu đồng
Lưu ý, với biến độc lập là biến định tính phân thành nhóm, chúng ta cần mã hóa chúng về biến giả Dummy rồi mới thực hiện hồi quy.
Thực hiện hồi quy nhị phân trên phần mềm SPSS. Chúng ta vào Analyze > Regression > Binary Logistic.

Đưa biến phụ thuộc Y vào mục Dependent. Đưa các biến độc lập vào mục Covariates.




Bảng Dependent Variable Encoding cho biết biến phụ thuộc đang mang 2 giá trị, “Không trả được nợ” mã hóa là 0 và “Trả được nợ” mã hóa là 1.

Phần tiếp theo là mục Block 0. Chúng ta sẽ bỏ qua phần này bởi vì các kết quả phân tích ở Block 0 nằm ở trường hợp không có bất kỳ biến độc lập nào được đưa vào mô hình. Chúng ta sẽ sử dụng kết quả ở Block 1: Mô hình với đầy đủ các biến độc lập được đưa vào xử lý.

Bảng đầu tiên là Omnibus Tests of Model Coefficients. Bảng này cho kết quả phân tích các hệ số của mô hình. Step 1 là bước thứ nhất trong chạy mô hình Logistic. Do ở đây chúng ta dùng phương pháp Enter đưa các biến độc lập vào cùng một lần nên chỉ xuất hiện Step 1 trong kết quả thống kê. Trường hợp dùng các phương pháp khác bảng này sẽ có thêm các Step 2, 3, 4 tùy số lượng biến đưa vào.
Cột Chi-square và Sig. thể hiện kết quả của kiểm định Chi bình phương, đây là kiểm định để xem hệ số hồi quy của các biến độc lập có đồng thời bằng 0 hay không. Do phương pháp được chọn là Enter nên 3 giá trị sig của Step, Block và Model đều như nhau (hiện không có nhiều tài liệu đề cập đến việc chạy hồi quy Logistic bằng các phương pháp khác). Trong trường hợp này, sig của cả 3 chỉ số này đều bằng 0.000 < 0.05 (độ tin cậy 95%) nên mô hình hồi quy có ý nghĩa thống kê.


- Trong 129 trường hợp quan sát không trả được nợ, thì dự đoán có 122 trường hợp không trả được, tỉ lệ dự đoán đúng là 122/129 = 94.6%.
- Trong 171 trường hợp quan sát trả được nợ, dự đoán có 168 trường hợp trả được, tỉ lệ dự đoán đúng là 168/171 = 98.2%.
Như vậy, tỷ lệ trung bình dự đoán đúng là (94.6 + 98.2)/2 = 96.7%.

Bảng Variables in the Equation cung cấp nhiều thông tin về phương trình hồi quy. Chúng ta sẽ quan tâm cột Sig của kiểm định Wald đầu tiên (kiểm định Wald dùng để kiểm tra biến độc lập có ý nghĩa trong mô hình hồi quy hay không). Cụ thể trong trường hợp này, Sig kiểm định Wald của Tuoi, ThuNhap nhỏ hơn 0.05 (độ tin cậy 95%), 2 biến Tuoi và ThuNhap đều có sự ảnh hưởng lên khả năng trả nợ. Biến HocVan có sig kiểm định Wald bằng 0.278 > 0.05, HocVan không có sự tác động lên khả năng trả nợ.
Cột B là hệ số hồi quy của các biến độc lập, giá trị này có thể âm hoặc dương. Nếu B nhận dấu âm, nghĩa là biến độc lập đang tác động nghịch lên biến phụ thuộc, ngược lại, B mang dấu dương thể hiện biến độc lập tác động thuận lên biến phụ thuộc. Với kết quả ở trên, thế vào phương trình hồi quy logistic ta có (trường hợp biến độc lập có Sig kiểm định Wald > 0.05 sẽ không được đưa vào phương trình hồi quy):
- Độ tuổi: 35 tuổi
- Thu nhập: 17 triệu/tháng