Biến định tính thường biểu thị có hay không có một tính chất hoặc biểu thị các mức độ khác nhau của một tiêu thức thuộc tính nào đó, chẳng hạn như giới tính (nam hay nữ), tôn giáo, chủng tộc, nơi cư trú, hình thức sở hữu của doanh nghiệp (doanh nghiệp thuộc sở hữu tư nhân hay nhà nước), ngành nghề kinh doanh, địa bàn kinh doanh…
Để lượng hoá được những biến định tính, trong phân tích hồi qui người ta sừ dụng biến giả (dummy variables). Biến giả được sử dụng trong nhiều trường hợp, cụ thể như sau:
Để hiểu được kỹ thuật sử dụng biến giả cho sự thay đổi hệ số chặn (tung độ điểm cắt) đường mô hình hồi qui, chúng ta giả định rằng các đường hồi qui cho các nhóm khác nhau chỉ khác nhau trong hệ số chặn nhưng giống nhau về hệ số góc. Ví dụ, giả sử có một mối quan hệ giữa thu nhập y và số năm đi học X của 2 nhóm như được trình bày trong hình 7.1. Những dấu chấm là của nhóm 1 và các ô tròn là của nhóm 2.
Chú ý rằng hệ số góc của 2 đường hồi qui là giống nhau nhưng hệ số chặn thì khác nhau. Chúng ta có thể sử dụng mô hình hồi qui:
Hai phương ưình này có thể kết hợp lại như sau:
Nếu có một số hạng hằng số trong phương trình hồi qui, số biến giả đưa vào mô hình sẽ luôn luôn nhỏ hơn số nhóm được liệt kê bởi vì số hạng hằng số là hệ số chặn cho nhóm cơ bản và các hệ số của biến giả sẽ đo lường sự khác nhau trong các hệ số chặn, như có thể thấy trong phương trình (7.3). Trong phương trình đó, số hạng hằng số đo lường hệ số chặn của nhóm thứ nhất, số hạng hằng số cộng với hệ số của Di đo lường hệ số chặn của nhóm thứ hai và số hạng hằng số cộng với hệ số của D2 đo lường hệ số chặn của nhóm thứ ba. Chúng ta đã chọn nhóm 1 làm nhóm căn bản, nhưng bất cứ nhóm nào cũng có thể được chọn làm nhóm căn bản. Hệ số của các biến giả đo lường sự khác biệt của các hệ số chặn so với hệ số chặn của nhóm căn bản. Nếu chúng ta không sử dụng số hạng hằng số trong phương trình hồi qui, chúng ta có thể khai báo một biến giả cho một nhóm, và trong trường hợp này các hệ số của các biến giả đo lường các hệ số chặn của các nhóm tương ứng. Neu chứng ta sử dụng cùng lúc số hạng hằng số và 3 biến giả, chúng ta sẽ gặp phải trường hợp đa cộng tuyến hoàn hảo và chương trình hồi qui sẽ không chạy (hoặc tự động bỏ đi 1 biến giả).
Một ví dụ khác, giả sử rằng chứng ta có số liệu về tiêu dùng c và thu nhập Y của một số hộ gia dinh. Thêm vào đó, chứng ta cũng có số liệu về:
- S: giới tính của chủ hộ
- A: tuổi của chủ hộ, được chia ra như sau: < 25 tuổi, từ 25 đến 50, > 50 tuổi.
- E: trinh độ học vấn của chủ hộ, cũng được chia thành 3 nhóm: < trung học, > trung học nhưng < đại học, > đại học.
tổng số dặm đi được tự động để giúp cho người mua xe ôtô so sánh hiệu quả của việc sử dụng nhiên liệu với những mô hình khác nhau. Ước lượng của văn phòng đại diện có cung cấp đủ thông tin cần thiết cho việc so sánh hiệu quả của việc sử dụng nhiên liệu với những mô hình khác nhau hay chưa? Để xem xét vấn đề này, Lovell đã ước lượng hồi qui sau (số lượng hoặc là sai số chuẩn);
trong đó: y = số dặm trên mỗi thùng nhiên liệu do Hội người tiêu dùng cung cấp dựa trên các kiểm tra trên xa lộ w = trọng lượng của xe
S/A = biến giả bằng 0 cho xe có bộ truyền lực tiêu chuẩn và bằng 1 cho bộ truyền lực tự động
G/D = biến giả bằng 0 cho xe chạy xăng và bằng 1 cho xe chạy dầu diesel EPA = tổng số dặm ước lượng bởi văn phòng đại diện
Các biến w, S/A, G/D đều có dấu phù hợp và đều có ý nghĩa thống kê, chứng minh rằng văn phòng đại diện bảo vệ môi trường đã không sử dụng hết các thông tin có thể ứong việc đưa ra ước lượng của họ về hiệu quả sử dụng nhiên liệu.