Các giả định của mô hình hồi quy tuyến tính

Trước tiên, mình muốn giải thích hai tính chất khá quan trọng của một ước lượng – đó là tính không sai lệch (unbiased) và tính đồng nhất (consistent).

Unbiased: nghĩa là khi chúng ta thực hiện hồi quy nhiều lần cho một mô hình trên nhiều mẫu nghiên cứu có cùng quy mô là N quan sát, giá trị trung bình của các hệ số ước lượng sẽ thể hiện cho giá trị thực (true value) của hệ số hồi quy. Chúng ta có thể dùng lệnh simulate trong STATA để thực hiện công đoạn này.

Consistent: nghĩa là khi chúng ta càng gia tăng quy mô của mẫu nghiên cứu, hệ số ước lượng sẽ tiến về giá trị thực của hệ số hồi quy.

Ngoài ra, tính hiệu quả (efficient) của ước lượng có nghĩa là ước lượng mà chúng ta có được là ước lượng tốt nhất của một phương pháp hồi quy nhất định. Ví dụ, nếu chúng ta sử dụng phương pháp ước lượng OLS, ước lượng tốt nhất phải là các giá trị của hệ số hồi quy làm cho tổng bình phương sai số là nhỏ nhất.

Có nhiều cách để nhóm các giả định này, nhưng trong bài viết này thì mình chia thành 7 giả định chính.

1. Đây là mô hình hồi quy tuyến tính nên các hệ số hồi quy ở dạng hằng số (linear in the parameters)

Điều này nghĩa là trong thiết kế mô hình mà các bạn chạy, các hệ số hồi quy phải là các hằng số, chứ nó không nằm ở được có dạng số mũ, dạng log, hay tỷ số.

Ví dụ: Y = a + bX

Hệ số hồi quy sẽ không ở dạng tuyến tính nếu hàm số bạn ước lượng có dạng sau:

Y = a + X^b hoặc là Y = a + X/b

Nếu vậy, bạn cần phải biến đổi mô hình để hệ số hồi quy trở về dạng tuyến tính trước khi chạy mô hình. Lưu ý, đừng nhầm lẫn điều này với dạng của các biến các bạn nhé. Các biến độc lập và phụ thuộc có thể ở dạng mũ, dạng log hay dạng tỷ số đều được.

2. Biến độc lập là cố định hoặc phi ngẫu nhiên (fixed or nonstochastic)

Điều này nghĩa là giá trị của biến độc lập sẽ không thay đổi khi thay đổi mẫu nghiên cứu. Điều kiện này rất khó để đáp ứng trong các nghiên cứu vì khi chúng ta chọn mẫu khác nhau thì khả năng cao là biến độc lập sẽ thay đổi, ví dụ như dữ liệu ở Việt Nam sẽ khác với dữ liệu ở Mỹ, hay dữ liệu năm 2000 sẽ khác với dữ liệu năm 2019. Vậy nên, biến độc lập có thể không nhất thiết là biến cố định hay là biến phi ngẫu nghiên, miễn sao biến độc lập và sai số của mô hình không có quan hệ với nhau là được.

3. Các biến độc lập có phương sai lớn hơn 0

Phương sai thì ở dạng bình phương nên nó luôn luôn lớn hơn 0 rồi. Tuy nhiên nếu nó bằng 0 thì có nghĩa là ko có sự khác biệt giữa các biến X. Nếu vậy, sẽ rất khó để xác định được X ảnh hưởng như thế nào đến Y. Ví dụ như ta muốn nghiên cứu ảnh hưởng của thu nhập đến chi phí thức ăn của các gia đình. Nếu các gia đình trong mẫu nghiên cứu đều có thu nhập là 7 triệu, chi phí thức ăn của họ có thể như nhau. Vậy nên chúng ta cần một sự đa dạng trong các giá trị X mà mình nghiên cứu. Ví dụ có gia đình 7 triệu, có gia đình 10 triệu, 20 triệu,v.v…Khi đó, ảnh hưởng của thu nhập đến chi phí cho thức ăn có thể khác nhau.

Khi 3 điều kiện này được đáp ứng, nó sẽ đảm bảo sự tồn tại của hệ số hồi quy tuyến tính.

Các giả định tiếp theo sẽ đảm bảo cho hệ số hồi quy không bị chệch, nhất quán và hiệu quả.

3. Giá trị trung bình của các sai số (theo các giá trị đã cho của X/conditional on X) bằng không: E(u|X) = 0

Sai số của mô hình thể hiện cho ảnh hưởng của các yếu tố khác đến Y mà chúng ta không quan sát được. Sai số này là hiệu số giữa giá trị thực của Y (giá trị quan sát được) và giá trị ước lượng của Y (tính toán dựa trên mô hình Y = a + bX).

Mình minh hoạ theo ví dụ sau nhé:

4. Phương sai của các sai số là một hằng số (homoskedasticity – phương sai sai số không đổi): Var(u|X) = σ^2Giả sử chúng ta có giá trị của Y và X như trên Khi chạy mô hình có dạng Y = a + bX + u, ta thu được a =1 và b=2. Theo đó, ta có thể tính được giá trị ước lượng Y^ và tính được sai số cho từng quan sát. Các sai số này không nhất thiết phải bằng 0, nhưng giá trị trung bình của chúng thì bằng 0.

Giả định này nhằm đảm bảo rằng ảnh hưởng của X lên biến Y là như nhau giữa các quan sát, tránh trường hợp hệ số ước lượng bị “kéo” bởi một nhóm quan sát nhất định. Nếu giả định này bị vi phạm thì ước lượng OLS vẫn là ước lượng không thiên lệch nhưng sẽ không còn là ước lượng tốt nhất nữa. Hiện tượng lỗi này của mô hình được gọi là phương sai sai số thay đổi (heteroskedasticity).

5. Các sai số không được có mối quan hệ với nhau ( No autocorrelation): Cov(ui,uj) = 0

Giả định này thông thường bị vi phạm khi chúng ta thực hiện hồi quy trên dữ liệu theo thời gian. Đây là dữ liệu cho một đối tượng nhưng trên nhiều khoảng thời gian, nên quan sát ở năm t thường hay có mối quan hệ với quan sát ở năm t-1. Khi giả định này bị vi phạm, hệ số ước lượng vẫn sẽ không thiên lệch và nhất quán, nhưng không còn là ước lượng hiệu quả nữa. Hiện tượng lỗi này của mô hình gọi là tự tương quan (autocorrelation).

6. Các biến độc lập của mô hình không được có mối quan hệ tuyến tính hoàn hảo với nhau (no multicollinearity).

Nếu chúng ta có X1 = 2X2 + 5X3, điều này có nghĩa là các biến độc lập có mối quan hệ tuyến tính với nhau. Ảnh hưởng của biến X1, X2, X3 đến Y sẽ rất khó được tách rời. Khi giả định này bị vi phạm, khả năng bác bỏ các hệ số hồi quy cao hơn và mô hình trở nên không có ý nghĩa. Hiện tượng lỗi này của mô hình được gọi là đa cộng tuyến (multicollinearity)

7. Đúng dạng hàm cho mô hình hồi quy (no specification error)

Giả định này có nghĩa là chúng ta không bỏ sót biến quan trọng, không đưa các biến thừa vào mô hình, dạng mô hình là đúng, các biến được đo lường chính xác, không có các outlier trong mô hình, v.v…

Lỗi sai phạm quan trọng nhất trong các trường hợp trên là việc bỏ sót biến quan trọng (omission bias). Khi một biến quan trọng nào đó bị bỏ sót, ảnh hưởng của biến đó sẽ nằm trong sai số của mô hình và có thể có quan hệ với các biến độc lập trong mô hình. Đây là một lỗi vô cùng nghiêm trọng của mô hình vì khi biến độc lập và sai số của mô hình có quan hệ với nhau (Cov(X, u) ≠ 0), các ước lượng sẽ bị thiên lệch và không nhất quán. Hiện tượng lỗi này được gọi tên là hiện tượng ngoại sinh (endogeneity). Đây là một trong những hiện tượng khó xử lý nhất trong kinh tế lượng và trở thành mối quan tâm lớn nhất khi ước lượng các mô hình, đặc biệt là đối với hồi quy dữ liệu bảng.