Thế nào là mô hình hồi quy OLS tốt?

Trước hết chúng ta có các sai phạm đặc trưng của mô hình (dạng hàm hồi quy) trong đó gồm: Bỏ sót biến cấn thiết, thừa biến không liên quan, sai dạng hàm và sai số đo lường. Đây là 4 vấn đề cơ bản nhất mà chúng ta sẽ phải quan tâm. Cách nhận biết chỉ có thể dựa vào kinh nghiệm của người làm nghiên cứu, kiểm tra kỹ lưỡng cơ sở lý thuyết mà thôi. Bên cạnh đó thì chúng ta cũng có kiểm định RESET để kiểm tra.

Vấn đề thứ hai là các bệnh (3 loại bệnh chính) của mô hình hồi quy đó là đa cộng tuyến, tự tương quan và phương sai sai số thay đổi. Nói sơ về các bệnh, ví dụ như đa cộng tuyến là trường hợp mà các biến độc lập có mức tương quan mạnh với nhau, 2 biến này có khả năng thay thế hoặc bổ sung cho nhau hoàn toàn. Bệnh cũng tương đối dễ chữa, nên cũng đừng quá lo lắng. Bệnh thứ 2 là phương sai sai số thay đổi, thì bản chất bệnh này khá trừu tượng để hình dung khi phương sai của biến phụ thuộc có mức thay đổi tương đồng nhau hoặc không đổi và bệnh này cũng dễ chữa bằng cách dùng ước lượng robust. Bệnh thứ 3 là tự tương quan. Bệnh này cho thấy bản chất các giá trị trong chuỗi, trong biến có sự tương quan với nhau. Bệnh này rất quan trọng đối với các mô hình nghiên cứu chuỗi thời gian và dự báo. Để chữa thì chúng ta cần sử dụng mô hình như DiD (Difference – Difference), phương pháp Durbin – Watson (1 bước hoặc 2 bước), thủ tục lặp Cochrane – Orcutt (1 bước hoặc 2 bước), … cũng có mô hình khó cũng có mô hình dễ, nên ad sẽ cố gắng lấy những ví dụ dễ hiểu nhất.

Riêng đối với các nghiên cứu chuỗi thời gian chúng ta sẽ gặp 1 vấn đề nữa là tính dừng. Hiểu nôm na là chuỗi dữ liệu sẽ giao động quan 1 trục, trung bình, xu thế với giá trị trung bình, phương sai, hiệp phương sai (tại các độ trễ khác nhau) giữ nguyên không đổi cho dù chuỗi được xác định vào thời điểm nào đi nữa. Nói thì phức tạp, các bạn chỉ cần nhớ là muốn biết chuỗi có dừng hay không thì chúng ta dùng các kiểm định, những con số sẽ cho chúng ta biết kết quả. Điều quan trọng là chuỗi phân tích của chúng ta phải dừng, vì nếu không thì sự thay đổi trong biến phụ thuộc chỉ là do thời gian trôi qua. Tuy nhiên, một số nghiên cứu với chuỗi thời gian quá ngắn, chưa thấy rõ được tính dừng và chúng ta phải chấp nhận hạn chế của đề tài. Cách chữa vấn đề này cơ bản nhất là dùng mô hình DiD.

Tiếp theo là phân phối. Khi nghiên cứu dữ liệu nghiên cứu phải là phân phối chuẩn, nhưng hầu hết các chuỗi phân tích không thuộc phân phối chuẩn đâu nhé. Mà cái này cũng hạng xoàng thôi, mô hình log kép như một vị cứu tinh để khắc phục lỗi này.

Đối với dữ liệu dạng bảng, chúng ta cũng cần phải quan tâm đến một vấn đề nữa, đó là nội sinh “endogeneity”. Đây là vấn đề tốn rất nhiều giấy mực và thời gian để hiểu nên ad hẹn các bạn vào một ngày đẹp trời khác nhé.

Tóm tắt:

– Mô hình lin-lin là dạng mô hình vi phạm các giả định của mô hình nhiều nhất;

– Mô hình DiD chữa được bệnh tự tương quan và cả tính dừng;

– Mô hình log kép khắc phục vấn đề phân phối chuẩn;

– Đa cộng tuyến chữa bằng thêm bớt biến nghiên cứu, đừng quên là dựa trên cơ sở lý thuyết và thực tiễn nha;

– Phương sai sai số thay đổi thì dùng ước lượng robust;

– Các sai phạm đặc trưng thì phải dựa nhiều vào lý thuyết và kinh nghiệm nghiên cứu.

– Điều quan trọng nhất, còn n vấn đề khác nữa nha;

– Điều quan trọng nhì, tất cả các vấn đề có tác động chéo lên nhau và làm lệch kết quả nghiên cứu, nhưng cố gắng hết trong khả năng hiểu biết của mình thôi.