Những vấn đề cơ bản về mô hình hồi quy tuyến tính (Phần 1)

Hôm nay chúng ta bắt đầu với ước lượng mô hình hồi quy tuyến tính bằng phương pháp OLS. Hàm hồi quy mẫu với k biến độc lập mà mọi người hay gọi là mô hình sẽ có dạng như sau:

 Y=a0+a1X1+a2X2+…+akXk+e

Thì các bạn thấy đó, ở mô hình này chính ta sẽ xem xét mối liên hệ, sự ảnh hưởng của X đối với Y như thế nào, hay một cách giải thích khác sự thay đổi của Y được giải thích bởi X như thế nào. Y được gọi là biến phụ thuộc và X gọi là biến độc lập, e là sai số.

Nâng cao hơn thì ad muốn nói đến một vài ý thôi. Ngoài 2 cái tên biến độc lập, biến phụ thuộc thì các bạn sẽ còn nghe đến biến giả, biến kiểm soát, biến tương tác, … Một vấn đề khác là phụ thuộc vào dạng/loại dữ liệu mà ý nghĩa của mô hình sẽ khác nhau.

Câu lệnh để chạy mô hình tương đối dễ sử dụng, các bạn muốn tìm hiểu thêm về câu lệnh này hãy gõ “help reg” để tìm hiểu thêm nha. Quay trở lại câu lệnh, ở đây ta có “depvar” đại diện cho biến Y và “indepvars” đại diện cho X. “if” sẽ hỗ trợ chúng ta khi phân tích 1 phần của dữ liệu cũng khá thú vị. Cuối cùng là “options” là phần mở rộng của câu lệnh này. Đừng quên là Stata phân biệt chữ hoa và chữ thường nhé, nếu ghi như thế này “Reg” thì Stata bó tay luôn.

regress depvar [indepvars] [if] [, options]

Để làm ví dụ chúng ta xét một mô hình hàm cầu lượng cá ba sa của Việt Nam xuất khẩu sang thị trường Hoa kỳ giai đoạn 1998 – 2017, dữ liệu theo tháng như sau:

Y = a0+a1X1+a2X2+a3X3+a4X4+a5X5+e

Trong đó: Y là lượng cá basa xuất khẩu của Việt Nam sang thị trường Hoa Kỳ.

  • X1 là giá trung bình tương đối của hàng hóa cá basa xuất khẩu của Trung Quốc sang thị trường Hoa Kỳ
  • X2 là giá dầu trung bình tương đối thế giới, đại diện cho ảnh hưởng gián tiếp của chi phí vận chuyển
  • X3 là giá thịt heo trung bình tương đối tại thị trường Hoa Kỳ
  • X4 là tỷ giá hối đoái
  • X5 là thu nhập bình quân trung bình tương đối của người dân Hoa Kỳ

 Giờ thì nhập file excel vào stata, các bạn vào theo hướng dẫn: “File/Import/Excel spreadsheet” hoặc bấm lần lượt tổ hợp phím “alt/f/I/enter” sau đó chọn đường link dẫn tới file data và tải về. Chúng ta bắt đầu với việc nhập câu lệnh để chạy mô hình hồi quy:

Cách 1: reg Y X1 X2 X3 X4 X5 hoặc regress Y X1 X2 X3 X4 X5

Cách 2: Vào giao diện phần mềm theo Statistics/Linear models and related/ Linear regression và chọn biến phụ thuộc và độc lập theo hình:

Chúng ta có kết quả như sau:

Nhìn vào kết quả này chúng ta cần để ý những thông số nào:

– Prob > F: Kết quả kiểm định ANOVA đối với mô hình hồi quy.

– R-squared và Adj R-squared: hệ số R^2 và hệ số R^2 hiệu chỉnh.

– P>|t|: giá trị kiểm định giả thuyết.

– Coef.: hệ số hồi quy

Ngoài ra chúng ta còn có: _cons là hệ số chặn hay hệ số tự do, [95% Conf. Interval] là khoảng tin cậy của hệ số hồi quy.