1. Định nghĩa
Hiện tượng nội sinh là một thuật ngữ diễn tả hiện tượng khi một hoặc nhiều biến giải thích (biến X) có mối quan hệ với sai số của mô hình. Như trong một số bài viết trước, các bạn đã biết sai số của mô hình là hiệu số giữa giá trị quan sát được của Y và giá trị dự báo của Y được tính toán dựa trên các hệ số hồi quy và giá trị của biến X. Giả sử ta có mô hình hồi quy dạng Y = a + bX + u thì sai số u cho mỗi dòng quan sát sẽ được tính là: u = Y – (a+b*X). Sai số của mô hình sẽ đại diện cho ảnh hưởng của những biến mà mình không quan sát được/không đưa vào mô hình. Những ảnh hưởng không quan sát được này phải là những ảnh hưởng không mang tính hệ thống (nghĩa là nó ảnh hưởng đến đối tượng này, nhưng không ảnh hưởng đến đối tượng khác), không tuân theo một quy luật nào cả, và là những ảnh hưởng không quá đáng kể.
Lưu ý là tất cả các mô hình đều có sai số, tuy nhiên điều quan trọng là sai số đó cần phải thỏa mãn một trong những giả định rất quan trọng của mô hình hồi quy đó là: E(u|X) = 0. Giả định này nói rằng, giá trị trung bình của các sai số dựa trên điều kiện của các biến X trong mô hình phải bằng 0. Đơn giản hơn, giả định này yêu cầu sai số không được có mối quan hệ với X. Nếu như giả định này không được đảm bảo, điều đó có nghĩa là trong sai số chứa đựng những thành phần nào đó (mà mình đã không đưa vào mô hình) có thể giải thích được Y và bản thân các biến X chắc chắn phải là những biến có mối quan hệ với Y. Vô hình chung, biến X và sai số có mối quan hệ với nhau và như vậy hiện tượng nội sinh xảy ra. Khi đó, các hệ số hồi quy ước lượng theo phương pháp hồi quy tuyến tính OLS sẽ bị chệch (biased) và nó sẽ không phản ánh đúng được mối quan hệ giữa X và Y. Hay nói một cách đơn giản, ta không thể nào sử dụng các hệ số hồi quy này được.
Để dễ hình dung hơn thì ad nói về một ví dụ nhé. Giả sử như ad muốn tìm mối quan hệ giữa số năm đi học và thu nhập của mỗi người. Như vậy, ad sẽ thực hiện hồi quy biến X là biến số năm đi học trên biến Y là biến thu nhập để tìm hiểu xem liệu học nhiều có giúp mình kiếm được thu nhập cao hơn trong tương lai hay không? Vấn đề trong mô hình của ad là có thể có nhiều yếu tố khác ảnh hưởng đến thu nhập mà ad đã quên đưa vào mô hình ví dụ như khả năng của mỗi người. Ta có thể thấy là khả năng có mối quan hệ khá chặt chẽ với số năm đi học của mỗi người và cả thu nhập trong tương lai. Vậy nên, mô hình của ad chắc chắn bị hiện tượng nội sinh và biến số năm đi học thường được gọi là biến nội sinh.
2. Nguyên nhân
Hiện tượng nội sinh thường xảy ra do 3 nguyên nhân: bỏ sót biến, mối quan hệ đồng thời và lỗi đo lường biến. Ad sẽ giải thích từng nguyên nhân với những ví dụ cụ thể nhé.
2.1. Bỏ sót biến (omitted variable bias)
Đây là lỗi mà chúng ta bỏ sót một hoặc một vài biến quan trọng trong mô hình. Ví dụ về lỗi này thì ad vừa trình bày ở trên luôn. Để làm cho nó có vẻ kinh tế lượng hơn thì mình sẽ giải thích theo mô hình nhé.
Mô hình đúng mà ad nên ước lượng là:
Tuy nhiên, vì một lý do nào đó, ad không có dữ liệu về khả năng nên ad chỉ có thể ước lượng được mô hình sau:
Lúc này, sai số u của mô hình sẽ là:
Và hệ số hồi quy beta 1 sẽ được ước lượng theo công thức sau:
Sai số ε trong mô hình đúng sẽ không có mối quan hệ với biến số năm đi học nên Cov(ε, số năm đi học)= 0.
Ad để thêm dấu mũ trên beta 1 để mọi người phân biệt đó là hệ số hồi quy ước lượng được thông qua mô hình bị sai, còn beta 1 là hệ số hồi quy hồi quy chuẩn (true beta). Tất nhiên là ta cần true beta = giá trị ước lượng, nhưng trong trường hợp này vì không có biến khả năng trong mô hình nên hệ số hồi quy ước lượng sẽ không phản ánh đúng hệ số hồi quy chuẩn.
2.2. Mối quan hệ đồng thời (simultaneity bias)
Vấn đề này xảy ra khi biến X và biến Y tác động lẫn nhau. Một trong những ví dụ kinh điển của vấn đề này là mối quan hệ giữa tỷ lệ phạm tội và số lượng cảnh sát. Tỷ lệ phạm tội quyết định số lượng cảnh sát cần có hay là số lượng cảnh sát làm ảnh hưởng đến tỷ lệ phạm tội? Cả hai mối quan hệ này đều có ý nghĩa và xảy ra đồng thời. Vậy thì hiện tượng nội sinh sẽ xảy ra như thế nào?
Vì X và Y đều có thể tác động lẫn nhau nên mối quan hệ giữa X và Y được thể hiện như sau:
Giả sử trong trường hợp này chúng ta ko có hiện tượng bỏ sót biến như ở trên nhé và mối quan hệ mà ta quan tâm là tác động của X lên Y (mô hình 1). Sai số u của mô hình (1) có mối quan hệ với Y, mà Y lại có thể tác động lên X như trong mô hình (2) nên X và u có quan hệ với nhau. Ngược lại, sai số v của mô hình (2) có mối quan hệ với X, mà X lại tác động lên Y như trong mô hình (1) nên Y và v có mối quan hệ với nhau. Như vậy, nếu chúng ta chỉ xem xét 1 trong 2 mô hình trên, chúng ta đã bỏ qua tác động của hiện tượng nội sinh và vì vậy, chúng ta ko thể ước lượng được hệ số hồi quy chuẩn a1 và b1. Bạn có thể chứng minh tương tự như cách ở trên để xem thử hệ số hồi quy ước lượng và hệ số hồi quy chuẩn bị lệch nhau như thế nào nhé.
2.3. Lỗi đo lường biến (measurement error)
Lỗi này có tên gọi đơn giản nhất và dễ hiểu nhất. Nó xảy ra khi chúng ta đo lường biến giải thích bị sai.
Giả sử mô hình chúng ta cần ước lượng là:
Tuy nhiên, vì một lý do nào đó, chúng ta không thể đo lường chính xác biến X mà chúng ta lại đo lường biến X* với một sai số đo lường nào đó.
Như vậy, mô hình mà chúng ta muốn ước lượng vô tình trở thành:
Sai số u bây giờ bao gồm sai số ε và một phần của sai số đo lường v. Điều này gây ra hiện tượng nội sinh vì thành phần v trong sai số mới có mối quan hệ trực tiếp với biến X*. Và hiện tượng này làm cho chúng ta không thể ước lượng được hệ số hồi quy chuẩn như chúng ta mong muốn.
Đây chính là 3 nguyên nhân chính gây ra hiện tượng nội sinh và lưu ý rằng khi hiện tượng này xảy ra, hệ số hồi quy ước lượng theo phương pháp OLS sẽ bị lệch chuẩn (biased). Cách để giải quyết hiện tượng này thông thường dựa vào việc sử dụng các phương pháp hồi quy có liên quan đến biến công cụ (instrument variable). Thông thường biến công cụ được ký hiệu là Z trong mô hình hồi quy. Ta có thể dùng một hoặc nhiều biến công cụ cho biến giải thích X. Biến công cụ Z cần phải thoải mãn được cả hai điều kiện:
Một là, biến Z có mối quan hệ càng mật thiết càng tốt với biến X.
Hai là, biến Z không được có mối quan hệ với sai số u của mô hình.
Việc tìm kiếm và chứng minh một biến công cụ tốt không phải đơn giản nếu không muốn nói là rất phức tạp. Với điều kiện thứ nhất, chúng ta có thể dễ dàng chứng minh được bằng cách thực hiện hồi quy với Z là biến giải thích và X là biến phụ thuộc. Nếu hệ số hồi quy của Z trên X có ý nghĩa thống kê mạnh và thống kê F có giá trị càng lớn càng tốt thì coi như chúng ta đã có thể chứng minh được điều kiện 1. Tuy nhiên, với điều kiện thứ 2, không hề có một cách gì để chúng ta có thể kiểm tra nó được. Nhiều bạn có thể nghĩ là sao chúng ta không chạy mô hình của Y lên X, lấy ra sai số u rồi sau đó chạy mô hình giữa u và Z. Nghe thì có vẻ hợp lý, nhưng cách này không được nha. Đối với giả định này, chúng ta cần phải giải thích để chứng minh là Z và u không có mối quan hệ với nhau. Có thể có nhiều cách giải thích, miễn sao chúng ta thuyết phục được là được.
Cách thức vận hành khi chúng ta sử dụng biến công cụ là mô hình sẽ được ước lượng theo hai bước.
Bước 1: Chúng ta sẽ ước lượng X từ Z bằng cách chạy hồi quy X trên Z.
Sau đó, chúng ta sẽ lấy ra ước lượng của X:
Bước 2: Thay vì dùng X, chúng ta sẽ dùng ước lượng của X trong mô hình hồi quy với Y.
Như vậy, hệ số b1 mà chúng ta cần ước lượng sẽ không bị chệch nữa. Nếu bạn cần ad chứng minh vì sao làm được như vậy thì inbox cho ad nha.
Các phương pháp ước lượng liên quan đến biến công cụ đều có thể giúp chúng ta thực hiện 2 bước này trong một câu lệnh, chứ chúng ta không cần phải làm 2 bước riêng biệt như ad trình bày ở trên. Nhưng nếu bạn muốn làm 2 bước thì cũng okay, chỉ có điều sai số của hệ số hồi quy sẽ không được tính chính xác so với việc chúng ta chạy kết hợp trong 1 câu lệnh.
Quay trở lại ví dụ về số năm đi học và thu nhập trong tương lai của mỗi người mà ad nói ở trên. Biến số năm đi học chắc chắn là biến nội sinh trong mô hình vì nó có thể liên quan đến các yếu tố cũng ảnh hưởng đến thu nhập nhưng chúng ta không quan sát được như khả năng, động lực, hoặc nền tảng gia đình, v.v… Tất cả những yếu tố này đều được thể hiện qua sai số u. Trong trường hợp này, chúng ta có thể chọn biến công cụ nào để có thể loại trừ ảnh hưởng nội sinh? Trong nghiên cứu của Angrist và Krueger (1991) thực hiện ở Mỹ về vấn đề này, họ đã sử dụng biến quý sinh của người đó để làm biến công cụ cho biến số năm đi học. Nghe có vẻ thú vị đúng ko? Hai điều kiện của biến công cụ được thỏa mãn như thế nào?
Điều kiện 1: Biến công cụ Z có mối quan hệ với X
Năm học ở Mỹ bắt đầu vào tháng 9 và trẻ em phải tròn 6 tuổi vào năm nhập học lớp 1, nên những đứa bé sinh ra vào quý IV (từ tháng 10 đến tháng 12) sẽ nhập học lớp 1 khi chúng gần tròn 6 tuổi (vì phải tính tới sinh nhật mới tròn tuổi). Trong khi đó, những đứa bé sinh vào quý I (tháng 1 đến tháng 3) thì phải chờ đến tháng 9 năm sau mới được nhập học vì tới tháng 9 cùng năm thì chúng vẫn chưa tròn 6 tuổi. Khi những đứa bé này tròn 16 tuổi thì những đứa bé sinh vào quý 4 đã hoàn thành lớp 11, còn những đứa bé sinh vào quý 1 mới chỉ hoàn thành lớp 10. Như vậy, quý sinh của mỗi người có mối quan hệ mật thiết với số năm đi học của người đó. Điều kiện 1 coi như đã được chứng minh.
Điều kiện 2: Biến công cụ Z không được có mối quan hệ với u.
Tác giả đã giải thích rằng quý sinh của mỗi người không có mối quan hệ với khả năng hay là động lực vì những yếu tố này liên quan đến yếu tố di truyền hoặc là mức độ khắng khít trong các mối quan hệ giai đình nhiều hơn. Lý do này có vẻ rất thuyết phục rồi phải không? Tuy nhiên, cũng có ý kiến phản biện rằng quý sinh của mỗi người có thể có liên quan nền tảng gia đình (lưu ý đây là một trong nhưng yếu tố không quan sát được và được thể hiện qua sai số) vì có gia đình sẽ ưa chuộng sinh con vào một mùa nhất định trong năm!!!
Như chúng ta thấy việc đưa ra các lý luận để giải thích biến công cụ thỏa mãn điều kiện thứ 2 là không hề đơn giản. Những biến công cụ tốt thường là những biến được tạo ra từ các thực nghiệm hơn là những biến có sẵn mà chúng ta quan sát được. Tuy nhiên, khi thực hiện những thực nghiệm thì sẽ tốn rất nhiều tiền của và công sức. Dẫu vậy, điều này không có nghĩa là việc tìm kiếm biến công cụ là vô vọng đâu nhé. Trên thực tế có rất nhiều nghiên cứu đã xuất sắc tìm ra những biến công cụ tốt dựa trên những dữ liệu có sẵn.