Phương pháp phát hiện các loại sai sót của dạng Mô hình hồi quy

1. Phát hiện sự hiện diện của các biến không liên quan

Giả sử chúng ta xây dựng mô hình k biến để giải thích một hiện tượng nghiên cứu nào đó:

trị R2 cao và hệ số Durbin-Watson d chấp nhận được (vào khoảng 2), …. Tuy nhiên, việc khai thác dữ liệu có thể dẫn tới sai lầm sau.

Mức ỷ nghĩa thực và danh nghĩa khỉ cỏ việc khai thác dữ ỉiệu. Nếu không cẩn thận với việc khai thác dữ liệu, chúng ta có thể gặp phải sai lầm quan ừọng sau. Mức ý

nghĩa thống kê thông thường mà ta thường sử dụng (à) như 1,5, 10% không phải là mức ý nghĩa thực sự. Lovell đã đề nghị rằng nếu mô hình có thể có c biến, ứong đó, cuối cùng, chứng ta lựa ra k biến {k <c) theo phương pháp khai thác dữ liệu. Theo đó, mức ý nghĩa thực sự (a*) từ mức ý nghĩa danh nghĩa (à) có thể được tính theo công thức sau:

Chẳng hạn, nếu c = 15, k = 5, và a = 5%, từ (6.12), ta có thể tính được mức ý nghĩa thực sự là (15/5)(5) = 15%. Do đó, nếu nhà nghiên cứu phân tích chọn ra 5 từ 15 biến và chỉ ước lượng hàm hồi qui 5 biến tại mức ý nghĩa 5% và cho rằng kết quả ước lượng là có ý nghĩa thống kê. Kết quả này sẽ không đáng tin cậy vì mức ý nghĩa thực tế là 15%. Ta cũng lưu ý rằng khi c = k thì sẽ không có hiện tượng khai thác dữ ỉỉệu. Tuy nhiên, ứong thực tế, hầu hết các nhà nghiên cứu chỉ trình bày kết quả của hàm hồi qui cuối cùng của họ mà không nói rõ về việc khai thác dữ ỉiệu, hay các bước “thủ” đã làm trước đó. Do vậy, chứng ta khó nhận ra sự sót này khi đọc các báo cáo nghiên cứu.

2. Kiểm định biến bị bỏ sót và dạng hàm số không đúng

Trong thực tế, chúng ta hầu như không biết chắc chắn rằng mô hình đang sử dụng để phân tích thực tế có “đứng” hay không. Dựa vào lý thuyết, trực quan hay những nghiến cứu sẵn có, chúng ta có thể xây dựng những mô hình mà chúng ta tin tưởng chúng có thể phản ánh được bản chất của vấn đề được nghiến cứu. Sau đó, chúng ta đưa mô hình ra kiểm định thực tế. Chứng ta có thể dựa vào những thông số của kết quả hồi qui như giá trị jp, giá trị tính toán t, so sánh dấu của hệ số ước lượng với dấu dự kiến của chứng, hệ số Durbin-Watson, . V. V…, để kết luận về sự phù hợp của mô hình. Nếu kết quả của kiểm định tốt, chúng ta có thể kết luận mô hình được lựa chọn phản ánh khá chân thật thực tế. Ngược lại, nếu kết quả kiểm định không tốt, chúng ta có thể cho rằng mô hình không phù hợp và tìm cách sửa chữa. Dể phát hiện ra những sai sót của mô hình, chứng ta có thể sử dụng những phương pháp sau.

2,1. Kiểm tra phần dư

Như đã trình bày ữong các chương trước, việc kiểm tra phần dư có thể giúp ta phát hiện hiện tượng tự tương quan bằng hình ảnh. Ở đây, việc kiểm tra phần dư còn

giúp chúng ta phát hiện các sai sót của mô hình, đặc biệt là đối với dữ liệu theo không gian, như bỏ sót biến quan trọng hay dạng hàm số của mô hình sai. Khi có những sai sót đó, hình ảnh của phần dư sẽ có những dấu hiệu khác nhau.

Chúng ta hãy tiếp tục với hàm chi phí bậc ba như trong phần đầu. Giả sử rằng hàm tổng chi phí đúng có dạng như sau:

Với bảng dữ liệu 6.1, chúng ta có thể ước lượng các hàm chi phí bậc nhất, bậc hai và bậc ba và phần sai số ứng với mỗi mô hình như sau:

Từ hình 6.1, chúng ta thấy rằng phần dư của các hàm chi phí nhỏ dần từ dạng hàm bậc nhất đến hàm bậc ba. Do vậy, khi đi từ hàm bậc nhất đến hàm bậc ba, chúng ta tiến dần đến mô hình “đúng” không những là vì phần dư ngày càng nhỏ hơn mà còn vì chúng không biểu hiện sự dao động tuần hoàn gây ra bởi mô hình không thích họrp.

Chúng ta đã thấy rõ ích lợi của việc sử dụng hình vẽ của đường phần dư: khi có sự sai sót của mô hình, chúng sẽ được biểu hiện bằng hình ảnh.

2.2. Kiểm đinh Durbin-Watson d

De sử dụng kiểm định Durbin-Watson để phát hiện các sai sót của mô hình, chúng ta có thể tiến hành như sau:

  • Từ mô hình được giả định trước, chúng ta ước lượng OLS để tính phần dư.
  • Neu chúng ta nghĩ rằng mô hình giả định này bị sai sót bed nó bỏ sót một biến quan họng nào đó, chẳng hạn như biến z, chứng ta sẽ sắp xếp phần dư trong bước 1 theo ưật tự tăng dần theo biến Lưu ý rằng: z có thể là một ứong những biến X được bao gồm ứong mô hình giả định hay có thể là một hàm số nào đó của X, như X2 hay Xs.
  • Tính thống kê d từ các phần dư đã được xếp theo ừật tư bằng công thức thông thường:

Lưu ý rằng: ký hiệu t là số thứ tự của quan sát, không nhất thiết dữ liệu ở đây là dữ liệu theo thời gian.

  • Từ bảng Durbin-Watson, nếu giá trị ước lượng d có ý nghĩa, chúng ta có thể chấp nhận giả thuyết là có sự sai sót trong mô hình và phải tìm cách khắc phục thích họp.

2.3. Kiểm định RESET của Ramsey

Nhà kinh tế lượng Ramsey đã đề xuất một cách kiểm định tổng quát sự sai sót của mô hình bằng phương pháp RESET (kiểm định sai số mô hình hồi qui). Trong nội dung này, chúng tôi chỉ trình bày cách kiểm định đơn giản nhất. Bây giờ, chúng ta tiếp tục với ví dụ về hàm chi phí của chứng ta. Giả sử chi phí là hàm số tuyến tính theo sản lượng:

Chúng ta thấy rằng giá trị F có mức ý nghĩa thống kê rất cao. Điều này cho thấy mô hình (6. 16) có sai sót. Chúng ta cũng có thể có kết luận tương tự khi nhìn vào hình ảnh phần dư cũng như khi sử dụng kiểm định Durbin-Watson d.

Một thuận lợi của phương pháp RESET là nó dễ áp dụng bởi vì nó không đòi hỏi chúng ta phải biết rõ các dạng mô hình liên quan. Tuy nhiên, đó cũng lại là bất lợi của phương pháp này bởi vì khi chúng ta biết mô hình có sai sót, chúng ta không có dạng mô hình tốt hơn để thay thế.

2.4. Kiểm định hệ số Lagrange (LM) đối với biến thêm vào

Đây là một cách khác của kiểm định RESET của Ramsey. Đe minh họa, chúng ta sẽ tiếp tục với ví dụ của chúng ta trong các phần trước. Nếu chúng ta so sánh hàm chi phí tuyến tính với hàm chi phí bậc ba thì hàm tuyến tính chính là một phiên bản bị giới hạn của hàm bậc ba. Hàm hồi qui bị giới hạn (6.16) giả định rằng hệ số của biến sản lượng bình phương và lập phương đều bằng không. Để kiểm định điều này, kiểm định LM được tiến hành như sau:

  • Ước lượng hàm hồi qui bị giới hạn (6.16) bằng OLS và tính phần dư, ủ .
  • Nếu hàm hồi qui không bị giới hạn thực sự là mô hình đúng, phần dư tính được từ (6.16) sẽ có quan hệ với biến bình phương và lập phương của sản lượng, xỉ và X,3.
  • Điểu này nói lên rằng chúng ta chạy hồi qui phần dư ủ tính từ bước 1 theo tất cả các biến (bao gồm cả các biến ứong mô hình bị giới hạn), ta có dạng hàm:

Mặc dù số mẫu của chúng ta là 11, không là mẫu lớn, chúng ta chỉ dùng để minh họa phương pháp LM, chúng ta tính được nR2 = (11)(0,9628) = 10,0958. Từ bảng chi bình phương, ta thấy rằng ờ bậc tự do là 2, giá trị của chi bình phương ở 1% là khoảng 9,21. Do vậy, giá trị được tính toán có ý nghĩa tại mức 1% và chúng ta bác bỏ hàm hồi qui bị giới hạn (hàm tuyến tính). Chúng ta có kết luận giống nhu các phương pháp kiểm định trước.

3. Sai số của phép đo lường

Cho đến bây giờ, chúng ta ngầm hiểu rằng các biến phụ thuộc 7 và biến độc lập X được đo lường chính xác, không có sai số của phép đo lường. Do vậy, chẳng hạn như khi hồi qui tiêu dùng của hộ gia đình theo tài sản của hộ gia đình, chúng ta giả định rằng dữ liệu của các biến là “chính xác”; chúng không phải là các ước lượng dự đoản, suy diễn, làm tròn theo một cách thức nào đó. Tuy nhiên, trong thực tế, chúng ta khó có thể có các dữ liệu chính xác do một số lý do như: sai số khi cung cấp thông tin, sai số khi báo cáo hay sai số tính toán. Dù lý do nào đi nữa, sai số của phép đo lường sẽ gây ra những vấn đề rắc rối bởi vì nó gây ra những mô hình sai lệch với những hậu quả được trình bày sau đây.

3.1. Sai số của phép đo lường trong biến phụ thuộc Y

Chúng ta hãy xem xét mô hình:

RÕ ràng phương sai của mô hình sau lớn hơn của mô hình trước. Do vậy, mặc dù sai số của phép đo lường ừong biến phụ thuộc cho ra ước lượng không chệch của các tham số và phương sai nhưng phương sai được ước lượng lớn hơn phương sai khi không có sai số.

3.2. Sai số của phép đo lường trong biến giải thích X

Do vậy, biến giải thích và phần sai số trong (6.32) đồng tương quan. Điều này vi phạm giả định quan họng của mô hình hồi qui tuyến tính cổ điển là biến giải thích không đồng tương quan với phần sai số ngẫu nhiên. Trong trường hợp giả định này bị vi phạm, chúng ta thấy rằng ước lượng OLS không những là ước lượng chệch mà còn không thích hợp, nghĩa là chúng vẫn chệch thậm chí khi số mẫu tăng vô hạn.

Do đó, loại sai số đo lường này sẽ gây ra những sai lầm nghiêm trọng bởi vì chúng ta không ước lượng những tham số phù hợp. Chúng ta cần tìm ra cách khắc phục những sai sót này. Đây là vấn đề không phải dễ dàng. Một cách là, chúng ta giả sử rằng nếu crw2 rất nhỏ so với ơỵ trong thực tế, như vậy chúng ta có thể xem như không có sai số này và tiến hành ước lượng OLS bình thường. Dĩ nhiên, vấn đề ở đây là chúng ta không dễ dàng quan sát hay đo lường crw2 và ơỵ và do đó không có cách nào để biết độ lớn của chúng.

Một cách khác, chúng ta có thể sử dụng biến công cụ hay biển đại diện. Các biến này, mặc dù tương quan chặt chẽ với các biến X gốc nhưng không có đồng tương quan với phần sai số phương trình và sai số đo lường (tức là Ui và W/). Neu chúng ta có các biến đại diện như vậy, chúng ta có thể có được ước lượng phù hợp của p. Tuy nhiên, điều này khó xảy ra. Trong thực tế, chúng ta khó tìm ra những đại diện tốt như vậy. về mặt lý thuyết, có một số đề xuất khác để giải quyết vấn đề này. Tuy nhiên, hầu hết chúng phụ thuộc vào một hoàn cảnh cụ thể nào đó và dựa trên những giả định rất giới hạn nên chúng ta thật sự không có câu ừả lời hoàn chỉnh cho vấn đề này. Đó là lý do tại sao chúng ta cần đo lường các dữ liệu càng chính xác càng tốt.

Chúng ta xem xét một ví dụ minh họa cho những điều chúng ta vừa trình bày. Bảng 6.3 trình bày một bộ dữ liệu giả thiết về chi tiêu thực 7*, thu nhập thực X*, tiêu dùng được đo lường 7, và thu nhập được đo lường X. Bảng này cũng giải thích cách đo lường các biến này.

Sai số đo lường trong biển phụ thuộc Y. Đựa vào dữ liệu này, hàm tiêu dùng đúng là:

Đựa vào kết quả này và lý thuyết, các hệ số ước lượng vẫn không đổi. Tác động duy nhất của sai số đo lường trong biến phụ thuộc là phần sai số chuẩn có xu hướng lớn hơn. Lưu ý rằng các hệ số trong hai mô hình này giống nhau bởi vì bộ mẫu được xây dựng để phù hợp với giả định về mô hình sai số đo lường.

Bạn đọc có thể nhận ra điều gì sẽ xảy ra khi có sai số đo lường ừong cả biến phụ thuộc và độc lập Y và X. Bạn đọc có thể phân tích hồi qui Yị theo Xị thay vì r/theoJÇ*.

4. Xác định dạng của phần sai số không đúng

Một vấn đề khó khăn nữa mà các nhà nghiên cứu gặp phải là xác định dạng của sai số không đúng Ui trong mô hình hồi qui. Do chúng ta không thể quan sát trực tiếp phần sai số nên để định dạng cho nó không phải là việc dễ dàng. Chúng ta hãy trở lại mô hình (6.8) và (6.9) để thấy rõ điều này. Đe đơn giản, chứng ta giả sử không có hệ số chặn trong mô hình. Chứng ta đã giả định trước rằng dạng Ui trong (6.8) là InUị thỏa mãn những giả định thông thường của OLS.