Tạo biến giả (dummy variable) trong STATA

Biến giả đã trở nên khá quen thuộc trong các nghiên cứu rồi phải ko mọi người. Đây là biến sẽ nhận giá trị 0 và 1, thường được sử dụng với mục đích kiểm soát tác động của một sự kiện, đặc tính nào đó đến biến đầu ra.

Để tạo biến giả trong STATA thì chúng ta sẽ dùng lênh GENERATE (hoặc viết tắt là GEN hoặc GE đều được). Có một số lưu ý/tip khi sử dụng biến giả mình muốn chia sẻ như sau:

1. Giả sử, các bạn muốn tạo biến giả D1 nhận giá trị 1 nếu bien_A>=3000 thì lệnh chúng ta dùng sẽ là:

gen D1 = (bienA>=3000)

Như vậy, biến D1 sẽ nhận giá trị 1 nếu biến A có giá trị lớn hơn hoặc bằng 3000 và nhận giá trị 0 nếu biến A nhỏ hơn 3000.

Một trong những LƯU Ý mà các bạn cần nhớ khi tạo biến giả là các MISSING VALUE, đặc biệt là với điều kiện như trên. Bởi vì, STATA sẽ ngầm hiểu các missing value là các giá trị lớn và sẽ gán giá trị 1 cho các missing value đó. Nếu dữ liệu không có missing data thì ko sau, nhưng nếu có thì chúng ta nên bổ sung thêm điều kiện trong câu lệnh trên như sau:

gen D1 = (bienA>=3000) if bienA != .

Dấu != nghĩa là khác hoặc không bằng, còn dấu . là missing value nha mọi người.

2. Nếu điều kiện là khoảng giá trị của biến A (ví dụ 3000 <= bienA <= 5000) thì chúng ta nên tạo biến giả D2 với điều kiện INRANGE như sau:

gen D2 = inrange(bienA,3000,5000)

3. Nếu biến A là biến string, mang các giá trị định tính (Ví dụ là tên của các tỉnh thành) thì lệnh của chúng ta sẽ viết như sau:

gen D3 = (bienA == “Đà Nẵng”)

Lưu ý:
Khi kê khai điều kiện thì chúng ta phải dùng dấu == thì STATA mới hiểu đó là dấu =
Nếu giá trị ko phải là số thì chúng ta bỏ trong dấu ngoặc kép, nhớ là phải đúng chính tả, đúng viết hoa viết thường luôn nhé.

4. Biến giả thường dùng để định nghĩa các hạng mục (category) của một biến định tính nào đó. Ví dụ biến C nhận các giá trị là 1,2,3,4,5,6,7. Mỗi giá trị đại diện cho một nhóm đối tượng. Khi kê khai biến giả, chúng ta cần lưu ý vấn đề sau:
– Số biến giả phải ít hơn số hạng mục một đơn vị. Ví dụ, chúng ta có 7 hạng mục thì chỉ kê khai 6 biến giả thôi. Tác động của hạng mục còn lại sẽ được kiểm soát trong hệ số chặn alpha của mô hình.
– Nếu mô hình không có hệ số chặn, ta có thể kê khai cả 7 biến giả.
Việc này sẽ giúp kết quả của mô hình không bị ảnh hưởng bởi đa cộng tuyến.