Lệnh Destring – nên dùng thế nào?

Khi xử lý dữ liệu thì một trong những việc khiến ad đau đầu nhất là các số liệu cần phải ở dạng số (numeric). Vì ở dạng này thì chúng ta mới có thể thực hiện các tính toán, phân tích được. Tuy nhiên, các dữ liệu khi đưa vào Stata rất hay ở dạng chuỗi (string – dữ liệu hiện màu đỏ). Nghe bảo chỉ cần dùng lệnh DESTRING là okay ngay, nhưng ad rất có thù oán với cái lệnh đó nhé. Ko hiểu sao, ad làm bao nhiêu lần mà nó vẫn ko ra được kết quả mong muốn. Không biết có bạn nào giống ad ko?
Cuối cùng, ad cũng học được bí kíp để dùng lệnh này. Vấn đề nằm ở các lựa chọn (option) của lệnh các bạn ạ.

Ví dụ như số liệu của mình có dạng $1,500. Nếu chỉ dùng DESTRING thôi thì nó sẽ ko ra được gì đâu cả nhà ơi. Đó là bởi vì số này có dấu $ và dấu , Vậy nên khi dùng DESTRING, STATA sẽ không thể nào hiểu được và loại bỏ các ký hiệu nonnumeric như vậy đâu. Chúng ta cần kê khai thêm các option trong lệnh nhé.

Giả sử biến mình cần DESTRING là Price. Các giá trị trong biến Price có dạng $1,500. Để destring biến Price này, mình cần dùng lệnh như sau:

destring price, replace ignore(“$” [, ignoreopts]) force float

Chỗ REPLACE mình có thể thay thế bằng GEN(price_new) thì STATA sẽ tạo ra biến price_new ở dạng numeric. Còn nếu dùng REPLACE, thì ko tạo ra biến mới, biến price sẽ được chuyển thành biến numeric nhé.

IGNORE: mình kê khai như vậy, nghĩa là STATA sẽ không để ý tới dấu $ và các ký hiệu nonnumeric khác như là dấu phẩy.

FORCE: mình bảo STATA rằng nếu có dữ liệu nào chứa các ký hiệu nonnumeric thì cái dữ liệu đó sẽ bị chuyển thành missing.

FLOAT: biến mới tạo ra sẽ có format là float. Float hoặc int là format của số nha các bạn. Tương tự nếu muốn nó thành dạng tỷ số thì các bạn chọn percent nhé.

DPCOMMA sẽ giúp chuyển đổi số với dấu phẩy làm ngăn cách số thập phân sang số có dấu chấm làm dấu ngăn cách số thập phân.

Hy vọng, các bạn sẽ nhìn thấy màu xanh thiên thanh mà các bạn mong muốn sau khi dùng lệnh DESTRING theo hướng dẫn của mình.

P/s: Hình ảnh thu thập được khi dùng lệnh HELP DESTRING trong Stata. Các bạn ko biết dùng lệnh nào thì cứ gõ help + tên lệnh trong cửa sổ lệnh/Mr. Google là okay nhé.