Trước tiên, mình nói sơ lược về các dạng dữ liệu trong nghiên cứu để các bạn dễ hình dung nhé. Về cơ bản, chúng ta có 3 dạng dữ liệu chính: time-series data, cross-sectional data và panel data.
Time-series data là kiểu dữ liệu theo thời gian. Dữ liệu kiểu này được thu thập cho một đối tượng nhưng trong một khoảng thời gian dài. Dạng của time-series data sẽ là:
Year var1 var2
2015 10 3
2016 12 9
2017 17 8
2018 24 9
Trong khi đó, cross-sectional data lại là một kiểu dữ liệu theo thời điểm, được thu thập cho nhiều đối tượng nhưng chỉ thu thập tại một điểm thời gian. Dạng của cross-sectional data sẽ là:
ID var1 var2
1 10 3
2 12 9
3 17 8
4 24 9
5 21 1
Cuối cùng, panel data là kiểu dữ liệu kết hợp giữa time-series data và cross-sectional data. Những dữ liệu này được thu thập trong một khoảng thời gian dài và cho nhiều đối tượng khác nhau. Dạng của panel data sẽ là:
Year ID Var1 Var2
2015 1 17 8
2015 2 12 9
2015 3 10 10
2016 1 16 9
2016 2 23 10
2016 3 15 5
2017 1 24 9
2017 2 21 1
2017 3 10 6
2018 1 10 3
2018 2 20 7
2018 3 25 6
Vậy đây chính là kiểu sắp xếp dữ liệu mà chúng ta mong muốn. Tuy nhiên, dữ liệu thô khi được lấy từ các cơ sở dữ liệu về thì lại có dạng như sau:
id var12016 var12017 var12018 var22016 var22017 var22018
1 23 24 10 9 11 13
2 18 20 11 8 13 15
3 22 17 14 7 12 16
4 16 15 19 5 14 17
Các bước cần thực hiện để sắp xếp trong STATA như sau:
Bước 1: Raw data hiện đang được lưu trong excel. Bạn đặt lại tên cho các biển theo kiểu varnameyear. Viết liền vào luôn nhé (giống như ví dụ phía trên của mình). Bạn muốn đặt tên biến (varname) là gì thì bạn cứ đặt thôi nhé. Chọn định dạng cho các số liệu là number hết nhé.
Bước 2: Copy bảng dữ liệu trên vào cửa số Data Editor của STATA hoặc dùng lệnh import để nhập dữ liệu vào STATA.
Bước 3: Dùng lệnh Reshape trong STATA để sắp xếp dữ liệu. Dữ liệu của các bạn hiện tại là kiểu wide, mình cần chuyển thành dạng long (dạng panel data). Công thức lệnh reshape như sau:
reshape long var1 var2, i(id) j(year)
Lệnh này sẽ cho bạn kết quả sắp xếp như sau:
id year var1 var2
1 2016 23 9
1 2017 24 11
1 2018 10 13
2 2016 18 8
2 2017 20 13
2 2018 11 15
3 2016 22 7
3 2017 17 12
3 2018 14 16
4 2016 16 5
4 2017 15 14
4 2018 19 17
Bạn có thể dùng lệnh sort để sắp xếp nó theo id hoặc theo năm tùy thích.
Ví dụ:
sort id year thì dữ liệu sẽ sắp xếp theo id trước và year sau (giống như ví dụ).
sort year id thì dữ liệu sẽ được sắp xếp theo year trước và id sau.
Nếu các bạn muốn quay trở về (dạng wide) thì chúng ta có thể dùng lại lệnh reshape nhé. Công thức như sau:
reshape wide var1 var2, i(id) j(year)