Sắp xếp lại dữ liệu theo kiểu dữ liệu bảng (Panel data)

Trước tiên, mình nói sơ lược về các dạng dữ liệu trong nghiên cứu để các bạn dễ hình dung nhé. Về cơ bản, chúng ta có 3 dạng dữ liệu chính: time-series data, cross-sectional data và panel data.

Time-series data là kiểu dữ liệu theo thời gian. Dữ liệu kiểu này được thu thập cho một đối tượng nhưng trong một khoảng thời gian dài. Dạng của time-series data sẽ là:

Year     var1     var2

2015       10         3

2016        12         9

2017        17         8

2018        24         9

Trong khi đó, cross-sectional data lại là một kiểu dữ liệu theo thời điểm, được thu thập cho nhiều đối tượng nhưng chỉ thu thập tại một điểm thời gian. Dạng của cross-sectional data sẽ là:

ID     var1     var2

1         10          3

2         12          9

3         17          8

4         24          9

5         21          1

Cuối cùng, panel data là kiểu dữ liệu kết hợp giữa time-series data và cross-sectional data. Những dữ liệu này được thu thập trong một khoảng thời gian dài và cho nhiều đối tượng khác nhau. Dạng của panel data sẽ là:

Year     ID     Var1     Var2

2015     1        17           8

2015     2        12           9

2015     3        10           10

2016     1        16           9

2016     2        23           10

2016     3        15           5

2017     1        24           9

2017     2        21           1

2017     3        10           6

2018     1        10           3

2018     2        20           7

2018     3        25          6

Vậy đây chính là kiểu sắp xếp dữ liệu mà chúng ta mong muốn. Tuy nhiên, dữ liệu thô khi được lấy từ các cơ sở dữ liệu về thì lại có dạng như sau:

id     var12016     var12017     var12018     var22016     var22017     var22018

1              23                  24                    10                   9                      11                    13

2              18                  20                    11                   8                      13                    15

3              22                  17                    14                   7                      12                    16

4              16                  15                    19                   5                      14                    17

Các bước cần thực hiện để sắp xếp trong STATA như sau:

Bước 1: Raw data hiện đang được lưu trong excel. Bạn đặt lại tên cho các biển theo kiểu varnameyear. Viết liền vào luôn nhé (giống như ví dụ phía trên của mình). Bạn muốn đặt tên biến (varname) là gì thì bạn cứ đặt thôi nhé. Chọn định dạng cho các số liệu là number hết nhé.

Bước 2: Copy bảng dữ liệu trên vào cửa số Data Editor của STATA hoặc dùng lệnh import để nhập dữ liệu vào STATA.

Bước 3: Dùng lệnh Reshape trong STATA để sắp xếp dữ liệu. Dữ liệu của các bạn hiện tại là kiểu wide, mình cần chuyển thành dạng long (dạng panel data). Công thức lệnh reshape như sau:

reshape  long  var1  var2,  i(id)  j(year)

Lệnh này sẽ cho bạn kết quả sắp xếp như sau:

id     year      var1      var2

1      2016        23           9

1      2017        24           11

1      2018        10           13

2      2016        18           8

2      2017        20           13

2      2018        11           15

3      2016        22           7

3      2017        17           12

3      2018        14           16

4      2016        16           5

4      2017        15           14

4      2018        19           17

Bạn có thể dùng lệnh sort để sắp xếp nó theo id hoặc theo năm tùy thích.

Ví dụ:

sort id year thì dữ liệu sẽ sắp xếp theo id trước và year sau (giống như ví dụ).

sort year id thì dữ liệu sẽ được sắp xếp theo year trước và id sau.

Nếu các bạn muốn quay trở về (dạng wide) thì chúng ta có thể dùng lại lệnh reshape nhé. Công thức như sau:

reshape  wide  var1  var2,  i(id)  j(year)