Khi nhắc đến thống kê mô tả thì chúng ta hay nói tới các đại lượng như:
– Giá trị trung bình (mean)
– Độ lệch chuẩn (standard deviation)
– Giá trị nhỏ nhất (min)
– Giá trị lớn nhất (max)
– Số quan sát (Obs)
Tuy nhiên, ngoài những đại lượng này ra thì các đại lượng khác cũng khá quan trọng. Ví dụ như:
– Skewness (Độ lệch dữ liệu – Dữ liệu quá tập trung về một bên)
– Kurtosis (Độ nhọn dữ liệu – Một giá trị nào đó có quá nhiều quan sát, hay nói cách khác là tần suất của giá trị đó quá lớn)
– Các giá trị phân vị tại các điểm percentile (đặc biệt là giá trị trung vị median – hay giá trị percentile 50%)
Việc xem xét đầy đủ các đại lượng này giúp chúng ta hiểu hơn về dữ liệu và dễ phát hiện được dữ liệu của mình có bị ‘bệnh’ gì không.
Để thực hiện thống kê mô tả trong STATA, các bạn chỉ cần dùng lệnh SUMMARIZE là xong. Lệnh này chắc cũng khá nhiều người biết rồi, nhưng thông thường mọi người dùng lệnh:
sum bien1 bien2 bien3
Lệnh này chỉ cho chúng ta các giá trị mean, std.dev, min, max và obs thôi.
Để có thể tính được các giá trị skewness, kurtosis hay các percentile, chúng ta thêm DETAIL ở phía sau câu lệnh là xong.
Xem hình ảnh ad đính kèm để biết thêm chi tiết nhé.