Hiện nay phần mềm STATA đang được sử dụng rất nhiều vào phân tích dữ liệu. Với việc cập nhật liên tục các chức năng mới, STATA đang trở thành công cụ mạnh trong phân tích dữ liệu cùng với các phần mềm khác như phần mềm EVIEWS, phần mềm SPSS, phần mềm R.
1. Tổng quan STATA
STATA là phần mềm thống kê được phát triển từ năm 1985 bởi StataCorp. Tên gọi “STATA” là kết hợp của các từ “statistics” và “data”. Nó được sử dụng bởi nhiều doanh nghiệp và tổ chức học thuật trên thế giới. Phần mềm được viết bằng C, có thể chạy trên Windows, Mac OS X, Unix, Linux.
Hầu hết những người sử dụng làm việc trong lĩnh vực nghiên cứu, đặc biệt là trong các lĩnh vực kinh tế, xã hội học, khoa học chính trị và dịch tễ học,…STATA cung cấp một hệ thống quản lý dữ liệu và khả năng phân tích thống kê với giao diện đồ họa thân thiện bao gồm trình đơn mô tả và các hộp thoại đơn giản. STATA là một chương trình thống kê mạnh, với sự hỗ trợ của công cụ lập trình.
Phần mềm STATA có các chức năng chính gồm: quản lí dữ liệu, phân tích thống kê, đồ họa, mô phỏng và hiệu chỉnh chức năng.
STATA là một bộ chương trình sử dụng trong phân tích định lượng và thống kê. STATA sử dụng các lệnh trực tiếp, có thể vào mỗi lệnh ở một thời điểm để thực hiện (chế độ này được người mới bắt đầu ưa thích) hoặc có thể soạn thảo thành một chương trình bao gồm nhiều lệnh cho một nhiệm vụ và thực hiện cùng một lúc. Thậm chí nếu mắc lỗi trong chương trình thì có thể nhận biết và sửa chữa dễ dàng. Trung tâm Phân tích định lượng trong kinh tế (QAE) là nơi đào tạo và tư vấn phân tích dữ liệu trên phần mềm STATA chuyên nghiệp dành cho các nhà nghiên cứu.
Một số chú ý khi sử dụng phần mềm STATA:
- Số liệu trong file Excel phải được lưu dưới dạng Number trước khi chuyển số liệu sang STATA;
- Các câu lệnh trong STATA được viết bằng chữ thường;
- Kết thúc câu lệnh bằng phím Enter;
- Các biến trong câu lệnh cách nhau bởi một khoảng trắng;
- Đối với tên biến, STATA phân biệt chữ viết hoa với chữ viết thường;
- Các tùy chọn được ký hiệu trong dấu ngoặc vuông []. Các tùy chọn này có thể có hoặc không trong câu lệnh. Các tham số bắt buộc (tên biến) được đặt trong dấu ngoặc <>. Các câu lệnh sẽ không thực hiện được nếu các tham số bắt buộc này không được khai báo;
- Một số lệnh STATA cho phép viết tắt. Ví dụ như lệnh generate có thể viết tắt là gen. Trong phần hướng dẫn này, phần gạch chân dưới cú pháp của câu lệnh là cú pháp viết tắt của câu lệnh đó;
- Khi phân tích số liệu trên phần mềm STATA, nếu bạn đọc muốn lưu các thao tác thực hiện lệnh và kết quả phân tích thì thực hiện các bước sau: File / Log / Begin…; Khi bạn đọc muốn kết thúc quá trình lưu thao tác thực hiện lệnh và kết quả phân tích thì thực hiện các bước sau: File / Log / Close;
- Trong STATA, cài đặt lệnh mới với cú pháp: findit <tên lệnh cần cài đặt>.
2. Đặc điểm của STATA
Về sử dụng: STATA là một bộ chương trình mà nhiều người mới bắt đầu và sử dụng mạnh đều ưa thích vì nó vừa dễ học có nhiều khả năng. STATA sử dụng các lệnh trực tiếp, có thể vào mỗi lệnh ở một thời điểm để thực hiện (chế độ này được người mới bắt đầu ưa thích) hoặc có thể soạn thảo thành một chương trình bao gồm nhiều lệnh cho một nhiệm vụ và thực hiện cùng một lúc. Thậm chí nếu mắc lỗi trong chương trình thì có thể nhận biết và sửa chữa dễ dàng.
Về quản lý dữ liệu: STATA hoàn toàn không có khả năng quản lý dữ liệu mạnh như SAS, nhưng các lệnh quản lý dữ liệu của nó vẫn có nhiều sức mạnh, lại rất đơn giản. Chúng cho phép thực hiện các thao tác phức tạp về dữ liệu một cách dễ dàng. Tuy nhiên, mỗi thời điểm STATA chỉ làm việc được với một file dữ liệu, vì vậy những nhiệm vụ xử lý cần nhiều file dữ liệu cùng một lúc đối với STATA là phức tạp hơn. Với việc đưa vào bộ giải phóng STATA /Se, số lượng biến có thể có đến 32.768 biến trong một file dữ liệu STATA, và kích cỡ của file cũng chỉ phụ thuộc vào dung lượng đĩa cứng.
Về phân tích thống kê:
Sức mạnh lớn nhất của STATA là hồi qui (rất dễ sử dụng các công cụ đoán nhận hồi qui), hồi qui logistic (những bổ sung mới làm đơn giản hoá việc giải thích kết quả hồi qui logistic, còn hồi qui logistic thứ tự và hồi qui logistic phạm trù là rất dễ thực hiện). STATA cũng có nhiều phương pháp ước lượng mạnh rất dễ sử dụng, bao gồm cả hồi qui mạnh và hồi qui với sai số chuẩn mạnh, và nhiều lệnh ước lượng khác kèm theo sai số chuẩn mạnh;
STATA cũng trội hơn về lĩnh vực phân tích dữ liệu theo lược đồ mẫu, cho khả năng áp dụng chúng trong phân tích số liệu điều tra bởi các công cụ hồi qui, hồi qui logistic, hồi qui poisson, hồi qui probit,… Điểm yếu nhất là khả năng phân tích phương sai và phân tích nhiều chiều truyền thống như phân tích phương sai nhiều chiều, phân tích nhóm tổ.
Về vẽ đồ thị: STATA cho một sự kết hợp tốt giữa việc dễ sử dụng và sức mạnh phân tích. Tuy STATA dễ học và cũng có những công cụ mạnh về quản lý dữ liệu, nhưng cũng như đã nêu trong phần phân tích, có một số thủ tục thống kê trong STATA cũng bị cắt bỏ. Trong STATA khả năng tải các chương trình phát triển bởi những người sử dụng khác về là dễ dàng và đồng thời có khả năng tạo ra các chương trình riêng của người sử dụng, để chúng trở thành một bộ phận của STATA.