Có tất cả 4 thang đo dữ liệu (tiếng Anh là scale) bao gồm: Thang đo tỷ lệ (ratio scale), thang đo khoảng (interval scale), thang đo thứ bậc (ordinal scale) và thang đo danh nghĩa (nominal scale). Trong đó, hai thang đo đầu tiên là thang đo dành cho biến định lượng (có con số cụ thể), còn hai thang đo sau là thang đo dành cho biến định tính (có các tính chất khác nhau). Chúng ta cùng phân biệt 4 loại thang đo này nhé:
1. Thang đo tỷ lệ
Dữ liệu được đo theo thang đo này sẽ có 3 đặc điểm:
- Tỷ lệ giữa các dữ liệu có ý nghĩa
- Hiệu số giữa các dữ liệu có ý nghĩa
- Các dữ liệu có thứ tự
Ví dụ: Nếu biến Y có 2 quan sát là Y1 và Y2 thì tỷ lệ Y1/Y2 và hiệu số (Y1 – Y2) có ý nghĩa để so sánh hoặc xếp thứ tự. Gần như các dữ liệu về kế toán, kinh tế thuộc loại này. Điển hình như dữ liệu về GDP qua các năm. Chúng ta có thể nói GDP của năm này cao hơn với năm trước, hoặc tỷ lệ giữa GDP năm này so với năm trước là lớn hơn hoặc bé hơn 1.
2. Thang đo khoảng
Dữ liệu được đo theo thang đo khoảng không có đặc điểm thứ nhất. Dữ liệu năm là ví dụ điển hình cho thang đo khoảng. Ta có thể nói khoảng cách giữa năm 2018 và năm 2014 là 4 năm, nhưng tỷ lệ 2018/2014 thì hoàn toàn không có ý nghĩa.
3. Thang đo thứ bậc
Dữ liệu được đo theo thang đo thứ bậc chỉ có đặc điểm thứ 3 mà thôi. Ví dụ như hệ thống điểm số trong trường đại học A B C D hoặc phân loại thu nhập – thu nhập thấp, trung bình, cao. Khi lấy tỷ lệ của các dữ liệu này thì nó hoàn toàn không có ý nghĩa.
4. Thang đo danh nghĩa
Dữ liệu được đo theo thang đo này không có bất kỳ đặc điểm nào trong 3 đặc điểm đã nêu đối với thang đo tỷ lệ. Các dữ liệu về giới tính, tình trạng hôn nhân, tôn giáo được đo lường theo kiểu thang đo này. Các biến này ta thường gọi là biến giả (dummy variable hoặc là categorical variable). Nó chỉ có hai giá trị 0 và 1. Giá trị 1 tượng trưng cho sự tồn tại của đặc tính cần định lượng và 0 thế hiện cho việc không tồn tại đặc tính đó. Ví dụ như biến giả là Female thì nhận giá trị 1 nếu người được quan sát là nữ và 0 nếu người được quan sát là nam.
Đối với thang đo tỷ lệ và thang đo khoảng, việc đo lường biến có vẻ khá rõ ràng. Đối với thang đo thứ bậc, ad muốn nhắc lại một lần nữa là dữ liệu sẽ có ý nghĩa về thứ bậc. Một trong những ví dụ về thang đo thứ bậc mà các bạn rất hay gặp đó là thang đo Likert để đo lường sự hài lòng của khách hàng. Đối với thang đo danh nghĩa (biến dummy), Ad cần lưu ý với các bạn một số vấn đề như sau:
- Nếu sự vật hiện tượng mình cần đo lường có m đặc tính thì bạn cần phải tạo ra m-1 biến dummy. Ví dụ như cách thức mua sắm bao gồm 4 cách – đi chợ, đi siêu thị, mua online, giao hàng tại nhà. Như vậy, bạn phải tạo ra 3 biến giả.
- Nếu bạn tạo cả m biến dummy thì trong mô hình bạn không được bỏ hệ số chặn (intercept) vào nữa để tránh rơi vào bẫy biến giả (dummy variable trap). Cái này thì lúc chạy hồi quy mình nhớ lựa chọn là loại intercept ra khỏi mô hình là được.
- Đặc tính mang giá trị 0 được gọi là đặc tính/chuẩn so sánh. Cái này thì trong phần hồi quy với biến giả, ad sẽ giải thích kỹ hơn nha.
- Nếu mẫu dữ liệu nhỏ thì không nên tạo quá nhiều biến giả vì nó sẽ làm giảm số bậc tự do (degree of freedom) trong hồi quy và từ đó làm cho thống kê sẽ trở nên không đáng tin cậy.