Hệ số sig. là gì? Hệ số p value là gì?

Hôm nay mình giới thiệu một hệ số cực kì quan trọng trong kiểm định thống kê, đó là hệ số sig. trong phân tích SPSS,hoặc trong các phần mềm như Stata thì đây là hệ số p value.

 

Nghĩa là hệ số sig. và hệ số p value chỉ là hai cách gọi khác nhau thôi nhé.

  • p-value là viết tắt của probability value.
  • sig. là viết tắt của significance level.

Thường trong các kiểm định thì người ta muốn sig. <5% để các kiểm định có ý nghĩa thống kê. Vậy bài này sẽ đi vào chi tiết các vấn đề này nhé.
Bài này sẽ đi vào các phần chính sau đây:
-Quy trình kiểm định giả thiết thống kê test of significance.
-Ý nghĩa của trị số p value, ý nghĩa hệ số sig.
-Giả thiết là gì?
-Giả thiết vô hiệu, giả thuyết không(H0)) là gì?
-Giả thuyết khác, giả thiết đảo (Ha) là gì?
-Sai lầm loại I và loại II
-Ví dụ về sai lầm loại 1 và 2
-Mức ý nghĩa là gì?

Quy trình kiểm định giả thiết thống kê test of significance

Bước 1: Phát biểu giả thiết vô hiệu( null hypothesis H0). Nhà nghiên cứu cần phải định nghĩa một giả thuyết đảo (null hypothesis), tức là một giả thuyết ngược lại với những gì mà nhà nghiên cứu tin là sự thật.
Bước 2: Nhà nghiên cứu cần phải định nghĩa một giả thuyết phụ (alternative hypothesis), tức là một giả thuyết mà nhà nghiên cứu nghĩ là sự thật, và điều cần được “chứng minh” bằng số liệu.
Bước 3: sau khi đã thu thập đầy đủ những dữ kiện liên quan, nhà nghiên cứu dùng một hay nhiều phương pháp thống kê để kiểm tra xem trong hai giả thuyết trên, giả thuyết nào được xem là khả dĩ. Cách kiểm tra này được tiến hành để trả lời câu hỏi: nếu giả thuyết đảo đúng, thì xác suất mà những dữ kiện thu thập được phù hợp với giả thuyết đảo là bao nhiêu. Giá trị của xác suất này thường được đề cập đến trong các báo cáo khoa học bằng kí hiệu “P value”. Điều cần chú ý ở đây là nhà nghiên cứu không thử nghiệm giả thuyết khác, mà chỉ thử nghiệm giả thuyết đảo mà thôi.
Bước 4: quyết định chấp nhận hay loại bỏ giả thuyết đảo, bằng cách dựa vào giá trị xác suất trong bước thứ ba. Chẳng hạn như theo truyền thống lựa chọn nếu giá trị xác suất nhỏ hơn 5% thì nhà nghiên cứu sẵn sàng bác bỏ giả thuyết đảo. Tuy nhiên, nếu giá trị xác suất cao hơn 5%, thì nhà nghiên cứu chỉ có thể phát biểu rằng chưa có bằng chứng đầy đủ để bác bỏ giả thuyết đảo, và điều này không có nghĩa rằng giả thuyết đảo là đúng, là sự thật. Nói một cách khác, thiếu bằng chứng không có nghĩa là không có bằng chứng.
Bước 5: nếu giả thuyết đảo bị bác bỏ, thì nhà nghiên cứu mặc nhiên thừa nhận giả thuyết phụ.
Theo một qui ước khoa học, tất cả các trị số P thấp hơn 0.05 (tức thấp hơn 5%) được xem là “significant”, tức là “có ý nghĩa thống kê”.

Ý nghĩa của trị số p value,ý nghĩa hệ số sig.

Ý nghĩa của p-value, sig là xác suất của dữ liệu xảy ra nếu giả thiết vô hiệu H0 là đúng. Nghĩa là có bao nhiêu phần trăm của dữ liệu thỏa mãn trị số P. Giả sử P =2%, thì có 2% dữ liệu trong bộ số liệu thỏa mãn điều kiện nào đó.
Lưu ý không được hiểu là : xác suất của giả thiết vô hiệu H0 là 2%, hay P(H0)=2% , mà phải hiểu ở đây là xác suất của dữ liệu xảy ra
Logic của trị số P là chứng minh nghịch đảo, chứng minh phủ định:
-Nếu giả thiết vô hiệu H0 là đúng thì dữ liệu không thể xảy ra.
-Dữ liệu xảy ra
-Nên giả thiết vô hiệu H0 là không đúng.

Vậy giả thiết là gì?

Giả thuyết là một giả sử hay phát biểu về các tham số của tổng thể. Nó có thể đúng hoặc sai

Giả thiết vô hiệu (giả thuyết không (H0)) là gì?

H0 là một phát biểu (đẳng thức hoặc bất đẳng thức) liên quan đến tham số của tổng thể. Giả thiết vô hiệu là giả thiết ngược với giả thiết chính. Thường người ta muốn bác bỏ giả thiết vô hiệu.
Ví dụ: H0: Không có sự khác biệt giữa hai nhóm, không có mối tương quan giữa X và Y.
H0 thường được giả định đúng trong thủ tục kiểm định giả thuyết. Và người ta sẽ cố tìm cách để chứng minh H0 sai. Ví dụ một tuyên bố của nhà sản xuất thường bị nghi ngờ và để trong phát biểu trong H0.

Giả thuyết khác, giả thiết đảo(Ha) là gì?

Ha là phát biểu ngược với H0
Ha được kết luận là đúng nếu H0 bị bác bỏ
Nhà nghiên cứu mong muốn ủng hộ Ha và nghi ngờ H0
Nhiệm vụ của tất cả kiểm định giả thuyết hoặc là bác bỏ H0 hay không bác bỏ H0

Sai Lầm Loại I và Loại II

-Sai lầm loại I là sai lầm của việc bác bỏ H0 khi nó đúng
-Sai lầm loại II là sai lầm của việc không bác bỏ H0 khi nó sai
-Cụ thể đối với bất kỳ một thủ tục kiểm định nào, có thể xảy ra ba kết quả sau: (1) quyết định đúng được thực hiện (nghĩa là, thủ tục chấp nhận giả thuyết đúng và bác bỏ giả thuyết sai), (2) một giả thuyết đúng bị bác bỏ, (3) một giả thuyết sai được chấp nhận. Sai lầm bác bỏ H0 khi nó đúng được gọi là sai lầm loại I. Sai lầm không bác bỏ H0 khi nó sai được gọi là sai lầm loại II. Tương ứng với mỗi loại sai lầm này là một giá trị xác suất. Chúng được gọi là các xác suất sai lầm loại I và loại II và được ký hiệu là P(I) và P(II).

Ví dụ về sai lầm loại 1 và 2

Xem xét một bị cáo trong phiên xử hình sự. Giả thuyết không là bị cáo “vô tội” và giả thuyết ngược lại và bị cáo “có tội”. Giả định là bên bị đơn là vô tội và bên nguyên đơn phải chứng minh được rằng bên bị đơn là có tội, nghĩa là, thuyết phục ban bồi thẩm bác bỏ giả thuyết không. Nếu ban bồi thẩm tuyên bố một người vô tội “không có tội” hoặc một người phạm tội “có tội”, một quyết định đúng đã được thực hiện. Nếu một người vô tội bị tuyên bố có tội, ta phạm phải sai lầm loại I vì giả thuyết đúng đã bị bác bỏ. Sai lầm loại II xảy ra khi một người có tội được tuyên bố trắng án.

Một cách lý tưởng, chúng ta muốn giữ cho cả xác suất sai lầm loại I  P(I) và loại II P(II) càng nhỏ càng tốt bất chấp giá trị của thông số không biết có giá trị là bao nhiêu. Rủi thay, nỗ lực giảm P(I) sẽ tự động kéo theo sự gia tăng trị P(II). Chẳng hạn, trong ví dụ về phiên tòa hình sự, giả sử chúng ta không muốn một người phạm tội nào được tuyên bố trắng án. Các duy nhất để thực hiện được điều này là tuyên bố mọi người có tội. Trong trường hợp này, P(II) = 0, nhưng P(I) = 1 vì chúng ta cũng kết án tất cả những người vô tội.
Tương tự như trên, cách duy nhất để tránh kết án một người vô tội là tuyên bố mọi người vô tội. Trong trường hợp này, chúng ta cũng thả tự do cho tất cả những kẻ phạm tội hay P(II) = 1 và P(I) = 0. 1 Trong thực tế, sự đánh đổi giữa các sai lầm không đến nỗi cực đoan như vậy, tuy nhiên một quy tắc ra quyết định cụ thể sẽ tốt hơn cho một số giá trị của thông số và không tốt cho những giá trị khác.
Thủ tục kiểm định giả thuyết cổ điển là chọn giá trị cực đại cho sai lầm loại I chấp nhận được với người phân tích và sau đó đưa ra quy tắc quyết định sao cho sai lầm loại II là thấp nhất. Trong ví dụ về phiên tòa hình sự, điều này có nghĩa là chọn quy tắc ra quyết định sao cho số lần người vô tội bị kết tội không vượt qua một số phần trăm số lần nào đó (chẳng hạn, 1%) và cực tiểu xác suất người có tội được thả tự do.

Mức ý nghĩa là gì?

Xác suất sai lầm loại I lớn nhất khi H0 đúng được gọi là mức ý nghĩa (còn được gọi là kích thước của kiểm định). Trong ví dụ phiên tòa hình sự, đó chính là xác suất lớn nhất của việc kết án một người vô tội.

Như vậy câu hỏi hệ số sig. là gì? Hệ số p value là gì? đã được trình bài. Các bạn cần trao đổi cứ liên hệ nhé.