10 hiểu lầm về trị số P trong khoa học

Trị số P đóng vai trò hết sức quan trọng trong nghiên cứu khoa học, vì nó là "sổ thông hành", một loại bảo kê cho khả năng công bố quốc tế. Trị số P cũng là thước đo của khám phá khoa học. Nhưng rất tiếc là trị số P bị diễn giải sai rất nhiều. Diễn giải sai là vì người ta hiểu sai ý nghĩa của nó. Ngạc nhiên thay, ngay cả những người học và làm về thống kê cũng hiểu sai ý nghĩa của trị số P. Trong cái note này tôi sẽ liệt kê vài hiểu lầm phổ biến nhất.




Hiểu lầm 1: Trị số P là xác suất của một giả thuyết khoa học

Một cách hiểu rất phổ biến là trị số P là xác suất giả thuyết vô hiệu. Chẳng hạn như nhà khoa học phát hiện mối liên quan giữa hút thuốc lá và ung thư với trị số P = 0.04, họ diễn giải rằng xác suất không có mối liên quan là 4%. Suy ra, xác suất có mối liên quan giữa hút thuốc lá và ung thư phổi là 96%. Nhưng cách hiểu này sai. Trị số P không nói gì về xác suất của một giả thuyết khoa học. Trị số P chỉ giúp chúng ta bác bỏ giả thuyết vô hiệu, chứ không chứng minh giả thuyết nào cả.

Hiểu lầm 2: Trị số P là xác suất dữ liệu xảy ra một cách ngẫu nhiên

Đây là một hiểu lầm mang tính khái niệm cơ bản. Theo cách hiểu này, khi một kết quả phân tích (ví dụ như giảm huyết áp 10 mmHg) với trị số P = 0.03, thì nhà nghiên cứu hiểu rằng xác suất mà kết quả đó xảy ra do yếu tố ngẫu nhiên là 3%; suy ra, xác suất kết quả giảm 10 mmHg là thật là 97%. Nhưng cách hiểu này cũng sai, bởi vì trị số P không nói lên kết quả nghiên cứu là ngẫu nhiên hay mang tính hệ thống.

Hiểu lầm 3: Trị số P là xác suất phát hiện sai

Đây là một hiểu lầm do suy nghĩ chưa cẩn thận. Một hiểu lầm phổ biến khác cho rằng P là xác suất phát hiện sai. Ví dụ như nhà khoa học tính toán hệ số tương quan, và có kết quả r = 0.25, với P = 0.01, họ hiểu rằng xác suất kết quả này sai là 1%. Suy ra, xác suất kết quả đúng là 99%. Nhưng cách hiểu này hoàn toàn sai, vì trị số P không cho chúng ta biết là kết quả nghiên cứu đúng hay sai.

Hiểu lầm 4: Trị số P là alpha

Khi thiết kế một nghiên cứu khoa học (nhất là nghiên cứu lâm sàng), nhà khoa học phải xác định ngưỡng alpha và beta của nghiên cứu. Nói nôm na, alpha là dương tính giả (tức là xác suất mà nghiên cứu cho ra kết quả dương tính nhưng trong thực tế chẳng có liên quan gì). Còn beta là âm tính giả (tức là xác suất mà nghiên cứu cho ra kết quả âm tính, nhưng trong thực tế thì có liên quan). Do đó, có nhiều nhà khoa học hiểu rằng trị số P chính là alpha, nhưng cách hiểu đó sai. Sai vì hiểu lầm khái niệm kiểm định giả thuyết (test of hypothesis). Trị số P là kết quả của kiểm định thống kê (test of significance), chứ không phải kiểm định giả thuyết.

Hiểu lầm 5: Trị số P càng thấp, mức độ ảnh hưởng càng cao

Đây là một hiểu lầm rất tai hại. Nhiều nhà nghiên cứu so sánh trị số P để đánh giá mức độ ảnh hưởng. Chẳng hạn như họ tìm trong y văn và thấy ảnh hưởng của thuốc statin trong một nghiên cứu có trị số P = 0.01, còn nghiên cứu của họ có trị số P = 0.001, họ suy luận rằng mức độ ảnh hưởng họ quan sát cao hơn mức độ ảnh hưởng báo cáo trong y văn. Nhưng cách hiểu này sai, vì trị số P không phản ảnh mức độ ảnh hưởng so sánh giữa hai hay nhiều trị số P là không có ý nghĩa gì cả.

Hiểu lầm 6: Nô lệ vào trị số P

Nhiều nhà nghiên cứu nghĩ (hay hiểu) rằng khi kết quả nghiên cứu có trị số P > 0.05 là xem như không có khác biệt hay không có ảnh hưởng. Họ chỉ chấp nhận kết quả với trị số P < 0.05. Nói cách khác, bất cứ kết quả nào có P < 0.05 là có ý nghĩa, còn P > 0.05 là không có ý nghĩa hoặc không đáng bàn. Tiêu biểu cho cách suy nghĩ này là một bài báo trên JAMA (tập san y khoa hàng số 1 trên thế giới) kết luận: “a low-fat dietary pattern did not result in a statistically significant reduction in invasive breast cancer risk,” nhưng khi nhìn vào kết quả thì thấy tỉ số nguy cơ là 0.91 (khoảng tin cậy 95%: 0/83 đến 1.01) và trị số P = 0.07. Đây là một kết luận … bậy bạ. Trị số P có độ dao động khá cao trong một quần thể, nên kết luận bằng cách lệ thuộc vào trị số P là một sai lầm nghiêm trọng.

Hiểu lầm 7: Trị số P > 0.05 là một kết quả "negative"

Cũng giông giống như hiểu lầm #5, nhiều nhà nghiên cứu có cách diễn giải theo nghĩa nhị phân: trắng-đen, có-không. Khi thấy kết quả P cao hơn 0.05, nhà nghiên cứu thường có xu hướng cho rằng kết quả là "âm tính" – negative, là nghiên cứu đã … thất bại. Ví dụ tiêu biểu cho trường hợp này là cách viết "The study failed to detect an effect"; chữ fail ở đây được dùng không đúng. Chẳng hạn như một nghiên cứu công bố trên tập san New England Journal of Medicine (được xem là kinh thánh y khoa) báo cáo tỉ số odds là 2.2 (khoảng tin cậy 95%: 0.83 đến 6.2), trị số P = 0.13, và tác giả viết "No difference in death rates"! Câu kết luận này sai, bởi vì trong thực tế là có difference, nhưng cái difference đó không có ý nghĩa thống kê. Viết kết luận như thế này được xem là … tài tử.

Trị số P không nói lên kết quả là dương tính hay âm tính, càng không cho chúng ta biết là thành công hay thất bại. Nhiều nghiên cứu báo cáo kết quả không có ý nghĩa thống kê (tức P > 0.05) thường có độ nhậy (power) thấp, và do đó, không thể cho ra câu trả lời dứt khoát. Nhà nghiên cứu có thể không 'chứng minh' hai nhóm khác nhau, nhưng nhà nghiên cứu cũng không thể bác bỏ giả thuyết rằng hai nhóm có thể khác nhau. Người ta có câu "Absence of proof is not proof of absence" hay "Absence of evidence is not evidence of absence" (không có bằng chứng không có nghĩa là bằng chứng không có). Những nghiên cứu có độ nhậy đầy đủ (tức trên 80%) mà cho ra một kết quả không có ý nghĩa thống kê thì mới CÓ THỂ xem là một kết quả âm tính.

Hiểu lầm 8: Lẫn lộn giữa ý nghĩa thống kê (statistical significance) và ý nghĩa lâm sàng / ý nghĩa thực tế (clinical significance / practical significance)

Như đề cập trên, nhiều nhà nghiên cứu diễn giải một kết quả có ý nghĩa thông kê (P < 0.05) như là khẳng định có mối liên hệ sinh học hay có ý nghĩa lâm sàng. Thật ra, trị số P không có giá trị sinh học, và cũng không thể diễn giải như là có ý nghĩa sinh học hay ý nghĩa lâm sàng. Trong lâm sàng và sinh học, mức độ ảnh hưởng (effect size), mức độ khác biệt giữa hai hay nhiều nhóm mới là điều quan trọng. Có ý nghĩa thống kê là một điều kiện cần, nhưng chưa đủ để kết luận mối liên hệ hay ảnh hưởng là có thật.

Hiểu lầm 9: Diễn giải trị số P trong bối cảnh nhiều giả thuyết

Tình huống tiêu biểu trong thực tế là một nghiên cứu kiểm định nhiều giả thuyết. Chẳng hạn như một nghiên cứu so sánh 50 biến số giữa hai nhóm bệnh nhân, tức nhà khoa học có 50 trị số P. Giả dụ như trong 50 trị số P đó, chỉ có một trị số P = 0.046, so sánh về chiều dài của ngón chân cái. Nhà khoa học kết luận rằng liệu pháp điều trị làm tăng chiều dài ngón chân cái của bệnh nhân! Nhưng cách hiểu hay diễn giải này sai, bởi vì nhà khoa học kiểm định quá nhiều giả thuyết, và cái ngưỡng alpha 0.05 không còn áp dụng nữa. Cái phát hiện có ý nghĩa thống kê rất có thể chỉ là ngẫu nhiên.

Hiểu lầm 10: Khoảng tin cậy 95% là xác suất của kết quả

Đây cũng là một hiểu lầm rất phổ biến trong khoa học. Tiêu biểu cho cách hiểu này là nhà nghiên cứu phân tích dữ liệu và có kết quả thuốc bisph giảm nguy cơ tử vong với relative risk 0.75, khoảng tin cậy 95% 0.35 đến 0.97; nhà nghiên cứu diễn giải rằng thuốc giảm nguy cơ tử vong 25%, và xác suất 95% là mức độ giảm dao động từ 3% đến 65%. Nhưng về mặt lí thuyết cách hiểu này sai. Khoảng tin cậy 95% không phải là xác suất 95%. Để tính được xác suất 95% đó, phải dùng phương pháp Bayes.

Trị số P là một con số hay gặp nhất trong nghiên cứu khoa học. Trong một bài phân tích tuyệt vời trên JAMA, các tác giả dùng máy tính "đọc" các bài báo và abstracts trong Pubmed (công bố trong thời gian 1990-2015), họ nhận dạng ra gần 4.6 triệu trị số P trong số 1.6 triệu abstracts, và 3.4 triệu trị số P trong số 385 ngàn bài báo. Điều thú vị là trị số P có vẻ càng ngày càng thấp hơn, tức là có nhiều nghiên cứu có kết quả có ý nghĩa thống kê nhiều hơn.

Trên đây là 10 hiểu lầm (cũng có thể xem là sai sót) trong cách hiểu về ý nghĩa của trị số P. Những cách hiểu sai này gây tác hại rất lớn đến nghiên cứu khoa học. Rất nhiều thuốc vô hiệu quả, rất nhiều liệu pháp điều trị vô dụng, rất nhiều khám phá khoa học sai, rất nhiều kết luận gây hoang mang trong công chúng, rất nhiều đầu tư sai lầm, v.v. có nguồn từ hiểu sai trị số P. Chính vì hiểu sai rồi đi đến kết luận sai, nên đại đa số (có thể hơn 90%) các phát hiện khoa học báo cáo trên các tập san quốc tế là sai lầm.

Không phải chỉ giới khoa học, mà ngay cả giới báo chí cũng cần phải hiểu cho rõ ý nghĩa của trị số P. Hiểu rõ để tránh đi đến kết luận sai và đưa tin giật gân. Hi vọng rằng qua cái note này các bạn đã phân biệt được khoa học dỏm và khoa học thật qua trị số P.

Không có nhận xét nào:

Đăng nhận xét

Dịch vụ SEO