Mấy tuần trước mình xem bộ phim Bad Surgeon: Love Under the Knife (2023). Đây là một phim tài liệu điều tra trên Netflix, kể về Paolo Macchiarini, một bác sĩ phẫu thuật lừng danh từng được ca ngợi là "thiên tài y khoa", nhưng thực chất lại là kẻ lừa đảo nguy hiểm.
Một trong các nguyên nhân khiến ông bị buộc tội lừa đảo là ông đã che giấu các sai sót trong nghiên cứu. Cụ thể là kết luận nghiên cứu của ông không đúng sự thật do ông không thực hiện đầy đủ các cuộc thử nghiệm cần thiết. Sau đó, ông đã thực hiện rất nhiều cuộc phẫu thuật không an toàn trên bệnh nhân dựa trên kết quả nghiên cứu sai-thiếu dẫn chứng đó, dẫn đến nhiều cái chết cho bệnh nhân.
Có một câu nói nổi tiếng “Số liệu không biết nói dối”, thực chất đây lại là một trong lầm tưởng lớn trong nghiên cứu. Dữ liệu tự thân không có ý nghĩa, chính cách chúng ta thu thập, xử lý và diễn giải dữ liệu mới quyết định kết quả nghiên cứu. Và đáng sợ là, dữ liệu có thể bị thao túng nhằm phục vụ nhiều mục đích khác nhau, gây nhiều hậu quả nghiêm trọng.
Có nhiều nguyên nhân dẫn đến dữ liệu bị sai lệch:
1. Thiết kế nghiên cứu kém: Khi câu hỏi sai, dữ liệu cũng sai
Thiết kế nghiên cứu đóng vai trò quyết định trong việc đảm bảo dữ liệu phản ánh chính xác thực tế. Một thiết kế kém có thể khiến nghiên cứu đi chệch hướng ngay từ đầu.
Ví dụ: Khảo sát về sự hài lòng của sinh viên với chương trình học
Một trường đại học muốn đánh giá mức độ hài lòng của sinh viên đối với chương trình giảng dạy. Họ gửi khảo sát trực tuyến đến tất cả sinh viên và thu về 2.000 phản hồi. Kết quả cho thấy 85% sinh viên hài lòng với chương trình học.
Điều đó có nghĩa là chương trình thực sự tốt? Không hẳn nha!
Lệch mẫu (Sampling Bias): Những sinh viên không hài lòng có thể không tham gia khảo sát vì họ đã mất động lực hoặc không tin rằng phản hồi của mình có tác động. Những người hài lòng có xu hướng sẵn sàng trả lời hơn.
Lựa chọn câu hỏi sai lệch: Nếu khảo sát chỉ bao gồm các câu hỏi như “Bạn thích điều gì nhất ở chương trình học?” mà không có câu hỏi mở về điều họ không thích, thì dữ liệu thu thập sẽ thiên lệch, chỉ phản ánh mặt tích cực.
Diễn giải kết quả sai: Một số sinh viên có thể cảm thấy “tạm hài lòng” nhưng không có nghĩa là chương trình không cần cải thiện. Nhưng nếu chỉ báo cáo rằng 85% sinh viên hài lòng, ban lãnh đạo có thể bỏ qua các vấn đề quan trọng.
Dữ liệu có vẻ đẹp nhưng nếu nghiên cứu sai ngay từ đầu, kết luận cũng sai.
2. Thiên kiến xác nhận (Confirmation Bias): Chỉ thấy điều mình muốn thấy
Đây là một trong những bẫy tư duy phổ biến nhất: con người có xu hướng chỉ tìm kiếm và ưu tiên dữ liệu ủng hộ giả thuyết của mình, đồng thời bỏ qua những dữ liệu mâu thuẫn.
Ví dụ: Nghiên cứu về tác động của thiền đối với năng suất làm việc
Một nhà nghiên cứu tin rằng thiền giúp cải thiện năng suất. Họ theo dõi nhóm nhân viên thực hành thiền trong 8 tuần. Kết quả cho thấy năng suất trung bình tăng 10%, và nghiên cứu được công bố với tiêu đề:
"Thiền giúp cải thiện năng suất làm việc!"
Nhưng có vấn đề:
Không có nhóm đối chứng: Nếu nghiên cứu chỉ đo lường nhóm thực hành thiền mà không so sánh với nhóm không thiền, thì không thể biết liệu thiền có thực sự là yếu tố chính giúp năng suất tăng hay không.
Bỏ qua dữ liệu trái chiều: Nếu một số người không thấy năng suất cải thiện hoặc thậm chí giảm do căng thẳng khi cố gắng thiền mỗi ngày, nhưng dữ liệu này bị bỏ qua, thì kết luận sẽ sai lệch.
Chọn cách phân tích có lợi: Nhà nghiên cứu có thể (vô thức hoặc cố ý) chọn phương pháp thống kê sao cho ra kết quả mong muốn, thay vì xem xét tất cả các khả năng.
Nếu bạn chỉ tìm những gì mình muốn thấy, bạn sẽ luôn tìm thấy nó. Nhưng điều đó không có nghĩa là nó đúng!
3. Hiệu ứng p-hacking: Khi dữ liệu bị "thao túng" để có kết quả đẹp
P-hacking xảy ra khi nhà nghiên cứu thử nghiệm nhiều cách phân tích dữ liệu khác nhau cho đến khi tìm ra một kết quả có ý nghĩa thống kê (thường là p < 0.05). Điều này khiến dữ liệu trông có vẻ hợp lệ, nhưng thực chất chỉ là kết quả ngẫu nhiên.
Ví dụ: Một nghiên cứu về ảnh hưởng của âm nhạc đến khả năng ghi nhớ
Một nhà nghiên cứu muốn tìm hiểu liệu nghe nhạc cổ điển có giúp cải thiện trí nhớ hay không. Ban đầu, họ không thấy sự khác biệt đáng kể giữa nhóm nghe nhạc và nhóm không nghe nhạc. Nhưng thay vì kết luận rằng không có mối quan hệ, họ bắt đầu "thử nghiệm":
Chia dữ liệu thành nhóm nhỏ hơn (chỉ xem xét nam giới, hoặc chỉ xem xét người trên 30 tuổi).
Thay đổi phương pháp thống kê (từ kiểm định t-test sang ANOVA, rồi thử nghiệm hồi quy tuyến tính).
Loại bỏ một số dữ liệu "không phù hợp" để làm cho kết quả trở nên có ý nghĩa.
Cuối cùng, họ tìm ra một phân tích cho thấy "Nam giới trên 30 tuổi nghe nhạc cổ điển có trí nhớ tốt hơn 15% so với nhóm không nghe nhạc", và công bố kết quả đó. Nhưng thực tế, nếu bạn thử nghiệm đủ nhiều, bạn sẽ luôn tìm thấy một kết quả có ý nghĩa thống kê chỉ do yếu tố ngẫu nhiên.
Không phải kết quả nào có p < 0.05 cũng có ý nghĩa thực tế. Luôn cần đánh giá xem kết quả có vững chắc và có thể lặp lại hay không.
Nếu chúng ta thu thập và diễn giải dữ liệu sai cách, hậu quả có thể khôn lường. Là người học và làm nghiên cứu, điều quan trọng không chỉ là chạy phân tích số liệu, mà là hiểu bản chất phía sau những con số đó.
Cho em hỏi thêm về các giải pháp để kiểm soát những nguyên nhân được nêu trong bài viết. Em cảm ơn ạ!