Số liệu không biết nói dối, nhưng con người thì có!
Yếu tố quyết định để dữ liệu không bị sai lệch.
Mấy tuần trước mình xem bộ phim Bad Surgeon: Love Under the Knife (2023). Đây là một phim tài liệu điều tra trên Netflix, kể về Paolo Macchiarini, một bác sĩ phẫu thuật lừng danh từng được ca ngợi là “thiên tài y khoa”, nhưng sau đó bị phanh phui vì thao túng dữ liệu nghiên cứu và thực hiện các ca phẫu thuật nguy hiểm dựa trên bằng chứng chưa được kiểm chứng đầy đủ.
Một trong các nguyên nhân là ông đã che giấu các sai sót trong nghiên cứu, cụ thể là kết luận nghiên cứu của ông không đúng sự thật do ông không thực hiện đầy đủ các cuộc thử nghiệm cần thiết. Ông đã thực hiện rất nhiều cuộc phẫu thuật không an toàn trên bệnh nhân dựa trên kết quả nghiên cứu sai đó, dẫn đến nhiều cái chết.
Đây không chỉ là câu chuyện về một cá nhân. Nó là một ví dụ cực đoan nhưng rất rõ ràng về một vấn đề cốt lõi trong khoa học:
Dữ liệu không tự nói lên sự thật. Chất lượng của sự thật phụ thuộc vào cách chúng ta thiết kế, thu thập, phân tích và diễn giải dữ liệu.
Trong nghiên cứu học thuật, đặc biệt là trong khoa học xã hội và giáo dục, những sai lệch dữ liệu thường không mang tính “lừa đảo trắng trợn” như trong phim. Nhưng các sai lệch nhỏ, tích lũy theo thời gian, cũng có thể dẫn đến kết luận sai và hậu quả không nhỏ, ví dụ như rất nhiều cái chết oan trong bộ phim trên.
Lầm tưởng lớn: “Số liệu không biết nói dối”
Câu nói này nghe rất thuyết phục, nhưng về mặt phương pháp luận, nó không chính xác. Dữ liệu không nói dối. Nhưng con người có thể thiết kế quy trình khiến dữ liệu trở nên sai lệch.
Trong khoa học nghiên cứu, sai lệch dữ liệu thường đến từ ba tầng:
Thiết kế nghiên cứu
Quy trình phân tích
Diễn giải kết quả
Một nghiên cứu có thể hoàn toàn trung thực về mặt đạo đức nhưng vẫn tạo ra kết luận sai nếu một trong ba tầng này có vấn đề. Có nhiều nguyên nhân dẫn đến dữ liệu bị sai lệch:
Thiết kế nghiên cứu kém: Khi câu hỏi sai, dữ liệu cũng sai
Thiết kế nghiên cứu đóng vai trò quyết định trong việc đảm bảo dữ liệu phản ánh chính xác thực tế. Một thiết kế kém có thể khiến nghiên cứu đi chệch hướng ngay từ đầu.
Ví dụ: Khảo sát về sự hài lòng của sinh viên với chương trình học: Một trường đại học muốn đánh giá mức độ hài lòng của sinh viên đối với chương trình giảng dạy. Họ gửi khảo sát trực tuyến đến tất cả sinh viên và thu về 2.000 phản hồi. Kết quả cho thấy 85% sinh viên hài lòng với chương trình học.
Điều đó có nghĩa là chương trình thực sự tốt? Không hẳn nha!
Lệch mẫu (Sampling Bias): Những sinh viên không hài lòng có thể không tham gia khảo sát vì họ đã mất động lực hoặc không tin rằng phản hồi của mình có tác động. Những người hài lòng có xu hướng sẵn sàng trả lời hơn.
Lựa chọn câu hỏi sai lệch (Instrument bias): Nếu khảo sát chỉ bao gồm các câu hỏi như “Bạn thích điều gì nhất ở chương trình học?” mà không có câu hỏi mở về điều họ không thích, thì dữ liệu thu thập sẽ thiên lệch, chỉ phản ánh mặt tích cực.
Diễn giải kết quả sai (Over interpretation): Một số sinh viên có thể cảm thấy “tạm hài lòng” nhưng không có nghĩa là chương trình không cần cải thiện. Nhưng nếu chỉ báo cáo rằng 85% sinh viên hài lòng, ban lãnh đạo có thể bỏ qua các vấn đề quan trọng.
Trước khi thu thập dữ liệu, nhà nghiên cứu cần tự hỏi:
Mình đang đo cái gì?
Đo bằng cách nào?
Có những nhóm nào bị loại khỏi dữ liệu?
Thiên kiến xác nhận (Confirmation Bias): Chỉ thấy điều mình muốn thấy
Đây là một trong những bẫy tư duy phổ biến nhất: con người có xu hướng chỉ tìm kiếm và ưu tiên dữ liệu ủng hộ giả thuyết của mình, đồng thời bỏ qua những dữ liệu mâu thuẫn.
Ví dụ: Nghiên cứu về tác động của thiền đối với năng suất làm việc: Một nhà nghiên cứu tin rằng thiền giúp cải thiện năng suất. Họ theo dõi nhóm nhân viên thực hành thiền trong 8 tuần. Kết quả cho thấy năng suất trung bình tăng 10%, và nghiên cứu được công bố với tiêu đề:
“Thiền giúp cải thiện năng suất làm việc!” Nhưng nghiên cứu này có vấn đề:
Không có nhóm đối chứng: Nếu nghiên cứu chỉ đo lường nhóm thực hành thiền mà không so sánh với nhóm không thiền, thì không thể biết liệu thiền có thực sự là yếu tố chính giúp năng suất tăng hay không.
Bỏ qua dữ liệu trái chiều: Nếu một số người không thấy năng suất cải thiện hoặc thậm chí giảm do căng thẳng khi cố gắng thiền mỗi ngày, nhưng dữ liệu này bị bỏ qua, thì kết luận sẽ sai lệch.
Chọn cách phân tích có lợi: Nhà nghiên cứu có thể (vô thức hoặc cố ý) chọn phương pháp thống kê sao cho ra kết quả mong muốn, thay vì xem xét tất cả các khả năng.
Trong phương pháp nghiên cứu, đây là vấn đề về internal validity.
Các chiến lược giảm confirmation bias:
Thiết kế nghiên cứu có nhóm đối chứng
Xây dựng giả thuyết
Báo cáo đầy đủ dữ liệu, kể cả dữ liệu không ủng hộ giả thuyết
Làm việc theo nhóm để có góc nhìn phản biện
Hiệu ứng p-hacking: Khi dữ liệu bị "thao túng" để có kết quả đẹp
P-hacking xảy ra khi nhà nghiên cứu thử nghiệm nhiều cách phân tích dữ liệu khác nhau cho đến khi tìm ra một kết quả có ý nghĩa thống kê (thường là p < 0.05). Điều này khiến dữ liệu trông có vẻ hợp lệ, nhưng thực chất chỉ là kết quả ngẫu nhiên.
Điều này đặc biệt dễ xảy ra khi:
Có nhiều biến
Có nhiều cách phân tích
Không có kế hoạch phân tích trước
Ví dụ: Một nghiên cứu về ảnh hưởng của âm nhạc đến khả năng ghi nhớ: Một nhà nghiên cứu muốn tìm hiểu liệu nghe nhạc cổ điển có giúp cải thiện trí nhớ hay không. Ban đầu, họ không thấy sự khác biệt đáng kể giữa nhóm nghe nhạc và nhóm không nghe nhạc. Nhưng thay vì kết luận rằng không có mối quan hệ, họ bắt đầu “thử nghiệm” phân tích theo nhiều cách khác nhau:
Chia dữ liệu thành nhóm nhỏ hơn (chỉ xem xét nam giới, hoặc chỉ xem xét người trên 30 tuổi).
Thay đổi phương pháp thống kê (từ kiểm định t-test sang ANOVA, rồi thử nghiệm hồi quy tuyến tính).
Loại bỏ một số dữ liệu không phù hợp để làm cho kết quả trở nên có ý nghĩa.
Cuối cùng, họ tìm ra một phân tích cho thấy “Nam giới trên 30 tuổi nghe nhạc cổ điển có trí nhớ tốt hơn 15% so với nhóm không nghe nhạc”, và công bố kết quả đó. Nhưng thực tế, nếu bạn thử nghiệm đủ nhiều, bạn sẽ luôn tìm thấy một kết quả có ý nghĩa thống kê chỉ do yếu tố ngẫu nhiên.
Không phải kết quả nào có p < 0.05 cũng có ý nghĩa thực tế. Do đó, research integrity không chỉ là vấn đề đạo đức cá nhân. Nó là vấn đề về hệ thống và quy trình.
Một nghiên cứu tốt cần:
Thiết kế rõ ràng
Quy trình minh bạch
Phân tích trung thực
Diễn giải dữ liệu thận trọng





Cho em hỏi thêm về các giải pháp để kiểm soát những nguyên nhân được nêu trong bài viết. Em cảm ơn ạ!