4.2 thí nghiệm là gì?

Thí nghiệm ngẫu nhiên có bốn thành phần chính: tuyển dụng người tham gia, ngẫu nhiên điều trị, giao hàng điều trị, và đo lường kết quả.

Các thử nghiệm ngẫu nhiên có kiểm soát có bốn thành phần chính: tuyển dụng người tham gia, ngẫu nhiên điều trị, điều trị và đo lường kết quả. Thời đại kỹ thuật số không thay đổi bản chất cơ bản của thử nghiệm, nhưng nó làm cho nó dễ dàng hơn về mặt logistic. Ví dụ, trong quá khứ, có thể khó đo lường hành vi của hàng triệu người, nhưng điều đó hiện đang diễn ra thường xuyên trong nhiều hệ thống kỹ thuật số. Các nhà nghiên cứu có thể tìm ra cách khai thác những cơ hội mới này sẽ có thể chạy các thí nghiệm trước đây không thể.

Để thực hiện điều này một chút cụ thể hơn - cả hai thứ đều giữ nguyên và những gì đã thay đổi — hãy xem xét một thử nghiệm của Michael Restivo và Arnout van de Rijt (2012) . Họ muốn hiểu tác động của phần thưởng ngang hàng không chính thức đối với những đóng góp biên tập cho Wikipedia. Đặc biệt, họ nghiên cứu tác động của barnstars , một giải thưởng mà bất kỳ Wikipedian nào cũng có thể trao cho bất kỳ Wikipedian nào khác để thừa nhận công việc khó khăn và sự tích cực. Restivo và van de Rijt đã cho barnstars 100 người Wikipedians xứng đáng. Sau đó, họ theo dõi những đóng góp tiếp theo của người nhận trên Wikipedia trong vòng 90 ngày tới. Nhiều điều ngạc nhiên của họ, những người mà họ đã trao tặng barnstars có xu hướng thực hiện ít chỉnh sửa hơn sau khi nhận được. Nói cách khác, các barnstars dường như không khuyến khích hơn là khuyến khích sự đóng góp.

May mắn thay, Restivo và van de Rijt đã không chạy thử nghiệm “nhiễu loạn và quan sát”; họ đã chạy thử nghiệm ngẫu nhiên có kiểm soát. Vì vậy, ngoài việc chọn 100 người đóng góp hàng đầu để nhận được một barnstar, họ cũng đã chọn 100 cộng tác viên hàng đầu mà họ không đưa ra. Những 100 phục vụ như một nhóm kiểm soát. Và, phê bình, những người trong nhóm điều trị và những người trong nhóm kiểm soát được xác định ngẫu nhiên.

Khi Restivo và van de Rijt xem xét hành vi của những người trong nhóm kiểm soát, họ thấy rằng những đóng góp của họ cũng giảm đi. Hơn nữa, khi Restivo và van de Rijt so sánh những người trong nhóm điều trị (ví dụ, nhận barnstars) cho những người trong nhóm kiểm soát, họ thấy rằng những người trong nhóm điều trị đã đóng góp thêm khoảng 60%. Nói cách khác, sự đóng góp của cả hai nhóm đã giảm, nhưng những người trong nhóm kiểm soát đã làm nhanh hơn rất nhiều.

Như nghiên cứu này minh họa, nhóm kiểm soát trong các thí nghiệm là rất quan trọng theo cách có phần nghịch lý. Để đo chính xác hiệu quả của barnstars, Restivo và van de Rijt cần quan sát những người không nhận được barnstars. Nhiều lần, các nhà nghiên cứu không quen thuộc với các thí nghiệm không đánh giá cao giá trị đáng kinh ngạc của nhóm kiểm soát. Nếu Restivo và van de Rijt không có nhóm kiểm soát, họ sẽ rút ra kết luận sai lầm chính xác. Các nhóm kiểm soát quan trọng đến nỗi CEO của một công ty sòng bạc lớn đã nói rằng chỉ có ba cách mà nhân viên có thể bị sa thải khỏi công ty của mình: trộm cắp, quấy rối tình dục hoặc chạy thử nghiệm không có nhóm kiểm soát (Schrage 2011) .

Nghiên cứu của Restivo và van de Rijt minh họa bốn thành phần chính của một thử nghiệm: tuyển dụng, ngẫu nhiên, can thiệp và kết quả. Cùng với nhau, bốn thành phần này cho phép các nhà khoa học di chuyển vượt ra ngoài mối tương quan và đo lường hiệu quả nhân quả của phương pháp điều trị. Cụ thể, ngẫu nhiên có nghĩa là những người trong nhóm điều trị và kiểm soát sẽ giống nhau. Điều này là quan trọng bởi vì nó có nghĩa là bất kỳ sự khác biệt nào về kết quả giữa hai nhóm có thể được quy cho việc điều trị và không phải là một kẻ gây nhiễu.

Ngoài việc là một minh họa tốt đẹp về cơ chế thí nghiệm, nghiên cứu của Restivo và van de Rijt cũng cho thấy rằng hậu cần của các thí nghiệm kỹ thuật số có thể hoàn toàn khác với những thí nghiệm tương tự. Trong thử nghiệm của Restivo và van de Rijt, thật dễ dàng để đưa cho barnstar bất cứ ai, và thật dễ dàng để theo dõi kết quả - số lần chỉnh sửa - trong một khoảng thời gian dài (vì lịch sử chỉnh sửa được Wikipedia tự động ghi lại). Khả năng này để cung cấp phương pháp điều trị và đo lường kết quả miễn phí là chất lượng không giống như các thí nghiệm trong quá khứ. Mặc dù thử nghiệm này liên quan đến 200 người, nhưng nó có thể được chạy với 2.000 hoặc thậm chí 20.000 người. Điều chính ngăn cản các nhà nghiên cứu tăng quy mô thử nghiệm của họ lên 100 lần không phải là chi phí; đó là đạo đức. Đó là, Restivo và van de Rijt không muốn đưa barnstars cho những người biên tập không xứng đáng, và họ không muốn thí nghiệm của họ làm gián đoạn cộng đồng Wikipedia (Restivo and Rijt 2012, 2014) . Tôi sẽ trở lại một số cân nhắc đạo đức được nêu ra bởi các thí nghiệm sau này trong chương này và trong chương 6.

Tóm lại, thí nghiệm của Restivo và van de Rijt cho thấy rõ ràng rằng trong khi logic cơ bản của thử nghiệm đã không thay đổi, hậu cần của các thí nghiệm thời đại kỹ thuật số có thể khác nhau đáng kể. Tiếp theo, để cô lập rõ ràng hơn các cơ hội được tạo ra bởi những thay đổi này, tôi sẽ so sánh các thí nghiệm mà các nhà nghiên cứu có thể làm bây giờ với các loại thí nghiệm đã được thực hiện trong quá khứ.