4.6.2 Thay thế, sàng lọc, và Giảm

Bản dịch này đã được tạo ra bởi một máy tính. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Thay thế, sàng lọc, và Giảm

Hãy thử nghiệm của bạn nhân đạo hơn bằng cách thay thế các thí nghiệm với các nghiên cứu phi thực nghiệm, cải tiến các phương pháp điều trị, và giảm số lượng người tham gia.

Phần thứ hai của lời khuyên mà tôi muốn cung cấp về thiết kế thí nghiệm kỹ thuật số liên quan đến đạo đức. Như thí nghiệm Restivo và van de Rijt trên barnstars trong chương Wikipedia, giảm chi phí có nghĩa là đạo đức sẽ trở thành một phần quan trọng của thiết kế nghiên cứu. Ngoài các khuôn khổ đạo đức hướng dẫn nghiên cứu đối tượng con người mà tôi sẽ mô tả trong Chương 6, các nhà nghiên cứu thiết kế các thí nghiệm kỹ thuật số cũng có thể vẽ trên những ý tưởng đạo đức từ một nguồn khác nhau: các nguyên tắc đạo đức được phát triển để hướng dẫn các thí nghiệm liên quan đến động vật. Đặc biệt, trong nguyên tắc cuốn sách mang tính bước ngoặt của họ về kỹ thuật thực nghiệm nhân đạo, Russell and Burch (1959) đề xuất ba nguyên tắc định hướng cho nghiên cứu động vật: Thay thế, sàng lọc, và Giảm. Tôi muốn đề xuất rằng những ba R cũng có thể được sử dụng trong một chút thay đổi hình thức để hướng dẫn việc thiết kế các thí nghiệm của con người. Đặc biệt,

Thay thế: Thay thế các thí nghiệm với các phương pháp ít xâm lấn hơn nếu có thể
Lọc: Lọc điều trị để làm cho nó vô hại như thể
Giảm: Giảm số lượng người tham gia thử nghiệm của bạn càng nhiều càng tốt

Để làm cho bê tông ba R này và cho thấy làm thế nào họ có khả năng có thể dẫn đến thiết kế thí nghiệm tốt hơn và nhân đạo hơn, tôi sẽ mô tả một thí nghiệm lĩnh vực trực tuyến mà tạo ra cuộc tranh luận về đạo đức. Sau đó, tôi sẽ mô tả làm thế nào ba R đề nghị thay đổi cụ thể và thiết thực cho các thiết kế của thí nghiệm.

Một trong những thí nghiệm kỹ thuật số có đạo đức nhất tranh luận là "Emotional Contagion", được tiến hành bởi Adam Kramer, Jamie Gillroy, và Jeffrey Hancock (2014) . Các thí nghiệm đã diễn ra trên Facebook và được thúc đẩy bởi một hỗn hợp các vấn đề khoa học và thực tiễn. Vào thời điểm đó, cách chi phối mà người dùng tương tác với Facebook là News Feed, một bộ thuật toán sắp xếp về cập nhật trạng thái Facebook từ bạn bè trên Facebook của người dùng. Một số nhà phê bình của Facebook đã gợi ý rằng bởi vì các News Feed có bài viết-bạn bè khoe mới nhất của họ chủ yếu là tích cực bên này có thể bị gây ra người dùng cảm thấy buồn vì cuộc sống của họ có vẻ ít thú vị trong so sánh. Mặt khác, có thể hiệu quả là hoàn toàn ngược lại; có thể nhìn thấy bạn bè của bạn có một thời gian tốt sẽ làm cho bạn cảm thấy hạnh phúc? Để giải quyết những tranh giả thuyết và để nâng cao hiểu biết của chúng ta về những cảm xúc của một người đang bị ảnh hưởng bởi bạn bè của cô 'cảm xúc-Kramer và đồng nghiệp chạy một thử nghiệm. Các nhà nghiên cứu đặt vào khoảng 700.000 người sử dụng thành bốn nhóm trong một tuần: một nhóm "tiêu cực giảm", cho người viết với những lời tiêu cực (ví dụ, buồn) đã bị chặn một cách ngẫu nhiên xuất hiện News Feed; một "dương giảm" nhóm người mà bài viết với từ tích cực (ví dụ như, hạnh phúc) đã bị chặn một cách ngẫu nhiên; và hai nhóm kiểm soát. Trong nhóm chứng cho "tiêu cực giảm" nhóm, bài viết đã bị chặn một cách ngẫu nhiên ở mức tương tự như là "tiêu cực giảm" nhóm nhưng mà không liên quan đến nội dung về tình cảm. Nhóm đối chứng cho "dương giảm" nhóm đã được xây dựng trong một thời trang song song. Các thiết kế của thí nghiệm này cho thấy rằng các nhóm kiểm soát thích hợp không phải là luôn luôn là một không có thay đổi. Thay vào đó, đôi khi nhóm chứng nhận điều trị để tạo ra sự so sánh chính xác rằng một câu hỏi nghiên cứu đòi hỏi. Trong tất cả các trường hợp, các bài viết mà đã bị chặn từ News Feed vẫn sẵn cho người dùng thông qua các phần khác của trang web Facebook.

Kramer và các đồng nghiệp nhận thấy đối với người tham gia tích cực giảm tình trạng, tỷ lệ phần trăm của các từ tích cực trong bản cập nhật tình trạng của họ giảm xuống và tỷ lệ phần trăm của những lời tiêu cực tăng lên. Mặt khác, đối với những người tham gia trong điều kiện tiêu cực giảm, tỷ lệ phần trăm của các từ tích cực tăng và tỷ lệ phần trăm của những lời tiêu cực giảm (Hình 4.23). Tuy nhiên, những hiệu ứng này là khá nhỏ: sự khác biệt trong các từ tích cực và tiêu cực giữa các phương pháp điều trị và kiểm soát là khoảng 1 trong 1.000 từ.

Hình 4.23: Bằng chứng về sự lây lan cảm xúc (Kramer, Guillory, và Hancock năm 2014). Tỷ lệ phần trăm của các từ tích cực và lời nói tiêu cực của điều kiện thí nghiệm. Bars đại diện cho ước tính sai số chuẩn.

Hình 4.23: Bằng chứng về sự lây lan cảm xúc (Kramer, Guillory, and Hancock 2014) . Tỷ lệ phần trăm của các từ tích cực và lời nói tiêu cực của điều kiện thí nghiệm. Bars đại diện cho ước tính sai số chuẩn.

Tôi đã đặt một cuộc thảo luận về các khía cạnh khoa học của thí nghiệm này trong phần đọc thêm ở phần cuối của chương này, nhưng không may, thử nghiệm này là nhất được biết để tạo ra các cuộc tranh luận về đạo đức. Chỉ vài ngày sau khi bài báo này được công bố trong Kỷ yếu của Viện hàn lâm Khoa học, đã có một sự phản đối rất lớn từ cả các nhà nghiên cứu và báo chí. Outrage quanh giấy tập trung vào hai điểm chính: 1) tham gia không cung cấp bất kỳ sự đồng ý ngoài các điều khoản của dịch vụ Facebook chuẩn cho điều trị một số suy nghĩ có thể gây hại cho người tham gia và 2) nghiên cứu đã không trải qua bên thứ ba có đạo đức Đánh giá (Grimmelmann 2015) . Các câu hỏi về đạo đức được nêu ra trong cuộc tranh luận này gây ra tạp chí để nhanh chóng công bố một "biểu hiện biên tập quan tâm" hiếm về đạo đức và quy trình đánh giá đạo đức cho các nghiên cứu (Verma 2014) . Trong những năm tiếp theo, các thí nghiệm đã tiếp tục là nguồn gốc của cuộc tranh luận dữ dội và bất đồng, và bất đồng này có thể có tác dụng không mong muốn của lái xe vào bóng tối nhiều thí nghiệm khác đang được thực hiện bởi công ty (Meyer 2014) .

Cho rằng nền về Contagion tình cảm, bây giờ tôi muốn cho thấy rằng 3 R có thể đề nghị cụ thể, cải tiến thiết thực cho các nghiên cứu thực (bất cứ điều gì bạn có thể nghĩ cá nhân về đạo đức của thí nghiệm đặc biệt này). Việc đầu tiên là R Thay thế: nhà nghiên cứu nên tìm cách thay thế các thí nghiệm với các kỹ thuật ít xâm lấn và nguy hiểm, nếu có thể. Ví dụ, thay vì chạy một thí nghiệm, các nhà nghiên cứu đã có thể khai thác một thử nghiệm tự nhiên. Như đã mô tả ở Chương 2, các thí nghiệm tự nhiên những tình huống mà một cái gì đó xảy ra trong thế giới xấp xỉ phân ngẫu nhiên của các phương pháp điều trị (ví dụ, một số để quyết định ai sẽ được soạn thảo vào quân đội). Lợi thế của một thử nghiệm tự nhiên là các nhà nghiên cứu không có để cung cấp phương pháp điều trị; môi trường nào đó cho bạn. Nói cách khác, với một thử nghiệm tự nhiên, các nhà nghiên cứu sẽ không có cần thiết để thực nghiệm thao tác của người dân Tin tức Feeds.

Trong thực tế, gần như đồng thời với các thí nghiệm Contagion Emotional, Coviello et al. (2014) đã được khai thác những gì có thể được gọi là một thử nghiệm tự nhiên Contagion cảm xúc. Phương pháp của họ, trong đó sử dụng một kỹ thuật gọi là biến công cụ, là một chút phức tạp nếu bạn chưa bao giờ nhìn thấy nó trước. Vì vậy, để giải thích lý do tại sao nó là cần thiết, hãy xây dựng lên đến nó. Ý tưởng đầu tiên mà một số nhà nghiên cứu có thể phải nghiên cứu sự lây lan cảm xúc sẽ được so sánh bài viết của mình vào những ngày mà News Feed của bạn là rất tích cực để bài viết của mình vào những ngày mà News Feed của bạn là rất tiêu cực. Cách tiếp cận này sẽ là tốt nếu mục đích chỉ là để dự đoán những cảm xúc trong bài viết của mình, nhưng phương pháp này là có vấn đề nếu mục tiêu là để nghiên cứu tác động nhân quả của News Feed của bạn về bài viết của mình. Để xem các vấn đề với thiết kế này, hãy xem xét Tạ Ơn. Tại Mỹ, các bài viết tích cực tăng vọt và các bài viết tiêu cực giảm mạnh về Lễ Tạ Ơn. Như vậy, về Lễ Tạ Ơn, các nhà nghiên cứu có thể thấy rằng News Feed của bạn là rất tích cực và bạn gửi những điều tích cực là tốt. Nhưng, bài viết tích cực của bạn có thể đã được gây ra bởi Tạ Ơn không phải do nội dung của News Feed của bạn. Thay vào đó, để ước tính nhân quả nghiên cứu hiệu ứng cần cái gì đó thay đổi các nội dung của News Feed của bạn mà không thay đổi trực tiếp cảm xúc của bạn. May mắn thay, có một cái gì đó như thế xảy ra thời gian tất cả: thời tiết.

Coviello và các đồng nghiệp phát hiện ra rằng một ngày mưa trong thành phố của một ai đó sẽ, trung bình, giảm tỷ trọng các bài viết mà là tích cực bởi khoảng 1 điểm phần trăm và tăng tỷ lệ các bài viết đó là tiêu cực bởi khoảng 1 điểm phần trăm. Sau đó, Coviello và các đồng nghiệp khai thác thực tế này để nghiên cứu sự lây lan cảm xúc mà không cần phải thao tác thực nghiệm của bất kỳ ai News Feed. Về bản chất những gì họ đã làm là biện pháp cách viết của bạn đã bị ảnh hưởng bởi thời tiết ở các thành phố nơi bạn sinh sống. Để xem tại sao điều này có ý nghĩa, hãy tưởng tượng rằng bạn sống ở thành phố New York và bạn có một người bạn sống ở Seattle. Bây giờ tưởng tượng rằng một ngày nó bắt đầu mưa ở Seattle. mưa ở Seattle này sẽ không trực tiếp ảnh hưởng tâm trạng của bạn, nhưng nó sẽ gây ra News Feed của bạn sẽ ít tích cực và tiêu cực hơn vì bài viết của bạn mình. Như vậy, mưa ở Seattle ngẫu nhiên thao tác News Feed của bạn. Chuyển trực giác này thành một thủ tục thống kê đáng tin cậy là rất phức tạp (và các cách tiếp cận chính xác được sử dụng bởi Coviello và các đồng nghiệp là một phi tiêu chuẩn bit) vì vậy tôi đã đặt một cuộc thảo luận chi tiết hơn trong phần đọc thêm. Điều quan trọng nhất cần nhớ về Coviello và cách tiếp cận đồng nghiệp là nó cho phép họ nghiên cứu sự lây lan cảm xúc mà không cần phải chạy thử nghiệm khả năng có thể gây tổn hại cho người tham gia, và nó có thể là trường hợp đó trong nhiều thiết lập khác mà bạn có thể thay thế các thí nghiệm với khác kỹ thuật.

Thứ hai trong 3 Rs là Refine: nhà nghiên cứu nên tìm cách cải tiến phương pháp điều trị của họ để gây ra những thiệt hại nhỏ nhất có thể. Ví dụ, thay vì ngăn chặn nội dung đó là tích cực hay tiêu cực, các nhà nghiên cứu có thể đã thúc đẩy nội dung đó là tích cực hay tiêu cực. thiết kế tăng cường này sẽ có thay đổi các nội dung về tình cảm của những người tham gia tin tức, nhưng nó đã có thể giải quyết một trong những mối quan tâm mà các nhà phê bình đã bày tỏ: rằng các thí nghiệm có thể đã gây ra tham gia bỏ lỡ thông tin quan trọng trong Tin tức của Feed. Với thiết kế được sử dụng bởi Kramer và đồng nghiệp, một thông điệp đó là quan trọng như khả năng bị chặn là một trong đó là không. Tuy nhiên, với một thiết kế đẩy mạnh, các thông điệp đó sẽ được di dời sẽ là những người ít quan trọng.

Cuối cùng, thứ ba là R Giảm: nhà nghiên cứu nên tìm cách giảm số lượng người tham gia thí nghiệm của mình, nếu có thể. Trong quá khứ, mức giảm này xảy ra một cách tự nhiên bởi vì các chi phí biến đổi của các thí nghiệm tương tự là rất cao, trong đó khuyến khích nghiên cứu để tối ưu hóa thiết kế và phân tích của họ. Tuy nhiên, khi có không dữ liệu chi phí biến đổi, các nhà nghiên cứu không phải đối mặt với một hạn chế chi phí vào kích thước của thí nghiệm của mình, và điều này có khả năng dẫn đến những thí nghiệm lớn không cần thiết.

Ví dụ, Kramer và đồng nghiệp có thể sử dụng thông tin trước khi điều trị về những người tham gia, chẳng hạn như họ trước khi điều trị niêm yết hành vi để làm cho phân tích của họ hiệu quả hơn. Cụ thể hơn, chứ không phải là so sánh tỷ lệ từ tích cực trong điều kiện điều trị và kiểm soát, Kramer và đồng nghiệp có thể so sánh sự thay đổi trong tỷ lệ từ tích cực giữa các điều kiện; một phương pháp thường được gọi là sự khác biệt-trong-khác biệt và có liên quan chặt chẽ với thiết kế pha trộn mà tôi mô tả ở chương trước (Hình 4.5). Đó là, cho mỗi người tham gia, các nhà nghiên cứu có thể tạo ra một số thay đổi (sau điều trị hành vi - vi xử lý trước) và sau đó so sánh điểm số thay đổi của người tham gia trong các điều kiện xử lý và kiểm soát. Cách tiếp cận này khác biệt-trong-khác biệt là hiệu quả hơn về mặt thống kê, có nghĩa là các nhà nghiên cứu có thể đạt được sự tự tin thống kê tương tự sử dụng các mẫu nhỏ hơn nhiều. Nói cách khác, bằng cách không điều trị người tham gia như "vật dụng", các nhà nghiên cứu có thể thường được ước tính chính xác hơn.

Nếu không có các dữ liệu thô rất khó để biết chính xác có bao nhiêu hiệu quả hơn một cách tiếp cận khác biệt-trong-khác biệt sẽ có được trong trường hợp này. Nhưng, Deng et al. (2013) báo cáo rằng trong ba thí nghiệm trực tuyến trên các công cụ tìm kiếm Bing, họ có thể làm giảm phương sai của các ước tính của họ bằng khoảng 50%, và kết quả tương tự đã được báo cáo cho một số thí nghiệm trực tuyến tại Netflix (Xie and Aurisset 2016) . giảm đúng 50% này có nghĩa là các nhà nghiên cứu Contagion cảm xúc có thể đã có thể cắt mẫu của họ trong nửa nếu họ đã sử dụng một phương pháp phân tích hơi khác nhau. Nói cách khác, với một thay đổi nhỏ trong phân tích, 350.000 người có thể đã được tha tham gia vào thí nghiệm.

Tại thời điểm này, bạn có thể tự hỏi tại sao các nhà nghiên cứu cần quan tâm nếu 350.000 người đã đến Contagion cảm xúc không cần thiết. Có hai tính năng đặc biệt của Contagion cảm xúc mà làm cho mối quan tâm với kích thước quá mức thích hợp, và các tính năng này được chia sẻ bởi nhiều thí nghiệm kỹ thuật số: 1) có sự không chắc chắn về việc liệu các thử nghiệm cũng sẽ gây hại cho ít nhất là một số người tham gia và 2) sự tham gia không tình nguyện. Trong thí nghiệm với hai đặc trưng này có vẻ như khuyến khích để giữ thí nghiệm càng nhỏ càng tốt.

Trong kết luận, ba R's-Thay thế, Refine, và giảm-cung cấp nguyên tắc có thể giúp các nhà nghiên cứu xây dựng đạo đức vào thiết kế thí nghiệm của họ. Tất nhiên, mỗi người trong số những thay đổi này có thể Contagion Emotional giới thiệu thương mại-off. Ví dụ, bằng chứng từ các thí nghiệm tự nhiên không phải lúc nào cũng sạch sẽ như bằng chứng từ các thí nghiệm ngẫu nhiên và thúc đẩy có thể là hậu cần khó khăn hơn để thực hiện hơn khối. Vì vậy, mục đích của những thay đổi này cho thấy không phải đoán xem các quyết định của các nhà nghiên cứu khác. Thay vào đó, nó là để minh họa cách của ba R có thể được áp dụng trong một tình huống thực tế.