4.6.2 Xây dựng đạo đức vào thiết kế của bạn: thay thế, tinh chỉnh và giảm

Hãy thử nghiệm của bạn nhân đạo hơn bằng cách thay thế các thí nghiệm với các nghiên cứu phi thực nghiệm, cải tiến các phương pháp điều trị, và giảm số lượng người tham gia.

Lời khuyên thứ hai mà tôi muốn cung cấp về thiết kế các thí nghiệm kỹ thuật số liên quan đến đạo đức. Như các thử nghiệm Restivo và van de Rijt trên barnstars trong chương trình Wikipedia, giảm chi phí có nghĩa là đạo đức sẽ trở thành một phần ngày càng quan trọng của thiết kế nghiên cứu. Ngoài các khuôn khổ đạo đức hướng dẫn nghiên cứu đối tượng con người mà tôi sẽ mô tả trong chương 6, các nhà nghiên cứu thiết kế các thí nghiệm kỹ thuật số cũng có thể rút ra những ý tưởng đạo đức từ một nguồn khác nhau: các nguyên tắc đạo đức được phát triển để hướng dẫn các thí nghiệm liên quan đến động vật. Đặc biệt, trong các nguyên tắc cuốn sách mang tính bước ngoặt về kỹ thuật thực nghiệm nhân đạo , Russell and Burch (1959) đề xuất ba nguyên tắc nên hướng dẫn nghiên cứu động vật: thay thế, tinh chỉnh và giảm thiểu. Tôi muốn đề xuất rằng ba R này cũng có thể được sử dụng - dưới dạng sửa đổi một chút - để hướng dẫn thiết kế các thí nghiệm của con người. Đặc biệt,

  • Thay thế: Thay thế các thử nghiệm bằng các phương pháp ít xâm lấn nếu có thể.
  • Tinh chỉnh: Tinh chỉnh điều trị để làm cho nó vô hại nhất có thể.
  • Giảm: Giảm số lượng người tham gia trong thử nghiệm của bạn càng nhiều càng tốt.

Để làm cho bê tông của ba R này và cho thấy cách chúng có khả năng dẫn đến thiết kế thử nghiệm tốt hơn và nhân đạo hơn, tôi sẽ mô tả một thí nghiệm trực tuyến tạo ra cuộc tranh luận đạo đức. Sau đó, tôi sẽ mô tả cách ba R đề xuất những thay đổi cụ thể và thực tế đối với thiết kế thử nghiệm.

Một trong những thí nghiệm kỹ thuật số được tranh luận kỹ thuật số nhất được thực hiện bởi Adam Kramer, Jamie Guillroy và Jeffrey Hancock (2014) và đã được gọi là "Cảm xúc." Thử nghiệm diễn ra trên Facebook và được thúc đẩy bởi sự kết hợp giữa khoa học và câu hỏi thực tế. Vào thời điểm đó, cách thống trị mà người dùng tương tác với Facebook là News Feed, một tập hợp các bản cập nhật trạng thái Facebook được thuật toán từ những người bạn Facebook của người dùng. Một số nhà phê bình của Facebook đã gợi ý rằng vì News Feed chủ yếu là bài viết tích cực - bạn bè khoe bữa tiệc mới nhất của họ - điều này có thể khiến người dùng cảm thấy buồn vì cuộc sống của họ dường như kém hấp dẫn hơn. Mặt khác, có lẽ hiệu ứng hoàn toàn ngược lại: có thể thấy bạn của bạn có thời gian vui vẻ sẽ khiến bạn cảm thấy hạnh phúc. Để giải quyết những giả thuyết cạnh tranh này - và để nâng cao hiểu biết của chúng ta về cảm xúc của một người bị ảnh hưởng bởi cảm xúc của bạn bè - Kramer và các đồng nghiệp đã chạy thử nghiệm. Họ đã đặt khoảng 700.000 người dùng vào bốn nhóm trong một tuần: một nhóm “giảm tiêu cực”, với những bài đăng có từ tiêu cực (ví dụ: “buồn”) bị chặn ngẫu nhiên xuất hiện trong News Feed; một nhóm "giảm tích cực" cho những người có bài viết tích cực (ví dụ, "hạnh phúc") bị chặn ngẫu nhiên; và hai nhóm kiểm soát. Trong nhóm đối chứng cho nhóm “giảm tiêu cực”, các bài đăng đã bị chặn ngẫu nhiên với cùng tốc độ với nhóm “giảm tiêu cực” nhưng không quan tâm đến nội dung cảm xúc. Nhóm đối chứng cho nhóm “giảm độ tích cực” được xây dựng theo kiểu song song. Thiết kế của thí nghiệm này minh họa rằng nhóm kiểm soát thích hợp không phải lúc nào cũng là một nhóm không có thay đổi. Thay vào đó, đôi khi, nhóm kiểm soát nhận được một điều trị để tạo ra sự so sánh chính xác mà một câu hỏi nghiên cứu đòi hỏi. Trong mọi trường hợp, các bài đăng bị chặn từ News Feed vẫn có sẵn cho người dùng thông qua các phần khác của trang web Facebook.

Kramer và các đồng nghiệp nhận thấy rằng đối với những người tham gia vào điều kiện giảm độ tích cực, tỷ lệ phần trăm của các từ tích cực trong cập nhật trạng thái của họ giảm và tỷ lệ phần trăm của các từ tiêu cực tăng lên. Mặt khác, đối với những người tham gia trong điều kiện giảm tiêu cực, tỷ lệ phần trăm của các từ tích cực tăng lên và các từ tiêu cực giảm (hình 4.24). Tuy nhiên, những hiệu ứng này khá nhỏ: sự khác biệt về các từ tích cực và tiêu cực giữa các phương pháp điều trị và kiểm soát là khoảng 1 trong 1000 từ.

Hình 4.24: Bằng chứng về sự lây lan cảm xúc (Kramer, Guillory, và Hancock 2014). Những người tham gia trong điều kiện giảm tiêu cực sử dụng ít từ tiêu cực và nhiều từ tích cực hơn, và những người tham gia trong điều kiện giảm độ tích cực sử dụng nhiều từ tiêu cực hơn và ít từ tích cực hơn. Các thanh biểu thị các lỗi tiêu chuẩn ước tính. Chuyển thể từ Kramer, Guillory và Hancock (2014), hình 1.

Hình 4.24: Bằng chứng về sự lây lan cảm xúc (Kramer, Guillory, and Hancock 2014) . Những người tham gia trong điều kiện giảm tiêu cực sử dụng ít từ tiêu cực và nhiều từ tích cực hơn, và những người tham gia trong điều kiện giảm độ tích cực sử dụng nhiều từ tiêu cực hơn và ít từ tích cực hơn. Các thanh biểu thị các lỗi tiêu chuẩn ước tính. Chuyển thể từ Kramer, Guillory, and Hancock (2014) , hình 1.

Trước khi thảo luận về các vấn đề đạo đức được nêu ra bởi thí nghiệm này, tôi muốn mô tả ba vấn đề khoa học bằng cách sử dụng một số ý tưởng từ trước đó trong chương. Đầu tiên, không rõ chi tiết thực tế của thí nghiệm kết nối với các yêu cầu lý thuyết như thế nào; nói cách khác, có những câu hỏi về việc xây dựng tính hợp lệ. Không rõ là số từ tích cực và tiêu cực thực sự là một chỉ báo tốt về trạng thái cảm xúc của người tham gia vì (1) không rõ rằng những từ mà mọi người đăng là chỉ báo tốt về cảm xúc của họ và (2) nó không phải là rõ ràng rằng kỹ thuật phân tích tình cảm cụ thể mà các nhà nghiên cứu đã sử dụng có thể suy ra một cách đáng tin cậy cảm xúc (Beasley and Mason 2015; Panger 2016) . Nói cách khác, có thể có một thước đo xấu về tín hiệu thiên vị. Thứ hai, thiết kế và phân tích thí nghiệm cho chúng ta biết không có gì về ai bị ảnh hưởng nhiều nhất (nghĩa là không có phân tích tính không đồng nhất của hiệu quả điều trị) và cơ chế có thể là gì. Trong trường hợp này, các nhà nghiên cứu đã có rất nhiều thông tin về những người tham gia, nhưng về cơ bản chúng được coi là vật dụng trong phân tích. Thứ ba, kích thước hiệu ứng trong thí nghiệm này rất nhỏ; sự khác biệt giữa điều kiện điều trị và kiểm soát là khoảng 1 trong 1000 từ. Trong bài báo của họ, Kramer và các đồng nghiệp đưa ra trường hợp ảnh hưởng của kích thước này là quan trọng bởi vì hàng trăm triệu người truy cập News Feed của họ mỗi ngày. Nói cách khác, họ lập luận rằng ngay cả khi hiệu ứng là nhỏ đối với mỗi người, thì chúng là tổng hợp lớn. Ngay cả khi bạn chấp nhận lập luận này, vẫn chưa rõ liệu ảnh hưởng của kích thước này có quan trọng đối với câu hỏi khoa học tổng quát hơn về sự lan truyền cảm xúc (Prentice and Miller 1992) .

Ngoài những câu hỏi khoa học này, chỉ vài ngày sau khi bài báo này được xuất bản trong Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia , đã có một sự phản đối kịch liệt từ cả các nhà nghiên cứu và báo chí (tôi sẽ mô tả các đối số trong cuộc tranh luận này chi tiết hơn trong chương 6) ). Các vấn đề nêu ra trong cuộc tranh luận này đã khiến tạp chí xuất bản một “biểu hiện quan tâm biên tập” hiếm hoi về đạo đức và quá trình xem xét đạo đức cho nghiên cứu (Verma 2014) .

Dựa trên nền tảng về tình cảm Contagion, bây giờ tôi muốn cho thấy ba R có thể đề xuất những cải tiến cụ thể, thiết thực cho các nghiên cứu thực tế (bất cứ điều gì bạn có thể nghĩ về đạo đức của thí nghiệm cụ thể này). R đầu tiên được thay thế : các nhà nghiên cứu nên tìm cách thay thế các thí nghiệm bằng kỹ thuật ít xâm lấn và nguy hiểm hơn, nếu có thể. Ví dụ, thay vì chạy một thử nghiệm ngẫu nhiên có kiểm soát, các nhà nghiên cứu có thể đã khai thác một thí nghiệm tự nhiên . Như được mô tả trong chương 2, các thí nghiệm tự nhiên là những tình huống xảy ra trên thế giới mà xấp xỉ việc gán ngẫu nhiên các phương pháp điều trị (ví dụ, xổ số để quyết định ai sẽ được đưa vào quân đội). Lợi thế đạo đức của một thí nghiệm tự nhiên là nhà nghiên cứu không phải cung cấp phương pháp điều trị: môi trường làm điều đó cho bạn. Ví dụ, gần như đồng thời với thí nghiệm Contagion Emotional, Lorenzo Coviello et al. (2014) đã khai thác những gì có thể được gọi là thí nghiệm tự nhiên Contagion Emotional. Coviello và các đồng nghiệp phát hiện ra rằng mọi người đăng nhiều từ tiêu cực hơn và ít từ tích cực hơn vào những ngày trời mưa. Do đó, bằng cách sử dụng sự thay đổi ngẫu nhiên trong thời tiết, họ đã có thể nghiên cứu ảnh hưởng của những thay đổi trong News Feed mà không cần can thiệp chút nào. Nó như thể thời tiết đang chạy thử nghiệm của họ cho họ. Các chi tiết về quy trình của họ hơi phức tạp, nhưng điểm quan trọng nhất cho mục đích của chúng tôi ở đây là bằng cách sử dụng thử nghiệm tự nhiên, Coviello và các đồng nghiệp đã có thể tìm hiểu về sự lan truyền cảm xúc mà không cần phải chạy thử nghiệm của riêng họ.

Thứ hai của ba Rs là tinh chỉnh : các nhà nghiên cứu nên tìm cách tinh chỉnh phương pháp điều trị của họ để làm cho chúng vô hại nhất có thể. Ví dụ, thay vì chặn nội dung tích cực hoặc tiêu cực, các nhà nghiên cứu có thể đã tăng cường nội dung tích cực hoặc tiêu cực. Thiết kế tăng cường này sẽ thay đổi nội dung cảm xúc của News Feeds của những người tham gia, nhưng nó đã giải quyết được một trong những lo ngại mà các nhà phê bình đã nói: rằng các thí nghiệm có thể khiến người tham gia bỏ lỡ thông tin quan trọng trong News Feed của họ. Với thiết kế được sử dụng bởi Kramer và các đồng nghiệp, một thông điệp quan trọng là có khả năng bị chặn như một thông điệp không quan trọng. Tuy nhiên, với một thiết kế tăng cường, các thông điệp sẽ được di dời sẽ là những thông tin ít quan trọng hơn.

Cuối cùng, R thứ ba giảm : các nhà nghiên cứu nên tìm cách giảm số lượng người tham gia trong thử nghiệm của họ xuống mức tối thiểu cần thiết để đạt được mục tiêu khoa học của họ. Trong các thí nghiệm tương tự, điều này xảy ra tự nhiên vì chi phí biến đổi cao của người tham gia. Nhưng trong các thí nghiệm kỹ thuật số, đặc biệt là những người có chi phí biến đổi không, các nhà nghiên cứu không phải đối mặt với một ràng buộc chi phí về quy mô thử nghiệm của họ, và điều này có khả năng dẫn đến các thí nghiệm không cần thiết lớn.

Ví dụ, Kramer và các đồng nghiệp có thể đã sử dụng thông tin tiền xử lý về những người tham gia của họ — chẳng hạn như hành vi đăng trước khi điều trị — để làm cho phân tích của họ hiệu quả hơn. Cụ thể hơn, thay vì so sánh tỷ lệ các từ tích cực trong điều kiện điều trị và kiểm soát, Kramer và các đồng nghiệp có thể so sánh sự thay đổi về tỷ lệ các từ tích cực giữa các điều kiện; một cách tiếp cận đôi khi được gọi là một thiết kế hỗn hợp (hình 4.5) và đôi khi được gọi là một ước tính khác biệt-trong-khác biệt. Tức là, đối với mỗi người tham gia, các nhà nghiên cứu có thể tạo ra điểm thay đổi (hành vi sau xử lý \(-\) hành vi tiền xử lý) và sau đó so sánh điểm thay đổi của người tham gia trong điều kiện điều trị và kiểm soát. Cách tiếp cận khác biệt khác biệt này có ý nghĩa thống kê hiệu quả hơn, điều này có nghĩa là các nhà nghiên cứu có thể đạt được sự tự tin thống kê tương tự bằng cách sử dụng các mẫu nhỏ hơn nhiều.

Nếu không có dữ liệu thô, rất khó để biết chính xác hiệu quả của một bộ ước lượng khác biệt trong trường hợp này sẽ hiệu quả hơn bao nhiêu. Nhưng chúng ta có thể xem xét các thí nghiệm liên quan khác cho một ý tưởng thô. Deng et al. (2013) đã báo cáo rằng bằng cách sử dụng một hình thức ước tính khác biệt về chênh lệch, họ có thể giảm sai số ước tính của họ xuống khoảng 50% trong ba thử nghiệm trực tuyến khác nhau; kết quả tương tự đã được báo cáo bởi Xie and Aurisset (2016) . Sự giảm phương sai 50% này có nghĩa là các nhà nghiên cứu tình cảm Contagion có thể đã cắt mẫu của họ làm đôi nếu họ đã sử dụng một phương pháp phân tích hơi khác. Nói cách khác, với một thay đổi nhỏ trong phân tích, 350.000 người có thể đã được tha thứ tham gia vào thử nghiệm.

Tại thời điểm này, bạn có thể tự hỏi tại sao các nhà nghiên cứu nên quan tâm nếu 350.000 người bị lây nhiễm cảm xúc không cần thiết. Có hai tính năng đặc biệt của Contagion tình cảm gây ra mối quan tâm với kích thước quá mức thích hợp và các tính năng này được chia sẻ bởi nhiều thí nghiệm kỹ thuật số: (1) không chắc chắn liệu thử nghiệm sẽ gây hại cho ít nhất một số người tham gia và (2) không phải là tự nguyện. Có vẻ hợp lý để cố gắng giữ các thử nghiệm có các tính năng này càng nhỏ càng tốt.

Để rõ ràng, mong muốn giảm kích thước thử nghiệm của bạn không có nghĩa là bạn không nên chạy thử nghiệm chi phí lớn, không biến đổi. Nó chỉ có nghĩa là các thí nghiệm của bạn không nên lớn hơn bạn cần để đạt được mục tiêu khoa học của bạn. Một cách quan trọng để đảm bảo rằng một thử nghiệm có kích thước phù hợp là tiến hành phân tích năng lượng (Cohen 1988) . Trong độ tuổi tương tự, các nhà nghiên cứu thường phân tích năng lượng để đảm bảo rằng nghiên cứu của họ không quá nhỏ (ví dụ, dưới quyền lực). Bây giờ, tuy nhiên, các nhà nghiên cứu nên làm phân tích năng lượng để đảm bảo rằng nghiên cứu của họ không phải là quá lớn (tức là, over-powered).

Tóm lại, ba R - thay thế, tinh chỉnh và giảm - cung cấp các nguyên tắc có thể giúp các nhà nghiên cứu xây dựng đạo đức thành thiết kế thử nghiệm của họ. Tất nhiên, mỗi thay đổi có thể xảy ra với Contagion Emotional đều giới thiệu các sự cân bằng. Ví dụ: bằng chứng từ các thử nghiệm tự nhiên không phải lúc nào cũng sạch như các thử nghiệm ngẫu nhiên và việc tăng cường nội dung có thể khó thực hiện hơn là chặn nội dung. Vì vậy, mục đích đề xuất những thay đổi này không phải là để đoán trước quyết định của các nhà nghiên cứu khác. Thay vào đó, nó là để minh họa cách ba R có thể được áp dụng trong một tình huống thực tế. Trên thực tế, vấn đề thương mại xuất hiện tất cả thời gian trong thiết kế nghiên cứu và trong thời đại kỹ thuật số, những sự cân bằng này sẽ ngày càng liên quan đến những cân nhắc đạo đức. Sau đó, trong chương 6, tôi sẽ đưa ra một số nguyên tắc và khuôn khổ đạo đức có thể giúp các nhà nghiên cứu hiểu và thảo luận về những sự cân bằng này.