4.6.2 Ganti, Refine, dan Mengurangkan

Membuat percubaan lebih berperikemanusiaan dengan menggantikan eksperimen dengan kajian bukan eksperimen, penapisan rawatan, dan mengurangkan bilangan peserta.

Sekeping kedua nasihat yang saya ingin menawarkan tentang mereka bentuk eksperimen digital melibatkan etika. Sebagai percubaan Restivo dan van de Rijt pada barnstars dalam pertunjukan Wikipedia, menurun kos bermakna bahawa etika akan menjadi bahagian yang semakin penting dalam reka bentuk penyelidikan. Selain rangka kerja etika membimbing penyelidikan subjek manusia bahawa saya akan menerangkan dalam Bab 6, penyelidik mereka bentuk eksperimen digital juga boleh memanfaatkan idea-idea etika dari sumber yang lain: prinsip-prinsip etika dibangunkan untuk membimbing eksperimen yang melibatkan haiwan. Khususnya, dalam Prinsip buku tanda mereka Teknik Eksperimen Humane, Russell and Burch (1959) mencadangkan tiga prinsip yang perlu membimbing penyelidikan haiwan: Ganti, Refine, dan mengurangkan. Saya ingin mencadangkan supaya tiga R juga boleh digunakan masuk yang sedikit diubah suai bentuk-untuk membimbing reka bentuk eksperimen manusia. Khususnya,

  • Gantikan: Gantikan eksperimen dengan cara yang lebih mudah jika boleh
  • Perincikan: Perhalusi rawatan untuk menjadikan ia sebagai tidak berbahaya yang mungkin
  • Mengurangkan: Mengurangkan bilangan peserta dalam percubaan sebanyak mungkin

Dalam usaha untuk membuat konkrit ini tiga R dan menunjukkan bagaimana ia berpotensi membawa kepada reka bentuk eksperimen yang lebih baik dan lebih berperikemanusiaan, saya akan terangkan satu eksperimen bidang online yang menjana perdebatan etika. Kemudian saya akan menerangkan bagaimana tiga R mencadangkan perubahan konkrit dan praktikal untuk reka bentuk eksperimen.

Salah satu uji kaji lapangan digital yang paling beretika dibahaskan adalah "emosi Contagion," yang telah dijalankan oleh Adam Kramer, Jamie Gillroy, dan Jeffrey Hancock (2014) . Eksperimen berlaku di Facebook dan didorong oleh campuran soalan saintifik dan praktikal. Pada masa itu, cara yang dominan yang pengguna berinteraksi dengan Facebook adalah News Feed, satu set algorithmically curated kemas kini status Facebook daripada rakan-rakan Facebook pengguna. Sesetengah pengkritik Facebook telah mencadangkan bahawa kerana News Feed mempunyai kebanyakannya positif jawatan-kawan pamer terbaru mereka pihak ia boleh menyebabkan pengguna berasa sedih kerana kehidupan mereka kelihatan kurang menarik dalam perbandingan. Sebaliknya, mungkin kesannya adalah betul-betul bertentangan; mungkin melihat rakan anda mempunyai masa yang baik akan membuat anda berasa gembira? Dalam usaha untuk menangani bersaing hipotesis dan untuk memajukan pemahaman kita tentang bagaimana emosi seseorang dipengaruhi oleh rakan-rakannya 'emosi-Kramer dan rakan-rakan menjalankan percubaan. Para penyelidik diletakkan kira-kira 700,000 pengguna kepada empat kumpulan untuk satu minggu: sebuah kumpulan "negatif dikurangkan", bagi siapa jawatan dengan kata-kata negatif (contohnya, sedih) telah disekat secara rawak daripada muncul News Feed; a "positivity dikurangkan" kumpulan bagi siapa jawatan dengan kata-kata positif (contohnya, gembira) telah disekat secara rawak; dan dua kumpulan kawalan. Dalam kumpulan kawalan untuk "negatif dikurangkan" kumpulan, jawatan telah disekat secara rawak pada kadar yang sama sebagai "negatif dikurangkan" kumpulan tetapi tanpa mengambil kira kandungan emosi. Kumpulan kawalan untuk "positivity dikurangkan" kumpulan telah dibina dengan cara yang selari. Reka bentuk eksperimen ini menunjukkan bahawa kumpulan kawalan yang sesuai tidak selalunya satu dengan tidak ada perubahan. Sebaliknya, kadang-kadang kumpulan kawalan menerima rawatan bagi mewujudkan perbandingan yang tepat bahawa soalan penyelidikan memerlukan. Dalam semua kes, jawatan yang telah disekat dari News Feed masih tersedia kepada pengguna melalui bahagian-bahagian lain laman web Facebook.

Kramer dan rakan-rakan mendapati bahawa bagi peserta dalam positivity mengurangkan keadaan, peratusan kata-kata positif dalam kemas kini status mereka menurun dan peratusan kata-kata negatif meningkat. Sebaliknya, untuk peserta dalam keadaan negatif mengurangkan, peratusan kata-kata positif meningkat dan peratusan kata-kata negatif menurun (Rajah 4.23). Walau bagaimanapun, kesan ini agak kecil: perbezaan dalam kata-kata positif dan negatif antara rawatan dan kawalan adalah kira-kira 1 dalam 1,000 perkataan.

Rajah 4.23: Bukti penularan emosi (Kramer, Guillory dan Hancock 2014). Peratusan kata-kata positif dan kata-kata negatif oleh keadaan eksperimen. Bar mewakili anggaran ralat piawai.

Rajah 4.23: Bukti penularan emosi (Kramer, Guillory, and Hancock 2014) . Peratusan kata-kata positif dan kata-kata negatif oleh keadaan eksperimen. Bar mewakili anggaran ralat piawai.

Saya telah meletakkan perbincangan tentang aspek saintifik eksperimen ini dalam seksyen bacaan lanjut di akhir bab ini, tetapi malangnya, eksperimen ini adalah yang paling dikenali untuk menjana perdebatan etika. Hanya beberapa hari selepas berita ini diterbitkan dalam Prosiding National Academy of Sciences, terdapat bantahan besar daripada kedua-dua penyelidik dan akhbar. Kemarahan sekitar kertas memberi tumpuan kepada dua perkara utama: 1) peserta tidak memberikan apa-apa persetujuan di luar Facebook syarat-of-perkhidmatan standard untuk rawatan yang beberapa pemikiran mungkin menyebabkan bahaya kepada para peserta dan 2) kajian itu tidak menjalani pihak ketiga etika kajian (Grimmelmann 2015) . Soalan-soalan etika yang dibangkitkan dalam perbahasan ini disebabkan jurnal dengan cepat menerbitkan "ungkapan editorial kebimbangan" yang jarang berlaku mengenai etika dan proses kajian etika penyelidikan (Verma 2014) . Dalam tahun-tahun berikutnya, eksperimen terus menjadi sumber perdebatan hangat dan perselisihan, dan perselisihan ini boleh mempunyai kesan yang tidak diingini memandu ke dalam bayang-bayang banyak eksperimen lain yang sedang dilakukan oleh syarikat-syarikat (Meyer 2014) .

Memandangkan latar belakang mengenai Contagion emosi, saya kini ingin menunjukkan bahawa 3 R boleh mencadangkan konkrit, peningkatan praktikal untuk kajian sebenar (apa sahaja yang anda secara peribadi mungkin berfikir tentang etika eksperimen ini). Yang pertama R adalah Gantikan: penyelidik perlu mendapatkan untuk menggantikan eksperimen dengan teknik kurang invasif dan berisiko, jika boleh. Sebagai contoh, daripada menjalankan percubaan, penyelidik boleh dieksploitasi eksperimen semula jadi. Seperti yang diterangkan dalam Bab 2, eksperimen semula jadi adalah situasi di mana sesuatu yang berlaku di dunia yang lebih kurang tugasan rawak rawatan (contohnya, loteri untuk menentukan siapa yang akan digubal ke dalam tentera). Kelebihan satu eksperimen semula jadi ialah bahawa penyelidik tidak perlu untuk menyampaikan rawatan; alam sekitar adakah itu untuk anda. Dalam erti kata lain, dengan satu eksperimen semula jadi, penyelidik akan tidak diperlukan untuk eksperimen memanipulasi rakyat News Feeds.

Malah, hampir serentak dengan Contagion eksperimen emosi, Coviello et al. (2014) telah mengeksploitasi apa yang boleh dipanggil emosi Contagion eksperimen semula jadi. Pendekatan mereka yang menggunakan teknik yang dipanggil pembolehubah instrumental, agak rumit jika anda tidak pernah dilihat sebelum ini. Jadi, untuk menjelaskan mengapa ia diperlukan, mari kita membina sehingga ia. Idea pertama yang sesetengah penyelidik mungkin perlu mengkaji penularan emosi adalah dengan membandingkan catatan anda pada hari-hari di mana News Feed anda adalah sangat positif ke jawatan anda pada hari-hari di mana News Feed anda sangat negatif. Pendekatan ini akan menjadi baik jika matlamat hanya untuk meramalkan kandungan emosi siaran anda, tetapi pendekatan ini adalah bermasalah jika matlamatnya adalah untuk mengkaji kesan sebab dan akibat News Feed anda pada siaran anda. Untuk melihat masalah dengan reka bentuk ini, pertimbangkan Kesyukuran. Di Amerika Syarikat, jawatan positif naik mendadak dan siaran negatif menjunam pada Kesyukuran. Oleh itu, pada Kesyukuran, penyelidik dapat melihat bahawa News Feed anda adalah sangat positif dan bahawa anda mencatatkan perkara yang positif juga. Tetapi, tiang positif anda boleh disebabkan oleh Kesyukuran tidak oleh kandungan News Feed anda. Sebaliknya, untuk menganggarkan sebab dan akibat penyelidik kesan memerlukan sesuatu yang mengubah kandungan News Feed anda tanpa langsung berubah emosi anda. Mujurlah, terdapat sesuatu seperti itu berlaku sepanjang masa: cuaca.

Coviello dan rakan-rakan mendapati bahawa hari hujan di bandar seseorang akan, secara purata, mengurangkan bahagian jawatan yang positif sebanyak 1 mata peratusan dan meningkatkan bahagian jawatan yang negatif sebanyak 1 mata peratusan. Kemudian, Coviello dan rakan-rakan dieksploitasi fakta ini untuk mengkaji penularan emosi tanpa perlu eksperimen memanipulasi sesiapa pun News Feed. Pada dasarnya apa yang mereka lakukan adalah ukuran bagaimana siaran anda terjejas oleh cuaca di bandar-bandar di mana rakan-rakan anda tinggal. Untuk melihat mengapa ini masuk akal, bayangkan bahawa anda tinggal di New York City dan anda mempunyai rakan yang tinggal di Seattle. Sekarang bayangkan bahawa satu hari ia mula hujan di Seattle. hujan ini di Seattle tidak akan secara langsung memberi kesan kepada mood anda, tetapi ia akan menyebabkan News Feed anda kurang positif dan lebih negatif kerana jawatan rakan anda. Oleh itu, hujan di Seattle rawak memanipulasi News Feed anda. Turning gerak hati ini ke dalam prosedur statistik yang boleh dipercayai adalah rumit (dan pendekatan yang tepat yang digunakan oleh Coviello dan rakan-rakan adalah sedikit tidak standard) jadi saya telah meletakkan perbincangan yang lebih terperinci dalam seksyen bacaan lanjut. Perkara yang paling penting untuk ingat tentang Coviello dan pendekatan rakan sekerja adalah bahawa ia membolehkan mereka untuk mengkaji penularan emosi tanpa perlu menjalankan percubaan yang berpotensi membahayakan peserta, dan ia mungkin berlaku bahawa dalam banyak seting lain yang boleh menggantikan eksperimen dengan lain teknik.

Kedua dalam 3 Rs adalah Khususkan: penyelidik perlu mendapatkan untuk memperbaiki rawatan mereka dengan maksud membuat bahaya yang paling kecil. Sebagai contoh, bukannya menyekat kandungan yang adalah sama ada positif atau negatif, penyelidik boleh meningkatkan kandungan yang positif atau negatif. reka bentuk meningkatkan ini akan berubah kandungan emosi peserta News Feeds, tetapi ia akan ditangani salah satu daripada kebimbangan bahawa pengkritik menyatakan: bahawa eksperimen boleh menyebabkan peserta terlepas maklumat penting dalam News Feed mereka. Dengan reka bentuk yang digunakan oleh Kramer dan rakan-rakan, mesej yang penting adalah lebih berkemungkinan akan disekat sebagai salah satu yang tidak. Walau bagaimanapun, dengan reka bentuk yang meningkatkan, mesej yang akan dipindahkan akan menjadi orang-orang yang kurang penting.

Akhirnya, ketiga R adalah Mengurangkan: penyelidik perlu mendapatkan untuk mengurangkan bilangan peserta dalam eksperimen mereka, jika boleh. Pada masa lalu, pengurangan ini berlaku secara semula jadi kerana kos pembolehubah eksperimen analog adalah tinggi, yang menggalakkan penyelidikan untuk mengoptimumkan reka bentuk dan analisis. Walau bagaimanapun, apabila terdapat sifar data kos berubah, penyelidik tidak menghadapi kekangan kos kepada saiz eksperimen mereka, dan ini mempunyai potensi untuk membawa kepada eksperimen tidak perlu besar.

Sebagai contoh, Kramer dan rakan-rakan boleh menggunakan maklumat pra-rawatan mengenai peserta-seperti pra-rawatan posting mereka tingkah laku untuk membuat analisis mereka dengan lebih cekap. Lebih khusus lagi, dan bukannya membandingkan bahagian kata-kata positif dalam keadaan rawatan dan kawalan, Kramer dan rakan-rakan boleh berbanding perubahan dalam bahagian kata-kata positif antara syarat; pendekatan yang sering dipanggil perbezaan-in-perbezaan dan yang berkait rapat dengan reka bentuk campuran yang saya diterangkan sebelum ini dalam bab (Rajah 4.5). Iaitu, setiap peserta, penyelidik mungkin dapat mencipta nilai perubahan (tingkah laku selepas rawatan - tingkah laku pra-rawatan) dan kemudian membandingkan skor perubahan peserta dalam keadaan rawatan dan kawalan. Pendekatan ini berbeza-in-perbezaan adalah lebih cekap statistik, yang bermaksud bahawa penyelidik boleh mencapai keyakinan statistik yang sama menggunakan sampel lebih kecil. Dalam erti kata lain, dengan tidak merawat peserta seperti "widget", penyelidik boleh sering mendapatkan anggaran yang lebih tepat.

Tanpa data mentah ia adalah sukar untuk mengetahui dengan tepat berapa banyak yang lebih cekap pendekatan perbezaan-in-perbezaan akan berada dalam kes ini. Tetapi, Deng et al. (2013) melaporkan bahawa dalam tiga eksperimen online enjin carian Bing mereka dapat mengurangkan varians anggaran mereka oleh kira-kira 50%, dan keputusan yang sama telah dilaporkan untuk beberapa eksperimen dalam talian di Netflix (Xie and Aurisset 2016) . 50% pengurangan varians Ini bermakna bahawa penyelidik Contagion emosi mungkin telah dapat untuk memotong sampel mereka pada separuh jika mereka telah menggunakan kaedah analisis yang sedikit berbeza. Dalam erti kata lain, dengan perubahan kecil dalam analisis, 350,000 orang mungkin telah terlepas penyertaan dalam eksperimen.

Pada ketika ini, anda mungkin tertanya-tanya mengapa penyelidik perlu mengambil berat jika 350,000 orang berada di Contagion emosi tidak perlu. Terdapat dua ciri-ciri tertentu Contagion emosi yang membuat kebimbangan dengan saiz berlebihan sesuai, dan ciri-ciri ini dikongsi oleh banyak eksperimen bidang digital: 1) terdapat ketidakpastian mengenai sama ada eksperimen akan menyebabkan kemudaratan kepada sekurang-kurangnya beberapa peserta dan 2) penyertaan tidak sukarela. Dalam uji kaji dengan kedua-dua ciri-ciri ia seolah-olah dinasihatkan untuk meneruskan eksperimen sekecil mungkin.

Kesimpulannya, ketiga-tiga R's-Ganti, Perincikan dan Mengurangkan-menyediakan prinsip-prinsip yang boleh membantu penyelidik membina etika ke dalam reka bentuk eksperimen mereka. Sudah tentu, setiap perubahan mungkin untuk Contagion emosi memperkenalkan keseimbangan. Sebagai contoh, bukti daripada eksperimen semula jadi tidak selalu bersih sebagai bukti daripada eksperimen rawak dan meningkatkan mungkin telah lebih logistik sukar untuk melaksanakan daripada blok. Jadi, tujuan cadangan perubahan ini tidak adalah untuk kedua-meneka keputusan penyelidik lain. Sebaliknya, ia adalah untuk menggambarkan bagaimana tiga R boleh digunakan dalam keadaan yang realistik.