4.6.2 Bangun etika ke dalam desain Anda: ganti, perbaiki, dan kurangi

Terjemahan ini diciptakan oleh komputer. ×

4.6.2 Bangun etika ke dalam desain Anda: ganti, perbaiki, dan kurangi

Membuat eksperimen lebih manusiawi dengan mengganti eksperimen dengan penelitian non-eksperimental, menyempurnakan perawatan, dan mengurangi jumlah peserta.

Nasihat kedua yang ingin saya tawarkan tentang merancang eksperimen digital menyangkut etika. Sebagaimana eksperimen Restivo dan van de Rijt pada barnstars di Wikipedia menunjukkan, penurunan biaya berarti etika akan menjadi bagian yang semakin penting dari desain penelitian. Selain kerangka etis yang membimbing subjek penelitian manusia yang akan saya jelaskan di bab 6, peneliti yang merancang eksperimen digital juga dapat memanfaatkan ide-ide etis dari sumber yang berbeda: prinsip-prinsip etika yang dikembangkan untuk memandu eksperimen yang melibatkan hewan. Secara khusus, dalam buku penanda mereka Prinsip-Prinsip Teknik Eksperimental Manusiawi , Russell and Burch (1959) mengusulkan tiga prinsip yang harus membimbing penelitian hewan: ganti, perbaiki, dan kurangi. Saya ingin mengusulkan bahwa ketiga R ini juga dapat digunakan — dalam bentuk yang sedikit dimodifikasi — untuk memandu rancangan eksperimen manusia. Khususnya,

Ganti: Ganti eksperimen dengan metode yang kurang invasif jika memungkinkan.
Sempurnakan: Sempurnakan perawatan untuk membuatnya tidak berbahaya.
Kurangi: Kurangi jumlah peserta dalam eksperimen Anda sebanyak mungkin.

Untuk membuat ketiga beton R ini dan menunjukkan bagaimana mereka berpotensi mengarah pada desain eksperimental yang lebih baik dan lebih manusiawi, saya akan menjelaskan eksperimen lapangan online yang menghasilkan debat etika. Kemudian, saya akan menjelaskan bagaimana ketiga R menyarankan perubahan konkret dan praktis terhadap desain eksperimen.

Salah satu percobaan bidang digital yang paling diperdebatkan secara etis dilakukan oleh Adam Kramer, Jamie Guillroy, dan Jeffrey Hancock (2014) dan telah disebut "Emotional Contagion." Percobaan berlangsung di Facebook dan dimotivasi oleh campuran ilmiah dan pertanyaan praktis. Pada saat itu, cara dominan yang digunakan pengguna untuk berinteraksi dengan Facebook adalah Umpan Berita, kumpulan status Facebook yang diperbarui secara algoritmik dari teman Facebook pengguna. Beberapa kritikus dari Facebook menyatakan bahwa karena News Feed memiliki pos-pos yang paling positif — teman-teman yang memamerkan partai terbaru mereka — itu dapat menyebabkan pengguna merasa sedih karena kehidupan mereka tampak kurang menarik dibandingkan. Di sisi lain, mungkin efeknya justru sebaliknya: mungkin melihat teman Anda bersenang-senang akan membuat Anda merasa bahagia. Untuk mengatasi hipotesis yang bersaing ini — dan untuk memajukan pemahaman kita tentang bagaimana emosi seseorang dipengaruhi oleh emosi teman-temannya — Kramer dan rekannya melakukan eksperimen. Mereka menempatkan sekitar 700.000 pengguna ke dalam empat grup selama satu minggu: kelompok "negatif-berkurang", untuk siapa posting dengan kata-kata negatif (misalnya, "sedih") secara acak diblokir dari tampil di News Feed; kelompok "positif-berkurang" untuk siapa posting dengan kata-kata positif (misalnya, "senang") secara acak diblokir; dan dua kelompok kontrol. Dalam kelompok kontrol untuk kelompok "negatif-berkurang", posting secara acak diblokir pada tingkat yang sama dengan kelompok "negatif-berkurang" tetapi tanpa memperhatikan konten emosional. Kelompok kontrol untuk kelompok "positif-berkurang" dibangun secara paralel. Rancangan eksperimen ini menggambarkan bahwa kelompok kontrol yang tepat tidak selalu satu tanpa perubahan. Sebaliknya, kadang-kadang, kelompok kontrol menerima perawatan untuk menciptakan perbandingan tepat yang dibutuhkan oleh pertanyaan penelitian. Dalam semua kasus, posting yang diblokir dari News Feed masih tersedia untuk pengguna melalui bagian lain dari situs web Facebook.

Kramer dan koleganya menemukan bahwa untuk peserta dalam kondisi positif-berkurang, persentase kata-kata positif dalam pembaruan status mereka menurun dan persentase kata-kata negatif meningkat. Di sisi lain, untuk peserta dalam kondisi negatif-berkurang, persentase kata-kata positif meningkat dan kata-kata negatif menurun (gambar 4.24). Namun, efek ini cukup kecil: perbedaan kata-kata positif dan negatif antara perlakuan dan kontrol adalah sekitar 1 dari 1.000 kata.

Gambar 4.24: Bukti penularan emosi (Kramer, Guillory, dan Hancock 2014). Peserta dalam kondisi negatif-berkurang menggunakan kata-kata negatif lebih sedikit dan kata-kata yang lebih positif, dan peserta dalam kondisi positif-berkurang menggunakan kata-kata yang lebih negatif dan lebih sedikit kata-kata positif. Bar mewakili perkiraan kesalahan standar. Diadaptasi dari Kramer, Guillory, dan Hancock (2014), gambar 1.

Gambar 4.24: Bukti penularan emosi (Kramer, Guillory, and Hancock 2014) . Peserta dalam kondisi negatif-berkurang menggunakan kata-kata negatif lebih sedikit dan kata-kata yang lebih positif, dan peserta dalam kondisi positif-berkurang menggunakan kata-kata yang lebih negatif dan lebih sedikit kata-kata positif. Bar mewakili perkiraan kesalahan standar. Diadaptasi dari Kramer, Guillory, and Hancock (2014) , gambar 1.

Sebelum membahas masalah etika yang diangkat oleh eksperimen ini, saya ingin menjelaskan tiga masalah ilmiah menggunakan beberapa ide dari awal bab ini. Pertama, tidak jelas bagaimana rincian aktual dari eksperimen terhubung dengan klaim teoritis; dengan kata lain, ada pertanyaan tentang validitas konstruk. Tidak jelas bahwa jumlah kata positif dan negatif sebenarnya merupakan indikator yang baik dari keadaan emosi peserta karena (1) tidak jelas bahwa kata-kata yang orang posting adalah indikator yang baik dari emosi mereka dan (2) tidak jelas bahwa teknik analisis sentimen tertentu yang digunakan para peneliti mampu secara andal menyimpulkan emosi (Beasley and Mason 2015; Panger 2016) . Dengan kata lain, mungkin ada ukuran buruk dari sinyal bias. Kedua, desain dan analisis eksperimen tidak memberi tahu kita apa yang paling berdampak (yaitu, tidak ada analisis heterogenitas efek pengobatan) dan apa mekanismenya. Dalam hal ini, para peneliti memiliki banyak informasi tentang para peserta, tetapi pada dasarnya mereka diperlakukan sebagai widget dalam analisis. Ketiga, ukuran efek dalam eksperimen ini sangat kecil; perbedaan antara perlakuan dan kondisi kontrol adalah sekitar 1 dari 1.000 kata. Dalam makalah mereka, Kramer dan rekannya membuat kasus bahwa efek ukuran ini penting karena ratusan juta orang mengakses News Feed mereka setiap hari. Dengan kata lain, mereka berpendapat bahwa bahkan jika efeknya kecil untuk setiap orang, mereka memiliki agregat yang besar. Bahkan jika Anda menerima argumen ini, masih belum jelas apakah pengaruh ukuran ini penting mengenai pertanyaan ilmiah yang lebih umum tentang penyebaran emosi (Prentice and Miller 1992) .

Selain pertanyaan ilmiah ini, hanya beberapa hari setelah makalah ini diterbitkan dalam Proceedings of National Academy of Sciences , ada protes besar dari kedua peneliti dan pers (saya akan menjelaskan argumen dalam debat ini secara lebih rinci dalam bab 6 ). Isu-isu yang diangkat dalam perdebatan ini menyebabkan jurnal mempublikasikan "pernyataan editorial keprihatinan" yang langka tentang etika dan proses peninjauan etik untuk penelitian (Verma 2014) .

Mengingat latar belakang tentang Emotional Contagion, saya sekarang ingin menunjukkan bahwa ketiga R dapat menyarankan perbaikan konkrit dan praktis untuk studi nyata (apa pun yang Anda mungkin pribadi pikirkan tentang etika dari eksperimen khusus ini). R pertama menggantikan : peneliti harus mencari untuk menggantikan eksperimen dengan teknik yang kurang invasif dan berisiko, jika memungkinkan. Sebagai contoh, daripada menjalankan eksperimen terkontrol acak, para peneliti bisa mengeksploitasi eksperimen alami . Seperti yang dijelaskan dalam bab 2, eksperimen alami adalah situasi di mana sesuatu terjadi di dunia yang mendekati penugasan acak perawatan (misalnya, lotre untuk memutuskan siapa yang akan direkrut menjadi militer). Keuntungan etis dari eksperimen alami adalah bahwa peneliti tidak harus memberikan perawatan: lingkungan melakukannya untuk Anda. Misalnya, hampir bersamaan dengan percobaan Emosional Contagion, Lorenzo Coviello et al. (2014) mengeksploitasi apa yang dapat disebut sebagai eksperimen alami Emosional Contagion. Coviello dan rekan menemukan bahwa orang-orang mengirim lebih banyak kata-kata negatif dan lebih sedikit kata-kata positif pada hari-hari di mana hujan turun. Oleh karena itu, dengan menggunakan variasi acak dalam cuaca, mereka dapat mempelajari pengaruh perubahan dalam News Feed tanpa perlu campur tangan sama sekali. Seolah-olah cuaca sedang menjalankan eksperimen mereka untuk mereka. Detail prosedur mereka agak rumit, tetapi poin terpenting untuk tujuan kami di sini adalah bahwa dengan menggunakan eksperimen alami, Coviello dan rekannya dapat belajar tentang penyebaran emosi tanpa perlu menjalankan eksperimen mereka sendiri.

Yang kedua dari tiga R adalah memperbaiki : peneliti harus berusaha untuk memperbaiki perawatan mereka untuk membuat mereka tidak berbahaya mungkin. Misalnya, daripada memblokir konten yang positif atau negatif, para peneliti dapat meningkatkan konten yang positif atau negatif. Desain pengubahan ini akan mengubah konten emosional dari Umpan Berita peserta, tetapi ini akan menjawab salah satu kekhawatiran yang dikemukakan oleh para kritikus: bahwa eksperimen dapat menyebabkan peserta kehilangan informasi penting dalam Kabar Berita mereka. Dengan desain yang digunakan oleh Kramer dan rekan, pesan yang penting kemungkinannya akan diblokir sebagai pesan yang tidak penting. Namun, dengan desain yang meningkatkan, pesan yang akan dipindahkan akan menjadi pesan yang kurang penting.

Akhirnya, R ketiga adalah mengurangi : peneliti harus berusaha untuk mengurangi jumlah peserta dalam percobaan mereka ke minimum yang diperlukan untuk mencapai tujuan ilmiah mereka. Dalam eksperimen analog, ini terjadi secara alami karena tingginya biaya variabel peserta. Namun dalam eksperimen digital, terutama mereka dengan biaya variabel nol, peneliti tidak menghadapi kendala biaya pada ukuran eksperimen mereka, dan ini memiliki potensi untuk mengarah ke eksperimen besar yang tidak perlu.

Misalnya, Kramer dan rekannya dapat menggunakan informasi pra-perawatan tentang peserta mereka — seperti perilaku memposting pra-perawatan — untuk membuat analisis mereka lebih efisien. Lebih khusus, daripada membandingkan proporsi kata-kata positif dalam kondisi perawatan dan kontrol, Kramer dan rekan bisa membandingkan perubahan dalam proporsi kata-kata positif antar kondisi; suatu pendekatan yang kadang-kadang disebut desain campuran (gambar 4.5) dan kadang-kadang disebut estimator selisih-dalam-perbedaan. Artinya, untuk setiap peserta, para peneliti dapat menciptakan skor perubahan (perilaku pasca perawatan $-$ perilaku pra-perawatan) dan kemudian membandingkan skor perubahan peserta dalam kondisi perlakuan dan kontrol. Pendekatan perbedaan-dalam-perbedaan ini lebih efisien secara statistik, yang berarti bahwa para peneliti dapat mencapai kepercayaan statistik yang sama dengan menggunakan sampel yang jauh lebih kecil.

Tanpa memiliki data mentah, sulit untuk mengetahui dengan tepat berapa jauh lebih efisien estimator selisih-dalam-perbedaan dalam kasus ini. Tetapi kita dapat melihat eksperimen terkait lainnya untuk gagasan kasar. Deng et al. (2013) melaporkan bahwa dengan menggunakan bentuk estimator perbedaan-dalam-perbedaan, mereka mampu mengurangi varians estimasi mereka sekitar 50% dalam tiga percobaan online yang berbeda; hasil serupa telah dilaporkan oleh Xie and Aurisset (2016) . Pengurangan varians 50% ini berarti bahwa Peneliti Emosional Contagion mungkin dapat memotong sampel mereka menjadi setengah jika mereka menggunakan metode analisis yang sedikit berbeda. Dengan kata lain, dengan perubahan kecil dalam analisis, 350.000 orang mungkin telah terhindar dari partisipasi dalam percobaan.

Pada titik ini, Anda mungkin bertanya-tanya mengapa peneliti harus peduli jika 350.000 orang berada dalam Emotional Contagion yang tidak perlu. Ada dua fitur khusus Emotional Contagion yang membuat kekhawatiran dengan ukuran yang berlebihan sesuai, dan fitur ini dibagi oleh banyak percobaan lapangan digital: (1) ada ketidakpastian tentang apakah eksperimen akan menyebabkan kerusakan pada setidaknya beberapa peserta dan (2) partisipasi tidak sukarela. Tampaknya masuk akal untuk mencoba membuat eksperimen yang memiliki fitur ini sekecil mungkin.

Untuk menjadi jelas, keinginan untuk mengurangi ukuran percobaan Anda tidak berarti bahwa Anda tidak harus menjalankan eksperimen biaya variabel nol yang besar. Ini hanya berarti bahwa eksperimen Anda tidak boleh lebih besar dari yang Anda butuhkan untuk mencapai tujuan ilmiah Anda. Salah satu cara penting untuk memastikan bahwa eksperimen berukuran tepat adalah dengan melakukan analisis daya (Cohen 1988) . Di era analog, peneliti umumnya melakukan analisis daya untuk memastikan bahwa penelitian mereka tidak terlalu kecil (yaitu, di bawah bertenaga). Sekarang, bagaimanapun, peneliti harus melakukan analisis daya untuk memastikan bahwa studi mereka tidak terlalu besar (yaitu, terlalu bertenaga).

Kesimpulannya, ketiga R itu — menggantikan, menyuling, dan mengurangi — memberikan prinsip-prinsip yang dapat membantu para peneliti membangun etika ke dalam desain eksperimental mereka. Tentu saja, masing-masing perubahan yang mungkin terjadi pada Emotional Contagion ini memperkenalkan trade-off. Misalnya, bukti dari eksperimen alami tidak selalu bersih seperti dari eksperimen acak, dan meningkatkan konten mungkin secara logistik lebih sulit diterapkan daripada memblokir konten. Jadi, tujuan menyarankan perubahan ini bukan untuk menebak-nebak keputusan para peneliti lain. Sebaliknya, itu untuk menggambarkan bagaimana tiga R dapat diterapkan dalam situasi yang realistis. Faktanya, masalah trade-off muncul sepanjang waktu dalam desain penelitian, dan di era digital, pertukaran ini akan semakin melibatkan pertimbangan etis. Kemudian, di bab 6, saya akan menawarkan beberapa prinsip dan kerangka kerja etis yang dapat membantu para peneliti memahami dan mendiskusikan trade-off ini.