4.6.2 Ganti, Perbaiki, dan Mengurangi

Terjemahan ini diciptakan oleh komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Ganti, Perbaiki, dan Mengurangi

Membuat eksperimen lebih manusiawi dengan mengganti eksperimen dengan penelitian non-eksperimental, menyempurnakan perawatan, dan mengurangi jumlah peserta.

Bagian kedua dari nasihat yang saya ingin menawarkan tentang merancang eksperimen digital menyangkut etika. Sebagai Restivo dan van de Rijt percobaan pada barnstars di Wikipedia menunjukkan, penurunan biaya berarti bahwa etika akan menjadi bagian yang semakin penting dari desain penelitian. Selain kerangka etika membimbing subjek manusia penelitian yang saya akan menjelaskan di Bab 6, peneliti merancang percobaan digital juga dapat menarik pada ide-ide etis dari sumber yang berbeda: prinsip-prinsip etika yang dikembangkan untuk memandu percobaan yang melibatkan hewan. Secara khusus, dalam buku Principles tengara mereka Teknik Eksperimental Humane, Russell and Burch (1959) mengusulkan tiga prinsip yang harus membimbing penelitian hewan: Ganti, Perbaiki, dan Mengurangi. Saya ingin mengusulkan bahwa tiga R juga dapat digunakan-dalam sedikit dimodifikasi bentuk-untuk memandu desain eksperimen manusia. Khususnya,

Ganti: Ganti eksperimen dengan metode yang kurang invasif jika mungkin
Persempit: memperbaiki pengobatan untuk menjadikannya sebagai berbahaya mungkin
Mengurangi: mengurangi jumlah peserta dalam percobaan sebanyak mungkin

Dalam rangka untuk membuat beton tiga R ini dan menunjukkan bagaimana mereka berpotensi dapat menyebabkan desain eksperimen yang lebih baik dan lebih manusiawi, saya akan menjelaskan percobaan lapangan online yang dihasilkan perdebatan etis. Maka saya akan menjelaskan bagaimana tiga R menyarankan perubahan konkret dan praktis dengan desain percobaan.

Salah satu eksperimen bidang digital yang paling etis diperdebatkan adalah "Emotional Contagion," yang dilakukan oleh Adam Kramer, Jamie Gillroy, dan Jeffrey Hancock (2014) . Percobaan berlangsung di Facebook dan dimotivasi oleh campuran pertanyaan ilmiah dan praktis. Pada saat itu, cara yang dominan yang pengguna berinteraksi dengan Facebook adalah News Feed, set algoritma curated update status Facebook dari teman Facebook pengguna. Beberapa pengkritik Facebook telah menyarankan bahwa karena News Feed memiliki sebagian besar positif tulisan-teman memamerkan terbaru mereka pesta-bisa menyebabkan pengguna merasa sedih karena hidup mereka tampak kurang menarik dibandingkan. Di sisi lain, mungkin efeknya justru sebaliknya; mungkin melihat teman Anda memiliki waktu yang baik akan membuat Anda merasa bahagia? Untuk mengatasi ini bersaing hipotesis-dan untuk memajukan pemahaman kita tentang bagaimana emosi seseorang dipengaruhi oleh teman-temannya 'emosi-Kramer dan rekannya menjalankan eksperimen. Para peneliti menempatkan sekitar 700.000 pengguna dalam empat kelompok selama satu minggu: a "negatif berkurang" kelompok, untuk siapa tulisan dengan kata-kata negatif (misalnya, sedih) secara acak diblokir muncul News Feed; a "positif berkurang" kelompok untuk siapa tulisan dengan kata-kata positif (misalnya, senang) secara acak diblokir; dan dua kelompok kontrol. Pada kelompok kontrol untuk "negatif berkurang" kelompok, posting secara acak diblokir pada tingkat yang sama sebagai "negatif berkurang" kelompok tetapi tanpa memperhatikan isi emosional. Kelompok kontrol untuk "positif berkurang" kelompok dibangun secara paralel. Desain penelitian ini menggambarkan bahwa kelompok kontrol yang tepat tidak selalu satu dengan tidak ada perubahan. Sebaliknya, kadang-kadang kelompok kontrol menerima pengobatan untuk menciptakan perbandingan yang tepat bahwa pertanyaan penelitian membutuhkan. Dalam semua kasus, posting yang diblokir dari News Feed masih tersedia untuk pengguna melalui bagian lain dari situs Facebook.

Kramer dan rekan menemukan bahwa untuk peserta positif dalam mengurangi kondisi, persentase kata-kata positif dalam pembaruan status mereka menurun dan persentase kata-kata negatif meningkat. Di sisi lain, bagi peserta dalam kondisi negatif berkurang, persentase kata-kata positif meningkat dan persentase kata-kata negatif menurun (Gambar 4.23). Namun, efek ini cukup kecil: perbedaan kata-kata positif dan negatif antara perlakuan dan kontrol adalah sekitar 1 dalam 1.000 kata.

Gambar 4.23: Bukti penularan emosi (Kramer, Guillory, dan Hancock 2014). Persentase kata-kata positif dan kata-kata negatif oleh kondisi eksperimental. Bar merupakan estimasi standar error.

Gambar 4.23: Bukti penularan emosi (Kramer, Guillory, and Hancock 2014) . Persentase kata-kata positif dan kata-kata negatif oleh kondisi eksperimental. Bar merupakan estimasi standar error.

Saya sudah menaruh diskusi tentang aspek ilmiah dari percobaan ini pada bagian bacaan lebih lanjut di akhir bab ini, tapi sayangnya, penelitian ini adalah yang paling dikenal untuk menghasilkan debat etika. Hanya beberapa hari setelah tulisan ini diterbitkan dalam Prosiding National Academy of Sciences, ada protes besar dari kedua peneliti dan pers. Kemarahan sekitar kertas difokuskan pada dua poin utama: 1) peserta tidak memberikan persetujuan di luar Facebook hal-of-service standar untuk pengobatan yang beberapa pemikiran mungkin membahayakan peserta dan 2) penelitian tidak mengalami pihak ketiga etis ulasan (Grimmelmann 2015) . Pertanyaan-pertanyaan etis yang diangkat dalam perdebatan ini disebabkan jurnal untuk cepat menerbitkan "ekspresi editorial keprihatinan" langka tentang etika dan proses peninjau etik untuk penelitian (Verma 2014) . Dalam tahun-tahun berikutnya, percobaan terus menjadi sumber perdebatan sengit dan perselisihan, dan pertentangan ini mungkin memiliki efek yang tidak diinginkan dari mengemudi ke dalam bayangan banyak percobaan lain yang sedang dilakukan oleh perusahaan (Meyer 2014) .

Mengingat bahwa latar belakang tentang Contagion Emotional, sekarang saya ingin menunjukkan bahwa 3 R ini dapat menyarankan beton, perbaikan praktis untuk studi nyata (apa pun yang mungkin secara pribadi berpikir tentang etika percobaan tertentu). Yang pertama R adalah Ganti: peneliti harus mencari untuk menggantikan eksperimen dengan teknik kurang invasif dan berisiko, jika memungkinkan. Misalnya, daripada menjalankan eksperimen, para peneliti bisa dimanfaatkan eksperimen alami. Seperti dijelaskan dalam Bab 2, eksperimen alami situasi di mana sesuatu terjadi di dunia yang mendekati tugas acak perawatan (misalnya, undian untuk menentukan siapa yang akan direkrut menjadi militer). Keuntungan dari percobaan alami adalah bahwa peneliti tidak harus memberikan pengobatan; lingkungan melakukan itu untuk Anda. Dengan kata lain, dengan eksperimen alami, para peneliti tidak akan diperlukan untuk eksperimen memanipulasi rakyat News Feeds.

Bahkan, hampir bersamaan dengan percobaan Contagion Emosional, Coviello et al. (2014) telah mengeksploitasi apa yang bisa disebut Emotional Contagion eksperimen alami. Pendekatan mereka, yang menggunakan teknik yang disebut variabel instrumental, agak rumit jika Anda belum pernah melihat itu sebelumnya. Jadi, untuk menjelaskan mengapa hal itu diperlukan, mari kita membangun untuk itu. Ide pertama bahwa beberapa peneliti mungkin harus belajar penularan emosi akan membandingkan posting Anda di hari di mana News Feed Anda sangat positif untuk posting Anda di hari di mana News Feed Anda sangat negatif. Pendekatan ini akan lebih bagus jika tujuannya hanya untuk memprediksi isi emosional posting Anda, tetapi pendekatan ini bermasalah jika tujuannya adalah untuk mempelajari pengaruh kausal dari News Feed Anda pada posting Anda. Untuk melihat masalah dengan desain ini, pertimbangkan Thanksgiving. Di AS, posting positif lonjakan dan posting negatif menurun pada Thanksgiving. Dengan demikian, pada Thanksgiving, peneliti bisa melihat bahwa News Feed Anda sangat positif dan bahwa Anda diposting hal-hal positif juga. Tapi, posting positif Anda bisa saja disebabkan oleh Thanksgiving tidak dengan isi News Feed Anda. Sebaliknya, dalam rangka untuk memperkirakan kausal peneliti efek perlu sesuatu yang mengubah isi dari News Feed Anda tanpa langsung mengubah emosi Anda. Untungnya, ada sesuatu seperti itu terjadi sepanjang waktu: cuaca.

Coviello dan rekan menemukan bahwa hari-hari hujan di kota seseorang akan, rata-rata, menurunkan proporsi posting yang positif sekitar 1 persen dan meningkatkan proporsi posting yang negatif sekitar 1 persen. Kemudian, Coviello dan rekan dieksploitasi fakta ini untuk mempelajari penularan emosi tanpa perlu eksperimental memanipulasi siapa pun News Feed. Pada dasarnya apa yang mereka lakukan adalah mengukur seberapa posting Anda terkena dampak cuaca di kota-kota di mana teman hidup. Untuk melihat mengapa hal ini masuk akal, bayangkan bahwa Anda hidup di New York City dan Anda memiliki teman yang tinggal di Seattle. Sekarang bayangkan bahwa satu hari mulai hujan di Seattle. Hujan di Seattle ini tidak akan secara langsung mempengaruhi suasana hati Anda, tetapi akan menyebabkan News Feed Anda menjadi kurang positif dan negatif karena posting teman Anda. Dengan demikian, hujan di Seattle acak memanipulasi News Feed Anda. Beralih intuisi ini menjadi prosedur statistik terpercaya rumit (dan pendekatan yang tepat digunakan oleh Coviello dan rekan agak non-standar) jadi aku telah menempatkan pembahasan lebih rinci dalam bagian bacaan lebih lanjut. Yang paling penting untuk diingat tentang Coviello dan pendekatan rekan adalah bahwa hal itu memungkinkan mereka untuk belajar penularan emosi tanpa perlu menjalankan eksperimen yang berpotensi merugikan peserta, dan mungkin menjadi kasus bahwa dalam banyak pengaturan lain yang dapat menggantikan eksperimen dengan lainnya teknik.

Kedua dalam 3 Rs adalah Persempit: peneliti harus berusaha untuk memperbaiki perawatan mereka untuk menyebabkan kerusakan sekecil mungkin. Misalnya, daripada memblokir konten yang positif atau negatif, para peneliti bisa meningkatkan konten yang positif atau negatif. desain meningkatkan ini akan mengubah isi emosional peserta News Feeds, tapi itu akan dibahas salah satu perhatian yang kritikus menyatakan: bahwa percobaan dapat menyebabkan peserta kehilangan informasi penting di News Feed mereka. Dengan desain yang digunakan oleh Kramer dan rekannya, pesan yang penting adalah sebagai kemungkinan akan diblokir sebagai salah satu yang tidak. Namun, dengan desain meningkatkan, pesan yang akan dipindahkan akan orang-orang yang kurang penting.

Akhirnya, ketiga R adalah Mengurangi: peneliti harus berusaha untuk mengurangi jumlah peserta dalam percobaan mereka, jika mungkin. Di masa lalu, penurunan ini terjadi secara alami karena biaya variabel eksperimen analog tinggi, yang mendorong penelitian untuk mengoptimalkan desain dan analisis mereka. Namun, ketika ada nol data biaya variabel, peneliti tidak menghadapi kendala biaya pada ukuran percobaan mereka, dan ini berpotensi menyebabkan percobaan tidak perlu besar.

Misalnya, Kramer dan rekannya bisa menggunakan informasi pra-treatment tentang peserta-seperti mereka sebagai pre-treatment postingan perilaku-untuk membuat analisis mereka lebih efisien. Lebih khusus, daripada membandingkan proporsi kata-kata positif dalam kondisi perlakuan dan kontrol, Kramer dan rekannya bisa membandingkan perubahan proporsi kata-kata positif antara kondisi; pendekatan sering disebut perbedaan-in-perbedaan dan yang terkait erat dengan desain campuran yang saya jelaskan sebelumnya dalam bab ini (Gambar 4.5). Artinya, untuk setiap peserta, para peneliti bisa menciptakan skor perubahan (perilaku pasca perawatan - perilaku pra-treatment) dan kemudian dibandingkan nilai perubahan peserta dalam kondisi perlakuan dan kontrol. Pendekatan ini perbedaan-in-perbedaan lebih efisien statistik, yang berarti bahwa peneliti dapat mencapai keyakinan statistik yang sama menggunakan sampel yang lebih kecil. Dengan kata lain, dengan tidak memperlakukan peserta seperti "widget", peneliti dapat sering mendapatkan perkiraan yang lebih tepat.

Tanpa data mentah sulit untuk tahu persis berapa banyak lebih efisien perbedaan-in-perbedaan pendekatan akan dalam kasus ini. Tapi, Deng et al. (2013) melaporkan bahwa dalam tiga percobaan online di mesin pencari Bing mereka mampu mengurangi varians dari perkiraan mereka dengan sekitar 50%, dan hasil serupa telah dilaporkan untuk beberapa eksperimen online di Netflix (Xie and Aurisset 2016) . pengurangan varians 50% ini berarti bahwa peneliti Contagion Emotional mungkin telah mampu memotong sampel mereka dalam setengah jika mereka telah menggunakan metode analisis yang sedikit berbeda. Dengan kata lain, dengan perubahan kecil dalam analisis, 350.000 orang mungkin telah terhindar partisipasi dalam percobaan.

Pada titik ini Anda mungkin bertanya-tanya mengapa para peneliti harus peduli jika 350.000 orang berada di Contagion Emotional tidak perlu. Ada dua fitur tertentu Contagion emosional yang membuat perhatian dengan ukuran yang berlebihan yang sesuai, dan fitur ini dibagi oleh banyak percobaan lapangan digital: 1) ada ketidakpastian tentang apakah percobaan akan membahayakan setidaknya beberapa peserta dan 2) partisipasi tidak sukarela. Dalam percobaan dengan dua karakteristik ini ternyata penting untuk menjaga percobaan sekecil mungkin.

Kesimpulannya, tiga R's-Ganti, Pertajam, dan Mengurangi-memberikan prinsip-prinsip yang dapat membantu para peneliti membangun etika ke dalam desain eksperimental mereka. Tentu saja, masing-masing kemungkinan perubahan Contagion Emotional memperkenalkan trade-off. Misalnya, bukti dari percobaan alam tidak selalu bersih sebagai bukti dari percobaan acak dan meningkatkan mungkin lebih logistik sulit untuk diterapkan daripada blok. Jadi, tujuan menunjukkan perubahan ini adalah tidak menebak-nebak keputusan peneliti lainnya. Sebaliknya, itu adalah untuk menggambarkan bagaimana tiga R dapat diterapkan dalam situasi yang realistis.