4.6.2 Tasarımınıza ahlak kuralları oluşturun: değiştirin, hassaslaştırın ve azaltın

Olmayan deneysel çalışmalar ile deneyler yerine tedavileri rafine ve katılımcı sayısını azaltarak deneme daha insancıl olun.

Dijital deneyler tasarlama konusunda önermek istediğim ikinci öneri etikle ilgilidir. Restivo ve van de Rijt, Vikipedi'deki barnstars deneyinde olduğu gibi, maliyetin düşmesi, etiğin araştırma tasarımının giderek daha önemli bir parçası haline geleceği anlamına geliyor. İnsan deneylerine rehberlik eden etik çerçevelere ek olarak, bölüm 6'da tanımlayacağım araştırmalar, dijital deneyler tasarlayan araştırmacılar, farklı bir kaynaktan gelen etik fikirleri de çekebilir: hayvanlarla ilgili deneyleri yönlendirmek için geliştirilen etik ilkeler. Özellikle de, The Humane Experimental Technique'nin ilkeleri olan Simgesel İlkeleri kitabında Russell and Burch (1959) , hayvan araştırmalarına yön vermesi gereken üç ilkeyi önermiştir: değiştir, rafine et ve azalt. Bu üç R'nin, insan deneylerinin tasarımını yönlendirmek için biraz değiştirilmiş bir biçimde de kullanılabileceğini öne sürmek istiyorum. Özellikle,

  • Değiştir: Mümkünse deneyleri daha az invaziv yöntemlerle değiştirin.
  • Rafine Et: Tedaviyi mümkün olduğunca zararsız hale getirin.
  • Azaltın: Denemenizdeki katılımcı sayısını olabildiğince azaltın.

Bu üç R'nin betonunu yapmak ve potansiyel olarak daha iyi ve daha insani bir deneysel tasarıma nasıl yol açabileceklerini göstermek için etik tartışmalar yaratan bir çevrimiçi alan deneyini anlatacağım. Ardından, üç R'nin deney tasarımında somut ve pratik değişiklikler önerdiğini anlatacağım.

En etik olarak tartışılan dijital alan deneylerinden biri Adam Kramer, Jamie Guillroy ve Jeffrey Hancock (2014) ve “Duygusal Bulaşma” olarak adlandırıldı. Deney, Facebook'ta yapıldı ve bilimsel ve pratik sorular. O anda, kullanıcıların Facebook ile etkileşim kurduğu baskın bir yol, bir kullanıcının Facebook arkadaşlarından algoritmik olarak küratörlüğünü yaptığı Facebook Durumu güncellemeleri olan News Feed'tir. Facebook'un bazı eleştirmenleri, News Feed'in çoğunlukla olumlu yayınlar (son partilerini gösteren arkadaşlar) nedeniyle kullanıcıların üzülmelerine neden olabileceğini, çünkü kullanıcıların hayatları daha az heyecan verici göründüğünden dolayı bu durumun üzülmesine neden olabileceğini öne sürdü. Öte yandan, belki de etki tam tersidir: belki de arkadaşınızın iyi vakit geçirdiğini görmek sizi mutlu eder. Bu rakip hipotezleri ele almak ve bir insanın duygularının arkadaşlarının duyguları tarafından nasıl etkilendiğini anlamak için Kramer ve arkadaşları bir deney gerçekleştirdiler. Bir hafta boyunca yaklaşık 700.000 kullanıcıyı dört gruba yerleştirdiler: “Negativite azaltılmış” bir grup, olumsuz kelimeler içeren mesajlar (örneğin “üzgün”) Haber Kaynağı'nda rastgele bir şekilde engelleniyordu; olumlu kelimeler içeren (“mutlu” gibi) bir “pozitif-azaltılmış” grup rasgele olarak engellendi; ve iki kontrol grubu. “Negativite azaltılmış” grubunun kontrol grubunda, mesajlar “olumsuzluk azaltılmış” grupla aynı oranda, ancak duygusal içeriğe bakılmaksızın rasgele engellenmiştir. “Pozitifliği Azaltılmış” grubunun kontrol grubu paralel olarak oluşturulmuştur. Bu deneyin tasarımı, uygun kontrol grubunun hiçbir değişiklik yapılmadan her zaman olmadığını göstermektedir. Daha doğrusu, kontrol grubu, bir araştırma sorusunun gerektirdiği kesin karşılaştırmayı oluşturmak için bir tedavi alır. Her durumda, Haber Akışı'ndan engellenen yayınlar, Facebook web sitesinin diğer bölümleri aracılığıyla hala kullanıcılara sunulmuştu.

Kramer ve meslektaşları, pozitifliği azaltılmış durumdaki katılımcılarda, durum güncellemelerindeki olumlu kelimelerin yüzdesinin azaldığını ve negatif kelimelerin yüzdesinin arttığını bulmuşlardır. Öte yandan, olumsuzluk azaltılmış durumdaki katılımcılar için, pozitif kelimelerin yüzdesi artmış ve negatif kelimelerin oranı azalmıştır (Şekil 4.24). Ancak, bu etkiler oldukça küçüktü: tedaviler ve kontroller arasındaki pozitif ve negatif sözcüklerdeki fark, 1000 kelimede 1 civarındaydı.

Şekil 4.24: Duygusal bulaşmanın kanıtı (Kramer, Guillory ve Hancock 2014). Olumsuzluğu azaltılmış durumdaki katılımcılar daha az negatif kelime ve daha olumlu kelime kullandılar ve pozitifliği azaltılmış durumdaki katılımcılar daha olumsuz kelimeler ve daha az pozitif kelime kullandılar. Barlar tahmini standart hataları temsil eder. Kramer, Guillory ve Hancock'dan (2014) uyarlanmıştır, şekil 1.

Şekil 4.24: Duygusal bulaşmanın kanıtı (Kramer, Guillory, and Hancock 2014) . Olumsuzluğu azaltılmış durumdaki katılımcılar daha az negatif kelime ve daha olumlu kelime kullandılar ve pozitifliği azaltılmış durumdaki katılımcılar daha olumsuz kelimeler ve daha az pozitif kelime kullandılar. Barlar tahmini standart hataları temsil eder. Kramer, Guillory, and Hancock (2014) uyarlanmıştır, şekil 1.

Bu denemenin ortaya çıkardığı etik konuları tartışmadan önce, bu bölümdeki daha önceki bazı fikirleri kullanarak üç bilimsel konuyu tanımlamak istiyorum. İlk olarak, deneyin gerçek detaylarının teorik iddialara nasıl bağlandığı açık değildir; Başka bir deyişle, yapı geçerliliği ile ilgili sorular vardır. Olumlu ve olumsuz kelime sayımlarının aslında katılımcıların duygusal durumunun iyi bir göstergesi olduğu net değildir. (1) insanların gönderdikleri kelimelerin duygularının iyi bir göstergesi olduğu ve (2) Araştırmacıların kullandıkları özel duygu analizi tekniğinin, duyguları güvenilir bir şekilde çıkarabildiğini açıkça belirtmiştir (Beasley and Mason 2015; Panger 2016) . Diğer bir deyişle, önyargılı bir sinyalin kötü bir ölçüsü olabilir. İkincisi, deney tasarımı ve analizi bize en çok kimin etkilendiği (yani, tedavi etkilerinin heterojenliğinin bir analizi yoktur) ve mekanizmanın ne olabileceği hakkında hiçbir şey söylememektedir. Bu durumda, araştırmacılar, katılımcılar hakkında birçok bilgiye sahipti, ancak analize esas olarak aletler olarak muamele edildi. Üçüncü olarak, bu deneydeki etki büyüklüğü çok küçüktü; Tedavi ve kontrol koşulları arasındaki fark 1000 kelimede 1 civarındadır. Kramer ve meslektaşları makalelerinde, bu büyüklüğün bir etkisinin önemli olduğunu, çünkü yüz milyonlarca insanın her gün Haber Bültenlerine eriştiğinden emin olun. Başka bir deyişle, her kişi için etki küçük olsa bile, bunların büyük bir miktar olduğunu iddia ederler. Bu tartışmayı kabul etseniz bile, bu büyüklüğün bir etkisinin, duyguların yayılması hakkındaki daha genel bilimsel soruyla ilgili olarak önemli olup olmadığı henüz net değildir (Prentice and Miller 1992) .

Bu bilimsel sorulara ek olarak, bu makalenin Ulusal Bilimler Akademisi Bildiriler Kitabında yayınlanmasından sadece birkaç gün sonra hem araştırmacılardan hem de basından muazzam bir muğlaklık vardı (bu tartışmanın argümanlarını 6. bölümde daha ayrıntılı olarak anlatacağım) ). Bu tartışmada gündeme getirilen konular, derginin, araştırma konusundaki etik ve etik inceleme süreci hakkında nadir bir “editörlük ifadesi” yayınlamasına neden olmuştur (Verma 2014) .

Duygusal Bulaşıcılıkla ilgili arka plan göz önüne alındığında, şimdi üç R'nin gerçek çalışmalar için somut ve pratik iyileştirmeler önerebileceğini göstermeyi isterim (bu deneyde etik olarak ne düşünürseniz düşünün). İlk R'nin yerini alır : Araştırmacılar, mümkünse daha az invaziv ve riskli tekniklerle deneyleri değiştirmeyi denemelidir. Örneğin, randomize kontrollü bir deneyi yürütmek yerine, araştırmacılar doğal bir deneyden yararlanabilirdi. Bölüm 2'de açıklandığı gibi, doğal deneyler, dünyada tedavilerin rastgele atamalarına yaklaşan bir şeylerin meydana geldiği durumlardır (örneğin, askere kimin çekileceğine karar vermek için bir piyango). Doğal bir denemenin ahlaki avantajı, araştırmacıların tedavileri uygulamak zorunda olmamasıdır: çevre sizin için bunu yapar. Örneğin, Emotional Contagion deneyi ile neredeyse eşzamanlı olarak Lorenzo Coviello et al. (2014) , Duygusal Bulaşıcılık doğal deneyi olarak adlandırılabilecek şeyleri sömürüyordu. Coviello ve meslektaşları, insanların yağmur yağdığı günlerde daha fazla negatif kelime ve daha az pozitif söz gönderdiğini keşfettiler. Bu nedenle, hava koşullarında rastlantısal çeşitlilik kullanarak, Haber Kaynağındaki değişikliklerin etkilerine müdahale etmek zorunda kalmadan çalışabildiler. Hava onların deneylerini onlar için çalıştırıyormuş gibi. Prosedürlerinin detayları biraz karmaşıktır, ancak burada amaçlarımız için en önemli nokta, doğal bir deney kullanarak Coviello ve meslektaşlarının kendi deneylerini yürütmek zorunda kalmadan duyguların yayılması hakkında bilgi sahibi olmalarıdır.

Üç Rs'nin ikincisi rafine edilir : araştırmacılar, tedavilerini mümkün olduğunca zararsız hale getirmek için arıtmaya çalışmalıdır. Örneğin, olumlu ya da olumsuz olan içeriği engellemek yerine, araştırmacılar olumlu ya da olumsuz olan içeriği destekleyebilirdi. Bu destekleyici tasarım katılımcıların Haber Bültenlerinin duygusal içeriğini değiştirdi, ancak eleştirmenlerin dile getirdiği kaygılardan birini ele alacaktı: deneylerin katılımcıların Haber Bülteninde önemli bilgileri kaçırmalarına neden olabileceğini söyledi. Kramer ve meslektaşlarının kullandığı tasarımda, önemli olan bir mesajın engellenmesinin mümkün olmadığı kadar engellenmesi bekleniyor. Ancak, destekleyici bir tasarıma sahip olan, yerinden edilecek mesajlar, daha az önemli olan mesajlar olacaktır.

Son olarak, üçüncü R azalır : araştırmacılar deneylerinde katılımcı sayısını bilimsel hedeflerine ulaşmak için gereken asgari seviyeye indirmeye çalışmalıdır. Analog deneylerde, bu, katılımcıların yüksek değişken maliyetleri nedeniyle doğal olarak gerçekleşti. Ancak dijital deneylerde, özellikle de sıfır değişken maliyete sahip olan araştırmacılar, deneylerinin büyüklüğü üzerinde bir maliyet kısıtlaması ile karşı karşıya kalmıyorlar ve bunun gereksiz büyük deneylere yol açma potansiyeli var.

Örneğin, Kramer ve meslektaşları, analizlerini daha verimli hale getirmek için katılımcıları hakkında ön-tedavi gönderme davranışı gibi ön-tedavi bilgilerini kullanabilirdi. Daha spesifik olarak, tedavi ve kontrol koşullarında olumlu kelimelerin oranını karşılaştırmak yerine, Kramer ve meslektaşları, olumlu sözcüklerin koşullardaki değişim oranını karşılaştırmış olabilirler; Bazen karışık bir tasarım (şekil 4.5) olarak adlandırılan ve bazen farklılık farkı tahmincisi olarak adlandırılan bir yaklaşım. Yani, her katılımcı için, araştırmacılar bir değişim puanı (tedavi sonrası davranış \(-\) ön-muamele davranışı) oluşturabilir ve daha sonra tedavi ve kontrol koşullarında katılımcıların değişim puanlarını karşılaştırabilirler. Bu farklılık farklılığı yaklaşımı istatistiksel olarak daha verimlidir, bu da araştırmacıların çok daha küçük örnekler kullanarak aynı istatistiksel güveni elde edebildikleri anlamına gelir.

Ham verilere sahip olmaksızın, bu durumda farklılıklardaki fark tahmincisinin ne kadar verimli olacağını tam olarak bilmek zordur. Fakat kaba bir fikir için diğer ilgili deneylere bakabiliriz. Deng et al. (2013) , farklılık fark kestiricisinin bir formunu kullanarak, tahminlerinin varyansını üç farklı çevrimiçi denemede yaklaşık% 50 oranında azaltabildiğini; Benzer sonuçlar Xie and Aurisset (2016) tarafından bildirilmiştir. Bu% 50'lik varyans azaltımı, Duygusal Bulayıcılı araştırmacıların örneklerini biraz farklı bir analiz yöntemi kullanmış olmaları halinde yarıya indirebildiklerini göstermektedir. Başka bir deyişle, analizde küçük bir değişiklikle, 350.000 kişi deneye katılımdan mahrum kalmış olabilir.

Bu noktada, 350,000 kişinin gereksiz yere duygusal bulaşıcı olup olmadığını araştırmak için araştırmacıların neden umması gerektiğini merak ediyor olabilirsiniz. Duygusal Bulaşmanın, aşırı büyüklükle ilgili kaygılar yaratan iki özelliği vardır ve bu özellikler birçok dijital alan deneyi ile paylaşılır: (1) deneyin en azından bazı katılımcılara zarar vermesine ve (2) katılımın zarar görüp görmeyeceğine dair belirsizlik vardır. gönüllü değildi. Bu özellikleri mümkün olduğunca küçük olan deneyleri tutmaya çalışmak mantıklı görünmektedir.

Açık olmak gerekirse, denemenizin boyutunu azaltma arzusu, büyük, sıfır değişken maliyet deneylerini çalıştırmamanız gerektiği anlamına gelmez. Bu, deneylerinizin bilimsel hedefinize ulaşmanız için gerekenden daha büyük olmaması gerektiği anlamına gelir. Bir deneyin uygun şekilde boyutlandırıldığından emin olmanın önemli bir yolu da bir güç analizi yapmaktır (Cohen 1988) . Analog çağda, araştırmacılar genellikle yaptıkları çalışmaların çok küçük olmadığından emin olmak için güç analizi yaptılar (yani, güçlü olmadılar). Ancak, şimdi, araştırmacılar, çalışmalarının çok büyük olmadığından emin olmak için güç analizi yapmalıdırlar (örn. Aşırı güç).

Sonuç olarak, üç R'nin - yerini alacak, hassaslaştıracak ve azaltacak - araştırmacıların deneysel tasarımlarına etiği geliştirmelerine yardımcı olabilecek ilkeleri sağlar. Elbette, Duygusal Bulaşmaya ilişkin bu olası değişikliklerin her biri, ticarete açıklık getirmektedir. Örneğin, doğal deneylerden elde edilen kanıtlar, her zaman rastgele deneylerden elde edilen kadar temiz değildir ve destekleyici içeriğin uygulanması, içeriğin engellenmesinden daha mantıklı bir şekilde uygulanması zor olabilir. Dolayısıyla, bu değişiklikleri önerme amacı, diğer araştırmacıların kararlarını ikinci olarak tahmin etmekti. Daha ziyade, üç R'nin gerçekçi bir durumda nasıl uygulanabileceğini göstermekti. Aslında, araştırma tasarımında ve dijital çağda sürekli ticaret konusu gündeme gelmekte, bu bu türden satışlar giderek daha çok etik kaygılar içerecektir. Daha sonra, 6. bölümde, araştırmacıların bu ticareti anlamaları ve anlamalarına yardımcı olabilecek bazı ilkeleri ve etik çerçeveleri sunacağım.