4.6.2 , Refine değiştirin ve azaltın

Olmayan deneysel çalışmalar ile deneyler yerine tedavileri rafine ve katılımcı sayısını azaltarak deneme daha insancıl olun.

Ben dijital deney tasarımı konusunda sunmak istiyorum tavsiye ikinci parça etiğini ilgilidir. Ara gösterir barnstars üzerinde Restivo ve van de Rijt deneyi, düşük maliyetler olarak etik araştırma tasarımının önemi giderek artan bir parçası haline anlamına gelir. hayvanlarla ilgili deneyler rehberlik geliştirilen etik ilkeleri: I, Bölüm 6'da anlatacağım insan denekler araştırmayı yönlendiren etik çerçeveler yanı sıra, dijital deney tasarlama Araştırmacılar, ayrıca farklı bir kaynaktan etik fikirleri çizebilirsiniz. Özellikle, İnsani Deneysel Tekniği dönüm noktası kitabı İlkeleri, Russell and Burch (1959) , Refine değiştirin ve azaltın: hayvan araştırma kılavuzluk etmesi gereken üç ilkeleri önerdi. Ben bu üç R 'de kullanılabilir-in olabilir biraz değiştirilmiş önermek istiyorum forma-insan deneyleri tasarımına rehberlik. Özellikle,

  • Değiştir: Eğer mümkünse daha az invazif yöntemlerle deneyler değiştirin
  • Daraltın: mümkün olduğunca zararsız hale getirmek için tedavi Detaylı
  • Azaltın: mümkün olduğunca denemenizde katılımcı sayısını azaltın

Bu üç R'ın beton yapmak ve onlar potansiyel olarak daha iyi ve daha insancıl deneysel tasarım yol açabilir nasıl göstermek için, ben etik tartışma oluşturulan bir online alan deneyi anlatacağım. Sonra üç R 'deney tasarımı somut ve pratik değişiklikler önermek nasıl tarif edeceğiz.

En etik tartışılan dijital alan deneylerden biri Adam Kramer, Jamie Gillroy ve Jeffrey Hancock tarafından gerçekleştirilmiştir "Duygusal Bulaşma" olduğu (2014) . Deney Facebook'ta gerçekleşti ve bilimsel ve pratik sorular bir karışımı motive oldu. zamanda, kullanıcıların Facebook ile etkileşim baskın yolu News Feed, bir kullanıcının Facebook arkadaşlarınızla Facebook durum güncellemeleri bir algoritmik küratörlüğünü set oldu. Facebook Bazı eleştirmenler News Feed en son gösteriş Mesajları-arkadaş çoğunlukla olumlu çünkü parti-it hayatlarının kıyasla daha az heyecan verici görünüyor, çünkü kullanıcıların üzgün hissediyorum neden olabilir öne sürmüştü. Öte yandan, belki etkisi tam tersidir; belki arkadaşını mutlu hissetmesini sağlayacak iyi vakit geçiriyor görünce? ele almak üzere bu hipotez-ve bir kişinin duyguları onun arkadaşlarının etkilenen nasıl anlayışımızı ilerletmek için duyguların-Kramer ve meslektaşları koştu bir deney rakip. Araştırmacılar bir hafta boyunca dört gruba yaklaşık 700.000 kullanıcıları yerleştirilen: bir "olumsuzluk azalır" grubu, negatif kelimeler (örneğin, üzgün) rastgele News Feed görünmesi engellendi şurada mesajları; Pozitif bir deyişle (örneğin, mutlu) ile mesajlar rastgele bloke edildi kime bir "pozitif azalır" grubu; ve iki kontrol grubu. "Olumsuzluk azalır" grubunda kontrol grubuna, mesajlar rastgele "olumsuzluk azalır" grup olarak değil duygusal içeriğe bakılmaksızın aynı oranda bloke edildi. "Pozitifliği azalır" grubun kontrol grubu paralel bir biçimde inşa edilmiştir. Bu deneyde tasarımı uygun kontrol grubu her zaman herhangi bir değişiklik biri olmadığını göstermektedir. Bunun yerine, zaman zaman kontrol grubu ve bir araştırma sorusu gerektirir doğru bir karşılaştırmasına oluşturmak için bir işlem görür. Her durumda, News Feed engellenen mesajlar Facebook web sitesinin diğer parçaları ile hala kullanıcılara kullanılabilir.

Kramer ve meslektaşları pozitifliği katılımcıların durumu azaltılmış, kendi durum güncellemeleri olumlu kelimelerin yüzdesi azalmış ve olumsuz kelimelerin yüzdesi arttığı bulundu. Öte yandan, olumsuzluk azaltılmış durumda katılımcılar için olumlu kelimelerin yüzdesi artmış ve olumsuz kelimelerin yüzdesi (Şekil 4.23) azalmıştır. Ancak, bu etkilerin oldukça küçük: tedavi ve kontroller arasında pozitif ve negatif bir deyişle farkı yaklaşık 1 1.000 kelime oldu.

Şekil 4.23: Duygusal bulaşma kanıtı (Kramer, guillory ve Hancock 2014). Pozitif kelime ve deneysel durumuna göre olumsuz kelimelerin yüzdesi. Barlar standart hataları tahmin temsil eder.

Şekil 4.23: Duygusal bulaşma kanıtı (Kramer, Guillory, and Hancock 2014) . Pozitif kelime ve deneysel durumuna göre olumsuz kelimelerin yüzdesi. Barlar standart hataları tahmin temsil eder.

Ben bölümün sonunda daha fazla okuma bölümünde bu denemenin bilimsel yönlerini bir tartışma koyduk, ama ne yazık ki, bu deney etik tartışmayı üretmek için en çok bilinen olduğunu. Bu kağıt Ulusal Bilimler Akademisi Tutanakları yayımlanan birkaç gün sonra, araştırmacılar ve basın hem büyük bir haykırış oldu. Katılımcılar, standart Facebook terimleri-of-service bazı düşünce katılımcılara zarar ve 2) çalışma geçirmiş olmasaydı üçüncü taraf etik olabilecek bir tedavi dışında herhangi bir onay vermedi 1): iki ana nokta üzerinde duruldu kağıt etrafında öfke yorum (Grimmelmann 2015) . Bu tartışmada ortaya çıkan etik soruların dergi hızla araştırma etik ve etik inceleme süreci hakkında nadir "endişe editoryal ifadesini" yayımlamak için neden (Verma 2014) . Daha sonraki yıllarda, deney yoğun tartışma ve anlaşmazlık kaynağı olmaya devam etmiştir ve bu anlaşmazlık şirketleri tarafından yapılmaktadır gölgeler birçok deneyler sürüş istenmeyen etkisi olmuş olabilir (Meyer 2014) .

Duygusal Bulaşma hakkında bu arka plan göz önüne alındığında, ben şimdi 3 R '(kişisel bu özel deney etik düşünmek ne olursa olsun) gerçek çalışmalar için somut, pratik iyileştirmeler önermek olduğunu göstermek istiyorum. Ilk Ar değiştiriniz: Araştırmacılar, eğer mümkünse daha az invazif ve riskli tekniklerle deneyler yerine başvurmalıdır. Örneğin, yerine bir deneme çalıştırırken daha araştırmacılar doğal deney istismar olabilirdi. Bölüm 2'de açıklandığı gibi bir şey tedavilerin rastgele atama yaklaşan dünyada olur nerede, doğal deneyler durumlar (örneğin, bir piyango zorla askere kim olacak karar) bulunmaktadır. doğal bir deney avantajı araştırmacı tedavileri sunmak zorunda olmamasıdır; Çevre sizin için yapar. Başka bir deyişle, doğal bir deneyde, araştırmacılar deneysel insanların Haber Başlıkları işlemek için gerekli olmazdı.

Aslında, neredeyse eş zamanlı Duygusal Bulaşma deneyi ile, Coviello et al. (2014) Duygusal Contagion doğal deney denilebilir istismar edildi. enstrümantal değişkenlerin adlı bir teknik kullanır Onların yaklaşımı, daha önce hiç görmedim eğer biraz karışık. Yani, ihtiyaç vardı açıklamak için, en o kadar yapalım. Bazı araştırmacılar duygusal yayılımı çalışma gerekebilir ilk fikir News Feed çok olumsuz nerede News Feed günlerde mesajlarý çok olumlu günlerde Mesajları karşılaştırmak olacaktır. Amacınız mesajların duygusal içeriği tahmin etmek sadece olsaydı Bu yaklaşım, iyi olurdu, ama hedefi yazılarda Haber Kaynağınızda nedensel etkisini araştırmak için ise, bu yaklaşımı sorunlu olduğunu. Bu tasarım ile sorunu görmek için, Şükran düşünün. ABD'de, olumlu mesajlar başak ve olumsuz mesajlar Şükran zoka. Böylece, Şükran üzerinde, araştırmacılar için News Feed çok olumlu olduğunu görebiliyordu ve siz de olumlu şeyler yayınlanmıştır. Ama, olumlu mesajlar değil News Feed içeriği tarafından Şükran tarafından neden olmuş olabilir. Bunun yerine, etkisi araştırmacılar doğrudan duygularını değiştirmeden Haber Kaynağınızda içeriğini değiştiren bir şeye ihtiyacım var nedensel tahmin etmek için. hava: Neyse ki, bu olay her zaman gibi bir şey yoktur.

Coviello ve arkadaşları birinin kentte yağmurlu bir gün, ortalama olarak, yaklaşık 1 puan olumlu mesajların oranını azaltmak ve yaklaşık 1 puan negatif mesajların oranı artacak bulundu. Sonra, Coviello ve arkadaşları deneysel kimsenin News Feed işlemek gerek kalmadan duygusal yayılımı incelemek için bu gerçeği istismar. Özünde ne yaptılar yayınlarınız arkadaşlarınızın yaşadıkları şehirlerde hava etkiledi nasıl ölçüsüdür. Bu mantıklı neden görmek için, New York'ta yaşayan ve Seattle'da yaşayan bir arkadaşım var düşünün. Şimdi başlıyor bir gün Seattle yağmur düşünün. Seattle Bu yağmur doğrudan ruh etkilemez, ancak sizin News Feed çünkü arkadaşınızın mesajların daha az olumlu ve daha olumsuz olmasına neden olur. Böylece, Seattle'da yağmur rastgele News Feed yönetir. Güvenilir bir istatistik prosedür içine bu sezgi dönüm karmaşık (ve Coviello ve meslektaşları tarafından kullanılan kesin yaklaşım biraz standart dışı ise) bu yüzden daha fazla okuma bölümünde daha ayrıntılı bir tartışma koyduk. En önemli şey Coviello hakkında hatırlanması gereken ve meslektaşının yaklaşımı potansiyel katılımcıları zarar verebilecek bir deney çalışmasına gerek kalmadan duygusal yayılımı incelemek için onları etkin olduğunu ve birçok diğer ayarları diğer ile deneyler yerine o durumda olabilir teknikleri.

3 Rs İkinci Aramayı geçerli: Araştırmacılar mümkün olan en küçük zarar için kendi tedavileri rafine almalısınız. Örneğin, daha doğrusu pozitif veya negatif olan içeriği engelleme yerine, araştırmacılar olumlu ya da olumsuz olan içeriği artırdığını olabilirdi. Bu artırılması tasarım Haberler Etkinlikler katılımcıların duygusal içeriği değişmiş olurdu, ama bu eleştirmenler dile getirdiği endişe biri ele olurdu: deneyler kendi News Feed önemli bilgileri kaçırmak katılımcıları neden olabileceğini. Kramer ve meslektaşları tarafından kullanılan tasarımı ile, önemli olan bir mesaj değil biri olarak bloke edilmesi olarak muhtemeldir. Bununla birlikte, takviye tasarımı ile deplase olur mesajları daha az önemli olanlar olacaktır.

Son olarak, üçüncü R azaltın geçerli: Araştırmacılar, eğer mümkünse kendi deneyde katılımcıların sayısını azaltmak için başvurmalıdır. Analog deneyler değişken maliyet yüksek olduğu için, geçmişte bu azalma kendi tasarım ve analiz optimize etmek araştırmayı teşvik, hangi doğal oldu. sıfır değişken maliyet verilerini olduğunda Ancak araştırmacılar deney boyutuna maliyet kısıtlaması yüz yok, ve bu gereksiz yere büyük deneylere yol potansiyeline sahiptir.

Örneğin, Kramer ve meslektaşları analizleri daha verimli hale getirmek için davranış-katılımcıları-böyle ön arıtma gönderme yaklaşık tedavi öncesi bilgilerini kullanılmış olabilir. Daha spesifik olarak, daha doğrusu tedavi ve kontrol koşullarında olumlu kelimelerin oranını karşılaştırarak daha Kramer ve meslektaşları koşulları arasındaki olumlu kelime orantılı olarak değişim karşılaştırıldığında olabilir; Bir yaklaşım genellikle fark-farklar-ve hangi yakından ben bölümde daha önce anlatılan karışık tasarım (Şekil 4.5) ile ilişkilidir denir. Yani, her bir katılımcı için, araştırmacılar bir değişiklik puanı (tedavi sonrası davranış - ön arıtma davranış) yaratabilirdi ve sonra tedavi ve kontrol koşullarında katılımcıların değişim puanları karşılaştırıldı. Bu fark, in farklılıklar yaklaşımı araştırmacılar daha küçük numuneler kullanılarak aynı istatistiki güven elde edilebilir, yani istatistiksel olarak daha fazla etkilidir. Diğer bir deyişle, "widget" gibi katılımcıları tedavi değil tarafından, araştırmacılar sıklıkla daha kesin tahminler alabilirsiniz.

ham verilere sahip olmadan fark-in-farklılıklara yaklaşımı bu durumda olurdu tam olarak ne kadar daha verimli bilmek zordur. Ancak, Deng et al. (2013) Bing arama motorunda üç online deneylerde onlar yaklaşık% 50 oranında kendi tahminlerinin varyansı azaltmak mümkün olduğunu bildirdi ve benzer sonuçlar Netflix bazı çevrimiçi deneyler için rapor edilmiştir (Xie and Aurisset 2016) . Bu% 50 varyans azaltma Duygusal Bulaşma araştırmacılar biraz farklı analiz yöntemleri kullanılmıştır olsaydı yarısında kendi örnek kesmek mümkün olabilir anlamına gelir. Bir başka deyişle, analiz küçücük bir değişiklikle, 350.000 kişi deneyde katılımı kurtulmuş olabilir.

Bu noktada 350.000 kişi gereksiz yere Duygusal Bulaşma olsaydı araştırmacılar önemsemeliyiz neden merak ediyor olabilirsiniz. Orada aşırı boyutta endişe uygun hale Duygusal Bulaşma iki belirli özellikleri vardır ve bu özellikler birçok dijital saha deneyleri ile paylaşılır: 1) Deney en azından bazı katılımcılara zarar neden olur ve 2) katılım olup olmadığı konusunda belirsizlik söz konusudur gönüllü. Bu yönüyle deneylerde mümkün olduğu kadar küçük tutmak için deneyler tavsiye edilmektedir.

Sonuç olarak, üç, R's-Değiştir yenileyin ve araştırmacıların deneysel tasarımlar içine etik oluşturmanıza yardımcı olabilir ilkeleri-sağlamaktır azaltın. Tabii ki, Duygusal Bulaşma bu olası değişikliklerin her dengeler tanıtır. Örneğin, doğal deneylerden kanıt randomize deneylerden kanıt olarak her zaman olduğu gibi temiz değil ve daha lojistik zor bloktan daha uygulamak için olmuş olabilir artırılması. Yani, bu değişiklikleri düşündüren amacı diğer araştırmacıların kararlarını ikinci tahmin etmek değildi. Daha ziyade, üç R, gerçek durumlarda uygulanabilecek kadar göstermek için yapıldı.