ayrıntılı açıklama

Bu bölümde, bir anlatı olarak okunacak ziyade, bir referans olarak kullanılmak üzere tasarlanmıştır.

  • Giriş (Bölüm 4.1)

sosyal araştırmalarda nedensellik ile ilgili sorular genellikle karmaşık ve karmaşık. Nedensel grafikler dayalı nedensellik bir temel yaklaşım için, bkz Pearl (2009) , ve potansiyel çıktılarına dayalı bir temel yaklaşım için bkz Imbens and Rubin (2015) (ve bu bölümde teknik eke). Bu iki yaklaşım arasında bir karşılaştırma için bkz Morgan and Winship (2014) . Bir karıştırıcı tanımlayan resmi bir yaklaşım için, bkz VanderWeele and Shpitser (2013) .

bölümde, deneysel ve non-deney verilerinden nedensel tahminler yapmak için yeteneği arasında parlak bir çizgi gibi görünüyordu yarattı. Gerçekte, ben ayrım bulanık olduğunu düşünüyorum. Örneğin, herkes sigara insanların sigaraya zorlayan bir randomize kontrollü deney yapmadım olsa bile kansere neden olduğunu kabul eder. Deneysel olmayan verilerden nedensel tahminlerinin yapılmasını mükemmel bir kitap uzunluğu tedavileri için bkz Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , ve Dunning (2012) .

Bölüm 1 ve 2 Freedman, Pisani, and Purves (2007) deneyler, kontrollü deneyler arasındaki farklar içine net bir giriş sunmak ve kontrollü deneyler randomize.

Manzi (2012) randomize kontrollü deneylerin felsefi ve istatistiksel temelleri büyüleyici bir ve okunabilir giriş sağlar. Aynı zamanda iş deney iktidarın ilginç gerçek dünya örnekleri sağlar.

  • Deneyler nelerdir? (Bölüm 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) , deneysel tasarım ve analiz istatistiksel açıdan iyi sunumlar sağlar. Ekonomi: Ayrıca, birçok farklı alanda deneyler kullanımının mükemmel tedaviler vardır (Bardsley et al. 2009) , sosyoloji (Willer and Walker 2007; Jackson and Cox 2013) , psikoloji (Aronson et al. 1989) , siyaset bilimi (Morton and Williams 2010) , ve sosyal politika (Glennerster and Takavarasha 2013) .

katılımcı işe (örneğin, örnekleme) önemi deneysel araştırma takdir altında genellikle. Tedavinin etkisi popülasyonunda heterojen Ancak, daha sonra örnekleme kritiktir. Longford (1999) o gelişigüzel örnekleme ile nüfus araştırması olarak deneyler düşünme araştırmacılar savunan zaman açıkça bu noktaya yapar.

  • Deneylerde iki boyutu: laboratuvar alan ve analog-dijital (Bölüm 4.3)

Ben laboratuvar ve saha deneyleri arasında sunulan ikilemi biraz basitleştirilmiş. Aslında, diğer araştırmacılar tarla denemeleri çeşitli formları ayrı belirli olanları, daha ayrıntılı tipolojileri önermişlerdir (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Anket deneyler ve sosyal deneyler Anket deneyleri mevcut anketler altyapısını kullanarak deneyler ve alternatif sürümleri cevapları karşılaştırmak. Ayrıca, orada laboratuvar ve saha ikilemi içine düzgünce uymayan sosyal bilimciler tarafından gerçekleştirilen deneylerin diğer iki tipi vardır (bazı anket deneyleri Bölüm 3 sunulmuştur) aynı sorular; Anket deneyler fazla görmek için Mutz (2011) . Sosyal deneyler tedavi sadece bir hükümet tarafından uygulanabilir bazı sosyal politika deneyler. Sosyal deneyler yakından değerlendirme programlamak ilişkilidir. Politika deneyleri hakkında ayrıntılı bilgi için, bkz Orr (1998) , Glennerster and Takavarasha (2013) , ve Heckman and Smith (1995) .

Bildiri bir dizi soyut laboratuvar ve saha deneyleri karşılaştırılmıştır (Falk and Heckman 2009; Cialdini 2009) ve siyaset bilimi belirli deneylerin çıktıları açısından (Coppock and Green 2015) , ekonomi (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) ve psikoloji (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) laboratuar ve saha deneyleri sonuçlarını karşılaştırmak için güzel bir araştırma tasarım sunuyor.

Onlar yakından, bazen talep etkileri denir gözlenen ediliyor biliyorum, onlar psikoloji çalışılmıştır nedeniyle davranışlarını değiştirme katılımcıların ilgili endişeler (Orne 1962) ve ekonomi (Zizzo 2009) . Çoğunlukla laboratuar deneyleri ile ilişkili olmasına rağmen, bu aynı konular hem de saha deneyleri için sorunlara neden olabilir. Aslında, talep etkileri de bazen, bir bir saha deneyinde türeyen terimini, Western Electric Company Hawthorne Works 1924 yılında başlayan, özellikle ünlü aydınlatma deneyler Hawthorne etkisini denir (Adair 1984; Levitt and List 2011) . Hem talep efektleri ve Hawthorn etkileri yakından Bölüm 2'de tartışılan reaktif ölçüm fikrine ilgili (ayrıca bkz Webb et al. (1966) ).

Tarla denemeleri tarihi ekonomisi tarif edilmiştir (Levitt and List 2009) , siyaset bilimi (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikoloji (Shadish 2002) , ve kamu politikası (Shadish and Cook 2009) . alan deneyleri hızla belirgin hale geldi sosyal bilimler alanlarından biri uluslararası bir gelişmedir. Ekonomi içinde bu işin olumlu bir inceleme için bkz Banerjee and Duflo (2009) , ve eleştirel bir değerlendirme için bkz Deaton (2010) . Siyaset biliminde bu işin bir inceleme için bakınız Humphreys and Weinstein (2009) . Son olarak, tarla denemeleri ile ilgili etik sorunlar siyaset bilimi araştırılmıştır (Humphreys 2015; Desposato 2016b) ve kalkınma ekonomisi (Baele 2013) .

Bölümde, ön arıtma bilgileri tahmini tedavi etkilerinin hassasiyetini artırmak için kullanılabilir önerdi, ancak bu yaklaşım hakkında bazı tartışmalar vardır: Freedman (2008) , Lin (2013) , ve Berk et al. (2013) ; bkz Bloniarz et al. (2016) Daha fazla bilgi için.

  • Basit deneyler ötesine hareket eden (Bölüm 4.4)

geçerlilik, tedavi etkilerinin heterojenliği ve mekanizmalar: Ben üç kavram odaklanmak için seçtiniz. Bu kavramlar farklı alanlarda farklı adlara sahip. Örneğin, psikologlar arabulucular ve moderatörler odaklanarak basit deneyler ötesine hareket etme eğilimi (Baron and Kenny 1986) . arabulucuların fikri ben mekanizmaları dediğimiz tarafından yakalanır ve moderatörleri fikri ben dış geçerlik (farklı durumlarda çalıştırıldı ise, örneğin, deney sonuçları farklı olurdu) ve tedavi etkilerinin heterojenliği (dediğimiz tarafından yakalanır örneğin, diğer insanlardan daha bazı insanlar) için büyük etkileri vardır.

Deney Schultz et al. (2007) etkili müdahaleleri tasarlamak için nasıl kullanılabileceğini sosyal teoriler gösterir. Etkili müdahalelerin tasarımı teorisinin rolü hakkında daha genel bir tartışma için bkz Walton (2014) .

  • Geçerlilik (Bölüm 4.4.1)

İç ve dış geçerlilik kavramları ilk tanıtıldı Campbell (1957) . Bkz Shadish, Cook, and Campbell (2001) , daha ayrıntılı bir öykü ve istatistiksel sonuca geçerlilik, iç geçerlilik dikkatli hazırlanması için geçerliliğini ve dış yapı geçerliği.

Deneylerde istatistiksel sonuca geçerlilik ile ilgili konularda genel bir bakış için bkz Gerber and Green (2012) (bir sosyal bilim perspektif için) ve Imbens and Rubin (2015) (istatistiksel perspektif için). Online saha deneylerinde özellikle ortaya çıkan istatistiksel sonuca geçerlilik Bazı konular gibi bağımlı veri ile güven aralıkları oluşturmak için hesaplama verimli yöntemler gibi konuları içerir (Bakshy and Eckles 2013) .

İç geçerlilik karmaşık alan deneylerinde sağlamak zor olabilir. Örneğin, bakınız Gerber and Green (2000) , Imai (2005) , ve Gerber and Green (2005) oylama hakkında karmaşık bir saha deneyinde uygulanması konusunda tartışma için. Kohavi et al. (2012) ve Kohavi et al. (2013) Online saha deneylerinde aralık geçerlilik zorlukları içine bir giriş.

İç geçerliği Bir büyük endişe randomizasyon ile ilgili sorunlar olduğunu. Potansiyel randomizasyon ile ilgili sorunları tespit etmek için bir yolu gözlemlenebilir özelliklere tedavi ve kontrol grupları karşılaştırmaktır. Bu tür bir karşılaştırma bir denge kontrolü denir. Bkz Hansen and Bowers (2008) kontrolleri dengelemek ve görmek için bir istatistiksel bir yaklaşım için Mutz and Pemantle (2015) denge kontrolleri ile ilgili kaygılar için. Örneğin, bir denge kullanarak kontrol Allcott (2011) (; siteler 2, 6, ve 8 Tablo 2) randomizasyon OPower deneylerde bazı deneylerde üç doğru uygulanan değil bazı kanıtlar olduğunu gördük. Diğer yaklaşımlar için bkz Imbens and Rubin (2015) , Bölüm 21.

İç geçerlilik ile ilgili diğer önemli endişeleri vardır: 1) tedavi grubunda herkes aslında tedavi uyumsuzluk, tek taraflı, iki tedavi grubunda herkes tedavi ve bazı aldığı uyumsuzluk, taraflı 2) kontrol grubundaki insanlar tedavi kontrolü durumda insanlara tedavi durumda insanlar üzerinde dökülen tedavi sonuçları bazı katılımcılar için ölçülmez 3) yıpratma, ve 4) girişim, alırsınız. Bkz Gerber and Green (2012) Bölüm 5, 6, 7, ve bu konuların her biri hakkında daha fazla 8.

Yapı geçerliği hakkında ayrıntılı bilgi için, bkz Westen and Rosenthal (2003) , ve yapı büyük veri kaynaklarında geçerliliği üzerinde daha fazla bilgi için Lazer (2015) ve bu kitabın Bölüm 2..

Dış geçerlilik bir yönü, bir müdahale test edilir ayardır. Allcott (2015) yer seçimi önyargı dikkatli teorik ve ampirik tedavi sağlar. Bu konuda da tartışılmıştır Deaton (2010) . Birçok sitelerinde çoğaltılmasını yanı sıra, Ev Enerji Raporu müdahalesi de bağımsız birden fazla araştırma grupları tarafından incelenmiştir (örneğin, Ayres, Raseman, and Shih (2013) ).

  • Tedavi etkilerinin heterojen (Bölüm 4.4.2)

Tarla deneylerinde tedavi etkilerinin heterojenite mükemmel bir bakış için: Bölüm 12'ye bakın Gerber and Green (2012) . Tıbbi çalışmalarda tedavi etkilerinin heterojen tanıtımları için, bkz Kent and Hayward (2007) , Longford (1999) , ve Kravitz, Duan, and Braslow (2004) . tedavi etkilerinin Heterojenite genellikle tedavi öncesi özelliklerine dayalı farklılıklara odaklanmak. Eğer tedavi sonrası çıktılarına dayalı heterojenite ilgileniyorsanız, o zaman daha karmaşık yaklaşımlar gibi temel tabakalaşma olarak ihtiyaç vardır (Frangakis and Rubin 2002) ; bkz Page et al. (2015) bir inceleme için.

Birçok araştırmacı lineer regresyon kullanılarak tedavi etkilerinin heterojenitesini tahmin, ama yeni yöntemler örnek için, makine öğrenmesi güveniyor Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , ve Athey and Imbens (2016a) .

Çünkü çoklu karşılaştırma sorunları ve ". Balıkçılık" çoklu karşılaştırma hakkında adres endişeleri yardımcı olabilir istatistiksel yaklaşımlar çeşitli vardır etkilerinin heterojen bulguları hakkında bazı şüpheler vardır (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . "Balıkçılık" kaygıları bir yaklaşım psikoloji giderek yaygınlaşmaktadır ön kayıt olduğu (Nosek and Lakens 2014) , siyaset bilimi (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ve ekonomi (Olken 2015) .

Çalışmada Costa and Kahn (2013) deneyinde hanelerin sadece yaklaşık yarısı demografik bilgileri ile bağlantılı başardık. Bu analiz ile detayları ve olası sorunların ilgilenen okuyucular, orijinal kağıt başvurmalıdır.

  • Mekanizmalar (Bölüm 4.4.3)

Mekanizmalar çok önemli, ama onlar çalışmak çok zor olduğu ortaya çıkar. Mekanizmaları hakkında araştırma yakından psikolojide aracıların çalışma ile ilgili (ama aynı zamanda bakınız VanderWeele (2009) iki fikir arasında kesin bir karşılaştırma için). Böyle geliştirilen yaklaşım olarak bulma mekanizmalarına istatistiksel yaklaşımlar, Baron and Kenny (1986) , oldukça yaygındır. Ne yazık ki, bu o prosedürler bazı güçlü varsayımlara bağlıdır çıkıyor (Bullock, Green, and Ha 2010) ve çoklu mekanizmalar varken bir çok durumda beklediğiniz gibi, acı (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ve Imai and Yamamoto (2013) bazı gelişmiş istatistiksel yöntemler sunuyoruz. Dahası, VanderWeele (2015) duyarlılık analizi için kapsamlı bir yaklaşım da dahil olmak üzere önemli sonuçlar, bir dizi ile bir kitap uzunlukta tedavi sunmaktadır.

Ayrı bir yaklaşım, doğrudan mekanizması (örneğin, veren denizciler C vitamini) işlemek girişiminde deneyler üzerinde duruluyor. Ne yazık ki, birçok sosyal bilim ayarlarında orada genellikle birden mekanizmalar vardır ve diğerlerini değiştirmeden birini değiştirmek tedavileri tasarlamak zordur. Bazı yaklaşımlar deneysel değiştirme mekanizmaları tarif edilmektedir için Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) ve Pirlott and MacKinnon (2016) .

Tarafından tarif edildiği gibi Nihayet, mekanizmaları da bilim felsefesindeki uzun bir geçmişe sahip Hedström and Ylikoski (2010) .

  • Mevcut ortamları kullanarak (Bölüm 4.5.1.1)

Ayrımcılığı ölçmek için yazışma çalışmaları ve denetim çalışmalarının kullanımı ile ilgili daha fazla bilgi için bkz Pager (2007) .

  • Kendi denemenizi oluşturun (Bölüm 4.5.1.2)

Eğer inşa deneyler katılımcıların işe en yaygın yolu Amazon Mekanik Turk (MTurk) 'dir. Geleneksel laboratuvar deneyleri ödeyen insanlar arasında MTurk taklit yönlerini onlar serbest birçok araştırmacının için yapmayacağım görevleri tamamlamak için, çünkü zaten geleneksel daha hızlı ve daha ucuz veri toplama sonuçlanan insan denekler deneylerde katılımcı olarak Turkers (MTurk üzerine işçiler) kullanmaya başladı kampüs laboratuvar deneyleri (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

MTurk işe alınan katılımcılar ile deneylerin büyük gücü lojistik: bunlar araştırmacılar hızlı ve gerektiği gibi katılacakları belirlemek için izin verir. laboratuvar deneyleri çalıştırmak için hafta sürebilir ve saha deneyleri set-up aylar alabilir Oysa, MTurk işe alınan katılımcılar ile deneyler gün içinde çalıştırılabilir. Örneğin, Berinsky, Huber, and Lenz (2012) bir 8 dakikalık deney katılmak için tek bir günde 400 konularını işe başardık. Ayrıca, bu katılımcılar (Bölüm 3 de bahsedildiği gibi, anketler ve kitle işbirliği de dahil olmak üzere ve 5) hemen hemen herhangi bir amaç için işe edilebilir. işe Bu kolaylığı araştırmacılar peş peşe ilgili deneylerin dizileri çalışabileceği anlamına gelir.

Kendi deneyler için MTurk katılımcıları işe önce bilmeniz dört önemli şeyler vardır. İlk olarak, birçok araştırmacı, Turkers içeren deneyler spesifik olmayan bir şüpheleri vardır. Bu şüphecilik özgü değildir, çünkü kanıtlarla karşı zordur. Ancak, Turkers kullanarak çalışmaların birkaç yıl sonra, şimdi bu şüphecilik özellikle gerekli değildir sonucuna varabiliriz. diğer toplumlardan ve diğer nüfus sonuçlarına Turkers ile deneylerin sonuçlarını karşılaştıran birçok çalışmalara Turkers demografik karşılaştıran birçok çalışma olmuştur. Bütün bu çalışmaları göz önüne alındığında, ben bunu düşünmek için en iyi yoldur Turkers çok öğrenci ama biraz daha farklı gibi, makul bir kolaylık örnek olduğunu düşünüyorsanız (Berinsky, Huber, and Lenz 2012) . Böylece öğrenciler bazıları için makul bir nüfus ama hepsi değil deneysel araştırma vardır gibi, Turkers makul bazı nüfus değil tüm araştırma vardır. Eğer Turkers ile çalışmak için gidiyor, o zaman bu karşılaştırmalı çalışmalar pek okumak ve kendi nüansları anlamak için mantıklı.

İkinci olarak, araştırmacılar Türk deneyler iç geçerliliğini artırmak için en iyi uygulamaları geliştirdik ve hakkında bilgi edinmek ve bu en iyi uygulamaları takip etmelidir (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Örneğin, Turkers kullanarak araştırmacılar dikkatsiz katılımcıları kaldırmak için elekler kullanmak için teşvik edilmektedir (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (aynı zamanda bkz DJ Hauser and Schwarz (2015b) ve DJ Hauser and Schwarz (2015a) ). Eğer dikkatsiz Katılımcıları kaldırmak yoksa, o zaman herhangi bir tedavi etkisi dikkatsiz katılımcıların tanıtıldı gürültü dışarı yıkanabilir ve uygulamada dikkatsiz katılımcı sayısı önemli olabilir. Huber ve arkadaşları deneyde (2012) katılımcıların yaklaşık% 30 temel ilgi elekler başarısız oldu. Turkers ortak bir başka sorun olmayan naif katılımcılar ise (Chandler et al. 2015) .

Üçüncü olarak, dijital deneyler bazı diğer formları göre, MTurk deneyleri ölçek olamaz; Stewart et al. (2015) herhangi bir zamanda MTurk sadece yaklaşık 7000 kişi olduğunu tahmin ediyor.

Son olarak, MTurk kendi kural ve normları ile bir topluluk olduğunu bilmeli (Mason and Suri 2012) . Eğer deneyler çalıştırmak için gittiğini, bir ülkenin kültürü hakkında bilgi edinmek için çalışacağını söyledi Aynı şekilde, kültür ve Turkers normlarına hakkında daha fazla bilgi edinmek için çalışmalısınız (Salehi et al. 2015) . Ve, size uygun olmayan veya etik olmayan bir şey yaparsanız Turkers denemenize bahsediyoruz olacağını bilmeli (Gray et al. 2016) .

MTurk onlar gibi, laboratuvar gibi olsun, deneyler katılımcıların işe inanılmaz uygun bir yoldur Huber, Hill, and Lenz (2012) , gibi daha field-benzeri Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , ve Mao et al. (2016) .

  • Kendi ürün oluşturmak (Bölüm 4.5.1.3)

Kendi ürün yaratmak için çalışmakla düşünüyorsanız, ben sen MovieLens grup tarafından sunulan danışmanlık okumanızı öneririz Harper and Konstan (2015) . kendi deneyimlerinden önemli bir fikir her başarılı proje için birçok, birçok başarısızlıklar olmasıdır. Örneğin, MovieLens grup, tam arızalar vardı GopherAnswers olarak diğer ürünler başlattı (Harper and Konstan 2015) . Bir ürün oluşturmak için çalışırken başarısız bir araştırmacı Başka bir örnek Arden adlı bir online oyun oluşturmak için Edward Castronova teşebbüsüdür. Fon 250.000 $ rağmen, proje flop oldu (Baker 2008) . GopherAnswers ve Arden gibi projeler maalesef çok daha yaygın MovieLens gibi projeler daha vardır. 1) Katılımcılar çünkü örneğin, onlar ödenen değil (onları ne sağlar ürünü kullanmak ve onlar değil: Ben başarıyla tekrarlanan deneyler için ürünler yaptırdığı başka araştırmacıların bilmediğini söyledi nihayet, burada benim kriterlerdir gönüllülere bilim yardımcı) ve 2) ürün birden fazla tat deney (çeşitli katılımcı havuzları ile yani, aynı deney birden fazla kez) kullanılmıştır. Diğer örnekler biliyorsanız, lütfen bana bildirin.

  • Güçlü Eşimle (Bölüm 4.5.2)

Ben teknoloji şirketleri sık sık tartışılan Pasteur'ün Quadrant fikrini duydum, ve Google'da araştırma çabalarını düzenlemenize yardımcı olur (Spector, Norvig, and Petrov 2012) .

Bond ve arkadaşlarının çalışması (2012) da onları aldı olanların arkadaşlarına bu tedavilerin etkisini saptamaya çalışır. Çünkü deney tasarımı, bu spillovers temiz tespit etmek zordur; ilgilenen okuyucular görmelisiniz Bond et al. (2012) daha kapsamlı bir tartışma için. Bu deney oy teşvik etmek çabalarına siyaset bilimi deney uzun bir geleneğinin bir parçasıdır (Green and Gerber 2015) . Onlar Pasteur'ün Quadrant çünkü bu olsun-out-oy deneyleri kısmen yaygındır. Bu davranış değişikliği ve sosyal etkisi hakkında daha genel teorileri test etmek için ilginç bir davranış olabilir oylama ve oylama artırmak için motive pek çok insan vardır, olduğunu.

Diğer araştırmacılar böyle siyasi partiler, sivil toplum örgütleri ve işletmeler gibi ortak kuruluşlarla saha deneyleri çalıştırma hakkında tavsiyelerde sağlamıştır (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Diğerleri kuruluşları ile ortaklıklar araştırma tasarımları etkileyebilir konusunda tavsiye teklif var (Green, Calfano, and Aronow 2014; King et al. 2007) . Ortaklık aynı zamanda etik sorulara yol açabilir (Humphreys 2015; Nickerson and Hyde 2016) .

  • Tasarım danışmanlık (Bölüm 4.6)

Denemenizi çalıştırmadan önce bir analiz planı oluşturmak gidiyorsun, ben raporlama kurallarına okuyarak başlamanızı öneririz. CONSORT kurallar (Denemeler Konsolide Standart Raporlama) tıp geliştirilmiştir (Schulz et al. 2010) ve sosyal araştırma için modifiye (Mayo-Wilson et al. 2013) . Kılavuzların ilgili bir dizi Deneysel Siyaset Bilimi Dergisi editörleri tarafından geliştirilmiştir (Gerber et al. 2014) (ayrıca bkz Mutz and Pemantle (2015) ve Gerber et al. (2015) ). Son olarak, raporlama kuralları psikoloji geliştirilmiştir (Group 2008) , ve ayrıca bkz Simmons, Nelson, and Simonsohn (2011) .

Eğer bir analiz planı oluşturmak Eğer ön kayıt başkalarının sonuçlarına sahip güveni artacak çünkü-kayıt öncesi düşünmelisiniz. Eğer bir ortakla çalışıyoruz Dahası, eğer bu sonuçları gördükten sonra analiz değiştirmek için eşinizin yeteneğini sınırlar. Ön kayıt psikoloji giderek yaygınlaşmaktadır (Nosek and Lakens 2014) , siyaset bilimi (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ve ekonomi (Olken 2015) .

Önceden analiz planı oluştururken bazı araştırmacılar da tahmin tedavi etkisinin kesinliği artırmak için regresyon ve ilgili yaklaşımlar kullanır farkında olmalı ve bu yaklaşım hakkında bazı tartışmalar vardır: Freedman (2008) , Lin (2013) , ve Berk et al. (2013) ; bkz Bloniarz et al. (2016) Daha fazla bilgi için.

Online tarla denemeleri için özel tasarım danışmanlık da sunulmaktadır Konstan and Chen (2007) ve Chen and Konstan (2015) .

  • Sıfır değişken maliyet verilerini oluşturma (Bölüm 4.6.1)

MusicLab deneyler hakkında ayrıntılı bilgi için, bkz Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , ve Salganik (2007) . Kazanan hepsini alır pazarlarda daha fazla bilgi için, bkz Frank and Cook (1996) . Daha genel sadeleştirmek şans ve beceri daha fazla bilgi için, bkz Mauboussin (2012) , Watts (2012) , ve Frank (2016) .

zorunlu askerliği: Araştırmacılar dikkatli kullanmanız gereken katılımcı ödemeleri ortadan kaldırarak başka bir yaklaşım vardır. Birçok online tarla denemeleri katılımcılar temelde telafi asla deneyler içine hazırlanan ve edilmektedir. Bu yaklaşımın örnekleri Restivo ve van de Rijt en içermektedir (2012) Wikipedia ve Bond ve meslektaşının ödülleri denemeyi (2012) oy insanları teşvik etmeye deney. Bu deneyler gerçekten sıfır değişken maliyeti yoktur, onlar araştırmacılara sıfır değişken maliyeti var. Bu deneylerin birçoğu maliyeti her katılımcıya son derece küçük olmasına rağmen, küçük masrafları katılımcılar büyük bir sayı hızlı bir şekilde ekleyebilirsiniz koydu. büyük online deneyler çalışan araştırmacılar genellikle birçok kişiye uygulandığında bu küçük etkiler önemli olabilir söyleyerek küçük tahmini tedavi etkilerinin önemini haklı. aynı düşünce araştırmacılar katılımcılara empoze maliyetler için de geçerlidir. Denemelerinizin bir dakika atık bir milyon kişiyi neden olursa, deney herhangi belirli bir kişi için çok zararlı değildir, ancak toplu olarak o zaman neredeyse iki yıl boşa.

Katılımcılara sıfır değişken maliyet ödeme oluşturmak için başka bir yaklaşım, bir piyango, ayrıca anket araştırmalarında kullanılan edilmiş bir yaklaşım kullanmaktır (Halpern et al. 2011) . Son olarak, tasarlama hakkında daha fazla bilgi için zevkli kullanıcı deneyimleri bkz Toomim et al. (2011) .

  • Değiştir yenileyin ve azaltın (Bölüm 4.6.2)

Burada üç R orijinal tanımları vardır Russell and Burch (1959) :

"Yedek cansız malzemenin bilinçli yaşayan yüksek hayvanlar için ikame anlamına gelir. İndirgeme, belirli bir miktarda ve hassas bilgi elde etmek için kullanılan hayvan sayısı azalma demektir. Arıtma sıklığı ya da halen kullanılan sahip olan hayvanlara uygulanan insanlık prosedürler şiddetinde bir azalma anlamına gelmektedir. "

I, Bölüm 6'da açıklanan etik ilkeleri geçersiz kılmaz teklif üç R Aksine, insan deneylerinin ayarı için bu ilkeler-yararlılık-spesifik bir daha özenli bir versiyonu vardır.

Duygusal bulaşma dikkate alındığında, bu deney yorumlanırken akılda tutulması gereken üç etik dışı sorunlar vardır. Birincisi, denemenin gerçek ayrıntıları teorik iddialara nasıl bağlanacağını açık değildir; diğer bir deyişle, yapı geçerliliği konusunda sorular vardır. 1) açık değildir, çünkü pozitif ve negatif kelime sayıları insanlar sonrası kelimeler duygularını iyi göstergesidir aslında katılımcıların duygusal durumunun iyi bir göstergesi olduğu açık değildir ve 2) bu net değil araştırmacılar kullanılan özel duygu analizi tekniği güvenilir duyguları anlaması mümkün (Beasley and Mason 2015; Panger 2016) . Diğer bir deyişle, taraflı bir sinyalin kötü ölçüsü olabilir. İkincisi, deney tasarımı ve analizi bize en etkilendi (yani, tedavi etkilerinin heterojen bir çalışma yoktur) ve mekanizma ne olabileceğini kim hakkında hiçbir şey anlatır. Bu durumda, araştırmacılar katılımcıların hakkında bilgi bir sürü vardı, ama onlar aslında analiz widget olarak tedavi edildi. Üçüncü olarak, bu deneyde etki büyüklüğü çok küçük; Tedavi ve kontrol koşulları arasındaki fark yaklaşık 1 1000 kelime bulunmaktadır. onların yazıda, Kramer ve meslektaşları milyonlarca insanın yüzlerce Haber her gün Yem erişmek için bu büyüklükte bir etkisi önemlidir durumda yapmak. Diğer bir deyişle, bunlar toplu olarak büyük her kişi için küçük bile etkisini iddia. Eğer bu iddiayı kabul etmek olsa bile bu boyutta bir etki duygusal bulaşma hakkında daha genel bilimsel soruya ilişkin önemli ise, hala açık değildir. Küçük etkileri önemlidir durumlar hakkında ayrıntılı bilgi için, bkz Prentice and Miller (1992) .

İlk R (Yedek), açısından Duygusal Contagion deneyi karşılaştırarak (Kramer, Guillory, and Hancock 2014) ve duygusal bulaşıcılık doğal deneyi (Coviello et al. 2014) hareketli ile ilgili dengeler hakkında bazı genel dersler sunmaktadır doğal deneylere denemeler (ve olmayan deneysel verilere deneyler yaklaştığı o girişimi eşleştirme gibi diğer yaklaşımlar, Bölüm 2'ye bakın). Etik avantajlarına ek olarak, olmayan deneysel çalışmalarla deneysel geçiş aynı zamanda lojistik dağıtmak mümkün değildir tedavileri incelemek için araştırmacılar sağlar. Bu etik ve lojistik avantajları, ancak bir maliyetle geliyor. Doğal deneyler ile araştırmacılar daha az katılımcı, randomizasyon işe gibi şeyler üzerinde kontrol ve tedavi doğası var. Örneğin, bir tedavi olarak yağışın bir sınırlama hem pozitif artırır ve olumsuzluk azalır olmasıdır. Deneysel çalışmada ise, Kramer ve meslektaşları, bağımsız pozitifliği ve negatifliği ayarlamak başardık.

Tarafından kullanılan özel bir yaklaşım Coviello et al. (2014) ayrıca girişimlerde bulunulmuş Coviello, Fowler, and Franceschetti (2014) . Enstrümantal değişkenlerin bir giriş için bkz Angrist and Pischke (2009) (daha az resmi) ya da Angrist, Imbens, and Rubin (1996) (daha resmi). Enstrümantal değişkenlerin şüpheci değerlendirme için bkz Deaton (2010) , ve zayıf aletleri (yağmur zayıf araçtır) ile enstrümantal değişkenlerin bir giriş için bkz Murray (2006) .

Daha genel olarak, doğal deneyler için iyi bir tanıtım olduğunu Dunning (2012) , ve Rosenbaum (2002) , Rosenbaum (2009) , ve Shadish, Cook, and Campbell (2001) deneylerde olmadan nedensel etkileri tahmin hakkında iyi fikirler sunuyoruz.

İkinci R (Arıtma) açısından, mesajları artırılması için mesajları engelleme Duygusal Bulaşma tasarımını değiştirmeyi düşünebilirsiniz bilimsel ve lojistik ticaret-off vardır. Örneğin, News Feed teknik uygulama mesajları artırılması ile bir deney yerine Mesajları engelleme bir deneme yapmak ölçüde kolaylaştıracaktır durumda olabilir (mesajları engelleme bir deney üzerinde bir katman olarak uygulanabilir unutmayın altta yatan sistemin değişikliklere) ihtiyaç duymadan News Feed sisteminin üst. Bilimsel, ancak deney tarafından ele teori açıkça diğeri üzerinde bir tasarım tavsiye etmedi.

Ne yazık ki, ben engelleme ve News Feed içeriği artırılması göreli yararları hakkında önemli önceki araştırmaların farkında değilim. Ayrıca, ben onları daha az zararlı hale getirmek için tedaviler rafine konusunda çok araştırma görmedim; tek istisnası Jones and Feamster (2015) internet sansürü ölçümü durumda gördüğü, (Ben Encore çalışmaya ilişkide Bölüm 6 tartışmak bir konuya (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Üçüncü R (Reduction) açısından, geleneksel güç analizleri için iyi bir tanıtım olduğunu Cohen (1988) . Tedavi öncesi eş değişken tasarım aşamasında ve deneyler Analiz aşamasında dahil edilebilir; Bölüm 4 Gerber and Green (2012) her iki yaklaşım için iyi bir giriş sağlar ve Casella (2008) , daha derinlemesine tedavi sağlar. randomizasyon bu tedavi öncesi bilgilerini kullanmak Teknikleri genellikle ya deneysel tasarımlar veya tabakalı deneysel tasarımlar (terminoloji topluluklar tutarlı kullanılmaz) bloke denir; bu teknikler derinden Bölüm 3. Bkz tartışılan tabakalı örnekleme tekniklerine ilgili Higgins, Sävje, and Sekhon (2016) masif deneylerde bu tasarımlar kullanımı hakkında daha fazla için. Ön-muamele, aynı zamanda eş değişkenler Analiz aşamasında dahil edilebilir. McKenzie (2012) daha ayrıntılı olarak alan deneyler analiz farkı, in farklılıklar yaklaşımı araştırmaktadır. Bkz Carneiro, Lee, and Wilhelm (2016) tedavi etkilerinin tahminlerinde hassasiyetini arttırmak için farklı yaklaşımlar arasındaki ticaret-off hakkında daha fazla bilgi için. tasarım ya da analiz aşamasında (veya her ikisi) önceden tedavi ortak değişkenlere dahil etmeye karar verirken, son olarak, dikkate almanız gereken birkaç faktör vardır. Araştırmacılar "balıkçılık" olmadığını göstermek istiyorum bir ortamda (Humphreys, Sierra, and Windt 2013) , yardımcı olabilir tasarım aşamasında tedavi öncesi değişkenler kullanılarak (Higgins, Sävje, and Sekhon 2016) . Katılımcılar, ardışık olarak gelmesi lojistik yönünden de zor olabilir tasarım aşamasında ön-muamele bilgilerini kullanarak özellikle online Tarla denemeleri, durumlarda, bakınız örneğin Xie and Aurisset (2016) .

Bu farkın-farklar fark-in-araçlarla çok daha fazla etkili olabilir neden sezgi biraz ekleyerek değer. Pek çok online sonuçlar çok yüksek varyans (bkz, örneğin, Lewis and Rao (2015) ve Lamb et al. (2015) ) ve zamanla nispeten istikrarlı. Bu durumda, değişim skoru istatistiksel testin gücünü artırmak, önemli ölçüde daha küçük varyansa sahip olacak. Bu daha sık kullanılmaz yaklaştı nedenlerinden biri dijital çağda önce tedavi öncesi sonuçları için yaygın değildi olmasıdır. bunu düşünmek için daha somut bir yolu, belirli bir egzersiz rutin kilo kaybı neden olup olmadığını ölçmek için bir deney hayal etmektir. Bir fark-in-araçlarla yaklaşımı yaparsanız, tahmini nüfus ağırlıkları değişkenlik gelen değişkenliğe sahip olacaktır. Bir fark-in-fark yaklaşımı yaparsanız, ancak, ağırlıkları doğal olarak oluşan varyasyon kaldırıldı alır ve daha kolay tedavi nedeniyle bir fark tespit edebilir.

Denemenizdeki katılımcı sayısını azaltmak için önemli bir yolu, Kramer ve meslektaşları tarafından doğal deneyden gözlenen etki boyutlarına göre yapmış olabilir bir güç analizi, yapmaktır Coviello et al. (2014) ya da Kramer tarafından deneysel olmayan araştırmalar erken (2012) (aslında bunlar bu bölümün sonunda faaliyetler). güç analizi bu kullanımı tipik biraz daha farklı olduğuna dikkat edin. Analog çağında, araştırmacılar genellikle yaptıkları çalışmada çok küçük değildi emin olmak için güç analiz yaptım (yani, altında enerjili). Şimdi ise, araştırmacılar yaptıkları çalışmada çok büyük olmadığından olduğundan emin olmak için güç analizi yapmalıdır (yani, aşırı Motorlu).

Yeniden kullanın: Son olarak, ben dördüncü R ekleyerek düşündü. Yani onların orijinal araştırma sorusunu ele almak gerekir daha araştırmacılar daha deneysel verilerle kendilerini bulmak, onlar yeni sorular sormaya verileri repurpose zorundadırlar. Örneğin, Kramer ve meslektaşları araştırma sorusunu ele almak için gerekli olandan daha fazla veri ile kendilerini fark-in-farklılıkları tahmincisi kullanılan ve bulduğunu düşünün. Aksine verdiği ölçüde verileri kullanılarak değil, daha duygusal ifade tedavi öncesi bir fonksiyonu olarak etki büyüklüğü incelenmiştir olabilirdi. Gibi Schultz et al. (2007) tedavinin etkisi belki News Feed etkileri şimdiden mutlu (ya da üzgün) mesaj gönderebilir eğilimi insanlar için farklı, hafif ve ağır kullanıcılar için farklı olduğunu ortaya koymuştur. "Balıkçılık" yol açabilir repurposing (Humphreys, Sierra, and Windt 2013) ve "s-hack" (Simmons, Nelson, and Simonsohn 2011) , fakat bu büyük ölçüde dürüst raporlama kombinasyonu ile adreslenebilir olan (Simmons, Nelson, and Simonsohn 2011) , ön kayıt (Humphreys, Sierra, and Windt 2013) , ve aşırı uydurma önlemek girişiminde makine öğrenme yöntemleri.