ความเห็นเพิ่มเติม

แปลนี้ถูกสร้างขึ้นโดยคอมพิวเตอร์ ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

ความเห็นเพิ่มเติม

ในส่วนนี้จะถูกออกแบบมาเพื่อใช้เป็นข้อมูลอ้างอิงมากกว่าที่จะอ่านเป็นเรื่องเล่า

บทนำ (มาตรา 4.1)

คำถามเกี่ยวกับอำนาจในการวิจัยทางสังคมมักจะมีความซับซ้อนและซับซ้อน สำหรับวิธีการพื้นฐานที่จะอยู่บนพื้นฐานของเหตุและผลกราฟสาเหตุเห็น Pearl (2009) และสำหรับวิธีการพื้นฐานขึ้นอยู่กับผลที่อาจเกิดขึ้นดู Imbens and Rubin (2015) (ภาคผนวกและทางเทคนิคในบทนี้) สำหรับการเปรียบเทียบระหว่างทั้งสองวิธีให้ดูที่ Morgan and Winship (2014) สำหรับวิธีการอย่างเป็นทางการเพื่อกำหนดปัจจัยรบกวนให้ดู VanderWeele and Shpitser (2013)

ในบทที่ผมสร้างสิ่งที่ดูเหมือนจะเป็นเส้นสว่างระหว่างความสามารถของเราที่จะทำให้ประมาณการสาเหตุจากข้อมูลการทดลองและไม่ใช่การทดลอง ในความเป็นจริงผมคิดว่าแตกต่างคือ blurrier ยกตัวอย่างเช่นที่ทุกคนยอมรับว่าการสูบบุหรี่ทำให้เกิดโรคมะเร็งแม้ว่าเราไม่เคยทำการทดลองควบคุมแบบสุ่มที่บังคับให้คนที่จะสูบบุหรี่ สำหรับการรักษาความยาวหนังสือที่ดีในการทำประมาณการสาเหตุจากข้อมูลที่ไม่ใช่การทดลองดู Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) และ Dunning (2012)

บทที่ 1 และ 2 ของ Freedman, Pisani, and Purves (2007) มีการแนะนำที่ชัดเจนในความแตกต่างระหว่างการทดลองการทดลองควบคุมและสุ่มทดลองควบคุม

Manzi (2012) ยังมีการเปิดตัวที่น่าสนใจและสามารถอ่านได้เข้ามาหนุนหลังปรัชญาและสถิติของการทดลองควบคุมแบบสุ่ม นอกจากนี้ยังมีตัวอย่างจริงของโลกที่น่าสนใจของการใช้พลังงานของการทดลองในการดำเนินธุรกิจ

อะไรคือการทดลอง? (มาตรา 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) ให้การแนะนำที่ดีในด้านสถิติของการออกแบบการทดลองและการวิเคราะห์ นอกจากนี้ยังมีการรักษาที่ดีเยี่ยมในการใช้การทดลองในสาขาที่แตกต่างกัน: เศรษฐศาสตร์ (Bardsley et al. 2009) สังคมวิทยา (Willer and Walker 2007; Jackson and Cox 2013) จิตวิทยา (Aronson et al. 1989) รัฐศาสตร์ (Morton and Williams 2010) และนโยบายทางสังคม (Glennerster and Takavarasha 2013)

ความสำคัญของการรับสมัครผู้เข้าร่วม (เช่นการสุ่มตัวอย่าง) มักจะเป็นภายใต้การชื่นชมในการวิจัยเชิงทดลอง แต่ถ้าผลของการรักษาที่แตกต่างกันคือในประชากรแล้วสุ่มตัวอย่างเป็นสิ่งสำคัญ. Longford (1999) ทำให้จุดนี้ได้อย่างชัดเจนเมื่อเขาสนับสนุนสำหรับนักวิจัยคิดของการทดลองเป็นประชากรที่มีการสำรวจการสุ่มตัวอย่างจับจด

สองมิติของการทดลอง: ห้องปฏิบัติการภาคสนามและอนาล็อกดิจิตอล (มาตรา 4.3)

ขั้วที่ผมนำเสนอระหว่างห้องปฏิบัติการและภาคสนามทดลองเป็นบิตง่าย ในความเป็นจริงนักวิจัยอื่น ๆ ได้เสนอ typologies รายละเอียดเพิ่มเติมในคนโดยเฉพาะอย่างยิ่งที่แยกรูปแบบต่างๆของการทดลองภาคสนาม (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) นอกจากนี้มีสองประเภทอื่น ๆ ของการทดลองดำเนินการโดยนักวิทยาศาสตร์ทางสังคมที่ไม่เหมาะสมอย่างเรียบร้อยในห้องปฏิบัติการและภาคสนามขั้ว:. สำรวจการทดลองและการทดลองทางสังคมการทดลองการสำรวจการทดลองโดยใช้โครงสร้างพื้นฐานที่มีอยู่ของการสำรวจและเปรียบเทียบการตอบสนองต่อรูปแบบอื่นของ คำถามเดียวกัน (บางการทดลองการสำรวจจะถูกนำเสนอในบทที่ 3) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลองการสำรวจดู Mutz (2011) . การทดลองทางสังคมมีการทดลองที่การรักษาบางนโยบายทางสังคมที่สามารถดำเนินการโดยรัฐบาล ทดลองทางสังคมมีความสัมพันธ์อย่างใกล้ชิดกับการประเมินผลโครงการ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลองนโยบายให้ดู Orr (1998) , Glennerster and Takavarasha (2013) และ Heckman and Smith (1995)

จำนวนเอกสารได้เมื่อเทียบห้องปฏิบัติการและภาคสนามทดลองนามธรรม (Falk and Heckman 2009; Cialdini 2009) และในแง่ของผลการทดลองที่เฉพาะเจาะจงในด้านวิทยาศาสตร์ทางการเมือง (Coppock and Green 2015) เศรษฐกิจ (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) และจิตวิทยา (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) มีการออกแบบการวิจัยที่ดีสำหรับการเปรียบเทียบผลจากห้องปฏิบัติการและภาคสนามทดลอง

ความกังวลเกี่ยวกับผู้เข้าร่วมการเปลี่ยนแปลงพฤติกรรมของพวกเขาเพราะพวกเขารู้ว่าพวกเขากำลังถูกสังเกตอย่างใกล้ชิดบางครั้งเรียกว่าผลกระทบความต้องการและการที่พวกเขาได้รับการศึกษาในด้านจิตวิทยา (Orne 1962) และเศรษฐศาสตร์ (Zizzo 2009) แม้ว่าส่วนใหญ่เกี่ยวข้องกับการทดสอบในห้องปฏิบัติการปัญหาเดียวกันนี้อาจทำให้เกิดปัญหาสำหรับการทดลองภาคสนามเช่นกัน ในความเป็นจริงผลกระทบความต้องการนอกจากนี้ยังมีบางครั้งเรียกว่าผลกระทบ Hawthorne, คำที่เกิดขึ้นจากการทดลองภาคสนามโดยเฉพาะการทดลองที่มีชื่อเสียงการส่องสว่างที่เริ่มต้นขึ้นในปี 1924 ที่ฮอว์ ธ ธิการของ บริษัท ไฟฟ้าตะวันตก (Adair 1984; Levitt and List 2011) ผลกระทบทั้งความต้องการและผลกระทบ Hawthorn มีความเกี่ยวข้องกับความคิดของการวัดปฏิกิริยาที่กล่าวถึงในบทที่ 2 (ดู Webb et al. (1966) )

ประวัติความเป็นมาของการทดลองภาคสนามได้รับการอธิบายในทางเศรษฐศาสตร์ (Levitt and List 2009) รัฐศาสตร์ (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) จิตวิทยา (Shadish 2002) และนโยบายสาธารณะ (Shadish and Cook 2009) หนึ่งในพื้นที่ของวิทยาศาสตร์สังคมที่ทดลองอย่างรวดเร็วกลายเป็นที่โดดเด่นคือการพัฒนาระหว่างประเทศ สำหรับการตรวจสอบในเชิงบวกของการทำงานว่าภายในเศรษฐศาสตร์เห็น Banerjee and Duflo (2009) และการประเมินผลที่สำคัญดู Deaton (2010) สำหรับความคิดเห็นของงานนี้ในสาขาวิทยาศาสตร์ทางการเมืองเห็น Humphreys and Weinstein (2009) ในที่สุดความท้าทายทางจริยธรรมที่เกี่ยวข้องกับการทดลองได้รับการสำรวจในด้านวิทยาศาสตร์ทางการเมือง (Humphreys 2015; Desposato 2016b) และการพัฒนาเศรษฐกิจ (Baele 2013)

ในบทที่ผมแนะนำว่าข้อมูลการรักษาก่อนสามารถนำมาใช้ในการปรับปรุงความแม่นยำของผลการรักษาโดยประมาณ แต่มีการอภิปรายเกี่ยวกับวิธีการนี้ Freedman (2008) , Lin (2013) และ Berk et al. (2013) ; ดู Bloniarz et al. (2016) สำหรับข้อมูลเพิ่มเติม

ย้ายที่อยู่นอกเหนือการทดลองง่าย (มาตรา 4.4)

ฉันเลือกที่จะมุ่งเน้นไปที่สามแนวคิด: ความถูกต้อง, ความแตกต่างของผลการรักษาและกลไก แนวคิดเหล่านี้มีชื่อที่แตกต่างกันในสาขาที่แตกต่างกัน ยกตัวอย่างเช่นนักจิตวิทยามีแนวโน้มที่จะย้ายที่อยู่นอกเหนือการทดลองง่ายๆโดยเน้นการไกล่เกลี่ยและผู้ดูแล (Baron and Kenny 1986) ความคิดของผู้ไกล่เกลี่ยถูกจับโดยสิ่งที่ผมเรียกกลไกและความคิดของผู้ดูแลถูกจับโดยสิ่งที่ผมเรียกความตรงภายนอก (เช่นผลของการทดลองจะแตกต่างกันถ้ามันถูกเรียกใช้ในสถานการณ์ที่แตกต่างกัน) และความแตกต่างของผลการรักษา ( เช่นที่มีผลกระทบที่มีขนาดใหญ่สำหรับบางคนกว่าคนอื่น ๆ )

การทดลองของ Schultz et al. (2007) แสดงให้เห็นว่าทฤษฎีทางสังคมที่สามารถนำมาใช้ในการออกแบบการแทรกแซงที่มีประสิทธิภาพ สำหรับอาร์กิวเมนต์ทั่วไปมากขึ้นเกี่ยวกับบทบาทของทฤษฎีในการออกแบบการแทรกแซงที่มีประสิทธิภาพให้ดู Walton (2014)

ความถูกต้อง (มาตรา 4.4.1)

แนวคิดของความถูกต้องภายในและภายนอกเป็นครั้งแรกใน Campbell (1957) ดู Shadish, Cook, and Campbell (2001) สำหรับประวัติโดยละเอียดเพิ่มเติมและรายละเอียดความถูกต้องระมัดระวังการสรุปสถิติความถูกต้องภายในสร้างความถูกต้องและความถูกต้องภายนอก

สำหรับภาพรวมของประเด็นที่เกี่ยวข้องกับความถูกต้องสรุปสถิติในการทดลองดู Gerber and Green (2012) (สำหรับมุมมองของวิทยาศาสตร์สังคม) และ Imbens and Rubin (2015) (สำหรับมุมมองสถิติ) ปัญหาบางอย่างของความถูกต้องสรุปสถิติที่เกิดขึ้นโดยเฉพาะในการทดลองภาคสนามออนไลน์รวมถึงประเด็นดังกล่าวเป็นวิธีการที่มีประสิทธิภาพคอมพิวเตอร์สำหรับการสร้างความเชื่อมั่นกับข้อมูลขึ้นอยู่กับ (Bakshy and Eckles 2013)

ความถูกต้องภายในอาจเป็นเรื่องยากเพื่อให้มั่นใจในการทดลองภาคสนามที่ซับซ้อน ดูตัวอย่างเช่น Gerber and Green (2000) , Imai (2005) และ Gerber and Green (2005) สำหรับการอภิปรายเกี่ยวกับการดำเนินงานของการทดสอบข้อมูลที่ซับซ้อนเกี่ยวกับการลงคะแนน. Kohavi et al. (2012) และ Kohavi et al. (2013) จัดให้มีการแนะนำเป็นความท้าทายของความถูกต้องช่วงเวลาในการทดลองภาคสนามออนไลน์

หนึ่งกังวลสำคัญกับความถูกต้องภายในจะมีปัญหากับการสุ่ม วิธีการหนึ่งที่อาจตรวจพบปัญหาเกี่ยวกับการสุ่มคือการเปรียบเทียบกลุ่มการรักษาและการควบคุมในลักษณะที่สังเกตได้ ชนิดของการเปรียบเทียบนี้เรียกว่าตรวจสอบยอดเงิน ดู Hansen and Bowers (2008) สำหรับวิธีการทางสถิติเพื่อความสมดุลของการตรวจสอบและดู Mutz and Pemantle (2015) สำหรับความกังวลเกี่ยวกับการตรวจสอบยอดเงิน ตัวอย่างเช่นการใช้ความสมดุลตรวจสอบ Allcott (2011) พบว่ามีหลักฐานบางอย่างที่สุ่มที่ไม่ได้ดำเนินการอย่างถูกต้องในสามของการทดลองในบางส่วนของการทดลอง Opower (ดูตารางที่ 2; ไซต์ 2, 6 และ 8) สำหรับวิธีการอื่น ๆ โปรดดู Imbens and Rubin (2015) บทที่ 21

ความกังวลที่สำคัญอื่น ๆ ที่เกี่ยวข้องกับความถูกต้องภายในคือ 1) ด้านเดียวไม่ปฏิบัติตามที่ทุกคนไม่ได้อยู่ในกลุ่มการรักษาจริงได้รับการรักษา 2) ทั้งสองฝ่ายไม่ปฏิบัติตามที่ทุกคนไม่ได้อยู่ในกลุ่มการรักษาที่ได้รับการรักษาและบาง คนที่อยู่ในกลุ่มควบคุมได้รับการรักษาที่ 3) การขัดสีที่ผลยังไม่ได้วัดสำหรับผู้เข้าร่วมบางส่วนและ 4) การแทรกแซงที่รักษารั่วไหลไปจากคนที่อยู่ในสภาพการรักษาให้กับคนที่อยู่ในสภาพที่ควบคุม ดู Gerber and Green (2012) บทที่ 5, 6, 7, 8 และหาข้อมูลเพิ่มเติมในแต่ละปัญหาเหล่านี้

สำหรับข้อมูลเพิ่มเติมเกี่ยวสร้างความถูกต้องให้ดู Westen and Rosenthal (2003) และสำหรับข้อมูลเพิ่มเติมเกี่ยวกับความถูกต้องในการสร้างแหล่งข้อมูลขนาดใหญ่ Lazer (2015) และบทที่ 2 ของหนังสือเล่มนี้

หนึ่งในแง่มุมของความถูกต้องภายนอกคือการตั้งค่าที่การแทรกแซงมีการทดสอบ. Allcott (2015) ให้การรักษาทางทฤษฎีและเชิงประจักษ์ระวังของเว็บไซต์เลือกอคติ นอกจากนี้ปัญหานี้จะกล่าวถึงใน Deaton (2010) นอกจากจะถูกจำลองแบบในเว็บไซต์จำนวนมากการแทรกแซงบ้านพลังงานรายงานยังได้รับการศึกษาอย่างอิสระโดยกลุ่มวิจัยหลาย (เช่น Ayres, Raseman, and Shih (2013) )

ความแตกต่างของผลการรักษา (มาตรา 4.4.2)

สำหรับภาพรวมที่ดีของความแตกต่างของผลการรักษาในการทดลองภาคสนามดูบทที่ 12 ของ Gerber and Green (2012) สำหรับการแนะนำให้ความแตกต่างของผลการรักษาในการทดลองทางการแพทย์เห็น Kent and Hayward (2007) , Longford (1999) และ Kravitz, Duan, and Braslow (2004) ความแตกต่างของผลการรักษาโดยทั่วไปมุ่งเน้นไปที่ความแตกต่างขึ้นอยู่กับลักษณะการรักษาก่อน หากคุณมีความสนใจในความแตกต่างขึ้นอยู่กับผลลัพธ์หลังการรักษาแล้ว approachs ที่ซับซ้อนมากขึ้นมีความจำเป็นเช่นการแบ่งชั้นเงินต้น (Frangakis and Rubin 2002) ; ดู Page et al. (2015) สำหรับความคิดเห็น

นักวิจัยหลายคนประเมินความแตกต่างของผลการรักษาโดยใช้การถดถอยเชิงเส้น แต่วิธีการใหม่พึ่งพากลไกการเรียนรู้เช่น Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) และ Athey and Imbens (2016a)

มีความสงสัยเกี่ยวกับผลการวิจัยของเซลล์สืบพันธุ์ของผลกระทบเนื่องจากปัญหาการเปรียบเทียบหลายและ ". การประมง" มีความหลากหลายของวิธีการทางสถิติที่สามารถช่วยให้ความกังวลอยู่เกี่ยวกับการเปรียบเทียบหลายเป็น (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) วิธีการหนึ่งที่จะกังวลเกี่ยวกับการ "ตกปลา" คือการลงทะเบียนล่วงหน้าซึ่งเป็นกันมากขึ้นในด้านจิตวิทยา (Nosek and Lakens 2014) รัฐศาสตร์ (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) และเศรษฐศาสตร์ (Olken 2015)

ในการศึกษาของ Costa and Kahn (2013) เพียงประมาณครึ่งหนึ่งของผู้ประกอบการในการทดสอบมีความสามารถที่จะเชื่อมโยงกับข้อมูลทางด้านประชากรศาสตร์ ผู้อ่านที่สนใจในรายละเอียดและปัญหาที่เป็นไปได้กับการวิเคราะห์นี้ควรดูกระดาษเดิม

กลไก (มาตรา 4.4.3)

กลไกที่มีความสำคัญอย่างไม่น่าเชื่อ แต่พวกเขากลายเป็นเรื่องยากมากที่จะศึกษา งานวิจัยเกี่ยวกับกลไกที่เกี่ยวข้องอย่างใกล้ชิดกับการศึกษาของผู้ไกล่เกลี่ยในด้านจิตวิทยา ( แต่เห็น VanderWeele (2009) สำหรับการเปรียบเทียบได้อย่างแม่นยำระหว่างสองความคิด) วิธีการทางสถิติในการหากลไกเช่นแนวทางการพัฒนาใน Baron and Kenny (1986) , เป็นเรื่องธรรมดา แต่น่าเสียดายที่มันกลับกลายเป็นว่าวิธีการเหล่านั้นขึ้นอยู่กับสมมติฐานบางอย่าง (Bullock, Green, and Ha 2010) และทุกข์ทรมานเมื่อมีกลไกหลายเป็นหนึ่งอาจคาดหวังในหลาย ๆ สถานการณ์ (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) และ Imai and Yamamoto (2013) นำเสนอวิธีการทางสถิติบางอย่างที่ดีขึ้น นอกจาก VanderWeele (2015) มีการรักษาหนังสือที่มีความยาวที่มีจำนวนของผลลัพธ์ที่สำคัญรวมทั้งวิธีการที่ครอบคลุมการวิเคราะห์ความไว

วิธีการแยกต่างหากมุ่งเน้นไปที่การทดลองที่พยายามที่จะจัดการกับกลไกโดยตรง (เช่นให้ลูกเรือวิตามินซี) แต่น่าเสียดายที่ในหลาย ๆ การตั้งค่าสังคมศาสตร์มักจะมีหลายกลไกและมันเป็นเรื่องยากที่จะออกแบบการรักษาที่มีการเปลี่ยนแปลงอย่างใดอย่างหนึ่งโดยไม่ต้องเปลี่ยนคนอื่น ๆ วิธีการบางอย่างเพื่อทดลองการเปลี่ยนแปลงกลไกการอธิบายไว้ใน Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) และ Pirlott and MacKinnon (2016)

สุดท้ายกลไกยังมีประวัติศาสตร์อันยาวนานในปรัชญาของวิทยาศาสตร์ตามที่อธิบาย Hedström and Ylikoski (2010)

โดยใช้สภาพแวดล้อมที่มีอยู่ (มาตรา 4.5.1.1)

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้การศึกษาการติดต่อและการศึกษาตรวจสอบการเลือกปฏิบัติในการวัดดู Pager (2007)

สร้างการทดสอบของคุณเอง (มาตรา 4.5.1.2)

วิธีที่ใช้กันมากที่สุดในการรับสมัครผู้เข้าร่วมการทดลองที่คุณสร้างเป็นอเมซอนวิศวกรรมเติร์ก (MTurk) เพราะ MTurk เลียนแบบลักษณะของห้องปฏิบัติการทดลองจ่ายคนดั้งเดิมที่จะเสร็จงานที่พวกเขาจะไม่ทำสำหรับนักวิจัยอิสระจำนวนมากได้เริ่มขึ้นแล้วโดยใช้ Turkers (คนงานใน MTurk) เป็นผู้เข้าร่วมในการทดลองกับอาสาสมัครมนุษย์ที่เกิดขึ้นในการเก็บรวบรวมข้อมูลได้เร็วขึ้นและราคาถูกกว่าแบบดั้งเดิม ในมหาวิทยาลัยทดลองในห้องปฏิบัติการ (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012)

ความแข็งแรงที่ยิ่งใหญ่ที่สุดของการทดลองกับผู้เข้าร่วมได้รับคัดเลือกจาก MTurk มีจิสติกส์: พวกเขาช่วยให้นักวิจัยที่จะรับสมัครผู้เข้าร่วมได้อย่างรวดเร็วและตามความจำเป็น ในขณะที่การทดลองในห้องปฏิบัติการสามารถใช้เวลาหลายสัปดาห์ในการทำงานและการทดลองภาคสนามสามารถใช้เวลาเป็นเดือนที่จะตั้งขึ้นการทดลองกับผู้เข้าร่วมได้รับคัดเลือกจาก MTurk สามารถทำงานในวันที่ ยกตัวอย่างเช่น Berinsky, Huber, and Lenz (2012) มีความสามารถในการรับสมัครอาสาสมัคร 400 ในวันเดียวที่จะมีส่วนร่วมในการทดลอง 8 นาที นอกจากนี้ผู้เข้าร่วมเหล่านี้สามารถได้รับคัดเลือกเพื่อวัตถุประสงค์ใด ๆ จริง (รวมถึงการสำรวจและการทำงานร่วมกันของมวลตามที่กล่าวไว้ในบทที่ 3 และ 5) ความสะดวกในการรับสมัครซึ่งหมายความว่านักวิจัยสามารถทำงานลำดับของการทดลองที่เกี่ยวข้องในเวลาอันรวดเร็ว

ก่อนที่จะรับสมัครผู้เข้าร่วมจาก MTurk สำหรับการทดลองของคุณเองมีสี่สิ่งที่สำคัญที่จะรู้ว่า ครั้งแรกที่นักวิจัยหลายคนมีความสงสัยที่ไม่เฉพาะเจาะจงของการทดลองที่เกี่ยวข้องกับ Turkers เพราะความสงสัยนี้ไม่ได้เป็นเฉพาะมันเป็นเรื่องยากที่จะตอบโต้กับหลักฐาน อย่างไรก็ตามหลังจากหลายปีของการศึกษาโดยใช้ Turkers เราสามารถสรุปได้ว่าในขณะนี้ความสงสัยนี้ไม่ได้โดยเฉพาะอย่างยิ่งความจำเป็น มีการศึกษาจำนวนมากเมื่อเปรียบเทียบกับประชากรของ Turkers เพื่อประชากรอื่น ๆ และการศึกษาจำนวนมากเมื่อเปรียบเทียบกับผลการทดลองกับ Turkers จะเป็นผลมาจากประชากรอื่น ๆ ให้ทุกการทำงานนี้ผมคิดว่าวิธีที่ดีที่สุดสำหรับคุณที่จะคิดเกี่ยวกับมันว่า Turkers เป็นตัวอย่างความสะดวกที่เหมาะสมมากเช่นนักเรียนเล็กน้อย แต่ความหลากหลายมากขึ้น (Berinsky, Huber, and Lenz 2012) ดังนั้นเช่นเดียวกับนักเรียนเป็นประชากรที่เหมาะสมสำหรับบางคน แต่ไม่ทั้งหมดวิจัยทดลอง Turkers เป็นประชากรที่เหมาะสมสำหรับบางคน แต่ไม่ทุกงานวิจัย หากคุณกำลังจะไปทำงานกับ Turkers แล้วมันทำให้ความรู้สึกที่จะอ่านหลายการศึกษาเปรียบเทียบเหล่านี้และเข้าใจความแตกต่างของพวกเขา

สองนักวิจัยได้พัฒนาปฏิบัติที่ดีที่สุดสำหรับการเพิ่มความถูกต้องของการทดลองภายในเติร์กและคุณควรเรียนรู้และปฏิบัติตามเหล่านี้ปฏิบัติที่ดีที่สุด (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) ยกตัวอย่างเช่นนักวิจัยใช้ Turkers มีกำลังใจที่จะใช้ขยะเพื่อลบผู้เข้าร่วมไม่ตั้งใจ (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) ( แต่ยังเห็น DJ Hauser and Schwarz (2015b) และ DJ Hauser and Schwarz (2015a) ) หากคุณไม่ได้ลบผู้เข้าร่วมไม่ตั้งใจแล้วผลของการรักษาใด ๆ ที่สามารถล้างออกด้วยเสียงแนะนำจากผู้เข้าร่วมไม่ตั้งใจและในทางปฏิบัติจำนวนผู้เข้าร่วมไม่ตั้งใจสามารถมากมาย ในการทดลองของฮิวและเพื่อนร่วมงาน (2012) ประมาณ 30% ของผู้เข้าร่วมล้มเหลวพื้นฐานความสนใจขยะ ปัญหาอีกประการหนึ่งที่เหมือนกันกับ Turkers เป็นผู้เข้าร่วมที่ไม่ได้ไร้เดียงสา (Chandler et al. 2015)

ประการที่สามเมื่อเทียบกับบางรูปแบบอื่น ๆ ของการทดลองดิจิตอลทดลอง MTurk ไม่สามารถปรับขนาด; Stewart et al. (2015) ประมาณการว่าในเวลาใดก็ตามมีเพียงประมาณ 7,000 คนใน MTurk

สุดท้ายคุณควรรู้ว่า MTurk เป็นชุมชนที่มีกฎของตัวเองและบรรทัดฐาน (Mason and Suri 2012) ในลักษณะเดียวกับที่คุณจะพยายามที่จะหาข้อมูลเกี่ยวกับวัฒนธรรมของประเทศที่คุณกำลังจะดำเนินการทดสอบของคุณที่คุณควรพยายามที่จะหาข้อมูลเพิ่มเติมเกี่ยวกับวัฒนธรรมและบรรทัดฐานของ Turkers (Salehi et al. 2015) และคุณควรรู้ว่า Turkers จะได้รับการพูดคุยเกี่ยวกับการทดสอบของคุณถ้าคุณทำบางสิ่งบางอย่างที่ไม่เหมาะสมหรือผิดจรรยาบรรณ (Gray et al. 2016)

MTurk เป็นวิธีที่สะดวกอย่างไม่น่าเชื่อที่จะรับสมัครผู้เข้าร่วมการทดสอบของคุณไม่ว่าจะเป็นห้องปฏิบัติการเหมือนเช่น Huber, Hill, and Lenz (2012) หรือสาขาที่มากขึ้นเหมือนเช่น Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) และ Mao et al. (2016)

สร้างผลิตภัณฑ์ของตัวเอง (มาตรา 4.5.1.3)

หากคุณกำลังคิดที่จะพยายามที่จะสร้างผลิตภัณฑ์ของตัวเองผมขอแนะนำให้คุณอ่านคำแนะนำที่นำเสนอโดยกลุ่ม MovieLens ใน Harper and Konstan (2015) ข้อมูลเชิงลึกที่สำคัญจากประสบการณ์ของพวกเขาเป็นที่สำหรับแต่ละโครงการที่ประสบความสำเร็จมีหลายความล้มเหลวหลาย ยกตัวอย่างเช่นกลุ่ม MovieLens เปิดตัวผลิตภัณฑ์อื่น ๆ เช่น GopherAnswers ที่เป็นความล้มเหลวที่สมบูรณ์ (Harper and Konstan 2015) ตัวอย่างของการวิจัยความล้มเหลวในขณะที่พยายามที่จะสร้างผลิตภัณฑ์ก็คือความพยายามที่เอ็ดเวิร์ด Castronova เพื่อสร้างเกมออนไลน์ที่เรียกว่าอาร์เดน แม้จะมี $ 250,000 ในการระดมทุนโครงการเป็นความล้มเหลว (Baker 2008) โครงการเช่น GopherAnswers และอาร์เดนเป็นที่น่าเสียดายที่มากขึ้นกว่ากันโครงการเช่น MovieLens สุดท้ายเมื่อผมบอกว่าผมไม่ทราบว่าของนักวิจัยอื่น ๆ ที่ได้สร้างเสร็จเรียบร้อยแล้วผลิตภัณฑ์สำหรับการทดลองซ้ำที่นี่มีเกณฑ์ของฉัน: 1) ผู้เข้าร่วมใช้ผลิตภัณฑ์เพราะสิ่งที่จะให้พวกเขา (เช่นพวกเขาจะไม่ได้ชำระเงินและพวกเขาจะไม่ได้ อาสาสมัครช่วยวิทยาศาสตร์) และ 2) ผลิตภัณฑ์ที่ได้ถูกนำมาใช้มากกว่าหนึ่งการทดสอบที่แตกต่างกัน (เช่นไม่เหมือนกับการทดลองหลายครั้งที่มีสระว่ายน้ำผู้เข้าร่วมที่แตกต่างกัน) ถ้าคุณรู้ว่าตัวอย่างอื่น ๆ โปรดแจ้งให้เราทราบ

พาร์ทเนอร์ที่มีประสิทธิภาพ (มาตรา 4.5.2)

ผมเคยได้ยินความคิดของปาสเตอร์ Quadrant ที่กล่าวถึงบ่อยครั้งที่ บริษัท ที่มีเทคโนโลยีและจะช่วยจัดระเบียบพยายามในการวิจัยที่ Google (Spector, Norvig, and Petrov 2012)

ตราสารหนี้และการศึกษาเพื่อนร่วมงาน (2012) นอกจากนี้ยังมีความพยายามที่จะตรวจสอบผลของการรักษาเหล่านี้ในเพื่อนของผู้ที่ได้รับพวกเขา เนื่องจากการออกแบบของการทดลอง spillovers เหล่านี้เป็นเรื่องยากที่จะตรวจสอบเรียบร้อย; ผู้อ่านที่สนใจจะเห็น Bond et al. (2012) สำหรับการอภิปรายอย่างละเอียดมากขึ้น การทดลองนี้เป็นส่วนหนึ่งของประเพณีอันยาวนานของการทดลองในสาขาวิทยาศาสตร์ทางการเมืองเกี่ยวกับความพยายามที่จะส่งเสริมให้การออกเสียงลงคะแนน (Green and Gerber 2015) เหล่านี้ได้รับการทดลองออกคะแนนเสียงเป็นเรื่องธรรมดาในส่วนหนึ่งเป็นเพราะพวกเขาอยู่ใน Quadrant ปาสเตอร์ นั่นคือมีหลายคนที่มีแรงจูงใจที่จะเพิ่มการออกเสียงลงคะแนนและออกเสียงลงคะแนนอาจจะเป็นพฤติกรรมที่น่าสนใจที่จะทดสอบทฤษฎีทั่วไปมากขึ้นเกี่ยวกับการเปลี่ยนแปลงพฤติกรรมและการมีอิทธิพลต่อสังคม

นักวิจัยอื่น ๆ ที่ได้ให้คำแนะนำเกี่ยวกับการทำงานทดลองกับองค์กรพันธมิตรเช่นพรรคการเมืององค์กรพัฒนาเอกชนและธุรกิจ (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) คนอื่น ๆ ได้เสนอคำแนะนำเกี่ยวกับวิธีการร่วมมือกับองค์กรสามารถส่งผลกระทบต่อการออกแบบการวิจัย (Green, Calfano, and Aronow 2014; King et al. 2007) ห้างหุ้นส่วนจำกัดนอกจากนี้ยังสามารถนำไปสู่คำถามทางจริยธรรม (Humphreys 2015; Nickerson and Hyde 2016)

คำแนะนำการออกแบบ (มาตรา 4.6)

หากคุณกำลังจะสร้างแผนการวิเคราะห์ก่อนที่จะใช้การทดสอบของคุณผมขอแนะนำให้คุณเริ่มต้นโดยการอ่านแนวทางการรายงาน มเหสี (งบการเงินรวมมาตรฐานการรายงานของการทดลอง) แนวทางที่ถูกพัฒนาขึ้นในการแพทย์ (Schulz et al. 2010) และการแก้ไขสำหรับการวิจัยทางสังคม (Mayo-Wilson et al. 2013) ชุดที่เกี่ยวข้องของแนวทางได้รับการพัฒนาโดยบรรณาธิการของวารสารการทดลองวิทยาศาสตร์การเมือง (Gerber et al. 2014) (ดู Mutz and Pemantle (2015) และ Gerber et al. (2015) ) สุดท้ายแนวทางการรายงานได้รับการพัฒนาในด้านจิตวิทยา (Group 2008) และยังเห็น Simmons, Nelson, and Simonsohn (2011)

ถ้าคุณสร้างแผนการวิเคราะห์ที่คุณควรพิจารณาก่อนการลงทะเบียนเพราะการลงทะเบียนล่วงหน้าจะช่วยเพิ่มความเชื่อมั่นว่าคนอื่น ๆ ได้ในผลลัพธ์ของคุณ นอกจากนี้ถ้าคุณกำลังทำงานกับพันธมิตรก็จะกำหนดความสามารถของคู่ของคุณมีการเปลี่ยนแปลงการวิเคราะห์หลังจากที่ได้เห็นผล ลงทะเบียนล่วงหน้าจะกลายเป็นเรื่องธรรมดามากขึ้นในด้านจิตวิทยา (Nosek and Lakens 2014) รัฐศาสตร์ (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) และเศรษฐศาสตร์ (Olken 2015)

ขณะที่การสร้างแผนก่อนการวิเคราะห์ของคุณคุณควรจะทราบว่านักวิจัยบางคนยังใช้การถดถอยและวิธีการที่เกี่ยวข้องในการปรับปรุงความแม่นยำของผลการรักษาโดยประมาณและมีการอภิปรายเกี่ยวกับวิธีการนี้: Freedman (2008) , Lin (2013) และ Berk et al. (2013) ; ดู Bloniarz et al. (2016) สำหรับข้อมูลเพิ่มเติม

คำแนะนำการออกแบบมาโดยเฉพาะสำหรับการทดลองภาคสนามออนไลน์จะนำเสนอยังอยู่ใน Konstan and Chen (2007) และ Chen and Konstan (2015)

สร้างศูนย์ข้อมูลต้นทุนผันแปร (มาตรา 4.6.1)

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลอง MusicLab ให้ดู Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) และ Salganik (2007) สำหรับข้อมูลเพิ่มเติมเกี่ยวชนะจะใช้เวลาทุกตลาดให้ดูที่ Frank and Cook (1996) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับโชคแกะและทักษะอื่น ๆ โดยทั่วไปให้ดู Mauboussin (2012) , Watts (2012) และ Frank (2016)

มีอีกวิธีหนึ่งที่จะกำจัดการชำระเงินของผู้เข้าร่วมว่านักวิจัยควรใช้ด้วยความระมัดระวังคือการเกณฑ์ทหาร ในหลายทดลองออนไลน์เข้าร่วมร่างพื้นเข้าไปในการทดลองและไม่เคยได้รับการชดเชย ตัวอย่างของวิธีการนี้ ได้แก่ Restivo และแวนเดอ Rijt ของ (2012) ทดลองผลตอบแทนในวิกิพีเดียและพันธบัตรและเพื่อนร่วมงาน (2012) การทดลองในการส่งเสริมให้ประชาชนออกเสียงลงคะแนน การทดลองนี้ไม่ได้จริงๆมีศูนย์ต้นทุนผันแปรที่พวกเขามีศูนย์ต้นทุนผันแปรที่นักวิจัย แม้ว่าค่าใช้จ่ายของหลายการทดลองเหล่านี้มีขนาดเล็กมากที่จะเข้าร่วมแต่ละคนค่าใช้จ่ายเล็ก ๆ ที่เรียกเก็บจำนวนมหาศาลของผู้เข้าร่วมสามารถเพิ่มขึ้นอย่างรวดเร็ว นักวิจัยทดลองการทำงานออนไลน์ขนาดใหญ่มักจะแสดงให้เห็นถึงความสำคัญของผลการรักษาประมาณขนาดเล็กโดยบอกว่าผลกระทบขนาดเล็กเหล่านี้สามารถกลายเป็นสิ่งสำคัญเมื่อนำมาใช้กับคนจำนวนมาก ความคิดเดียวกันแน่นอนนำไปใช้กับค่าใช้จ่ายที่นักวิจัยกำหนดให้กับผู้เข้าร่วม หากการทดสอบของคุณเป็นสาเหตุหนึ่งล้านคนที่จะเสียหนึ่งนาทีการทดสอบไม่มากเป็นอันตรายต่อบุคคลใดบุคคลใด ๆ แต่ในภาพรวมก็มีการสูญเสียไปเกือบสองปีของเวลา

วิธีการชำระเงินในการสร้างต้นทุนผันแปรศูนย์ถึงผู้เข้าร่วมก็คือการใช้การจับสลากวิธีการที่ยังได้ถูกนำมาใช้ในการวิจัยเชิงสำรวจ (Halpern et al. 2011) สุดท้ายสำหรับข้อมูลเพิ่มเติมเกี่ยวกับการออกแบบใช้ประสบการณ์ที่สนุกสนานดู Toomim et al. (2011)

แทนที่ปรับแต่งและลด (มาตรา 4.6.2)

นี่คือคำจำกัดความเดิมของสามอาร์จากมี Russell and Burch (1959) :

"หมายความว่าการเปลี่ยนทดแทนสำหรับที่อยู่อาศัยที่ใส่ใจสัตว์ที่สูงขึ้นของวัสดุ insentient ลดลงหมายถึงการลดในจำนวนของสัตว์ที่ใช้ในการได้รับข้อมูลของจำนวนที่กำหนดและความแม่นยำ โสรัจจะหมายถึงการลดลงของใด ๆ ในอุบัติการณ์หรือความรุนแรงของขั้นตอนการปฏิบัติที่ไร้มนุษยธรรมนำไปใช้กับสัตว์เหล่านั้นซึ่งยังคงต้องนำมาใช้. "

สามอาร์ที่ผมเสนอไม่แทนที่หลักการทางจริยธรรมที่อธิบายไว้ในบทที่ 6 แต่พวกเขาเป็นรุ่นที่ซับซ้อนมากขึ้นหนึ่งในบรรดาหลักการเกื้อกูลโดยเฉพาะสำหรับการตั้งค่าของการทดลองมนุษย์

เมื่อพิจารณา Contagion อารมณ์มีสามประเด็นที่ไม่ใช่ทางจริยธรรมจะเก็บไว้ในใจเมื่อการตีความการทดลองนี้ ครั้งแรกก็ไม่ชัดเจนว่ารายละเอียดที่เกิดขึ้นจริงของการทดสอบการเชื่อมต่อกับการเรียกร้องทางทฤษฎี; ในคำอื่น ๆ ที่มีคำถามเกี่ยวกับการสร้างความถูกต้อง มันไม่ได้เป็นที่ชัดเจนว่าในเชิงบวกและเชิงลบนับคำเป็นจริงเป็นตัวบ่งชี้ที่ดีของสภาวะอารมณ์ของผู้เข้าร่วมเพราะ 1) มันจะไม่ชัดเจนว่าคำพูดที่ว่าคนที่โพสต์เป็นตัวบ่งชี้ที่ดีของอารมณ์ความรู้สึกของพวกเขาและ 2) มันไม่ได้เป็นที่ชัดเจนว่า ความเชื่อมั่นในด้านเทคนิคการวิเคราะห์ว่านักวิจัยที่ใช้สามารถที่จะสรุปได้อย่างน่าเชื่อถืออารมณ์ (Beasley and Mason 2015; Panger 2016) ในคำอื่น ๆ อาจจะมีตัวชี้วัดที่ไม่ดีของสัญญาณลำเอียง ประการที่สองการออกแบบและวิเคราะห์การทดลองบอกเราไม่มีอะไรเกี่ยวกับผู้ที่ได้รับผลกระทบมากที่สุด (เช่นมีการวิเคราะห์ความแตกต่างของผลการรักษาไม่ได้) และสิ่งที่กลไกอาจจะ ในกรณีนี้นักวิจัยมีจำนวนมากของข้อมูลเกี่ยวกับผู้เข้าร่วมประชุม แต่พวกเขาได้รับการรักษาเป็นหลักเป็นเครื่องมือในการวิเคราะห์ ประการที่สามขนาดของผลในการทดลองนี้มีขนาดเล็กมาก ความแตกต่างระหว่างการรักษาสภาพและการควบคุมคือประมาณ 1 ใน 1,000 คำ ในกระดาษของพวกเขาเครเมอและเพื่อนร่วมงานทำให้กรณีที่มีผลขนาดนี้เป็นสิ่งสำคัญเพราะหลายร้อยล้านคนเข้าถึงฟีดข่าวของพวกเขาในแต่ละวัน ในคำอื่น ๆ ที่พวกเขายืนยันว่าแม้จะมีผลกระทบที่มีขนาดเล็กสำหรับแต่ละบุคคลที่พวกเขามีขนาดใหญ่ในการรวม แม้ว่าคุณจะยอมรับเรื่องนี้ก็ยังคงไม่ชัดเจนว่ามีผลขนาดนี้เป็นสิ่งที่สำคัญเกี่ยวกับคำถามทางวิทยาศาสตร์ทั่วไปเกี่ยวกับการติดเชื้อทางอารมณ์ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับสถานการณ์ที่มีผลกระทบขนาดเล็กที่มีความสำคัญเห็น Prentice and Miller (1992)

ในแง่ของการเป็นครั้งแรก R (Replacement) เปรียบเทียบ Contagion ทดลองทางอารมณ์ (Kramer, Guillory, and Hancock 2014) และการติดเชื้อทางอารมณ์ทดลองทางธรรมชาติ (Coviello et al. 2014) มีบทเรียนทั่วไปบางอย่างเกี่ยวกับไม่ชอบการค้าที่เกี่ยวข้องกับการย้ายจาก การทดลองเพื่อการทดลองธรรมชาติ (และวิธีการอื่น ๆ เช่นการจับคู่พยายามที่จะทดลองประมาณในข้อมูลที่ไม่ใช่ทดลองที่ดูบทที่ 2) นอกจากผลประโยชน์ทางจริยธรรมที่เปลี่ยนจากการทดลองการศึกษาไม่ใช่การทดลองยังช่วยให้นักวิจัยสามารถศึกษาการรักษาที่พวกเขาจะ logistically ไม่สามารถปรับใช้ ประโยชน์จริยธรรมและจิสติกส์เหล่านี้มาที่ค่าใช้จ่ายอย่างไร ด้วยการทดลองนักวิจัยมีธรรมชาติควบคุมน้อยกว่าสิ่งที่ต้องการรับสมัครผู้เข้าร่วมการสุ่มและธรรมชาติของการรักษา ตัวอย่างเช่นหนึ่งในข้อ จำกัด ของปริมาณน้ำฝนในการรักษาก็คือว่ามันทั้งเพิ่มขึ้นและลดลง positivity ปฏิเสธ ในการศึกษาทดลอง แต่เครเมอและเพื่อนร่วมงานก็สามารถที่จะปรับ positivity และปฏิเสธอย่างอิสระ

โดยเฉพาะอย่างยิ่งวิธีการใช้โดย Coviello et al. (2014) ได้รับการชี้แจงเพิ่มเติมใน Coviello, Fowler, and Franceschetti (2014) สำหรับคำแนะนำเกี่ยวกับตัวแปรที่มีประโยชน์ดู Angrist and Pischke (2009) (ไม่เป็นทางการ) หรือ Angrist, Imbens, and Rubin (1996) (เป็นทางการมากขึ้น) ในการประเมินความเคลือบแคลงสงสัยของตัวแปรที่มีประโยชน์ดู Deaton (2010) และสำหรับการแนะนำให้รู้จักกับตัวแปรบรรเลงด้วยเครื่องดนตรีที่อ่อนแอ (ฝนเป็นเครื่องมือที่อ่อนแอ) ดู Murray (2006)

โดยทั่วไปการแนะนำที่ดีในการทดลองธรรมชาติคือ Dunning (2012) และ Rosenbaum (2002) , Rosenbaum (2009) และ Shadish, Cook, and Campbell (2001) เสนอความคิดที่ดีเกี่ยวกับการประเมินผลกระทบเชิงสาเหตุโดยไม่ต้องทดลอง

ในแง่ของการที่สอง r (Refinement) มีทางวิทยาศาสตร์และจิสติกส์การค้าเพลย์ออฟเมื่อพิจารณาการเปลี่ยนแปลงการออกแบบของ Contagion อารมณ์จากการปิดกั้นการโพสต์โพสต์การส่งเสริม ยกตัวอย่างเช่นมันอาจจะเป็นกรณีว่าการดำเนินการทางเทคนิคของฟีดข่าวที่ทำให้มันเป็นอย่างมากง่ายต่อการทำการทดสอบที่มีการปิดกั้นการโพสต์มากกว่าการทดสอบที่มีการส่งเสริมการโพสต์ (โปรดทราบว่าการทดสอบที่มีการปิดกั้นการโพสต์อาจจะนำมาใช้เป็นชั้นบน ด้านบนของระบบฟีดข่าวโดยไม่จำเป็นต้องมีการปรับเปลี่ยนของระบบพื้นฐานใด ๆ ) ทางวิทยาศาสตร์ แต่ทฤษฎีที่ได้รับการทดสอบอย่างชัดเจนไม่ได้แนะนำหนึ่งในการออกแบบในช่วงอื่น ๆ

แต่น่าเสียดายที่ผมไม่ได้ตระหนักถึงความสำคัญก่อนการวิจัยเกี่ยวกับการทำบุญญาติของการปิดกั้นและเพิ่มเนื้อหาในฟีดข่าว นอกจากนี้ผมยังไม่ได้เห็นการวิจัยมากเกี่ยวกับการปรับแต่งการรักษาจะทำให้พวกเขาที่เป็นอันตรายน้อยกว่า ข้อยกเว้นคือ Jones and Feamster (2015) ที่จะพิจารณากรณีของการวัดของการเซ็นเซอร์อินเทอร์เน็ต (หัวข้อหารือเกี่ยวกับผมในบทที่ 6 ในความสัมพันธ์กับการศึกษา Encore ที่ (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) )

ในแง่ของการที่สาม R (ลด) การแนะนำที่ดีในการวิเคราะห์การใช้พลังงานแบบดั้งเดิมคือ Cohen (1988) ตัวแปรการรักษาก่อนสามารถรวมอยู่ในขั้นตอนการออกแบบและขั้นตอนการวิเคราะห์การทดลอง; บทที่ 4 ของ Gerber and Green (2012) ให้การแนะนำที่ดีกับวิธีการทั้งสองและ Casella (2008) ให้การรักษาเพิ่มเติมในเชิงลึก เทคนิคที่ใช้ข้อมูลก่อนการรักษานี้ในการสุ่มมักจะเรียกว่าถูกปิดกั้นทั้งการออกแบบการทดลองหรือการออกแบบการทดลองแบบแบ่งชั้น (คำศัพท์ที่ไม่ได้ถูกใช้อย่างต่อเนื่องในชุมชน); เทคนิคเหล่านี้มีความสัมพันธ์อย่างลึกซึ้งกับเทคนิคการสุ่มตัวอย่างแบบแบ่งชั้นกล่าวถึงในบทที่ 3 เห็น Higgins, Sävje, and Sekhon (2016) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้การออกแบบเหล่านี้ในการทดลองขนาดใหญ่ ตัวแปรการรักษาก่อนนอกจากนี้ยังสามารถรวมอยู่ในขั้นตอนการวิเคราะห์. McKenzie (2012) สำรวจวิธีการที่แตกต่างกันในความแตกต่างในการวิเคราะห์ข้อมูลการทดลองในรายละเอียดมากขึ้น ดู Carneiro, Lee, and Wilhelm (2016) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการแลกเปลี่ยนระหว่างวิธีการที่แตกต่างกันเพื่อเพิ่มความแม่นยำในการประเมินผลกระทบต่อการรักษา สุดท้ายเมื่อตัดสินใจว่าจะพยายามที่จะรวมตัวแปรการรักษาก่อนที่การออกแบบหรือการวิเคราะห์ขั้นตอน (หรือทั้งสอง) มีเพียงไม่กี่ปัจจัยที่จะต้องพิจารณา ในการตั้งค่าที่นักวิจัยต้องการที่จะแสดงให้เห็นว่าพวกเขาไม่ได้ "ตกปลา" (Humphreys, Sierra, and Windt 2013) โดยใช้ตัวแปรก่อนการรักษาในขั้นตอนการออกแบบจะมีประโยชน์ (Higgins, Sävje, and Sekhon 2016) ในสถานการณ์ที่ผู้เข้าร่วมจะมาถึงตามลำดับโดยเฉพาะอย่างยิ่งการทดลองภาคสนามออนไลน์โดยใช้ข้อมูลการรักษาก่อนในขั้นตอนการออกแบบอาจจะยากที่ logistically ดูตัวอย่าง Xie and Aurisset (2016)

เป็นมูลค่าเพิ่มบิตของสัญชาตญาณเกี่ยวกับสาเหตุที่แตกต่างกันในความแตกต่างสามารถเพื่อให้มีประสิทธิภาพมากขึ้นกว่าความแตกต่างในวิธีการ ผลออนไลน์หลายคนมีความแปรปรวนสูงมาก (ดูเช่น Lewis and Rao (2015) และ Lamb et al. (2015) ) และมีความมั่นคงในช่วงเวลา ในกรณีนี้คะแนนการเปลี่ยนแปลงจะมีความแปรปรวนอย่างมากมีขนาดเล็กเพิ่มพลังของการทดสอบทางสถิติ เหตุผลหนึ่งที่เดินเข้ามาใกล้นี้จะไม่ได้ใช้บ่อยขึ้นก็คือว่าก่อนที่จะมียุคดิจิตอลมันไม่ได้เป็นเรื่องธรรมดาที่จะมีผลการรักษาก่อน วิธีที่เป็นรูปธรรมมากขึ้นที่จะคิดเกี่ยวกับเรื่องนี้คือการจินตนาการการทดลองเพื่อวัดว่าการออกกำลังกายเฉพาะที่ทำให้เกิดการสูญเสียน้ำหนัก ถ้าคุณทำวิธีการที่แตกต่างกันในวิธีการประมาณการของคุณจะมีความแปรปรวนที่มาจากความแปรปรวนในน้ำหนักในประชากร ถ้าคุณทำวิธีการที่แตกต่างกันในความแตกต่างอย่างไรที่การเปลี่ยนแปลงเกิดขึ้นตามธรรมชาติในน้ำหนักที่จะถูกนำออกและคุณได้ง่ายขึ้นสามารถตรวจสอบความแตกต่างที่เกิดจากการรักษา

วิธีการหนึ่งที่สำคัญที่จะช่วยลดจำนวนของผู้เข้าร่วมในการทดลองของคุณคือการดำเนินการวิเคราะห์พลังงานซึ่งเครเมอและเพื่อนร่วมงานจะได้ทำขึ้นอยู่กับขนาดของผลกระทบที่สังเกตได้จากการทดลองโดยธรรมชาติ Coviello et al. (2014) หรือการวิจัยที่ไม่ใช่การทดลองก่อนหน้านี้โดยเครเมอ (2012) (ในความเป็นจริงเหล่านี้เป็นกิจกรรมที่ส่วนท้ายของบทนี้) ขอให้สังเกตว่าการใช้การวิเคราะห์อำนาจนี้เป็นบิตที่แตกต่างจากทั่วไป ในยุคอนาล็อกนักวิจัยโดยทั่วไปได้วิเคราะห์อำนาจที่จะตรวจสอบให้แน่ใจว่าการศึกษาของพวกเขาไม่ได้มีขนาดเล็กเกินไป (กล่าวคือภายใต้การขับเคลื่อน) แต่ตอนนี้นักวิจัยควรจะทำอย่างไรการวิเคราะห์อำนาจที่จะตรวจสอบให้แน่ใจว่าการศึกษาของพวกเขาคือไม่ใหญ่เกินไป (เช่นมากกว่าขับเคลื่อน)

สุดท้ายผมถือว่าการเพิ่มสี่ R: Repurpose นั่นคือถ้านักวิจัยพบตัวเองกับข้อมูลการทดลองมากกว่าที่พวกเขาต้องอยู่คำถามการวิจัยเดิมของพวกเขาพวกเขาควรจะปรับเปลี่ยนข้อมูลที่จะถามคำถามใหม่ ตัวอย่างเช่นสมมติว่าเครเมอและเพื่อนร่วมงานได้ใช้ประมาณการความแตกต่างในความแตกต่างและพบว่าตัวเองมีข้อมูลมากกว่าที่จำเป็นในการอยู่คำถามวิจัยของพวกเขา มากกว่าไม่ได้ใช้ข้อมูลในขอบเขตสูงสุดที่พวกเขาจะได้มีการศึกษาขนาดของผลกระทบที่เป็นฟังก์ชั่นเพื่อรักษาก่อนการแสดงออกทางอารมณ์ เช่นเดียวกับ Schultz et al. (2007) พบว่าผลของการรักษาที่แตกต่างกันสำหรับเบาและหนักผู้ใช้อาจจะเป็นผลกระทบของฟีดข่าวที่แตกต่างกันสำหรับคนที่มีอยู่แล้วมีแนวโน้มที่จะโพสต์มีความสุข (หรือเศร้า) ข้อความ repurposing อาจนำไปสู่ "การประมง" (Humphreys, Sierra, and Windt 2013) และ "P-แฮ็ค" (Simmons, Nelson, and Simonsohn 2011) แต่เหล่านี้ส่วนใหญ่จะแอดเดรสที่มีการรวมกันของการรายงานซื่อสัตย์ (Simmons, Nelson, and Simonsohn 2011) , การลงทะเบียนล่วงหน้า (Humphreys, Sierra, and Windt 2013) และวิธีการเรียนรู้ของเครื่องที่พยายามที่จะหลีกเลี่ยงการกระชับ