Bit By Bit: Social Research in the Digital Age
  • เกี่ยวกับ
    • เปิดรีวิว
    • การอ้างอิง
    • รหัส
    • เกี่ยวกับผู้เขียน
    • ความเป็นส่วนตัวและความยินยอม
  • ภาษา
    • English
    • Afrikaans
    • Albanian
    • Amharic
    • Arabic
    • Armenian
    • Azerbaijani
    • Basque
    • Belarusian
    • Bengali
    • Bosnian
    • Bulgarian
    • Catalan
    • Cebuano
    • Chichewa
    • Chinese Simplified
    • Chinese Traditional
    • Corsican
    • Croatian
    • Czech
    • Danish
    • Dutch
    • Esperanto
    • Estonian
    • Filipino
    • Finnish
    • French
    • Frisian
    • Galician
    • Georgian
    • German
    • Greek
    • Gujarati
    • Haitian Creole
    • Hausa
    • Hawaiian
    • Hebrew
    • Hindi
    • Hmong
    • Hungarian
    • Icelandic
    • Igbo
    • Indonesian
    • Irish
    • Italian
    • Japanese
    • Javanese
    • Kannada
    • Kazakh
    • Khmer
    • Korean
    • Kurdish (Kurmanji)
    • Kyrgyz
    • Lao
    • Latin
    • Latvian
    • Lithuanian
    • Luxembourgish
    • Macedonian
    • Malagasy
    • Malay
    • Malayalam
    • Maltese
    • Maori
    • Marathi
    • Mongolian
    • Myanmar (Burmese)
    • Nepali
    • Norwegian
    • Pashto
    • Persian
    • Polish
    • Portuguese
    • Punjabi
    • Romanian
    • Russian
    • Samoan
    • Scots Gaelic
    • Serbian
    • Sesotho
    • Shona
    • Sindhi
    • Sinhala
    • Slovak
    • Slovenian
    • Somali
    • Spanish
    • Sudanese
    • Swahili
    • Swedish
    • Tajik
    • Tamil
    • Telugu
    • Thai
    • Turkish
    • Ukrainian
    • Urdu
    • Uzbek
    • Vietnamese
    • Welsh
    • Xhosa
    • Yiddish
    • Yoruba
    • Zulu
  • Teaching
  • Media
  • Read Online
  • ซื้อหนังสือ
    • Princeton University Press
    • Amazon
    • Barnes and Noble
    • IndieBound
  • คำนำ
  • 1 บทนำ
    • 1.1 เปื้อนหมึก
    • 1.2 ยินดีต้อนรับสู่ยุคดิจิตอล
    • 1.3 การออกแบบการวิจัย
    • 1.4 รูปแบบของหนังสือเล่มนี้
    • 1.5 โครงร่างของหนังสือเล่มนี้
    • สิ่งที่ต้องอ่านต่อไป
  • 2 พฤติกรรมการสังเกต
    • 2.1 บทนำ
    • 2.2 ข้อมูลขนาดใหญ่
    • 2.3 ลักษณะทั่วไป 10 ข้อของข้อมูลขนาดใหญ่
      • 2.3.1 ใหญ่
      • 2.3.2 Always-on
      • 2.3.3 Nonreactive
      • 2.3.4 ไม่สมบูรณ์
      • 2.3.5 ไม่สามารถเข้าถึงได้
      • 2.3.6 Nonrepresentative
      • 2.3.7 ดริฟท์
      • 2.3.8
      • 2.3.9 สกปรก
      • 2.3.10 Sensitive
    • 2.4 ยุทธศาสตร์การวิจัย
      • 2.4.1 สิ่งที่นับ
      • 2.4.2 การพยากรณ์และ nowcasting
      • 2.4.3 การทดลองใกล้เคียง
    • 2.5 สรุป
    • บันทึกทางคณิตศาสตร์
    • สิ่งที่ต้องอ่านต่อไป
    • กิจกรรม
  • 3 คำถามถาม
    • 3.1 บทนำ
    • 3.2 ถามและสังเกต
    • 3.3 กรอบข้อผิดพลาดแบบสำรวจทั้งหมด
      • 3.3.1 การเป็นตัวแทน
      • 3.3.2 การวัด
      • 3.3.3 ค่าใช้จ่าย
    • 3.4 จะถามใคร
    • 3.5 วิธีการใหม่ของการถามคำถาม
      • 3.5.1 การประเมินผลเชิงนิเวศน์ชั่วขณะ
      • 3.5.2 การสำรวจวิกิพีเดีย
      • 3.5.3 Gamification
    • 3.6 แบบสำรวจที่เชื่อมโยงกับแหล่งข้อมูลขนาดใหญ่
      • 3.6.1 ให้กับ
      • 3.6.2 ขอขยาย
    • 3.7 สรุป
    • บันทึกทางคณิตศาสตร์
    • สิ่งที่ต้องอ่านต่อไป
    • กิจกรรม
  • 4 การทดลองวิ่ง
    • 4.1 บทนำ
    • 4.2 อะไรคือการทดลอง?
    • 4.3 สองมิติของการทดลอง: ห้องปฏิบัติการภาคสนามและอนาล็อกดิจิตอล
    • 4.4 ย้ายที่อยู่นอกเหนือการทดลองง่ายๆ
      • 4.4.1 ตั้งแต่วันที่
      • 4.4.2 เซลล์สืบพันธุ์ของผลการรักษา
      • 4.4.3 กลไก
    • 4.5 การทำให้เกิดขึ้น
      • 4.5.1 ใช้สภาพแวดล้อมที่มีอยู่
      • 4.5.2 สร้างการทดสอบของคุณเอง
      • 4.5.3 สร้างผลิตภัณฑ์ของคุณเอง
      • 4.5.4 พันธมิตรกับผู้มีอำนาจ
    • 4.6 แนะนำ
      • 4.6.1 สร้างศูนย์ข้อมูลต้นทุนผันแปร
      • 4.6.2 สร้างจริยธรรมในการออกแบบของคุณ: แทนที่, ปรับแต่งและลด
    • 4.7 สรุป
    • บันทึกทางคณิตศาสตร์
    • สิ่งที่ต้องอ่านต่อไป
    • กิจกรรม
  • 5 การสร้างความร่วมมือมวล
    • 5.1 บทนำ
    • 5.2 การคำนวณของมนุษย์
      • 5.2.1 สวนสัตว์กาแล็กซี่
      • 5.2.2 ฝูงชนการเข้ารหัสของแถลงการณ์ทางการเมือง
      • 5.2.3 สรุป
    • 5.3 เปิดสาย
      • 5.3.1 Netflix รางวัล
      • 5.3.2 Foldit
      • 5.3.3 Peer-to-สิทธิบัตร
      • 5.3.4 สรุป
    • 5.4 การเก็บรวบรวมข้อมูลแบบกระจาย
      • 5.4.1 eBird
      • 5.4.2 PhotoCity
      • 5.4.3 สรุป
    • 5.5 การออกแบบของคุณเอง
      • 5.5.1 ผู้เข้าร่วมกระตุ้น
      • 5.5.2 ความหลากหลาย Leverage
      • 5.5.3 เน้นความสนใจ
      • 5.5.4 การเปิดใช้งานความประหลาดใจ
      • 5.5.5 มีจริยธรรม
      • 5.5.6 คำแนะนำในการออกแบบขั้นสุดท้าย
    • 5.6 สรุป
    • สิ่งที่ต้องอ่านต่อไป
    • กิจกรรม
  • 6 จริยธรรม
    • 6.1 บทนำ
    • 6.2 ตัวอย่างที่สาม
      • 6.2.1 Contagion อารมณ์
      • 6.2.2 รสนิยมความสัมพันธ์และเวลา
      • 6.2.3 Encore
    • 6.3 ดิจิตอลเป็นที่แตกต่างกัน
    • 6.4 หลักการสี่
      • 6.4.1 เคารพบุคคล
      • 6.4.2 เกื้อกูล
      • 6.4.3 ความยุติธรรม
      • 6.4.4 เคารพกฎหมายและความสนใจจากประชาชน
    • 6.5 สองกรอบจริยธรรม
    • 6.6 พื้นที่ของความยากลำบาก
      • 6.6.1 ความยินยอม
      • 6.6.2 การทำความเข้าใจและการจัดการความเสี่ยงในการให้ข้อมูล
      • 6.6.3 ความเป็นส่วนตัว
      • 6.6.4 การตัดสินใจทำในการเผชิญกับความไม่แน่นอน
    • 6.7 เคล็ดลับการปฏิบัติ
      • 6.7.1 คณะกรรมการเป็นชั้นไม่เพดาน
      • 6.7.2 ใส่ตัวเองในรองเท้าของคนอื่น
      • 6.7.3 คิดของจริยธรรมการวิจัยอย่างต่อเนื่องไม่ได้โดยสิ้นเชิง
    • 6.8 สรุป
    • ภาคผนวกที่สำคัญทางประวัติศาสตร์
    • สิ่งที่ต้องอ่านต่อไป
    • กิจกรรม
  • 7 อนาคต
    • 7.1 รอคอย
    • 7.2 ธีมของอนาคต
      • 7.2.1 การผสมผสานของผลิตภัณฑ์สำเร็จรูปและของที่ระลึก
      • 7.2.2 การเก็บรวบรวมข้อมูลผู้เข้าร่วมเป็นศูนย์กลาง
      • 7.2.3 จริยธรรมในการออกแบบการวิจัย
    • 7.3 กลับไปที่จุดเริ่มต้น
  • กิตติกรรมประกาศ
  • อ้างอิง
แปลนี้ถูกสร้างขึ้นโดยคอมพิวเตอร์ ×

สิ่งที่ต้องอ่านต่อไป

  • บทนำ (หัวข้อ 4.1)

คำถามเกี่ยวกับความเป็นเหตุเป็นผลในการวิจัยทางสังคมมักจะซับซ้อนและสลับซับซ้อน สำหรับวิธีพื้นฐานในการสร้างความสัมพันธ์เชิงสาเหตุบนพื้นฐานของกราฟสาเหตุให้ดู Pearl (2009) และสำหรับแนวทางพื้นฐานที่อิงจากผลลัพธ์ที่เป็นไปได้โปรดดู Imbens and Rubin (2015) สำหรับการเปรียบเทียบระหว่างสองวิธีนี้ดู Morgan and Winship (2014) สำหรับวิธีการอย่างเป็นทางการในการกำหนด VanderWeele and Shpitser (2013) โปรดดูที่ VanderWeele and Shpitser (2013)

ในบทนี้ผมได้สร้างสิ่งที่ดูเหมือนเป็นเส้นสายระหว่างความสามารถในการประมาณค่าเชิงสาเหตุจากข้อมูลการทดลองและข้อมูลที่ไม่ใช่การทดลอง อย่างไรก็ตามผมคิดว่าในความเป็นจริงความแตกต่างจะเบลอมากขึ้น ตัวอย่างเช่นทุกคนยอมรับว่าการสูบบุหรี่ทำให้เกิดมะเร็งแม้ว่าจะไม่มีการทดลองแบบสุ่มควบคุมที่บังคับให้คนสูบบุหรี่ได้รับการปฏิบัติ สำหรับการรักษาความยาวหนังสือที่ยอดเยี่ยมในการประมาณการสาเหตุจากข้อมูลที่ไม่ได้ทดลองให้ดู Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) และ Dunning (2012)

บทที่ 1 และ 2 ของ Freedman, Pisani, and Purves (2007) เสนอบทนำที่ชัดเจนเกี่ยวกับความแตกต่างระหว่างการทดลองการควบคุมการทดลองและการทดลองที่มีการควบคุมแบบสุ่ม

Manzi (2012) นำเสนอบทแนะนำที่น่าสนใจและสามารถอ่านได้เพื่อพื้นฐานทางปรัชญาและสถิติของการทดลองที่มีการควบคุมแบบสุ่ม นอกจากนี้ยังมีตัวอย่างที่น่าสนใจในโลกแห่งความเป็นจริงของการทดลองในธุรกิจด้วย Issenberg (2012) เป็นบทนำที่น่าสนใจสำหรับการใช้การทดลองในแคมเปญทางการเมือง

  • การทดลองคืออะไร? (ส่วน 4.2)

Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 และ Athey and Imbens (2016b) ให้ข้อมูลเบื้องต้นเกี่ยวกับการออกแบบและวิเคราะห์เชิงสถิติ (Bardsley et al. 2009) , สังคมวิทยา (Willer and Walker 2007; Jackson and Cox 2013) , จิตวิทยา (Aronson et al. 1989) , Political science (Morton and Williams 2010) และนโยบายทางสังคม (Glennerster and Takavarasha 2013)

ความสำคัญของการรับสมัครผู้เข้าร่วมงาน (เช่นการสุ่มตัวอย่าง) มักไม่ค่อยชื่นชมในการวิจัยเชิงทดลอง อย่างไรก็ตามหากผลของการรักษาเป็นแบบไม่เหมือนกันในประชากรการสุ่มตัวอย่างเป็นสิ่งสำคัญ Longford (1999) ทำให้จุดนี้ชัดเจนเมื่อเขาสนับสนุนให้นักวิจัยคิดว่าการทดลองเป็นแบบสำรวจประชากรด้วยการสุ่มตัวอย่างอย่างสุ่ม

  • สองมิติของการทดลอง: lab-field และ analog-digital (หัวข้อ 4.3)

ผมได้แนะนำว่ามีความต่อเนื่องระหว่างการทดลองในแล็บและสนามและนักวิจัยคนอื่น ๆ ก็ได้เสนอแบบการจัดประเภทโดยละเอียดโดยเฉพาะอย่างยิ่งที่แยกแยะรูปแบบต่างๆของการทดลองภาคสนาม (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013)

(Falk and Heckman 2009; Cialdini 2009) และในแง่ของผลลัพธ์ของการทดลองเฉพาะทางด้านรัฐศาสตร์ (Coppock and Green 2015) , เศรษฐศาสตร์ (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) และจิตวิทยา (Mitchell 2012) Jerit, Barabas, and Clifford (2013) เสนอการออกแบบการวิจัยที่ดีสำหรับการเปรียบเทียบผลลัพธ์จากการทดลองในแล็บและสนาม Parigi, Santana, and Cook (2017) อธิบายว่าการทดลองในสนามแบบออนไลน์สามารถรวมคุณลักษณะเฉพาะบางอย่างของการทดลองในห้องทดลองได้อย่างไร

ความกังวลเกี่ยวกับผู้เข้าร่วมการเปลี่ยนแปลงพฤติกรรมของพวกเขาเพราะพวกเขารู้ว่าพวกเขากำลังได้รับการสังเกตอย่างใกล้ชิดบางครั้งเรียกว่า ผลกระทบความต้องการ และพวกเขาได้รับการศึกษาในด้านจิตวิทยา (Orne 1962) และเศรษฐศาสตร์ (Zizzo 2010) แม้ว่าส่วนใหญ่เกี่ยวข้องกับการทดลองในแล็บปัญหาเดียวกันนี้อาจทำให้เกิดปัญหากับการทดลองภาคสนามได้เช่นกัน ในความเป็นจริง ความต้องการผลกระทบ บางครั้งก็เรียกว่า ผลฮอว์ ธ อร์น คำที่เกิดขึ้นในการทดลองการส่องสว่างที่มีชื่อเสียงซึ่งเริ่มขึ้นในปีพ. ศ. 2467 ในงาน Hawthorne Works of the Western Electric Company (Adair 1984; Levitt and List 2011) ทั้ง ผลกระทบความต้องการ และ ผลกระทบของ ฮอว์ ธ อร์น มีความสัมพันธ์อย่างใกล้ชิดกับแนวคิดเรื่องการวัดปฏิกิริยาที่กล่าวไว้ในบทที่ 2 (ดูที่ Webb et al. (1966) )

การทดลองภาคสนามมีประวัติอันยาวนานทางด้านเศรษฐศาสตร์ (Levitt and List 2009) , รัฐศาสตร์ (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , Psychology (Shadish 2002) และนโยบายสาธารณะ (Shadish and Cook 2009) . สาขาวิชาสังคมศาสตร์ซึ่งการทดลองภาคสนามได้รับความสนใจอย่างรวดเร็วคือการพัฒนาระหว่างประเทศ สำหรับการทบทวนผลงานในเชิงเศรษฐศาสตร์ในเชิงเศรษฐศาสตร์ดู Banerjee and Duflo (2009) และสำหรับการประเมินที่สำคัญดู Deaton (2010) สำหรับการทบทวนงานด้านวิทยาศาสตร์ทางการเมืองนี้ดู Humphreys and Weinstein (2009) ในที่สุดความท้าทายทางจริยธรรมที่เกิดจากการทดลองภาคสนามได้รับการสำรวจในบริบทของวิทยาศาสตร์ทางการเมือง (Humphreys 2015; Desposato 2016b) และเศรษฐศาสตร์การพัฒนา (Baele 2013)

ในส่วนนี้ผมขอแนะนำให้ใช้ข้อมูลก่อนการรักษาเพื่อปรับปรุงความแม่นยำของผลการรักษาโดยประมาณ แต่มีข้อโต้แย้งเกี่ยวกับแนวทางนี้ ดู Freedman (2008) , W. Lin (2013) , Berk et al. (2013) และ Bloniarz et al. (2016) สำหรับข้อมูลเพิ่มเติม

สุดท้ายมีการทดลองสองประเภทที่นักวิทยาศาสตร์ทางสังคมดำเนินการซึ่งไม่เหมาะสมกับมิติข้อมูลของห้องทดลอง: การทดลองการสำรวจและการทดลองทางสังคม การทดลองการสำรวจ คือการทดลองใช้โครงสร้างพื้นฐานของการสำรวจที่มีอยู่และเปรียบเทียบการตอบสนองต่อคำถามทางเลือกอื่น ๆ (การทดลองสำรวจบางส่วนมีอยู่ในบทที่ 3); สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลองสำรวจดู Mutz (2011) การทดลองทางสังคม คือการทดลองที่การรักษาเป็นนโยบายทางสังคมบางอย่างที่รัฐบาลสามารถดำเนินการได้ การทดลองทางสังคมเกี่ยวข้องกับการประเมินโครงการ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลองด้านนโยบายให้ดูที่ Heckman and Smith (1995) , Orr (1998) และ @ glennerster_running_2013

  • การเคลื่อนที่เกินกว่าการทดลองง่ายๆ (ส่วน 4.4)

ฉันเลือกที่จะมุ่งเน้นไปที่สามแนวคิด: ความถูกต้องความหลากหลายของผลการรักษาและกลไกต่างๆ แนวคิดเหล่านี้มีชื่อแตกต่างกันในสาขาต่างๆ ตัวอย่างเช่นนักจิตวิทยามีแนวโน้มที่จะก้าวไปไกลกว่าการทดลองง่ายๆโดยมุ่งเน้นที่ ผู้ไกล่เกลี่ย และ ผู้ดูแล (Baron and Kenny 1986) ความคิดของผู้ไกล่เกลี่ยจะถูกจับโดยสิ่งที่ฉันเรียกกลไกและความคิดของผู้ดูแลจะถูกจับโดยสิ่งที่ฉันเรียกความถูกต้องจากภายนอก (เช่นผลลัพธ์ของการทดลองจะแตกต่างกันหรือไม่ถ้ามันถูกเรียกใช้ในสถานการณ์ที่ต่างกัน) และความไม่สม่ำเสมอของผลการรักษา เช่นผลกระทบที่มีขนาดใหญ่สำหรับบางคนมากกว่าคนอื่น)

การทดลองโดย Schultz et al. (2007) แสดงให้เห็นว่าทฤษฎีทางสังคมสามารถใช้เพื่อออกแบบการแทรกแซงที่มีประสิทธิภาพ สำหรับอาร์กิวเมนต์ทั่วไปเกี่ยวกับบทบาทของทฤษฎีในการออกแบบการแทรกแซงที่มีประสิทธิภาพดู Walton (2014)

  • ความถูกต้อง (ส่วน 4.4.1)

แนวคิดเรื่องความถูกต้องภายในและภายนอกถูกนำมาใช้ครั้งแรกโดย Campbell (1957) ดู Shadish, Cook, and Campbell (2001) สำหรับประวัติที่ละเอียดและรอบคอบในการสรุปความถูกต้องของข้อสรุปทางสถิติความถูกต้องภายในความมีเหตุผลในการสร้างและความถูกต้องภายนอก

สำหรับภาพรวมของประเด็นที่เกี่ยวข้องกับความถูกต้องเชิงสถิติในการทดลองดู Gerber and Green (2012) (จากมุมมองทางสังคมศาสตร์) และ Imbens and Rubin (2015) (จากมุมมองเชิงสถิติ) บางประเด็นเกี่ยวกับความถูกต้องทางสถิติที่เกิดขึ้นโดยเฉพาะในการทดลองภาคสนามออนไลน์รวมถึงประเด็นต่างๆเช่นวิธีที่มีประสิทธิภาพในการคำนวณเพื่อสร้างช่วงความเชื่อมั่นด้วยข้อมูลที่เกี่ยวข้อง (Bakshy and Eckles 2013)

ความถูกต้องภายในอาจเป็นเรื่องยากที่จะมั่นใจได้ในการทดลองในสนามที่ซับซ้อน ดูตัวอย่างเช่น Gerber and Green (2000) , Imai (2005) และ Gerber and Green (2005) สำหรับการอภิปรายเกี่ยวกับการดำเนินการทดลองเขตข้อมูลที่ซับซ้อนเกี่ยวกับการลงคะแนน Kohavi et al. (2012) และ Kohavi et al. (2013) ให้คำแนะนำในความท้าทายของช่วงเวลาที่ถูกต้องในการทดลองภาคสนามออนไลน์

ภัยคุกคามสำคัญประการหนึ่งของความถูกต้องภายในคือความเป็นไปได้ที่จะเกิด randomization วิธีหนึ่งที่เป็นไปได้ในการตรวจหาปัญหาเกี่ยวกับการสุ่มตัวอย่างคือการเปรียบเทียบกลุ่มการรักษาและกลุ่มควบคุมกับลักษณะที่สังเกตได้ การเปรียบเทียบนี้เรียกว่าการ ตรวจสอบยอดคงเหลือ ดู Hansen and Bowers (2008) สำหรับวิธีการทางสถิติในการตรวจสอบยอดเงินและ Mutz and Pemantle (2015) สำหรับข้อกังวลเกี่ยวกับการตรวจสอบยอดคงเหลือ ยกตัวอย่างเช่นการตรวจสอบยอดคงเหลือ Allcott (2011) พบหลักฐานว่าการสุ่มตัวอย่างไม่ได้รับการดำเนินการอย่างถูกต้องในการทดลอง Opower 3 แห่ง (ดูตารางที่ 2 ไซต์ 2, 6 และ 8) สำหรับแนวทางอื่น ๆ ดูบทที่ 21 ของ Imbens and Rubin (2015)

ความกังวลหลักอื่น ๆ ที่เกี่ยวข้องกับความถูกต้องภายในคือ (1) การไม่ปฏิบัติตามด้านเดียวซึ่งทุกคนในกลุ่มบำบัดไม่ได้รับการรักษาจริง (2) การไม่ปฏิบัติตามแบบสองด้านโดยที่ทุกคนในกลุ่มบำบัดไม่ได้รับการรักษาและบางคนใน กลุ่มควบคุมได้รับการรักษา (3) การขัดสีซึ่งผลลัพธ์จะไม่ได้รับการวัดสำหรับผู้เข้าร่วมบางคนและ (4) การแทรกแซงซึ่งการรักษาจะแพร่กระจายจากผู้ที่อยู่ในสภาพการรักษาต่อคนที่อยู่ในภาวะควบคุม ดูบทที่ 5, 6, 7, และ 8 ของ Gerber and Green (2012) สำหรับข้อมูลเพิ่มเติมในแต่ละประเด็นเหล่านี้

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับความถูกต้องของโครงสร้างโปรดดู Westen and Rosenthal (2003) และสำหรับข้อมูลเพิ่มเติมเกี่ยวกับการสร้างความถูกต้องในแหล่งข้อมูลขนาดใหญ่ Lazer (2015) และบทที่ 2 ของหนังสือเล่มนี้

ด้านหนึ่งของความถูกต้องภายนอกคือการตั้งค่าที่มีการทดสอบการแทรกแซง Allcott (2015) ให้การรักษาเชิงทฤษฎีและเชิงประจักษ์อย่างรอบคอบในการคัดเลือกอคติในการเลือกสถานที่ ปัญหานี้ได้รับการกล่าวถึงโดย Deaton (2010) อีกด้านของความถูกต้องภายนอกคือการดำเนินการทางเลือกของการแทรกแซงเดียวกันจะมีผลเช่นเดียวกัน ในกรณีนี้การเปรียบเทียบระหว่าง Schultz et al. (2007) และ Allcott (2011) แสดงให้เห็นว่าการทดลองของ Opower มีผลการรักษาโดยประมาณน้อยกว่าการทดลองเดิมของ Schultz และเพื่อนร่วมงาน (1.7% เมื่อเทียบกับ 5%) Allcott (2011) สันนิษฐานว่าการทดลองติดตามมีผลน้อยลงเนื่องจากวิธีการที่การรักษาต่างกัน: อีโมติคอนที่เขียนด้วยลายมือเป็นส่วนหนึ่งของการศึกษาที่ได้รับการสนับสนุนจากมหาวิทยาลัยเมื่อเทียบกับ emoticon พิมพ์เป็นส่วนหนึ่งของมวลผลิต รายงานจาก บริษัท พลังงาน

  • ความไม่สม่ำเสมอของผลการรักษา (ส่วน 4.4.2)

สำหรับภาพรวมที่ยอดเยี่ยมของความหลากหลายของผลการรักษาในการทดลองภาคสนามดูบทที่ 12 ของ Gerber and Green (2012) สำหรับการแนะนำความหลากหลายของผลการรักษาในการทดลองทางการแพทย์ให้ดูที่ Kent and Hayward (2007) , Longford (1999) และ Kravitz, Duan, and Braslow (2004) ข้อพิจารณาเกี่ยวกับความไม่สม่ำเสมอของผลการรักษามักมุ่งเน้นไปที่ความแตกต่างตามลักษณะก่อนการรักษา หากคุณสนใจในความหลากหลายตามผลลัพธ์หลังการรักษาก็จำเป็นต้องใช้วิธีการที่ซับซ้อนมากขึ้นเช่นการแบ่งกลุ่มหลัก (Frangakis and Rubin 2002) ; ดู Page et al. (2015) เพื่อรับการตรวจทาน

นักวิจัยหลายคนคาดการณ์ความไม่สม่ำเสมอของผลการรักษาโดยใช้การถดถอยเชิงเส้น แต่วิธีการใหม่ ๆ ขึ้นอยู่กับการเรียนรู้ด้วยเครื่อง ดูตัวอย่างเช่น Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) และ Athey and Imbens (2016a)

มีปัญหาเกี่ยวกับการค้นพบความหลากหลายของผลกระทบเนื่องจากปัญหาการเปรียบเทียบหลายครั้งและ "การตกปลา" มีวิธีการทางสถิติที่หลากหลายซึ่งสามารถช่วยแก้ปัญหาความกังวลเกี่ยวกับการเปรียบเทียบได้หลายแบบ (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) วิธีหนึ่งที่เกี่ยวกับ "การประมง" คือการลงทะเบียนล่วงหน้าซึ่งกำลังเป็นที่นิยมมากขึ้นในด้านจิตวิทยา (Nosek and Lakens 2014) , วิทยาศาสตร์ทางการเมือง (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , และเศรษฐศาสตร์ (Olken 2015)

ในการศึกษาโดย Costa and Kahn (2013) มีเพียงประมาณครึ่งหนึ่งของครัวเรือนในการทดลองเท่านั้นที่สามารถเชื่อมโยงกับข้อมูลประชากรได้ ผู้อ่านที่สนใจในรายละเอียดเหล่านี้ควรอ้างอิงจากเอกสารต้นฉบับ

  • กลไก (ส่วน 4.4.3)

กลไกต่าง ๆ มีความสำคัญอย่างมาก แต่ก็ยากที่จะศึกษา การวิจัยเกี่ยวกับกลไกต่างๆเกี่ยวข้องกับการศึกษาผู้ไกล่เกลี่ยในด้านจิตวิทยา (แต่ดู VanderWeele (2009) เพื่อเปรียบเทียบความแตกต่างระหว่างสองแนวคิดนี้) วิธีการทางสถิติในการหากลไกเช่นวิธีที่พัฒนาขึ้นใน Baron and Kenny (1986) เป็นเรื่องปกติธรรมดา อย่างไรก็ตามน่าเสียดายที่ขั้นตอนเหล่านี้ขึ้นอยู่กับสมมติฐานที่แข็งแกร่ง (Bullock, Green, and Ha 2010) และประสบปัญหาเมื่อมีกลไกหลายอย่างที่คาดไว้ในหลาย ๆ สถานการณ์ (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) Imai et al. (2011) และ Imai and Yamamoto (2013) เสนอวิธีทางสถิติที่ดีขึ้น นอกจากนี้ VanderWeele (2015) ยังเสนอการรักษาด้วยหนังสือเป็นเวลานานด้วยผลลัพธ์ที่สำคัญจำนวนมากรวมถึงแนวทางที่ครอบคลุมในการวิเคราะห์ความไว

วิธีการแยกต่างหากมุ่งเน้นไปที่การทดลองที่พยายามจะจัดการกับกลไกโดยตรง (เช่นการให้ลูกเรือวิตามินซี) แต่น่าเสียดายที่ในการตั้งค่าทางสังคมศาสตร์จำนวนมากมักมีกลไกหลายอย่างและยากที่จะออกแบบวิธีการรักษาที่สามารถเปลี่ยนแปลงได้โดยไม่ต้องเปลี่ยนวิธีการอื่น ๆ วิธีการบางอย่างในการปรับเปลี่ยนกลไกการทดลองได้อธิบายโดย Imai, Tingley, and Yamamoto (2013) Ludwig, Kling, and Mullainathan (2011) และ Pirlott and MacKinnon (2016)

นักวิจัยที่ใช้การทดสอบ factorial อย่างเต็มที่จะต้องกังวลเกี่ยวกับการทดสอบสมมติฐานหลายข้อ ดูข้อมูลเพิ่มเติมที่ Fink, McConnell, and Vollmer (2014) และ List, Shaikh, and Xu (2016)

สุดท้ายกลไกยังมีประวัติอันยาวนานในปรัชญาวิทยาศาสตร์ตามที่ Hedström and Ylikoski (2010) อธิบายไว้

  • การใช้สภาพแวดล้อมที่มีอยู่ (ส่วน 4.5.1)

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้การศึกษาเกี่ยวกับการติดต่อและการศึกษาด้านการตรวจสอบเพื่อวัดการเลือกปฏิบัติโปรดดูที่ Pager (2007)

  • สร้างการทดสอบของคุณเอง (ส่วน 4.5.2)

วิธีที่พบมากที่สุดในการรับสมัครผู้เข้าร่วมการทดลองที่คุณสร้างคือ Amazon Mechanical Turk (MTurk) เนื่องจาก MTurk เลียนแบบแง่มุมของการทดลองในห้องปฏิบัติการโดยจ่ายเงินให้กับงานที่พวกเขาไม่ได้ทำเพื่อนักวิจัยอิสระจำนวนมากได้เริ่มใช้ Turkers (คนงานใน MTurk) เป็นผู้เข้าร่วมการทดลองแล้วส่งผลให้มีการรวบรวมข้อมูลที่รวดเร็วและถูกกว่าที่สามารถทำได้ ในการทดลองในห้องทดลองในมหาวิทยาลัย (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012)

โดยทั่วไปข้อได้เปรียบที่ใหญ่ที่สุดในการใช้ผู้เข้าร่วมที่ได้รับคัดเลือกจาก MTurk คือโลจิสติกส์ ในขณะที่การทดลองในห้องปฏิบัติการสามารถใช้เวลาหลายสัปดาห์ในการทำงานและการทดสอบภาคสนามอาจใช้เวลาหลายเดือนในการตั้งค่าการทดลองกับผู้เข้าร่วมที่คัดเลือกจาก MTurk อาจทำงานได้หลายวัน ตัวอย่างเช่น Berinsky, Huber, and Lenz (2012) สามารถรับ 400 คนในหนึ่งวันเพื่อเข้าร่วมการทดลอง 8 นาที นอกจากนี้ผู้เข้าร่วมเหล่านี้สามารถคัดเลือกมาเพื่อวัตถุประสงค์ใด ๆ (รวมถึงการสำรวจและการทำงานร่วมกันตามที่กล่าวไว้ในบทที่ 3 และ 5) ความง่ายในการสรรหาบุคลากรนี้หมายความว่านักวิจัยสามารถเรียกใช้ลำดับการทดลองที่เกี่ยวข้องได้อย่างต่อเนื่อง

ก่อนที่จะสรรหาผู้เข้าร่วมจาก MTurk เพื่อการทดลองของคุณเองมีสี่สิ่งสำคัญที่คุณต้องรู้ ประการแรกนักวิจัยหลายคนมีความสงสัยในการทดลองที่เกี่ยวข้องกับเติร์กเมอร์ เนื่องจากความสงสัยนี้ไม่เฉพาะเจาะจงเป็นการยากที่จะโต้แย้งกับหลักฐาน อย่างไรก็ตามหลังจากหลายปีของการศึกษาโดยใช้ Turkers ตอนนี้เราสามารถสรุปได้ว่าแนวคิดเรื่องนี้ไม่เป็นที่ชอบธรรมโดยเฉพาะ มีการศึกษาจำนวนมากเปรียบเทียบประชากรของชาวเตอร์กกับประชากรอื่น ๆ และการศึกษาจำนวนมากเปรียบเทียบผลของการทดลองกับ Turkers ปัญญาที่มาจากประชากรอื่น ๆ จากงานทั้งหมดนี้ผมคิดว่าวิธีที่ดีที่สุดสำหรับคุณในการคิดเกี่ยวกับเรื่องนี้ก็คือชาวเติร์กเตอร์เป็นตัวอย่างที่สะดวกสบายเหมือนนักศึกษา แต่มีความหลากหลายมากขึ้นเล็กน้อย (Berinsky, Huber, and Lenz 2012) ดังนั้นเช่นเดียวกับนักเรียนเป็นประชากรที่เหมาะสมสำหรับบางคน แต่ไม่ทั้งหมดการวิจัย Turkers เป็นประชากรที่เหมาะสมสำหรับบางคน แต่ไม่ทั้งหมดการวิจัย หากคุณกำลังจะไปทำงานกับชาวเติร์กเมอร์แล้วการอ่านเปรียบเทียบการศึกษาจำนวนมากเหล่านี้และเข้าใจความแตกต่างของพวกเขาเป็นเรื่องที่เหมาะสม

ประการที่สองนักวิจัยได้พัฒนาแนวทางปฏิบัติที่ดีที่สุดเพื่อเพิ่มความถูกต้องภายในของการทดลอง MTurk และคุณควรเรียนรู้และปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดเหล่านี้ (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) ตัวอย่างเช่นนักวิจัยที่ใช้ Turkers ควรใช้ Screeners เพื่อลบผู้เข้าร่วมที่ไม่ตั้งใจ (Berinsky, Margolis, and Sances 2014, 2016) (แต่ดู DJ Hauser and Schwarz (2015b) และ DJ Hauser and Schwarz (2015a) ) ถ้าคุณไม่ลบผู้เข้าร่วมไม่ตั้งใจผลของการบำบัดสามารถล้างออกด้วยเสียงที่พวกเขาแนะนำและในทางปฏิบัติจำนวนของผู้เข้าร่วมไม่ตั้งใจสามารถเป็นรูปธรรม ในการทดลองโดย Huber และเพื่อนร่วมงาน (2012) ประมาณ 30% ของผู้เข้าร่วมไม่สามารถคัดกรองพื้นฐานได้ ปัญหาอื่น ๆ ที่มักเกิดขึ้นเมื่อใช้ Turkers เป็นผู้เข้าร่วมที่ไม่ได้ไร้เดียงสา (Chandler et al. 2015) และการขัดสี (Zhou and Fishbach 2016)

ประการที่สามเมื่อเทียบกับรูปแบบอื่น ๆ ของการทดลองระบบดิจิทัลการทดลองของ MTurk ไม่สามารถวัดได้ Stewart et al. (2015) คาดการณ์ว่าในเวลาใดก็ตามที่มีอยู่ประมาณ 7,000 คนใน MTurk

สุดท้ายคุณควรรู้ว่า MTurk เป็นชุมชนที่มีกฎและบรรทัดฐาน (Mason and Suri 2012) เช่นเดียวกับที่คุณจะพยายามหาข้อมูลเกี่ยวกับวัฒนธรรมของประเทศที่คุณกำลังจะไปทำการทดลองของคุณคุณควรพยายามหาข้อมูลเพิ่มเติมเกี่ยวกับวัฒนธรรมและบรรทัดฐานของชาวเติร์กเตอร์ (Salehi et al. 2015) และคุณควรทราบว่าชาวเติร์กเมอร์จะพูดถึงการทดสอบของคุณหากคุณทำสิ่งที่ไม่เหมาะสมหรือผิดจรรยาบรรณ (Gray et al. 2016)

MTurk เป็นวิธีที่สะดวกอย่างเหลือเชื่อในการรับสมัครผู้เข้าร่วมการทดลองของคุณไม่ว่าจะเป็นห้องปฏิบัติการเช่น Huber, Hill, and Lenz (2012) หรือมากกว่าฟิลด์เช่น Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) และ Mao et al. (2016)

  • สร้างผลิตภัณฑ์ของคุณเอง (ส่วน 4.5.3)

หากคุณคิดจะพยายามสร้างผลิตภัณฑ์ของตนเองเราขอแนะนำให้คุณอ่านคำแนะนำจากกลุ่ม MovieLens ใน Harper and Konstan (2015) ความเข้าใจที่สำคัญจากประสบการณ์ของพวกเขาคือการที่แต่ละโครงการประสบความสำเร็จมีหลายความล้มเหลวจำนวนมาก ตัวอย่างเช่นกลุ่ม MovieLens เปิดตัวผลิตภัณฑ์อื่น ๆ เช่น GopherAnswers ซึ่งเป็นความล้มเหลวที่สมบูรณ์ (Harper and Konstan 2015) อีกตัวอย่างหนึ่งของนักวิจัยที่ล้มเหลวในขณะพยายามสร้างผลิตภัณฑ์คือความพยายามของ Edward Castronova ในการสร้างเกมออนไลน์ที่เรียกว่า Arden แม้จะมีการระดมทุน 250,000 ดอลลาร์โครงการนี้ก็เป็นความล้มเหลว (Baker 2008) โครงการเช่น GopherAnswers และ Arden เป็นที่น่าเสียดายมากกว่าปกติเช่นโครงการ MovieLens

  • เป็นพันธมิตรกับผู้มีอำนาจ (ส่วน 4.5.4)

ฉันเคยได้ยินแนวคิดเกี่ยวกับ Quadrant ของ Pasteur ที่ได้รับการกล่าวถึงเป็นประจำใน บริษัท ด้านเทคโนโลยีและช่วยจัดระเบียบงานวิจัยที่ Google (Spector, Norvig, and Petrov 2012)

การศึกษาพันธบัตรและเพื่อนร่วมงาน (2012) ยังพยายามที่จะตรวจสอบผลของการรักษาเหล่านี้ต่อเพื่อนของบรรดาผู้ที่ได้รับพวกเขา เนื่องจากการออกแบบของการทดสอบนี้ spillovers เหล่านี้เป็นเรื่องยากที่จะตรวจสอบได้อย่างหมดจด; ผู้อ่านที่สนใจควรจะเห็น Bond et al. (2012) สำหรับการอภิปรายอย่างละเอียดมากขึ้น Jones และเพื่อนร่วมงาน (2017) ยังได้ทำการทดลองที่คล้ายกันมากในช่วงการเลือกตั้งในปี 2012 การทดลองเหล่านี้เป็นส่วนหนึ่งของประเพณีการทดลองทางวิทยาศาสตร์ทางวิทยาศาสตร์ที่ยาวนานเกี่ยวกับความพยายามในการสนับสนุนการลงคะแนน (Green and Gerber 2015) เหล่านี้ได้รับการทดลองออก - โหวตเป็นส่วนหนึ่งเพราะพวกเขาอยู่ใน Pasteur 's Quadrant นั่นคือมีหลายคนที่มีแรงจูงใจในการเพิ่มการลงคะแนนและการออกเสียงลงคะแนนอาจเป็นพฤติกรรมที่น่าสนใจในการทดสอบทฤษฎีทั่วไปเกี่ยวกับการเปลี่ยนแปลงพฤติกรรมและอิทธิพลทางสังคม

สำหรับคำแนะนำเกี่ยวกับการทดลองใช้ภาคสนามกับองค์กรพันธมิตรเช่นพรรคการเมืองเอ็นจีโอและธุรกิจโปรดดูที่ Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) และ Gueron (2002) สำหรับความคิดเกี่ยวกับการร่วมมือกับองค์กรต่างๆสามารถส่งผลต่อการออกแบบงานวิจัยได้อย่างไรให้ดูที่ King et al. (2007) และ Green, Calfano, and Aronow (2014) ความร่วมมือยังสามารถนำไปสู่คำถามทางจริยธรรมตามที่ Humphreys (2015) และ Nickerson and Hyde (2016) กล่าว

  • คำแนะนำในการออกแบบ (หัวข้อ 4.6)

หากคุณกำลังสร้างแผนการวิเคราะห์ก่อนใช้งานการทดสอบของคุณเราขอแนะนำให้คุณเริ่มอ่านหลักเกณฑ์การรายงาน แนวทาง CONSORT (การรายงานมาตรฐานของการทดลองใช้) ได้รับการพัฒนาขึ้นในด้านการแพทย์ (Schulz et al. 2010) และแก้ไขเพื่อการวิจัยทางสังคม (Mayo-Wilson et al. 2013) ชุดคำแนะนำที่เกี่ยวข้องได้รับการพัฒนาโดยบรรณาธิการของ Journal of Experimental Political Science (Gerber et al. 2014) (ดู Mutz and Pemantle (2015) และ Gerber et al. (2015) ) ในที่สุดแนวทางการรายงานได้รับการพัฒนาขึ้นในด้านจิตวิทยา (APA Working Group 2008) รวมถึง Simmons, Nelson, and Simonsohn (2011)

หากคุณสร้างแผนการวิเคราะห์คุณควรพิจารณาการลงทะเบียนล่วงหน้าเนื่องจากการลงทะเบียนล่วงหน้าจะช่วยเพิ่มความมั่นใจให้กับผู้อื่นในผลลัพธ์ของคุณ นอกจากนี้หากคุณกำลังทำงานร่วมกับคู่ค้าก็จะจำกัดความสามารถในการเปลี่ยนการวิเคราะห์หลังจากที่ได้เห็นผลลัพธ์แล้ว การลงทะเบียนล่วงหน้ากลายเป็นเรื่องปกติธรรมดาในด้านจิตวิทยา (Nosek and Lakens 2014) , วิทยาศาสตร์ทางการเมือง (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) และเศรษฐศาสตร์ (Olken 2015)

คำแนะนำในการออกแบบสำหรับการทดลองภาคสนามออนไลน์ยังมีการนำเสนอใน Konstan and Chen (2007) และ Chen and Konstan (2015)

สิ่งที่ฉันเรียกว่ายุทธศาสตร์ของกองเรือรบคือบางครั้งเรียกว่า การเขียนโปรแกรม (programmatic research ) เห็น Wilson, Aronson, and Carlsmith (2010)

  • สร้างข้อมูลต้นทุนผันแปรเป็นศูนย์ (ส่วน 4.6.1)

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทดลอง MusicLab โปรดดูที่ Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) และ Salganik (2007) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตลาดที่ผู้ชนะรับไปทั้งหมดดู Frank and Cook (1996) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการคลี่คลายความโชคดีและทักษะโดยทั่วไปดู Mauboussin (2012) , Watts (2012) และ Frank (2016)

มีแนวทางอื่นในการขจัดการชำระเงินของผู้เข้าร่วมซึ่งนักวิจัยควรใช้ด้วยความระมัดระวัง: การเกณฑ์ทหาร ในการทดลองภาคสนามจำนวนมากผู้เข้าร่วมโครงการจะถูกร่างเข้าสู่การทดลองและไม่เคยได้รับการชดเชย ตัวอย่างของวิธีการนี้ ได้แก่ การทดลองของ Restivo and van de Rijt (2012) เกี่ยวกับรางวัลในวิกิพีเดียและพันธบัตรและการทดสอบของเพื่อนร่วมงาน (2012) ในการส่งเสริมให้คนลงคะแนน การทดลองเหล่านี้ไม่ได้มีค่าตัวแปรเป็นศูนย์เท่า แต่ก็มีค่าใช้จ่ายเป็นศูนย์ สำหรับนักวิจัย ในการทดลองดังกล่าวแม้ว่าค่าใช้จ่ายสำหรับผู้เข้าร่วมแต่ละรายจะมีขนาดเล็กมาก แต่ค่าใช้จ่ายรวมก็จะค่อนข้างใหญ่ นักวิจัยที่ดำเนินการทดลองออนไลน์จำนวนมากมักจะให้เหตุผลถึงความสำคัญของผลการรักษาโดยประมาณโดยบอกว่าผลกระทบเล็ก ๆ เหล่านี้จะมีความสำคัญเมื่อใช้กับคนจำนวนมาก ความคิดเดียวกันนี้ใช้กับค่าใช้จ่ายที่นักวิจัยกำหนดให้กับผู้เข้าอบรม หากการทดสอบของคุณทำให้คนหนึ่งล้านคนเสียเวลาหนึ่งนาทีการทดสอบจะไม่เป็นอันตรายกับบุคคลใดบุคคลหนึ่ง แต่โดยรวมแล้วเสียเวลาเกือบสองปี

อีกวิธีหนึ่งในการสร้างการชำระเงินค่าใช้จ่ายผันแปรให้กับผู้เข้าร่วมศูนย์คือการใช้วิธีจับสลากวิธีการที่ใช้ในการวิจัยเชิงสำรวจ (Halpern et al. 2011) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการออกแบบประสบการณ์การใช้งานที่สนุกสนานให้ดูที่ Toomim et al. (2011) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้บอทเพื่อสร้างการทดลองต้นทุนผันแปรเป็นศูนย์ดูที่ ( ??? )

  • แทนที่, ปรับแต่งและลด (ส่วน 4.6.2)

สาม R ของที่เสนอโดย Russell and Burch (1959) มีดังนี้:

"หมายความว่าการเปลี่ยนทดแทนสำหรับที่อยู่อาศัยที่ใส่ใจสัตว์ที่สูงขึ้นของวัสดุ insentient ลดลงหมายถึงการลดในจำนวนของสัตว์ที่ใช้ในการได้รับข้อมูลของจำนวนที่กำหนดและความแม่นยำ โสรัจจะหมายถึงการลดลงของใด ๆ ในอุบัติการณ์หรือความรุนแรงของขั้นตอนการปฏิบัติที่ไร้มนุษยธรรมนำไปใช้กับสัตว์เหล่านั้นซึ่งยังคงต้องนำมาใช้. "

ทั้งสามข้อที่ฉันเสนอไม่ได้แทนที่หลักจริยธรรมที่อธิบายไว้ในบทที่ 6 แต่ก็เป็นแบบจำลองที่ละเอียดมากขึ้นซึ่งเป็นหนึ่งในหลักการเหล่านี้ซึ่งเป็นประโยชน์โดยเฉพาะในการตั้งค่าการทดลองของมนุษย์

ในแง่ของ R ("ทดแทน") เป็นครั้งแรกการเปรียบเทียบการทดสอบการติดเชื้ออารมณ์ (Kramer, Guillory, and Hancock 2014) และการทดสอบทางธรรมชาติที่เกิดจากการติดเชื้อทางอารมณ์ (Lorenzo Coviello et al. 2014) นำเสนอบทเรียนทั่วไปเกี่ยวกับการค้าที่ไม่เกี่ยวข้อง ในการย้ายจากการทดลองไปสู่การทดลองตามธรรมชาติ (และวิธีอื่น ๆ เช่นการจับคู่ที่พยายามทดลองโดยประมาณในข้อมูลที่ไม่ใช่ข้อมูลทดลองดูในบทที่ 2) นอกจากผลประโยชน์ด้านจริยธรรมแล้วการเปลี่ยนจากการทดลองไปเป็นการทดลองยังช่วยให้นักวิจัยสามารถศึกษาวิธีการรักษาที่ไม่สามารถนำไปใช้ในทางลอจิสติกได้ ผลประโยชน์ด้านจริยธรรมและการขนส่งเหล่านี้มาเสีย แต่ ด้วยการทดลองแบบธรรมชาตินักวิจัยมีการควบคุมน้อยกว่าสิ่งต่างๆเช่นการรับสมัครผู้เข้าร่วมการสุ่มเลือกและลักษณะของการรักษา ตัวอย่างเช่นข้อ จำกัด ของปริมาณน้ำฝนที่ใช้ในการรักษาคือการเพิ่มความเป็นบวกและลดการปฏิเสธ อย่างไรก็ตามในการศึกษาทดลอง Kramer และเพื่อนร่วมงานสามารถปรับความเป็นบวกและลบได้อย่างอิสระ วิธีการเฉพาะที่ใช้โดย Lorenzo Coviello et al. (2014) ได้ถูกจัดทำขึ้นโดย L. Coviello, Fowler, and Franceschetti (2014) สำหรับการแนะนำตัวแปรเครื่องมือซึ่งเป็นแนวทางที่ใช้โดย Lorenzo Coviello et al. (2014) ดู Angrist and Pischke (2009) (ไม่เป็นทางการ) หรือ Angrist, Imbens, and Rubin (1996) (เป็นทางการมากขึ้น) สำหรับการประเมินความเชื่อของตัวแปรที่เป็นประโยชน์ดู Deaton (2010) และการแนะนำตัวแปรที่มีประโยชน์กับเครื่องมือที่อ่อนแอ (ฝนเป็นเครื่องมือที่อ่อนแอ) ให้ดู Murray (2006) โดยทั่วไปการแนะนำที่ดีสำหรับการทดลองตามธรรมชาติจะได้รับจาก Dunning (2012) ในขณะที่ Rosenbaum (2002) , ( ??? ) และ Shadish, Cook, and Campbell (2001) เสนอแนวคิดที่ดีเกี่ยวกับการประเมินผลกระทบเชิงสาเหตุโดยไม่มีการทดลอง

ในแง่ของ R ("การปรับแต่ง") ครั้งที่สองมีการเปลี่ยนแปลงทางวิทยาศาสตร์และโลจิสติกส์เมื่อพิจารณาการเปลี่ยนแปลงการออกแบบการติดต่อทางอารมณ์จากการบล็อกโพสต์เพื่อเพิ่มตำแหน่ง ตัวอย่างเช่นอาจเป็นไปได้ว่าการดำเนินการด้านเทคนิคของฟีดข่าวทำให้การทดสอบที่โพสต์ถูกปิดกั้นมากกว่าการที่โพสต์ถูกบล็อกอย่างง่ายยิ่งขึ้น (โปรดสังเกตว่าอาจมีการดำเนินการทดสอบเกี่ยวกับการบล็อกโพสต์ เป็นชั้นบนสุดของระบบ News Feed โดยไม่จำเป็นต้องปรับเปลี่ยนระบบต้นทาง) อย่างไรก็ตามทางวิทยาศาสตร์ทฤษฎีที่กล่าวถึงในการทดลองนี้ไม่ได้บ่งชี้ถึงการออกแบบใด ๆ เหนือสิ่งอื่นใด น่าเสียดายที่ฉันไม่ได้รับทราบถึงการวิจัยก่อนหน้านี้อย่างมากเกี่ยวกับข้อดีของการปิดกั้นและการส่งเสริมเนื้อหาในฟีดข่าว นอกจากนี้ฉันยังไม่ได้เห็นการวิจัยมากเกี่ยวกับการบำบัดรักษาเพื่อให้พวกเขาเป็นอันตรายน้อยกว่า; ข้อยกเว้นประการหนึ่งคือ B. Jones and Feamster (2015) ซึ่งพิจารณากรณีการวัดการเซ็นเซอร์อินเทอร์เน็ต (หัวข้อที่ฉันพูดถึงในบทที่ 6 เกี่ยวกับการศึกษา Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) )

ในแง่ของการที่สาม R ("ลด") การแนะนำที่ดีในการวิเคราะห์พลังงานแบบดั้งเดิมจะได้รับจาก Cohen (1988) (book) และ Cohen (1992) (article) ในขณะที่ Gelman and Carlin (2014) มีมุมมองที่แตกต่างกันเล็กน้อย การแปรปรวนร่วมล่วงหน้าสามารถรวมอยู่ในขั้นตอนการออกแบบและการวิเคราะห์ของการทดลอง บทที่ 4 ของ Gerber and Green (2012) ให้คำแนะนำที่ดีสำหรับทั้งสองวิธีและ Casella (2008) ให้การรักษาในเชิงลึกมากขึ้น เทคนิคที่ใช้ข้อมูลก่อนการรักษาในการสุ่มตัวอย่างนี้มักเรียกว่าการออกแบบการทดลองที่ถูกบล็อคหรือการออกแบบเชิงทดลองแบบแบ่งชั้น (คำศัพท์ไม่ได้ใช้กันอย่างแพร่หลายในชุมชน) เทคนิคเหล่านี้เกี่ยวข้องกับเทคนิคการสุ่มตัวอย่างแบบแบ่งชั้นซึ่งกล่าวถึงในบทที่ 3 ดู Higgins, Sävje, and Sekhon (2016) สำหรับการใช้แบบนี้ในการทดลองขนาดใหญ่ สามารถรวมตัวแปรร่วมพื้นฐานก่อนการรักษาได้ในขั้นตอนการวิเคราะห์ McKenzie (2012) สำรวจวิธีการที่แตกต่างกันในการวิเคราะห์การทดลองภาคสนามอย่างละเอียดมากขึ้น ดู Carneiro, Lee, and Wilhelm (2016) เพื่อหาแนวทางในการลดความแตกต่างระหว่างวิธีการต่างๆเพื่อเพิ่มความแม่นยำในการประมาณผลการรักษา สุดท้ายเมื่อพิจารณาว่าจะพยายามรวมตัวแปรร่วมกันก่อนการรักษาในขั้นตอนการออกแบบหรือการวิเคราะห์ (หรือทั้งสองอย่าง) มีปัจจัยบางประการที่ต้องพิจารณา ในการตั้งค่าที่นักวิจัยต้องการแสดงให้เห็นว่าไม่ใช่ "การประมง" (Humphreys, Sierra, and Windt 2013) ใช้ตัวแปรร่วมกันก่อนการรักษาในขั้นตอนการออกแบบจะเป็นประโยชน์ (Higgins, Sävje, and Sekhon 2016) ในกรณีที่ผู้เข้าอบรมประสบความสำเร็จโดยเฉพาะการทดลองภาคสนามโดยการใช้ข้อมูลก่อนการรักษาในขั้นตอนการออกแบบอาจเป็นเรื่องยากในทางลอจิสติก ดูตัวอย่างเช่น Xie and Aurisset (2016)

เป็นมูลค่าเพิ่มเล็กน้อยของปรีชาญาณเกี่ยวกับสาเหตุที่วิธีการแตกต่างในความแตกต่างได้มากมีประสิทธิภาพมากกว่าแตกต่างในหมายหนึ่ง ผลลัพธ์ออนไลน์จำนวนมากมีความแปรปรวนที่สูงมาก (ดูตัวอย่าง RA Lewis and Rao (2015) และ Lamb et al. (2015) ) และค่อนข้างมีเสถียรภาพเมื่อเวลาผ่านไป ในกรณีนี้คะแนนการเปลี่ยนแปลงจะมีความแปรปรวนน้อยมากเพิ่มพลังของการทดสอบทางสถิติ เหตุผลหนึ่งที่ไม่ได้ใช้วิธีนี้บ่อยๆก็คือก่อนยุคดิจิทัลจะไม่มีผลก่อนการรักษา วิธีที่เป็นรูปธรรมมากขึ้นในการคิดเกี่ยวกับเรื่องนี้คือการจินตนาการถึงการทดลองเพื่อวัดว่าการออกกำลังกายที่เฉพาะเจาะจงทำให้น้ำหนักลดลงหรือไม่ หากคุณใช้วิธีการที่แตกต่างกันหมายความว่าค่าประมาณของคุณจะมีความแปรปรวนที่เกิดขึ้นจากความแปรปรวนของน้ำหนักในประชากร ถ้าคุณทำวิธีแตกต่างกันในความแตกต่างกันจะเกิดการผันแปรของน้ำหนักที่เกิดขึ้นตามธรรมชาติและคุณสามารถตรวจพบความแตกต่างที่เกิดจากการรักษาได้ง่ายขึ้น

สุดท้ายฉันคิดเพิ่มอันดับที่สี่: "repurpose" นั่นคือถ้านักวิจัยพบว่าตัวเองมีข้อมูลการทดลองมากกว่าที่พวกเขาต้องการเพื่อตอบคำถามการวิจัยเดิมของพวกเขาพวกเขาควรจะนำข้อมูลมาใช้ใหม่เพื่อตั้งคำถามใหม่ ๆ ตัวอย่างเช่นสมมติว่า Kramer และเพื่อนร่วมงานใช้ตัวประมาณค่าความแตกต่างในความแตกต่างและพบว่าตัวเองมีข้อมูลมากกว่าที่ต้องการเพื่อตอบคำถามการวิจัยของตน แทนที่จะใช้ข้อมูลไม่มากนักพวกเขาอาจศึกษาขนาดของผลกระทบที่เกิดจากการแสดงออกทางอารมณ์ก่อนการรักษา เช่นเดียวกับ Schultz et al. (2007) พบว่าผลของการรักษานั้นแตกต่างกันสำหรับผู้ใช้ที่มีน้ำหนักเบาและหนักอาจมีผลต่อฟีดข่าวที่แตกต่างกันสำหรับผู้ที่มีแนวโน้มจะโพสต์ข้อความที่มีความสุข (หรือเศร้า) การทำ Repurposing อาจนำไปสู่ ​​"fishing" (Humphreys, Sierra, and Windt 2013) และ "p-hacking" (Simmons, Nelson, and Simonsohn 2011) แต่เหล่านี้ส่วนใหญ่เป็นที่ตั้งของรายงานที่ซื่อสัตย์ (Simmons, Nelson, and Simonsohn 2011) , การลงทะเบียนล่วงหน้า (Humphreys, Sierra, and Windt 2013) และวิธีการเรียนรู้ด้วยเครื่องซึ่งพยายามหลีกเลี่ยงการติดตั้ง

Powered by Open Review Toolkit

Buy The Book

Image of Bit by Bit cover Princeton University Press Amazon Barnes and Noble IndieBound