2.4.3 การทดลองใกล้เคียง

เราสามารถประมาณการทดลองที่เราไม่ได้หรือไม่สามารถทำได้ สองวิธีที่ได้รับประโยชน์โดยเฉพาะจากแหล่งข้อมูลขนาดใหญ่คือการทดลองตามธรรมชาติและการจับคู่

คำถามทางวิทยาศาสตร์และนโยบายที่สำคัญบางอย่างเป็นสาเหตุ ตัวอย่างเช่นอะไรคือผลของโปรแกรมการฝึกงานเกี่ยวกับค่าจ้าง? นักวิจัยพยายามที่จะตอบคำถามนี้อาจเปรียบเทียบรายได้ของผู้ที่ลงทะเบียนเพื่อรับการฝึกอบรมกับผู้ที่ไม่ได้ทำ แต่ค่าจ้างระหว่างกลุ่มเหล่านี้มีความแตกต่างกันเพียงใดเนื่องจากการฝึกอบรมและเท่าไหร่เนื่องจากความแตกต่างก่อนหน้าระหว่างคนที่ลงทะเบียนและผู้ที่ไม่ได้? นี่เป็นคำถามที่ยากและเป็นคำถามที่ไม่ทำให้ข้อมูลมีข้อมูลมากขึ้น กล่าวอีกนัยหนึ่งความกังวลเกี่ยวกับความแตกต่างก่อนหน้านี้เกิดขึ้นไม่ว่าจำนวนคนงานจะอยู่ในข้อมูลของคุณ

ในหลาย ๆ กรณีวิธีที่ดีที่สุดในการประเมินผลกระทบเชิงสาเหตุของการรักษาบางอย่างเช่นการฝึกงานคือการดำเนินการทดลองที่มีการควบคุมแบบสุ่มตัวอย่างซึ่งนักวิจัยสุ่มให้การรักษาแก่บางคนไม่ใช่คนอื่น ฉันจะอุทิศบทที่ 4 ให้เป็นการทดลองทั้งหมดดังนั้นที่นี่ฉันจะมุ่งเน้นไปที่สองกลยุทธ์ที่สามารถใช้กับข้อมูลที่ไม่ได้ทดลองได้ กลยุทธ์แรกขึ้นอยู่กับการมองหาบางสิ่งที่เกิดขึ้นในโลกที่สุ่ม (หรือเกือบสุ่ม) กำหนดให้การรักษาแก่คนบางคนไม่ใช่คนอื่น กลยุทธ์ที่สองขึ้นอยู่กับการปรับข้อมูลทางสถิติที่ไม่ใช่ข้อมูลเชิงสถิติด้วยความพยายามที่จะอธิบายถึงความแตกต่างก่อนหน้านี้ระหว่างผู้ที่ทำและไม่ได้รับการรักษา

คนขี้ระแวงอาจอ้างว่าทั้งสองกลยุทธ์ควรหลีกเลี่ยงเพราะต้องมีสมมติฐานที่แข็งแกร่งสมมติฐานที่ยากต่อการประเมินและในทางปฏิบัติมักถูกละเมิด ในขณะที่ฉันเห็นด้วยกับคำกล่าวอ้างนี้ฉันคิดว่ามันไกลเกินไป เป็นจริงอย่างแน่นอนว่าเป็นการยากที่จะทำให้ประมาณการเชิงสาเหตุจากข้อมูลที่ไม่ได้ทดลองได้อย่างน่าเชื่อถือ แต่ฉันไม่คิดว่านั่นหมายความว่าเราไม่ควรลอง โดยเฉพาะวิธีการที่ไม่ใช่แบบทดลองจะเป็นประโยชน์หากข้อ จำกัด ด้านโลจิสติกส์ไม่ให้คุณทำการทดสอบหรือหากข้อ จำกัด ด้านจริยธรรมหมายความว่าคุณไม่ต้องการใช้การทดสอบ นอกจากนี้วิธีการที่ไม่ใช่แบบทดลองจะเป็นประโยชน์หากคุณต้องการใช้ประโยชน์จากข้อมูลที่มีอยู่แล้วเพื่อออกแบบการทดสอบแบบสุ่ม

ก่อนที่จะดำเนินการต่อไปควรสังเกตด้วยว่าการประเมินสาเหตุเป็นหนึ่งในหัวข้อที่ซับซ้อนที่สุดในการวิจัยทางสังคมและอาจทำให้เกิดการถกเถียงอย่างรุนแรงและอารมณ์ ในสิ่งต่อไปนี้ฉันจะให้คำอธิบายในแง่ดีของแต่ละวิธีเพื่อสร้างสัญชาตญาณเกี่ยวกับเรื่องนี้จากนั้นฉันจะอธิบายบางส่วนของความท้าทายที่เกิดขึ้นเมื่อใช้วิธีการดังกล่าว รายละเอียดเพิ่มเติมเกี่ยวกับแต่ละวิธีมีอยู่ในเอกสารที่ท้ายบทนี้ ถ้าคุณวางแผนที่จะใช้แนวทางเหล่านี้ในการวิจัยของคุณเองเราขอแนะนำให้คุณอ่านหนังสือที่ดีเยี่ยมหลายเรื่องเกี่ยวกับการอนุมานเชิงสาเหตุ (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014)

วิธีหนึ่งในการประเมินสาเหตุจากข้อมูลที่ไม่ได้ทดลองคือการมองหาเหตุการณ์ที่ได้รับมอบหมายการรักษาแบบสุ่มให้กับบางคนและไม่ใช่กับคนอื่น สถานการณ์เหล่านี้เรียกว่า การทดลองตามธรรมชาติ หนึ่งในตัวอย่างที่ชัดเจนของการทดลองตามธรรมชาติเกิดขึ้นจากการวิจัยของ Joshua Angrist (1990) วัดผลกระทบของการรับราชการทหารกับรายได้ ในช่วงสงครามในเวียดนามสหรัฐอเมริกาเพิ่มขนาดของกองกำลังติดอาวุธผ่านร่าง เพื่อที่จะตัดสินใจว่าประชาชนคนใดจะถูกเรียกให้เข้ารับใช้รัฐบาลสหรัฐฯก็จับสลากเอาไว้ วันเกิดทุกวันเขียนลงบนกระดาษแผ่นหนึ่งและตามที่แสดงในรูปที่ 2.7 กระดาษเหล่านี้ได้รับการคัดเลือกในแต่ละครั้งเพื่อกำหนดลำดับที่ผู้ชายจะถูกเรียกให้ทำหน้าที่ (หญิงสาวไม่ได้อยู่ภายใต้ ร่าง) จากผลการค้นหาผู้ชายที่เกิดเมื่อวันที่ 14 กันยายนได้รับการเรียกชื่อว่าผู้ชายคนแรกที่เกิดวันที่ 24 เมษายนเรียกว่าวินาทีและอื่น ๆ ในท้ายที่สุดในการจับสลากนี้ผู้ชายที่เกิดเมื่อวันที่ 195 ต่างกันถูกเกณฑ์ทหารในขณะที่ผู้ชายที่เกิดใน 171 วันไม่ได้

ภาพที่ 2.7: สภาผู้แทนราษฎรอเล็กซานเด Pirnie (R-NY) วาดภาพแคปซูลครั้งแรกสำหรับร่างแบบ Selective Service เมื่อวันที่ 1 ธันวาคม 1969 Joshua Angrist (1990) ได้รวมร่างหวยกับข้อมูลรายได้จาก Social Security Administration เพื่อประมาณการผลกระทบของการรับราชการทหาร เกี่ยวกับรายได้ นี่คือตัวอย่างของการวิจัยที่ใช้การทดสอบตามธรรมชาติ แหล่งที่มา: ระบบบริการที่เลือกของสหรัฐอเมริกา (1969) / Wikimedia Commons

ภาพที่ 2.7: สภาผู้แทนราษฎรอเล็กซานเด Pirnie (R-NY) วาดภาพแคปซูลครั้งแรกสำหรับร่างแบบ Selective Service เมื่อวันที่ 1 ธันวาคม 1969 Joshua Angrist (1990) รวมร่างหวยกับข้อมูลรายได้จาก Social Security Administration เพื่อประมาณการผลกระทบของการรับราชการทหาร เกี่ยวกับรายได้ นี่คือตัวอย่างของการวิจัยที่ใช้การทดสอบตามธรรมชาติ แหล่งที่มา: US Selective Service System (1969) / วิกิพีเดีย

แม้ว่าการฉายดังกล่าวอาจไม่เป็นที่ประจักษ์ได้ในทันที แต่การจับสลากร่างมีความคล้ายคลึงกันอย่างสำคัญต่อการทดลองที่ได้รับการสุ่มตัวอย่างในสถานการณ์ทั้งสองกรณีผู้เข้าร่วมจะได้รับการสุ่มเลือกเพื่อรับการรักษา เพื่อศึกษาผลของการรักษาด้วยแบบสุ่มตัวอย่างนี้ Angrist ใช้ประโยชน์จากระบบข้อมูลขนาดใหญ่ที่มีอยู่จริงตลอดเวลานั่นคือ US Social Security Administration ซึ่งเก็บรวบรวมข้อมูลเกี่ยวกับรายได้ของคนอเมริกันทุกคนจากการทำงาน โดยรวมข้อมูลเกี่ยวกับผู้ที่ถูกสุ่มเลือกในการจับสลากร่างที่มีข้อมูลรายได้ที่ถูกรวบรวมไว้ในบันทึกการปกครองของรัฐบาล Angrist สรุปได้ว่ารายได้ของทหารผ่านศึกประมาณ 15% น้อยกว่ารายได้ของทหารผ่านศึกที่เทียบเคียงไม่ได้

ตัวอย่างเช่นนี้แสดงให้เห็นว่ากองกำลังทางสังคมการเมืองและธรรมชาติบางครั้งได้รับการจัดทรีตเม้นท์ในลักษณะที่นักวิจัยสามารถใช้ประโยชน์ได้และบางครั้งผลกระทบของการรักษาเหล่านี้จะถูกจับในแหล่งข้อมูลขนาดใหญ่ตลอดเวลา กลยุทธ์การวิจัยนี้สามารถสรุปได้ดังนี้: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

เพื่อเป็นการแสดงให้เห็นถึงยุทธศาสตร์นี้ในยุคดิจิตอลลองพิจารณาการศึกษาของ Alexandre Mas และ Enrico Moretti (2009) ที่พยายามประเมินผลของการทำงานร่วมกับเพื่อนร่วมงานที่มีประสิทธิผลต่อประสิทธิภาพการทำงานของคนงาน ก่อนที่จะเห็นผลการค้นหาคุณควรชี้แจงว่ามีความคาดหวังขัดแย้งกันที่คุณอาจมี ในแง่หนึ่งคุณอาจคาดหวังว่าการทำงานร่วมกับเพื่อนร่วมงานที่มีประสิทธิผลจะทำให้คนงานสามารถเพิ่มผลผลิตได้เนื่องจากความกดดัน หรือในทางกลับกันคุณอาจคาดหวังว่าการมีเพื่อนทำงานอย่างหนักอาจทำให้คนงานเลิกงานเพราะงานนี้จะทำโดยเพื่อนของเธอต่อไป วิธีการที่ชัดเจนที่สุดในการศึกษาผลกระทบต่อประสิทธิภาพการทำงานของเพื่อนร่วมงานคือการทดลองแบบสุ่มควบคุมซึ่งจะมีการสุ่มให้พนักงานได้รับการสุ่มตัวอย่างให้เลื่อนไปหาคนทำงานที่มีระดับการผลิตต่างกันและจะมีการวัดผลการผลิตสำหรับทุกคน นักวิจัยไม่ได้ควบคุมเวลาของคนงานในธุรกิจที่แท้จริงใด ๆ ดังนั้น Mas และ Moretti ต้องพึ่งพาการทดลองตามธรรมชาติที่เกี่ยวข้องกับพนักงานเก็บเงินในซุปเปอร์มาร์เก็ต

ในซูเปอร์มาร์เก็ตรายนี้เนื่องจากวิธีตั้งเวลาและวิธีการที่ซ้อนกันแคชเชียร์แต่ละคนมีเพื่อนร่วมงานที่แตกต่างกันในแต่ละช่วงเวลาของวัน นอกจากนี้ในซูเปอร์มาร์เก็ตโดยเฉพาะอย่างยิ่งนี้การกำหนดแคชเชียร์ไม่ได้เกี่ยวข้องกับผลผลิตของเพื่อนหรือความวุ่นวายในการจัดเก็บ กล่าวอีกนัยหนึ่งถึงแม้ว่าการจัดตารางเวลาของพนักงานเก็บเงินไม่ได้ถูกกำหนดโดยการจับสลาก แต่ก็เหมือนกับว่าคนงานบางครั้งได้รับมอบหมายให้ทำงานกับเพื่อนร่วมงานด้านประสิทธิภาพสูง (หรือต่ำ) โชคดีที่ซูเปอร์มาร์เก็ตนี้ยังมีระบบเช็คเอาต์แบบดิจิทัลซึ่งติดตามรายการที่แคชเชียร์กำลังสแกนอยู่ตลอดเวลา จากข้อมูลบันทึกการตรวจสอบนี้ Mas และ Moretti สามารถสร้างการวัดผลการทำงานได้อย่างแม่นยำบุคคลและตลอดเวลา: จำนวนรายการที่สแกนต่อวินาที Mas และ Moretti คาดว่าหากแคชเชียร์ได้รับมอบหมายให้ทำงานร่วมกับแรงงานที่มีประสิทธิผลมากกว่าค่าเฉลี่ย 10% ผลผลิตของเธอจะเพิ่มขึ้น 1.5% เมื่อเทียบกับปีที่ผ่านมา . นอกจากนี้ยังใช้ขนาดและความมีชีวิตชีวาของข้อมูลเพื่อสำรวจประเด็นสำคัญสองประเด็นคือความ ไม่เท่าเทียมกัน ของผลกระทบนี้ (สำหรับคนงานประเภทใดที่มีผลต่อขนาดใหญ่ขึ้น) และ กลไกที่ อยู่เบื้องหลังผลกระทบ (ทำไมจึงมีคนทำกำไรสูงที่นำไปสู่ ประสิทธิภาพที่สูงขึ้นหรือไม่?) เราจะกลับไปสู่ประเด็นสำคัญสองประเด็นนี้คือความไม่เหมือนกันของผลกระทบและกลไกการรักษาในบทที่ 4 เมื่อเราพูดถึงการทดลองในรายละเอียดมากขึ้น

จากการศึกษาทั้งสองแบบนี้ตารางที่ 2.3 สรุปการศึกษาอื่น ๆ ที่มีโครงสร้างเดียวกันนี้: ใช้แหล่งข้อมูลที่มีอยู่ตลอดเวลาเพื่อวัดผลของรูปแบบที่สุ่ม ในทางปฏิบัตินักวิจัยใช้สองกลยุทธ์ที่แตกต่างกันในการหาการทดลองตามธรรมชาติซึ่งทั้งสองจะมีผลสำเร็จ นักวิจัยบางคนเริ่มต้นด้วยแหล่งข้อมูลที่มีอยู่ตลอดเวลาและมองหาเหตุการณ์แบบสุ่มในโลก คนอื่น ๆ เริ่มต้นเหตุการณ์สุ่มในโลกและมองหาแหล่งข้อมูลที่จับภาพผลกระทบของมัน

ตารางที่ 2.3: ตัวอย่างการทดลองตามธรรมชาติโดยใช้แหล่งข้อมูลขนาดใหญ่
โฟกัสที่สำคัญ แหล่งที่มาของการทดลองตามธรรมชาติ แหล่งข้อมูลที่เปิดตลอดเวลา การอ้างอิง
ผลกระทบต่อประสิทธิภาพการผลิต ขั้นตอนการจัดตารางเวลา ตรวจสอบข้อมูล Mas and Moretti (2009)
การสร้างมิตรภาพ พายุเฮอริเคน Facebook Phan and Airoldi (2015)
การแพร่กระจายของอารมณ์ ฝน Facebook Lorenzo Coviello et al. (2014)
การโอนเงินแบบ peer-to-peer แผ่นดินไหว ข้อมูลเงินมือถือ Blumenstock, Fafchamps, and Eagle (2011)
พฤติกรรมการบริโภคส่วนบุคคล การปิดตัวของรัฐบาลสหรัฐในปี 2013 ข้อมูลการเงินส่วนบุคคล Baker and Yannelis (2015)
ผลกระทบทางเศรษฐกิจของระบบแนะนำ ต่างๆ เรียกดูข้อมูลที่ Amazon Sharma, Hofman, and Watts (2015)
ผลของความเครียดต่อทารกในครรภ์ สงครามอิสราเอล - บุปผชาติปี 2549 บันทึกการเกิด Torche and Shwed (2015)
พฤติกรรมการอ่านในวิกิพีเดีย โองการ Snowden บันทึกวิกิพีเดีย Penney (2016)
ผลกระทบต่อการออกกำลังกาย สภาพอากาศ เครื่องติดตามออกกำลังกาย Aral and Nicolaides (2017)

ในการอภิปรายเกี่ยวกับการทดลองตามธรรมชาติผมได้ทิ้งประเด็นสำคัญไว้: จากสิ่งที่ธรรมชาติได้มอบให้กับสิ่งที่คุณต้องการบางครั้งอาจยุ่งยากมาก กลับมาที่ตัวอย่างร่างของเวียดนาม ในกรณีนี้ Angrist มีความสนใจในการประเมินผลกระทบของการรับราชการทหารกับรายได้ แต่น่าเสียดายที่การรับราชการทหารไม่ได้รับการสุ่ม ค่อนข้างถูกเกณฑ์ทหารที่ได้รับมอบหมายแบบสุ่ม อย่างไรก็ตามไม่ใช่ทุกคนที่ได้รับการเกณฑ์ทหาร (มีข้อยกเว้นมากมาย) และไม่ใช่ทุกคนที่ได้รับการเกณฑ์ทหาร (คนสามารถอาสาทำหน้าที่ได้) เนื่องจากการร่างแบบสุ่มได้รับมอบหมายผู้วิจัยสามารถประเมินผลของการร่างแบบร่างสำหรับชายทั้งหมดในร่างได้ แต่ Angrist ไม่ต้องการทราบผลของการร่าง เขาต้องการทราบผลของการรับราชการทหาร เพื่อให้การประมาณนี้ต้องใช้สมมติฐานและภาวะแทรกซ้อนเพิ่มเติม ประการแรกนักวิจัยจำเป็นต้องสมมติว่าวิธีเดียวที่มีการร่างผลกระทบรายได้คือการรับราชการทหารสมมติฐานที่เรียกว่า ข้อ จำกัด การยกเว้น สมมติฐานนี้อาจผิดถ้าเช่นผู้ชายที่ถูกเกณฑ์ทหารอยู่ในโรงเรียนอีกต่อไปเพื่อหลีกเลี่ยงการให้บริการหรือถ้านายจ้างมีโอกาสน้อยที่จะจ้างคนที่ถูกเกณฑ์ทหาร โดยทั่วไปข้อ จำกัด การยกเว้นเป็นข้อสันนิษฐานที่สำคัญและมักยากที่จะตรวจสอบ แม้ว่าข้อ จำกัด ในการยกเว้นจะถูกต้อง แต่ก็ยังไม่สามารถประเมินผลกระทบของการให้บริการกับผู้ชายทุกคนได้ แต่กลับกลายเป็นว่านักวิจัยสามารถประมาณผลกระทบเฉพาะกลุ่มคนที่เรียกว่าคอมมิวนิสต์ (ผู้ชายที่จะให้บริการเมื่อร่าง แต่จะไม่ทำหน้าที่เมื่อไม่ได้ร่าง) (Angrist, Imbens, and Rubin 1996) คอมมิวนิสต์ไม่ใช่ประชากรดั้งเดิมที่น่าสนใจ ขอให้สังเกตว่าปัญหาเหล่านี้เกิดขึ้นแม้ในกรณีที่ค่อนข้างสะอาดของการจับสลากร่าง ภาวะแทรกซ้อนอื่น ๆ เกิดขึ้นเมื่อการรักษาไม่ได้ถูกกำหนดโดยการจับสลากทางกายภาพ ตัวอย่างเช่นในการสำรวจ Masiers and Moretti ของพนักงานเก็บเงินคำถามเพิ่มเติมเกี่ยวกับสมมติฐานว่าการมอบหมายของเพื่อนเป็นแบบสุ่ม หากสมมติฐานนี้ถูกละเมิดอย่างมากอาจส่งผลเสียต่อประมาณการของพวกเขา สรุปได้ว่าการทดลองตามธรรมชาติอาจเป็นกลยุทธ์ที่มีประสิทธิภาพสำหรับการประมาณสาเหตุจากข้อมูลที่ไม่ได้ทดลองและแหล่งข้อมูลขนาดใหญ่เพิ่มความสามารถในการใช้ประโยชน์จากการทดลองตามธรรมชาติเมื่อเกิดขึ้น อย่างไรก็ตามอาจต้องมีการดูแลที่ดีและสมมติฐานที่แข็งแกร่งบางครั้งเพื่อให้ได้มาจากสิ่งที่ธรรมชาติได้ให้ไว้กับประมาณการที่คุณต้องการ

กลยุทธ์ที่สองที่ฉันอยากบอกให้คุณทราบเกี่ยวกับการประมาณการสาเหตุจากข้อมูลที่ไม่ได้ทดลองขึ้นอยู่กับการปรับข้อมูลทางสถิติที่ไม่ใช่ข้อมูลเชิงสถิติเพื่อหาข้อแตกต่างก่อนหน้าระหว่างผู้ที่ทำและไม่ได้รับการรักษา มีวิธีการปรับจำนวนมาก แต่ฉันจะเน้นที่การ จับคู่แบบ หนึ่งที่เรียกว่า ในการจับคู่นักวิจัยมองผ่านข้อมูลที่ไม่ได้ทดลองเพื่อสร้างคู่ที่คล้ายคลึงกันยกเว้นคนที่ได้รับการรักษาและไม่มี ในระหว่างการจับคู่นักวิจัยกำลัง ตัดแต่งกิ่ง ด้วย นั่นคือทิ้งกรณีที่ไม่มีการแข่งขันที่ชัดเจน ดังนั้นวิธีนี้จะเรียกได้อย่างถูกต้องมากขึ้นว่าการจับคู่และการตัดแต่งกิ่ง แต่ฉันจะยึดติดกับคำเดิม: การจับคู่

ตัวอย่างหนึ่งของพลังในการจับคู่กลยุทธ์กับแหล่งข้อมูลที่ไม่ใช่ข้อมูลเชิงทดลองส่วนใหญ่มาจากการวิจัยเกี่ยวกับพฤติกรรมผู้บริโภคโดย Liran Einav และเพื่อนร่วมงาน (2015) พวกเขาสนใจในการประมูลที่เกิดขึ้นบนอีเบย์และในการอธิบายผลงานของพวกเขาเราจะเน้นผลของราคาเริ่มประมูลในผลลัพธ์การประมูลเช่นราคาขายหรือความน่าจะเป็นของการขาย

วิธีที่ไร้เดียงสาที่สุดในการประมาณผลกระทบของราคาเริ่มต้นจากราคาขายก็คือการคำนวณราคาสุดท้ายสำหรับการประมูลด้วยราคาเริ่มต้นที่ต่างกัน วิธีนี้จะดีถ้าคุณต้องการคาดการณ์ราคาขายที่กำหนดราคาเริ่มต้น แต่ถ้าคำถามของคุณเกี่ยวข้องกับผลกระทบของราคาเริ่มต้นวิธีนี้จะไม่ได้ผลเนื่องจากไม่ได้ขึ้นอยู่กับการเปรียบเทียบที่เป็นธรรม การประมูลที่มีราคาเริ่มต้นต่ำอาจแตกต่างไปจากราคาเริ่มต้นที่สูงขึ้น (เช่นอาจเป็นเพราะสินค้าประเภทต่างๆหรือผู้ขายประเภทต่างๆ)

หากคุณทราบถึงปัญหาที่อาจเกิดขึ้นเมื่อทำการประมาณการเชิงสาเหตุจากข้อมูลที่ไม่ใช่ข้อมูลทดลองแล้วคุณอาจข้ามวิธีการที่ไร้เดียงสาและลองใช้การทดสอบภาคสนามซึ่งคุณจะขายสินค้าที่เฉพาะเจาะจงเช่นกอล์ฟคลับที่มีการแก้ไข ชุดพารามิเตอร์การประมูลกล่าวว่าการจัดส่งฟรีและการประมูลเปิดให้บริการเป็นเวลาสองสัปดาห์ แต่มีการกำหนดราคาเริ่มต้นแบบสุ่ม เมื่อเปรียบเทียบผลการตลาดที่เกิดขึ้นแล้วการทดสอบภาคสนามนี้จะมีการวัดผลของราคาเริ่มต้นจากราคาขายที่ชัดเจน แต่การวัดนี้จะใช้กับผลิตภัณฑ์เฉพาะและชุดพารามิเตอร์การประมูลเท่านั้น ผลลัพธ์อาจแตกต่างกันตัวอย่างเช่นสำหรับผลิตภัณฑ์ประเภทต่างๆ หากปราศจากทฤษฎีที่แข็งแกร่งก็ยากที่จะคาดการณ์จากการทดลองเดี่ยวนี้ไปจนถึงการทดลองที่เป็นไปได้ทั้งหมดที่อาจเกิดขึ้นได้ นอกจากนี้การทดลองในสนามมีราคาแพงพอสมควรที่จะไม่สามารถทำงานได้ทุกรูปแบบที่คุณอาจต้องการลอง

ตรงกันข้ามกับวิธีการที่ไร้เดียงสาและการทดลอง Einav และเพื่อนร่วมงานใช้วิธีที่สาม: การจับคู่ เคล็ดลับหลักในกลยุทธ์ของพวกเขาคือการค้นพบสิ่งที่คล้ายกับการทดลองภาคสนามที่เกิดขึ้นกับอีเบย์แล้ว ตัวอย่างเช่นรูปที่ 2.8 แสดงรายชื่อ 31 รายการสำหรับสโมสรกอล์ฟแห่งเดียวกันเช่น Taylormade Burner 09 Driver ที่ขายโดยผู้ขายเดียวกัน "budgetgolfer" อย่างไรก็ตามรายชื่อเหล่านี้ 31 รายการมีลักษณะแตกต่างกันออกไปเล็กน้อยเช่นการเริ่มต้นที่แตกต่างกัน ราคา, วันที่สิ้นสุดและค่าจัดส่ง กล่าวอีกนัยหนึ่งก็คือ "budgetgolfer" กำลังเรียกใช้การทดลองสำหรับนักวิจัย

รายชื่อเหล่านี้ของ Taylormade Burner 09 Driver ที่ขายโดย "budgetgolfer" เป็นตัวอย่างหนึ่งของรายการที่ตรงกันซึ่งเป็นรายการเดียวกันที่มีการขายโดยผู้ขายรายเดียวกัน แต่ทุกครั้งที่มีลักษณะแตกต่างกันเล็กน้อย ภายในบันทึกขนาดใหญ่ของอีเบย์มีตัวอักษรนับร้อยนับพันรายการที่จับคู่กันหลายล้านรายการ ดังนั้นแทนที่จะเปรียบเทียบราคาสุดท้ายสำหรับการประมูลทั้งหมดที่มีราคาเริ่มต้นที่กำหนด Einav และเพื่อนร่วมงานเปรียบเทียบภายในชุดที่ตรงกัน EINAV และเพื่อนร่วมงานได้แสดงราคาเริ่มต้นและราคาสุดท้ายในแง่ของมูลค่าอ้างอิงของแต่ละรายการ (เช่นราคาขายเฉลี่ย) เพื่อรวมผลลัพธ์จากการเปรียบเทียบภายในชุดนับร้อยนับพันชุดที่ตรงกัน ตัวอย่างเช่นถ้าไดรเวอร์ Taylormade Burner 09 มีมูลค่าอ้างอิงอยู่ที่ 100 เหรียญ (ขึ้นอยู่กับยอดขาย) ราคาเริ่มต้นที่ 10 เหรียญจะแสดงเป็น 0.1 และราคาสุดท้ายเท่ากับ 120 เหรียญเป็น 1.2

รูปที่ 2.8: ตัวอย่างชุดที่ตรงกัน นี่เป็นสนามกอล์ฟที่เหมือนกัน (Taylormade Burner 09 Driver) ที่ขายโดยบุคคลคนเดียวกัน (ผู้เล่นที่มีงบประมาณ จำกัด ) แต่ยอดขายบางส่วนมีการดำเนินการภายใต้เงื่อนไขที่แตกต่างกัน (เช่นราคาเริ่มต้นที่ต่างกัน) ทำซ้ำโดยได้รับอนุญาตจาก Einav et al. (ปี 2015) รูปที่ 1b

รูปที่ 2.8: ตัวอย่างชุดที่ตรงกัน นี่เป็นสนามกอล์ฟที่เหมือนกัน (Taylormade Burner 09 Driver) ที่ขายโดยบุคคลคนเดียวกัน ("budgetgolfer") แต่ยอดขายบางส่วนมีการดำเนินการภายใต้เงื่อนไขที่ต่างกัน (เช่นราคาเริ่มต้นที่ต่างกัน) ทำซ้ำโดยได้รับอนุญาตจาก Einav et al. (2015) รูปที่ 1b

จำได้ว่า Einav และเพื่อนร่วมงานมีความสนใจในผลกระทบของราคาเริ่มต้นต่อผลการประมูล อันดับแรกใช้การถดถอยเชิงเส้นเพื่อคาดการณ์ว่าราคาเริ่มต้นที่สูงขึ้นจะช่วยลดความเป็นไปได้ในการขายและราคาเริ่มต้นที่สูงขึ้นจะทำให้ราคาขายสุดท้ายขึ้นอยู่กับยอดขายที่เกิดขึ้น ด้วยตัวเองการประมาณการเหล่านี้ซึ่งอธิบายถึงความสัมพันธ์เชิงเส้นและมีค่าเฉลี่ยสำหรับทุกผลิตภัณฑ์ไม่ใช่สิ่งที่น่าสนใจ จากนั้น Einav และเพื่อนร่วมงานใช้ข้อมูลขนาดใหญ่เพื่อสร้างความหลากหลายของการประมาณการที่ลึกซึ้งมากขึ้น ตัวอย่างเช่นโดยประเมินผลกระทบจากราคาเริ่มต้นที่ต่างกันพวกเขาพบว่าความสัมพันธ์ระหว่างราคาเริ่มต้นกับราคาขายเป็นแบบไม่เป็นเชิงเส้น (รูปที่ 2.9) โดยเฉพาะอย่างยิ่งสำหรับราคาเริ่มต้นระหว่าง 0.05 และ 0.85 ราคาเริ่มต้นมีผลกระทบน้อยมากต่อราคาขายซึ่งเป็นข้อสรุปที่พลาดอย่างสิ้นเชิงจากการวิเคราะห์ครั้งแรก นอกจากนี้แทนที่จะคำนึงถึงค่าเฉลี่ยของทุกรายการ Einav และเพื่อนร่วมงานประเมินผลกระทบของราคาเริ่มต้นสำหรับ 23 หมวดหมู่ที่แตกต่างกัน (เช่นอุปกรณ์สัตว์เลี้ยงอุปกรณ์อิเล็กทรอนิกส์และที่ระลึกเกี่ยวกับกีฬา) (รูป 2.10) การประมาณการเหล่านี้แสดงให้เห็นว่าสำหรับรายการที่โดดเด่นกว่าเช่นราคาเริ่มต้นที่น่าจดจำมีผลต่อความน่าจะเป็นของการขายน้อยลงและมีผลต่อราคาขายขั้นสุดท้ายมากขึ้น นอกจากนี้สำหรับสินค้าที่มีการจัดระเบียบเช่นแผ่นดีวีดีราคาเริ่มต้นแทบไม่ส่งผลกระทบต่อราคาสุดท้าย กล่าวอีกนัยหนึ่งค่าเฉลี่ยที่รวมผลลัพธ์จาก 23 หมวดหมู่ที่แตกต่างกันจะมีความแตกต่างที่สำคัญระหว่างรายการเหล่านี้

รูปที่ 2.9: ความสัมพันธ์ระหว่างราคาเริ่มต้นการประมูลกับความน่าจะเป็นของการขาย (ก) และราคาขาย (ข) มีความสัมพันธ์เชิงเส้นระหว่างราคาเริ่มต้นและความน่าจะเป็นของการขาย แต่มีความสัมพันธ์แบบไม่เชิงเส้นระหว่างราคาเริ่มต้นและราคาขาย สำหรับราคาเริ่มต้นระหว่าง 0.05 ถึง 0.85 ราคาเริ่มต้นมีผลกระทบน้อยมากต่อราคาขาย ในทั้งสองกรณีความสัมพันธ์โดยพื้นฐานไม่ขึ้นกับมูลค่าของรายการ ดัดแปลงมาจาก Einav et al. (พ.ศ. 2558) รูปที่ 4a และ 4b

รูปที่ 2.9: ความสัมพันธ์ระหว่างราคาเริ่มต้นการประมูลกับความน่าจะเป็นของการขาย (ก) และราคาขาย (ข) มีความสัมพันธ์เชิงเส้นระหว่างราคาเริ่มต้นและความน่าจะเป็นของการขาย แต่มีความสัมพันธ์แบบไม่เชิงเส้นระหว่างราคาเริ่มต้นและราคาขาย สำหรับราคาเริ่มต้นระหว่าง 0.05 ถึง 0.85 ราคาเริ่มต้นมีผลกระทบน้อยมากต่อราคาขาย ในทั้งสองกรณีความสัมพันธ์โดยพื้นฐานไม่ขึ้นกับมูลค่าของรายการ ดัดแปลงมาจาก Einav et al. (2015) รูปที่ 4a และ 4b

รูปที่ 2.10: ประมาณการจากแต่ละประเภทของสินค้า จุดที่เป็นของแข็งคือค่าประมาณสำหรับทุกประเภทรวมกัน (Einav et al. 2015) การประมาณการเหล่านี้แสดงให้เห็นว่าสำหรับรายการที่โดดเด่นกว่าเช่นที่ระลึกราคาเริ่มต้นมีผลต่อความน่าจะเป็นของการขายน้อยกว่า (แกน x) และมีผลต่อราคาขายสุดท้าย (แกน y) ดัดแปลงมาจาก Einav et al. (พ.ศ. 2558) รูปที่ 8

รูปที่ 2.10: ประมาณการจากแต่ละประเภทของสินค้า จุดที่เป็นของแข็งคือค่าประมาณสำหรับทุกประเภทรวมกัน (Einav et al. 2015) การประมาณการเหล่านี้แสดงให้เห็นว่าสำหรับรายการที่โดดเด่นมากขึ้นเช่นที่ระลึกราคาเริ่มต้นมีผลต่อความเป็นไปได้ในการขาย ( \(x\) -axis) น้อยลงและมีผลต่อราคาขายขั้นสุดท้ายมากขึ้น ( \(y\) -แกน). ดัดแปลงมาจาก Einav et al. (2015) รูปที่ 8

แม้ว่าคุณจะไม่สนใจเป็นพิเศษในการประมูลบนอีเบย์ แต่คุณต้องชื่นชมในรูปที่ 2.9 และรูปที่ 2.10 ให้ความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับอีเบย์มากกว่าการประมาณแบบง่ายๆที่อธิบายความสัมพันธ์เชิงเส้นและรวมหมวดหมู่ต่างๆไว้มากมาย นอกจากนี้แม้ว่าจะเป็นไปได้ทางวิทยาศาสตร์ที่เป็นไปได้ในการสร้างการประมาณการที่ลึกซึ้งกว่านี้ด้วยการทดลองภาคสนามต้นทุนจะทำให้การทดลองดังกล่าวเป็นไปไม่ได้เลย

เช่นเดียวกับการทดลองตามธรรมชาติมีหลายวิธีที่การจับคู่อาจนำไปสู่การประมาณการที่ไม่ดี ฉันคิดว่าข้อกังวลที่ใหญ่ที่สุดกับการคาดการณ์การจับคู่คือว่าพวกเขาสามารถลำเอียงโดยสิ่งที่ไม่ได้ใช้ในการจับคู่ ตัวอย่างเช่นในผลการค้นหาหลักของพวกเขา Einav และเพื่อนร่วมงานได้จับคู่ตรงกับสี่ลักษณะ ได้แก่ หมายเลขรหัสผู้ขายหมวดหมู่รายการชื่อรายการและคำบรรยาย หากรายการมีความแตกต่างกันในลักษณะที่ไม่ได้ใช้สำหรับการจับคู่อาจทำให้เกิดการเปรียบเทียบที่ไม่เป็นธรรม ตัวอย่างเช่นหาก "budgetgolfer" ลดราคา Taylormade Burner 09 Driver ในฤดูหนาว (เมื่อไม้กอล์ฟไม่ได้รับความนิยม) อาจดูเหมือนว่าราคาเริ่มต้นต่ำลงจะทำให้ราคาสุดท้ายลดลง แต่ในความเป็นจริงสิ่งนี้จะเป็นสิ่งประดิษฐ์ของ การเปลี่ยนแปลงตามฤดูกาลในความต้องการ วิธีหนึ่งในการแก้ไขปัญหานี้คือพยายามจับคู่แบบต่างๆ ตัวอย่างเช่น Einav และเพื่อนร่วมงานของเราซ้ำการวิเคราะห์ของพวกเขาในขณะที่การเปลี่ยนแปลงช่วงเวลาที่ใช้สำหรับการจับคู่ (ชุดที่ตรงกันรวมถึงสินค้าที่ขายภายในหนึ่งปีภายในหนึ่งเดือนและในเวลาเดียวกัน) โชคดีที่พวกเขาพบผลลัพธ์ที่คล้ายคลึงกันสำหรับหน้าต่างทั้งหมด ความกังวลเพิ่มเติมเกี่ยวกับการจับคู่เกิดขึ้นจากการตีความ ค่าประมาณจากการจับคู่ใช้กับข้อมูลที่จับคู่เท่านั้น พวกเขาไม่ได้ใช้กับกรณีที่ไม่สามารถจับคู่ได้ ตัวอย่างเช่นโดยการ จำกัด การวิจัยของพวกเขาไปยังรายการที่มีรายชื่อหลาย Einav และเพื่อนร่วมงานกำลังมุ่งเน้นไปที่ผู้ขายมืออาชีพและกึ่งมืออาชีพ ดังนั้นเมื่อตีความการเปรียบเทียบเหล่านี้เราต้องจำไว้ว่าพวกเขาใช้เฉพาะกับส่วนย่อยของอีเบย์นี้เท่านั้น

การจับคู่เป็นกลยุทธ์ที่มีประสิทธิภาพในการค้นหาการเปรียบเทียบที่เป็นธรรมในข้อมูลที่ไม่ใช่ข้อมูลเชิงทดลอง เพื่อให้นักวิทยาศาสตร์ทางสังคมหลายคนจับคู่รู้สึกดีที่สุดเป็นอันดับสองในการทดลอง แต่นั่นเป็นความเชื่อที่สามารถแก้ไขได้เล็กน้อย การจับคู่ข้อมูลขนาดใหญ่อาจดีกว่าการทดลองภาคสนามจำนวนเล็กน้อยเมื่อ (1) ความไม่สม่ำเสมอในผลกระทบเป็นสิ่งสำคัญและ (2) ตัวแปรสำคัญที่จำเป็นสำหรับการจับคู่ได้รับการวัด ตารางที่ 2.4 แสดงตัวอย่างอื่น ๆ ของการจับคู่สามารถใช้กับแหล่งข้อมูลขนาดใหญ่

ตารางที่ 2.4: ตัวอย่างการศึกษาที่ใช้การจับคู่กับแหล่งข้อมูลขนาดใหญ่
โฟกัสที่สำคัญ แหล่งข้อมูลขนาดใหญ่ การอ้างอิง
ผลของการยิงต่อความรุนแรงของตำรวจ ระเบียน Stop-and-frisk Legewie (2016)
ผลกระทบจากวันที่ 11 กันยายน 2544 ต่อครอบครัวและเพื่อนบ้าน บันทึกการลงคะแนนเสียงและบันทึกการบริจาค Hersh (2013)
การติดต่อทางสังคม การสื่อสารและข้อมูลการยอมรับผลิตภัณฑ์ Aral, Muchnik, and Sundararajan (2009)

สรุปได้ว่าการประมาณผลกระทบเชิงสาเหตุจากข้อมูลที่ไม่ใช่ข้อมูลทดลองเป็นเรื่องยาก แต่สามารถใช้วิธีต่างๆเช่นการทดลองตามธรรมชาติและการปรับสถิติ (เช่นการจับคู่) ในบางกรณีวิธีการเหล่านี้อาจไม่ถูกต้อง แต่เมื่อนำไปใช้อย่างรอบคอบวิธีการเหล่านี้สามารถเป็นส่วนเสริมที่เป็นประโยชน์ต่อแนวทางการทดลองที่ผมอธิบายไว้ในบทที่ 4 นอกจากนี้ทั้งสองวิธีดูเหมือนจะได้รับประโยชน์จากการเติบโตของความสัมพันธ์แบบ " on ระบบข้อมูลขนาดใหญ่