3.6.1 ให้กับ

ในการสอบถามที่อุดมไปด้วยข้อมูลการสำรวจสร้างบริบทรอบแหล่งข้อมูลขนาดใหญ่ที่มีการวัดที่สำคัญบางอย่าง แต่ไม่มีผู้อื่น

วิธีหนึ่งในการรวมข้อมูลจากการสำรวจและแหล่งข้อมูลขนาดใหญ่เป็นกระบวนการที่ฉันจะเรียก อุดมถาม ในแหล่งข้อมูลขนาดใหญ่มีการวัดที่สำคัญบางอย่าง แต่ขาดการวัดอื่น ๆ ดังนั้นนักวิจัยจึงเก็บรวบรวมข้อมูลเหล่านี้ที่ขาดหายไปในการสำรวจและเชื่อมโยงแหล่งข้อมูลทั้งสองเข้าด้วยกัน ตัวอย่างหนึ่งของการถามที่อุดมสมบูรณ์คือการศึกษาโดย Burke and Kraut (2014) เกี่ยวกับการมีปฏิสัมพันธ์บน Facebook ช่วยเพิ่มพูนมิตรภาพซึ่งผมได้อธิบายไว้ในส่วน 3.2) ในกรณีดังกล่าว Burke and Kraut ได้รวมข้อมูลการสำรวจเข้ากับข้อมูลบันทึกของ Facebook

การตั้งค่าที่เบิร์คและเคิร์ทกำลังทำงานอยู่ แต่หมายความว่าพวกเขาไม่ได้ต้องรับมือกับปัญหาใหญ่สองอย่างที่นักวิจัยทำกันโดยทั่วไปแล้ว ประการแรกการเชื่อมโยงชุดข้อมูลระดับบุคคลซึ่งเป็นกระบวนการที่เรียกว่าการ เชื่อมโยงบันทึก อาจเป็นเรื่องยากหากไม่มีตัวระบุที่ไม่ซ้ำกันในทั้งสองแหล่งข้อมูลที่สามารถใช้เพื่อให้แน่ใจว่าระเบียนที่ถูกต้องในชุดข้อมูลชุดเดียวตรงกับบันทึกที่ถูกต้อง ในชุดข้อมูลอื่น ๆ ปัญหาหลักประการที่สองของการถามคือว่าคุณภาพของแหล่งข้อมูลขนาดใหญ่มักจะเป็นเรื่องยากสำหรับนักวิจัยที่จะประเมินเพราะกระบวนการที่ข้อมูลถูกสร้างขึ้นอาจเป็นกรรมสิทธิ์และอาจมีความอ่อนไหวต่อหลายปัญหาที่อธิบายไว้ในบทที่ 2 กล่าวอีกนัยหนึ่งการถามบ่อยๆจะเกี่ยวข้องกับการเชื่อมโยงข้อผิดพลาดในการสำรวจไปยังแหล่งข้อมูลที่มีคุณภาพไม่เป็นที่รู้จัก อย่างไรก็ตามปัญหาที่เกิดขึ้นเหล่านี้สามารถนำมาใช้ในการวิจัยที่สำคัญได้เช่นเดียวกับที่ Stephen Ansolabehere และ Eitan Hersh (2012) แสดงให้เห็นถึงการวิจัยเกี่ยวกับรูปแบบการลงคะแนนเสียงในสหรัฐอเมริกา

การลงคะแนนเสียงเลือกตั้งเป็นเรื่องของการค้นคว้าทางด้านรัฐศาสตร์อย่างกว้างขวางและในอดีตความเข้าใจของนักวิจัยเกี่ยวกับการลงมติของผู้ลงคะแนนเสียงและเหตุใดจึงขึ้นอยู่กับการวิเคราะห์ข้อมูลการสำรวจ อย่างไรก็ตามการลงคะแนนเสียงในประเทศสหรัฐอเมริกาเป็นพฤติกรรมที่ผิดปกติในการที่รัฐบาลบันทึกว่าพลเมืองแต่ละคนได้รับการโหวตหรือไม่ (แน่นอนรัฐบาลไม่ได้บันทึกว่าใครเป็นพลเมืองที่ลงคะแนน) เป็นเวลาหลายปีเหล่านี้บันทึกการลงคะแนนเสียงของรัฐบาลมีอยู่ในรูปแบบกระดาษกระจายอยู่ในสำนักงานรัฐบาลท้องถิ่นต่างๆทั่วประเทศ ทำให้นักวิทยาศาสตร์ทางการเมืองมีความเป็นไปได้ยากมาก แต่ก็ไม่ใช่เรื่องที่เป็นไปไม่ได้ที่นักการเมืองจะมีภาพที่สมบูรณ์ของเขตเลือกตั้งและเปรียบเทียบสิ่งที่ผู้คนพูดในการสำรวจเกี่ยวกับการลงคะแนนเสียงด้วยพฤติกรรมการลงคะแนนเสียงที่แท้จริง (Ansolabehere and Hersh 2012)

แต่ตัวเลขการลงคะแนนเสียงเหล่านี้ได้ถูกแปลงเป็นข้อมูลดิจิทัลแล้วและ บริษัท เอกชนจำนวนหนึ่งได้รวบรวมและรวมระบบเหล่านี้ไว้อย่างเป็นระบบเพื่อผลิตแฟ้มการลงคะแนนหลักที่ครอบคลุมถึงพฤติกรรมการลงคะแนนเสียงของชาวอเมริกันทุกคน Ansolabehere และ Hersh ร่วมมือกับหนึ่งใน บริษัท เหล่านี้ - Catalist LCC - เพื่อที่จะใช้แฟ้มโหวตหลักของพวกเขาเพื่อช่วยพัฒนาภาพที่ดีขึ้นของผู้มีสิทธิเลือกตั้ง นอกจากนี้เนื่องจากการศึกษาของพวกเขาอาศัยบันทึกดิจิทัลที่เก็บรวบรวมและจัดทำโดย บริษัท ที่มีการลงทุนทรัพยากรที่สำคัญในการรวบรวมข้อมูลและการประสานกันทำให้ข้อดีหลายประการเหนือความพยายามก่อนหน้านี้ที่ได้กระทำโดยปราศจากความช่วยเหลือจาก บริษัท และโดยการใช้บันทึกข้อมูลแบบแอนะล็อก

เช่นเดียวกับแหล่งข้อมูลขนาดใหญ่หลายแห่งในบทที่ 2 แฟ้มต้นแบบของ Catalist ไม่ได้รวมข้อมูลประชากรข้อมูลเชิงทัศนคติและพฤติกรรมที่ Ansolabehere และ Hersh ต้องการ ในความเป็นจริงพวกเขาสนใจโดยเฉพาะอย่างยิ่งในการเปรียบเทียบพฤติกรรมการลงคะแนนเสียงที่รายงานในแบบสำรวจด้วยพฤติกรรมการลงคะแนนเสียงที่ผ่านการตรวจสอบแล้ว (เช่นข้อมูลในฐานข้อมูล Catalist) ดังนั้น Ansolabehere และ Hersh เก็บข้อมูลที่พวกเขาต้องการเป็นแบบสำรวจทางสังคมขนาดใหญ่ CCES ที่กล่าวถึงก่อนหน้านี้ในบทนี้ จากนั้นพวกเขาก็ได้ให้ข้อมูลกับ Catalist และ Catalist ก็ให้ข้อมูลไฟล์ที่ผสานรวมถึงพฤติกรรมการลงคะแนนเสียงที่ถูกต้อง (จาก Catalist) พฤติกรรมการลงคะแนนเสียงที่รายงานด้วยตนเอง (จาก CCES) และข้อมูลประชากรและทัศนคติของผู้ตอบแบบสอบถาม (จาก CCES) (ตัวเลข 3.13) กล่าวคือ Ansolabehere และ Hersh รวมข้อมูลการลงคะแนนเสียงกับข้อมูลการสำรวจเพื่อทำวิจัยที่เป็นไปไม่ได้กับแหล่งข้อมูลทั้งสองแบบ

รูปที่ 3.13: Schematic ของการศึกษาโดย Ansolabehere และ Hersh (2012) เพื่อสร้าง datafile ต้นแบบ Catalist รวมและประสานข้อมูลจากแหล่งต่างๆ ขั้นตอนการผสานรวมนี้ไม่ว่าจะระวังจะแพร่กระจายข้อผิดพลาดในแหล่งข้อมูลต้นฉบับและจะนำเสนอข้อผิดพลาดใหม่ แหล่งข้อผิดพลาดที่สองคือการเชื่อมโยงระเบียนระหว่างข้อมูลการสำรวจกับข้อมูลหลักของ datafile ถ้าทุกคนมีตัวระบุที่ไม่ซ้ำกันที่มีเสถียรภาพในทั้งสองแหล่งข้อมูลการเชื่อมโยงจะเป็นเรื่องเล็กน้อย แต่ Catalist ต้องทำลิงก์โดยใช้ตัวระบุที่ไม่สมบูรณ์ในกรณีนี้ชื่อเพศปีเกิดและที่อยู่บ้าน อย่างไรก็ตามในหลาย ๆ กรณีอาจมีข้อมูลที่ไม่สมบูรณ์หรือไม่ถูกต้อง ผู้มีสิทธิเลือกตั้งชื่อโฮเมอร์ซิมป์สันอาจปรากฏเป็น Homer Jay Simpson, Homie J Simpson หรือแม้แต่ Homer Sampsin แม้จะมีข้อผิดพลาดในไฟล์ข้อมูลต้นแบบ Catalist และข้อผิดพลาดในการเชื่อมโยงระเบียน Ansolabehere และ Hersh สามารถสร้างความเชื่อมั่นในข้อมูลประมาณการของตนผ่านการตรวจสอบต่างๆ

รูปที่ 3.13: Schematic ของการศึกษาโดย Ansolabehere and Hersh (2012) เพื่อสร้าง datafile ต้นแบบ Catalist รวมและประสานข้อมูลจากแหล่งต่างๆ ขั้นตอนการผสานรวมนี้ไม่ว่าจะระวังจะแพร่กระจายข้อผิดพลาดในแหล่งข้อมูลต้นฉบับและจะนำเสนอข้อผิดพลาดใหม่ แหล่งข้อผิดพลาดที่สองคือการเชื่อมโยงระเบียนระหว่างข้อมูลการสำรวจกับข้อมูลหลักของ datafile ถ้าทุกคนมีตัวระบุที่ไม่ซ้ำกันที่มีเสถียรภาพในทั้งสองแหล่งข้อมูลการเชื่อมโยงจะเป็นเรื่องเล็กน้อย แต่ Catalist ต้องทำลิงก์โดยใช้ตัวระบุที่ไม่สมบูรณ์ในกรณีนี้ชื่อเพศปีเกิดและที่อยู่บ้าน อย่างไรก็ตามในหลาย ๆ กรณีอาจมีข้อมูลที่ไม่สมบูรณ์หรือไม่ถูกต้อง ผู้มีสิทธิเลือกตั้งชื่อโฮเมอร์ซิมป์สันอาจปรากฏเป็น Homer Jay Simpson, Homie J Simpson หรือแม้แต่ Homer Sampsin แม้จะมีข้อผิดพลาดในไฟล์ข้อมูลต้นแบบ Catalist และข้อผิดพลาดในการเชื่อมโยงระเบียน Ansolabehere และ Hersh สามารถสร้างความเชื่อมั่นในข้อมูลประมาณการของตนผ่านการตรวจสอบต่างๆ

ด้วยไฟล์ข้อมูลที่รวมกัน Ansolabehere และ Hersh ได้ข้อสรุปที่สำคัญ 3 ข้อ ประการแรกการรายงานการลงคะแนนเสียงเกินกำลังทวีความรุนแรงขึ้น: เกือบครึ่งหนึ่งของผู้ไม่ลงรอยกันรายงานการลงคะแนนเสียงและหากมีคนรายงานการลงคะแนนเสียงมีโอกาสเพียง 80% เท่านั้นที่พวกเขาลงคะแนนเสียงจริง ประการที่สองการรายงานที่เกินกำหนดไม่ได้เป็นแบบสุ่ม: การรายงานที่มากเกินไปเป็นเรื่องธรรมดาในหมู่พลพรรคที่มีรายได้สูงและได้รับการศึกษาที่มีส่วนร่วมในกิจการสาธารณะ กล่าวอีกนัยหนึ่งคนที่มีแนวโน้มที่จะออกเสียงมากที่สุดมักโกหกเรื่องการออกเสียงลงคะแนน ประการที่สามและที่สำคัญที่สุดเนื่องจากลักษณะของการรายงานที่เกินจริงความแตกต่างที่เกิดขึ้นจริงระหว่างผู้มีสิทธิเลือกตั้งกับผู้ไม่ลงคะแนนเสียงมีขนาดเล็กกว่าที่พวกเขาได้รับจากการสำรวจ ตัวอย่างเช่นผู้ที่มีระดับปริญญาตรีประมาณ 22 คะแนนร้อยละมีแนวโน้มที่จะรายงานการลงคะแนน แต่มีเพียง 10 คะแนนร้อยละมีแนวโน้มที่จะลงคะแนนจริง บางทีอาจเป็นที่น่าแปลกใจว่าทฤษฎีการออกเสียงที่อิงกับทรัพยากรที่มีอยู่จะดีกว่าในการคาดการณ์ว่าใครจะรายงานการลงคะแนน (ซึ่งเป็นข้อมูลที่นักวิจัยใช้ในอดีต) มากกว่าที่จะคาดการณ์ว่าใครโหวตจริง ดังนั้นการค้นพบเชิงประจักษ์ของ Ansolabehere and Hersh (2012) เรียกร้องให้ทฤษฎีใหม่ ๆ เพื่อทำความเข้าใจและคาดการณ์การลงคะแนนเสียง

แต่เราควรเชื่อถือผลลัพธ์เหล่านี้มากแค่ไหน? โปรดจำไว้ว่าผลลัพธ์เหล่านี้ขึ้นอยู่กับการเชื่อมโยงกับข้อผิดพลาดในการเชื่อมโยงไปยังข้อมูลในกล่องดำโดยไม่ทราบจำนวนข้อผิดพลาด โดยเฉพาะอย่างยิ่งผลที่ได้จากสองขั้นตอนสำคัญคือ (1) ความสามารถของ Catalist ในการรวบรวมแหล่งข้อมูลที่แตกต่างกันจำนวนมากเพื่อสร้างแฟ้มข้อมูลหลักที่ถูกต้องและ (2) ความสามารถของ Catalist ในการเชื่อมโยงข้อมูลการสำรวจไปยัง datafile ต้นแบบ แต่ละขั้นตอนเหล่านี้เป็นเรื่องยากและข้อผิดพลาดในขั้นตอนใดขั้นตอนหนึ่งอาจนำไปสู่ข้อสรุปที่ไม่ถูกต้อง อย่างไรก็ตามการประมวลผลและการเชื่อมโยงข้อมูลมีความสำคัญต่อการมีอยู่ของ Catalist ในฐานะ บริษัท ดังนั้นจึงสามารถลงทุนทรัพยากรในการแก้ปัญหาเหล่านี้ได้บ่อยครั้งในระดับที่นักวิจัยทางวิชาการไม่สามารถจับคู่ได้ ในเอกสารของพวกเขา Ansolabehere และ Hersh ดำเนินการตามขั้นตอนต่างๆเพื่อตรวจสอบผลลัพธ์ของทั้งสองขั้นตอนแม้ว่าบางส่วนจะเป็นกรรมสิทธิ์และการตรวจสอบเหล่านี้อาจเป็นประโยชน์สำหรับนักวิจัยรายอื่น ๆ ที่ต้องการเชื่อมโยงข้อมูลการสำรวจกับข้อมูลขนาดใหญ่ของกล่องดำ แหล่งที่มา

บทเรียนทั่วไปที่นักวิจัยสามารถหาได้จากการศึกษาครั้งนี้? ประการแรกมีคุณค่ามหาศาลทั้งจากการเสริมสร้างแหล่งข้อมูลขนาดใหญ่ที่มีข้อมูลจากการสำรวจและจากการเสริมสร้างข้อมูลการสำรวจด้วยข้อมูลขนาดใหญ่ (คุณสามารถดูการศึกษาฉบับนี้ได้) นักวิจัยสามารถทำอะไรบางอย่างที่เป็นไปไม่ได้กับทั้งสองแบบด้วยการรวมแหล่งข้อมูลเหล่านี้ไว้ด้วยกัน บทเรียนทั่วไปที่สองคือแม้ว่าแหล่งข้อมูลเชิงพาณิชย์เช่นข้อมูลจาก Catalist ไม่ควรถือว่าเป็น "ความจริงพื้นดิน" ในบางกรณีอาจเป็นประโยชน์ ผู้คลางแคลงมักเปรียบเทียบแหล่งข้อมูลเชิงพาณิชย์ที่มีข้อมูลสัมบูรณ์และชี้ให้เห็นว่าแหล่งข้อมูลเหล่านี้สั้นลง อย่างไรก็ตามในกรณีนี้ผู้คลางแคลงกำลังทำให้การเปรียบเทียบผิด: ข้อมูลทั้งหมดที่นักวิจัยใช้ไม่ได้จริง แต่ควรเปรียบเทียบแหล่งข้อมูลเชิงพาณิชย์กับแหล่งข้อมูลที่มีอยู่อื่น ๆ (เช่นพฤติกรรมการลงคะแนนที่รายงานด้วยตัวเอง) ซึ่งมักมีข้อผิดพลาดด้วยเช่นกัน สุดท้ายบทเรียนทั่วไปที่สามของ Ansolabehere และการศึกษาของ Hersh ก็คือในบางสถานการณ์นักวิจัยสามารถได้รับประโยชน์จากการลงทุนขนาดใหญ่ที่ บริษัท เอกชนจำนวนมากทำขึ้นในการรวบรวมและประสานข้อมูลทางสังคมที่ซับซ้อน