3.6.2 ขอ Enriched

แม้ว่ามันจะสามารถยุ่งขออุดมสามารถที่มีประสิทธิภาพ

วิธีการที่แตกต่างกันในการจัดการกับความไม่สมบูรณ์ของข้อมูลร่องรอยดิจิตอลคือการเสริมสร้างมันโดยตรงกับข้อมูลจากการสำรวจกระบวนการที่ฉันจะเรียกอุดมถาม ตัวอย่างหนึ่งของการขออุดมคือการศึกษาของ Burke and Kraut (2014) ซึ่งผมอธิบายไว้ก่อนหน้าในบท (มาตรา 3.2) เกี่ยวกับว่ามีปฏิสัมพันธ์บน Facebook เพิ่มความแข็งแรงมิตรภาพ ในกรณีที่เบิร์คและ Kraut รวมกับข้อมูลจากการสำรวจข้อมูลเข้าสู่ระบบ Facebook

การตั้งค่าที่เบิร์คและ Kraut กำลังทำงานอยู่ แต่นั่นหมายความว่าพวกเขาไม่ได้มีการจัดการกับสองปัญหาใหญ่ที่นักวิจัยทำอุดมถามใบหน้า ครั้งแรกที่จริงการเชื่อมโยงเข้าด้วยกันชุดข้อมูลกระบวนการที่เรียกว่าบันทึกการเชื่อมโยงการจับคู่ของการบันทึกในชุดหนึ่งที่มีการบันทึกที่เหมาะสมในชุดข้อมูลอื่น ๆ สามารถเป็นเรื่องยากและผิดพลาดได้ง่าย (เราจะดูตัวอย่างของปัญหาด้านล่างนี้นั้น ) ปัญหาหลักที่สองของการถามอุดมคือว่าคุณภาพของร่องรอยดิจิตอลบ่อยจะเป็นเรื่องยากสำหรับนักวิจัยที่จะประเมิน เช่นบางครั้งกระบวนการที่มันจะถูกเก็บรวบรวมเป็นกรรมสิทธิ์และอาจจะมีความเสี่ยงที่จะหลายปัญหาที่อธิบายไว้ในบทที่ 2 ในคำอื่น ๆ ขอให้อุดมบ่อยจะเกี่ยวข้องกับการเชื่อมโยงข้อผิดพลาดของการสำรวจไปยังแหล่งข้อมูลกล่องดำของที่ไม่รู้จัก คุณภาพ. แม้จะมีความกังวลว่าทั้งสองปัญหาแนะนำก็เป็นไปได้ที่จะดำเนินการวิจัยที่สำคัญกับกลยุทธ์นี้ตามที่ได้แสดงให้เห็นโดยสตีเฟ่นและ Ansolabehere ตัน Hersh (2012) ในการวิจัยของพวกเขาในรูปแบบการออกเสียงลงคะแนนในสหรัฐอเมริกา มันคุ้มค่าที่จะไปศึกษาในรายละเอียดบางอย่างเพราะหลายกลยุทธ์ที่ Ansolabehere และ Hersh พัฒนาจะเป็นประโยชน์ในการใช้งานอื่น ๆ ของการถามอุดม

เลือกผลิตภัณฑ์ได้รับเรื่องของการวิจัยอย่างกว้างขวางในด้านวิทยาศาสตร์ทางการเมืองและในอดีตที่ผ่านมาเข้าใจนักวิจัยของผู้ที่ลงมติและเหตุผลที่ได้รับโดยทั่วไปจากการวิเคราะห์ข้อมูลการสำรวจ การออกเสียงลงคะแนนในสหรัฐอเมริกา แต่เป็นพฤติกรรมที่ผิดปกติในบันทึกของรัฐบาลไม่ว่าจะเป็นพลเมืองแต่ละคนได้รับการโหวต (แน่นอนรัฐบาลไม่ได้บันทึกที่แต่ละคนโหวตพลเมืองสำหรับ) หลายปีที่ผ่านเหล่านี้บันทึกการออกเสียงลงคะแนนของรัฐบาลที่มีอยู่ในรูปแบบกระดาษมีฝนฟ้าคะนองกระจายในสำนักงานรัฐบาลท้องถิ่นต่าง ๆ ทั่วประเทศ นี่เองที่ทำให้มันยาก แต่เป็นไปไม่ได้สำหรับนักวิทยาศาสตร์ทางการเมืองที่จะมีภาพที่สมบูรณ์ของการเลือกตั้งและเปรียบเทียบสิ่งที่ผู้คนพูดว่าในการสำรวจเกี่ยวกับการออกเสียงลงคะแนนในการออกเสียงลงคะแนนพฤติกรรมจริงของพวกเขา (Ansolabehere and Hersh 2012)

แต่ตอนนี้เหล่านี้บันทึกการออกเสียงลงคะแนนที่ได้รับในรูปแบบดิจิตอลและจำนวนของ บริษัท เอกชนที่มีการเก็บรวบรวมอย่างเป็นระบบและรวมบันทึกการออกเสียงลงคะแนนในการผลิตเหล่านี้ไฟล์การออกเสียงลงคะแนนต้นแบบครบวงจรที่บันทึกพฤติกรรมการลงคะแนนเสียงของชาวอเมริกันทุกคน Ansolabehere และ Hersh ร่วมมือกับหนึ่งใน บริษัท เหล่านี้-Catalist LCC-เพื่อที่จะใช้ไฟล์ที่มีสิทธิออกเสียงเจ้านายของตนเพื่อช่วยพัฒนาภาพที่ดีขึ้นของการเลือกตั้ง ต่อไปเพราะมันอาศัยในบันทึกดิจิตอลเก็บรวบรวมและ curated โดย บริษัท มันให้จำนวนหนึ่งได้เปรียบกว่าความพยายามก่อนหน้านี้โดยนักวิจัยที่ได้รับการทำโดยความช่วยเหลือของ บริษัท และใช้บันทึกแบบอะนาล็อก

เช่นเดียวกับหลายแหล่งร่องรอยดิจิตอลในบทที่ 2 แฟ้มต้นแบบ Catalist ไม่ได้รวมมากของข้อมูลประชากรทัศนคติและพฤติกรรมที่ Ansolabehere และ Hersh จำเป็น นอกจากข้อมูลนี้ Ansolabehere และ Hersh มีความสนใจโดยเฉพาะอย่างยิ่งในการเปรียบเทียบรายงานพฤติกรรมการออกเสียงลงคะแนนในการออกเสียงลงคะแนนในการตรวจสอบพฤติกรรม (เช่นข้อมูลในฐานข้อมูล Catalist) ที่ ดังนั้นนักวิจัยเก็บรวบรวมข้อมูลที่พวกเขาต้องการเป็นส่วนหนึ่งของสหกรณ์รัฐสภาเลือกตั้งศึกษา (CCES) การสำรวจทางสังคมขนาดใหญ่ ถัดไปนักวิจัยให้ข้อมูลนี้เพื่อ Catalist และ Catalist ให้นักวิจัยกลับไฟล์ที่ผสานข้อมูลที่รวมการตรวจสอบพฤติกรรมการออกเสียงลงคะแนน (จาก Catalist) พฤติกรรมการออกเสียงลงคะแนนที่ตนเองรายงาน (จาก CCES) และประชากรและทัศนคติของผู้ตอบแบบสอบถาม (จาก CCES ) ในคำอื่น ๆ Ansolabehere และ Hersh อุดมข้อมูลการออกเสียงลงคะแนนที่มีการสำรวจข้อมูลและแฟ้มผสานช่วยให้พวกเขาทำสิ่งที่ไฟล์ไม่เปิดใช้งานเป็นรายบุคคล

โดยการเพิ่มคุณค่าแฟ้มข้อมูลหลัก Catalist กับข้อมูลการสำรวจและ Ansolabehere Hersh มาถึงสามข้อสรุปที่สำคัญ ครั้งแรกมากกว่าการรายงานของการลงคะแนนจะอาละวาด: เกือบครึ่งหนึ่งของผู้มีสิทธิเลือกตั้งที่ไม่รายงานการออกเสียงลงคะแนน หรือวิธีการมองมันอีกอย่างก็คือถ้ามีคนรายงานการออกเสียงลงคะแนนมีเพียง 80% ของพวกเขาเป็นจริงได้รับการโหวต ประการที่สองมากกว่าการรายงานไม่ได้สุ่ม มากกว่าการรายงานเป็นเรื่องธรรมดามากขึ้นในหมู่รายได้สูงมีการศึกษาดีสมัครพรรคพวกที่มีส่วนร่วมในกิจการสาธารณะ ในคำอื่น ๆ คนที่มักจะออกเสียงลงคะแนนนอกจากนี้ยังมีแนวโน้มที่จะโกหกเกี่ยวกับการออกเสียงลงคะแนน ประการที่สามและส่วนใหญ่วิกฤตเพราะธรรมชาติเป็นระบบมากกว่าการรายงานความแตกต่างที่เกิดขึ้นจริงระหว่างผู้มีสิทธิเลือกตั้งและผู้มีสิทธิเลือกตั้งที่ไม่-มีขนาดเล็กกว่าที่พวกเขาจะปรากฏจากการสำรวจ ตัวอย่างเช่นผู้ที่มีการศึกษาระดับปริญญาตรีอยู่ที่ประมาณ 22 เปอร์เซ็นต์จุดแนวโน้มที่จะรายงานการออกเสียงลงคะแนน แต่จะมีเพียง 10 คะแนนร้อยละแนวโน้มที่จะลงคะแนนเสียงที่เกิดขึ้นจริง นอกจากนี้ทฤษฎีฐานทรัพยากรที่มีอยู่ของการลงคะแนนมีมากดีกว่าที่คาดการณ์ที่จะรายงานการออกเสียงลงคะแนนมากกว่าคะแนนโหวตที่จริงมีการศึกษาเชิงประจักษ์ที่เรียกร้องให้ทฤษฎีใหม่ที่จะเข้าใจและคาดการณ์การออกเสียงลงคะแนน

แต่วิธีที่เราควรจะไว้วางใจผลเหล่านี้หรือไม่ โปรดจำไว้ว่าผลลัพธ์เหล่านี้ขึ้นอยู่กับการเชื่อมโยงผิดพลาดได้ง่ายข้อมูลกล่องดำที่มีจำนวนของข้อผิดพลาดที่ไม่รู้จัก โดยเฉพาะอย่างยิ่งผลขึ้นอยู่กับสองขั้นตอนสำคัญ: 1) ความสามารถของ Catalist จะรวมหลายแหล่งข้อมูลที่แตกต่างกันในการผลิต datafile หลักที่ถูกต้องและ 2) ความสามารถของ Catalist ที่จะเชื่อมโยงข้อมูลการสำรวจเพื่อ datafile เจ้านายของมัน แต่ละขั้นตอนเหล่านี้เป็นเรื่องยากมากและข้อผิดพลาดในขั้นตอนทั้งอาจนำไปสู่​​นักวิจัยที่จะข้อสรุปที่ไม่ถูกต้อง อย่างไรก็ตามทั้งการประมวลผลข้อมูลและการจับคู่มีความสำคัญต่อการดำรงอยู่อย่างต่อเนื่องของ Catalist เป็น บริษัท เพื่อที่จะสามารถลงทุนทรัพยากรในการแก้ปัญหาเหล​​่านี้มักจะอยู่ในระดับที่ไม่มีนักวิจัยทางวิชาการของแต่ละบุคคลหรือกลุ่มของนักวิจัยสามารถตรงกับ ในการอ่านเพิ่มเติมในตอนท้ายของบทที่ผมอธิบายปัญหาเหล​​่านี้ในรายละเอียดและวิธีการ Ansolabehere และ Hersh สร้างความเชื่อมั่นในผลของพวกเขา แม้ว่ารายละเอียดเหล่านี้มีเฉพาะในการศึกษาครั้งนี้ปัญหาที่คล้ายกันเหล่านี้จะเกิดขึ้นสำหรับนักวิจัยอื่น ๆ ที่ประสงค์จะเชื่อมโยงไปยังกล่องดำร่องรอยแหล่งข้อมูลดิจิตอล

อะไรคือบทเรียนทั่วไปนักวิจัยสามารถวาดจากการศึกษาครั้งนี้หรือไม่? แรกมีมูลค่ามหาศาลจากการเพิ่มคุณค่าร่องรอยดิจิตอลที่มีการสำรวจข้อมูล ประการที่สองแม้ว่าเหล่านี้รวบรวมแหล่งข้อมูลในเชิงพาณิชย์ไม่ควรได้รับการพิจารณา "พื้นความจริง" ในบางกรณีที่พวกเขาจะมีประโยชน์ ในความเป็นจริงมันเป็นเรื่องที่ดีที่สุดเพื่อเปรียบเทียบแหล่งที่มาของข้อมูลเหล่านี้ไม่จริงแน่นอน (จากการที่พวกเขามักจะตกสั้น) แต่มันจะดีกว่าที่จะเปรียบเทียบพวกเขาไปยังแหล่งข้อมูลอื่น ๆ ซึ่งคงเส้นคงวามีข้อผิดพลาดเช่นกัน