3.6.1 So'ralgan so'rov

Boyitilgan so'rovda tadqiqot ma'lumotlari katta miqdordagi o'lchovlarni o'z ichiga olgan katta ma'lumot manbai atrofida kontekst quradi, ammo boshqalarning etishmasligi.

So'rov ma'lumotlarini va katta ma'lumot manbalarini birlashtiradigan usullardan biri, boyitilgan so'rovni chaqiradigan jarayondir. Boyitilgan so'rovda katta ma'lumot manbai ba'zi muhim o'lchovlarni o'z ichiga oladi, ammo boshqa o'lchovlar yo'q, shuning uchun tadqiqotchi so'rovda bu etishmayotgan o'lchovlarni to'playdi va keyin ikkala ma'lumot manbasini bir-biri bilan bog'laydi. Boyitilgan Burke and Kraut (2014) bir misolidan Burke and Kraut (2014) Facebook-da o'zaro ta'sir o'tkazish do'stlik kuchini oshiradi yoki yo'qligini o'rganishadi Burke and Kraut (2014) 3.2-bobda aytib o'tganimdek). Bunday holda, Burke va Kraut Facebook-ning log ma'lumotlari bilan so'rov natijalarini birlashtirdi.

Burk va Krautning ishlashi shu bilan birga, tadqiqotchilar tadqiqotchilar odatda yuz berishni so'ragan ikkita katta muammo bilan shug'ullanishga majbur bo'lishmagan. Birinchidan, aslida bitta ma'lumotlar to'plamidagi to'g'ri yozuv to'g'ri qayd bilan mos kelishini ta'minlash uchun foydalanilishi mumkin bo'lgan har ikkala ma'lumot manbalarida noyob identifikator bo'lmasa, jismoniy darajadagi ma'lumotlar to'plamlarini birlashtirib, rekord aloqa deb nomlangan jarayon qiyin bo'lishi mumkin boshqa datasetda. Boyitilgan so'rov bilan bog'liq ikkinchi asosiy muammo shundaki, katta ma'lumot manbalarining sifati tadqiqotchilarning baholashini qiyinlashtiradi, chunki ma'lumotlar yaratilishi jarayoni mulkiy bo'lishi mumkin va 2-bobda tavsiflangan ko'plab muammolarga moyil bo'lishi mumkin. Boshqacha qilib aytganda, boyitilgan so'rovlar tez-tez so'rovlarni noma'lum sifatli qora quti ma'lumot manbalariga bog'lashda xatolikka yo'l qo'yadi. Biroq, bu muammolarga qaramasdan, boyitilgan so'rov Stefan Ansolabehere va Eitan Hers (2012) tomonidan Amerika Qo'shma Shtatlaridagi ovoz berish tartib-qoidalari bo'yicha o'z tadqiqotlarida ko'rsatganidek muhim tadqiqotlarni o'tkazish uchun ishlatilishi mumkin.

Saylovchilarning ishtiroki siyosatshunoslik sohasida keng qamrovli tadqiqotlar mavzusi bo'ldi va o'tmishda tadqiqotchilarning kimning ovozi va nima uchun odatda so'rov ma'lumotlari tahliliga asoslanganligi tushunilgan. Qo'shma Shtatlarda ovoz berish, har bir fuqaro ovoz bergan-qilmagani (hukumat, har bir fuqaroning kim ovoz bergani haqida yozmaydi) qayd qiladi. Ko'p yillar mobaynida ushbu hukumatlardagi ovoz berish yozuvlari mamlakatning turli hududiy idoralarida tarqalgan qog'oz shakllari bo'yicha taqdim etilgan. Bu siyosatshunoslarning saylovchilar haqida to'liq tasavvurga ega bo'lishlari va ovoz berish bo'yicha so'rovlarda ularning haqiqiy ovoz berish xatti-harakatlarini (Ansolabehere and Hersh 2012) solishtirgani bilan solishtirish juda qiyin, ammo imkonsiz bo'ldi.

Biroq, bu ovoz berish yozuvlari raqamlashtirildi va bir qator xususiy kompaniyalar muntazam yig'ilib, barcha amerikaliklarning ovoz berish xatti-harakatlarini o'z ichiga olgan to'liq ovoz berish fayllarini ishlab chiqarish uchun birlashdilar. Ansolabehere va Hersh, ushbu kompaniyalardan biri - Kataliziy LCCni - saylovchilarning yaxshi rasmini ishlab chiqish uchun o'zlarining ovoz berish fayllaridan foydalanish uchun hamkorlik qildilar. Bundan tashqari, ularning tadqiqotlari ma'lumotlar to'plash va uyg'unlashtirishda muhim resurslarni investitsiyalashtirgan kompaniya tomonidan to'plangan va qayta ishlangan raqamli yozuvlarga asoslanganligi sababli, kompaniyaning yordamisiz amalga oshirilgan oldingi sa'y-harakatlar va analog yozuvlardan foydalangan holda bir qator afzalliklarni taqdim etdi.

2-bobdagi katta ma'lumot manbalarining ko'pchiligidek, Katalizatorning asosiy faylida Ansolabehere va Hershga kerak bo'lgan demografik, tushunarli va qiziqishdagi ma'lumotlarning ko'pi yo'q. Haqiqatan ham, ular so'rovlarda ovoz berish tartib-qoidalarini tasdiqlangan ovoz berish harakati bilan taqqoslashda ayniqsa qiziqish bildirishgan (ya'ni, katalizatorlar bazasidagi ma'lumot). Shunday qilib, Ansolabehere va Hersh, ushbu bobning yuqorida aytib o'tilgan katta ijtimoiy so'rovnoma sifatida istagan ma'lumotlarini to'plashdi. Keyinchalik ular katalizatorga ma'lumot berganlar va Katalist ularga tasdiqlangan ovoz berish xatti-harakatini (Katalizadan), o'z-o'zini hisobot berish ovoz berish tartibini (CCES dan) va respondentlarning demografiyasi va munosabatini (CCES dan) 3.13). Boshqacha qilib aytganda, Ansolabehere va Hers ovoz berish ma'lumotlarini tadqiqot ma'lumotlari bilan birgalikda tadqiq qilish uchun birlashtirdi, bu esa ma'lumotlar manbai bilan alohida emas edi.

3.13-rasm: Ansolabehere va Hersh tomonidan o'rganishning chizma (2012). Asosiy ma'lumotlar bazasini yaratish uchun katalizator turli xil manbalardan ma'lumotlarni to'playdi va uyg'unlaydi. Birlashtirilish jarayoni, qanchalik ehtiyot bo'lishidan qat'iy nazar, asl ma'lumot manbalarida xatoliklarni targ'ib qiladi va yangi xatoliklarni keltirib chiqaradi. Ikkinchidan, xatolar manbai - tadqiqot ma'lumoti va asosiy ma'lumotlar bazasi o'rtasida rekord aloqa. Agar har bir kishi har ikkala ma'lumot manbalarida barqaror, noyob identifikatorga ega bo'lsa, unda bog'lanish ahamiyatsiz bo'ladi. Biroq, Katalizator nomini, jinsini, tug'ilgan yili va uy manzili nomukammal identifikatorlarni qo'llash orqali amalga oshirishi kerak edi. Afsuski, ko'p holatlarda to'liq bo'lmagan yoki noto'g'ri ma'lumotlar bo'lishi mumkin; Homer Simpson ismli saylovchi Homer Jey Simpson, Homie J Simpson yoki hatto Homer Sampsin kabi ko'rinishi mumkin. Kataliziyadagi ma'lumotlar bazasidagi ma'lumotlar bazasidagi xatoliklar va rekord aloqada xatolar bo'lishiga qaramasdan, Ansolabehere va Hersh bir nechta turli xil tekshiruvlar orqali ularning hisob-kitoblariga ishonchni qozonishga muvaffaq bo'lishdi.

3.13-rasm: Ansolabehere and Hersh (2012) tomonidan o'rganishning Ansolabehere and Hersh (2012) . Asosiy ma'lumotlar bazasini yaratish uchun katalizator turli xil manbalardan ma'lumotlarni to'playdi va uyg'unlaydi. Birlashtirilish jarayoni, qanchalik ehtiyot bo'lishidan qat'iy nazar, asl ma'lumot manbalarida xatoliklarni targ'ib qiladi va yangi xatoliklarni keltirib chiqaradi. Ikkinchidan, xatolar manbai - tadqiqot ma'lumoti va asosiy ma'lumotlar bazasi o'rtasida rekord aloqa. Agar har bir kishi har ikkala ma'lumot manbalarida barqaror, noyob identifikatorga ega bo'lsa, unda bog'lanish ahamiyatsiz bo'ladi. Biroq, Katalizator nomini, jinsini, tug'ilgan yili va uy manzili nomukammal identifikatorlarni qo'llash orqali amalga oshirishi kerak edi. Afsuski, ko'p holatlarda to'liq bo'lmagan yoki noto'g'ri ma'lumotlar bo'lishi mumkin; Homer Simpson ismli saylovchi Homer Jey Simpson, Homie J Simpson yoki hatto Homer Sampsin kabi ko'rinishi mumkin. Kataliziyadagi ma'lumotlar bazasidagi ma'lumotlar bazasidagi xatoliklar va rekord aloqada xatolar bo'lishiga qaramasdan, Ansolabehere va Hersh bir nechta turli xil tekshiruvlar orqali ularning hisob-kitoblariga ishonchni qozonishga muvaffaq bo'lishdi.

Birlashtirilgan ma'lumotlar fayli bilan Ansolabehere va Hersh uch muhim xulosaga kelishdi. Birinchidan, ovoz berishning haddan tashqari ko'pligi keng tarqalgan: saylovchilarning qariyb yarmi ovoz berishni bildirgan va agar kimdir ovoz berish haqida xabar bergan bo'lsa, ular faqatgina 80 foiz ovoz berishgan. Ikkinchidan, ortiqcha hisobot berish tasodifiy emas: yuqori darajadagi hisobot yuqori daromadli, yaxshi ma'lumotli, jamoatchilik bilan shug'ullanadigan partizanlar orasida keng tarqalgan. Boshqacha qilib aytadigan bo'lsak, ovoz berishda eng ko'p ishtirok etadigan odamlar ham ovoz berishda yolg'on gapirishadi. Uchinchidan, va eng tanqidiy, chunki ko'p hisobot berishning muntazam ravishda o'tkazilayotganligi sababli, saylovchilar va noqonuniy bo'lmaganlar o'rtasidagi haqiqiy farqlar tadqiqotlardan faqatgina kichikroq. Misol uchun, bakalavr darajasiga ega bo'lganlar ovoz berishning taxminan 22 foiz punktiga teng, ammo ovoz berishda faqat 10 foiz ko'proq. Ko'rinib turibdiki, saylovchilarning ovozini kimga bildirishi haqida oldindan aytish mumkin bo'lgan (ehtimol, tadqiqotchilar o'tmishda foydalangan ma'lumotlar) kimning ovozi borligini oldindan aytishdan ko'ra, mavjud resurslarga asoslangan ovoz berish nazariyalari juda yaxshi. Shunday qilib, Ansolabehere and Hersh (2012) ampirik topilishi Ansolabehere and Hersh (2012) yangi nazariyani ovoz berishni tushunish va prognoz qilishni talab qiladi.

Ammo, bu natijalarga qanchalik ishonishimiz kerak? Unutmangki, bu natijalar noma'lum miqdorda xatolikka ega bo'lgan qora quti ma'lumotlariga aloqador xatoga bog'liq. Keyinchalik, natijalar ikkita asosiy bosqichga bog'liq: (1) katalizatorning aniq ma'lumotlar bazasini yaratish uchun turli xil ma'lumot manbalarini birlashtirishga qobiliyatini va (2) katalizatorning tadqiqot ma'lumotlarini master datafile bilan bog'lash qobiliyatini. Ushbu qadamlarning har biri qiyin va har ikki bosqichdagi xatolar tadqiqotchilarni noto'g'ri xulosalarga olib kelishi mumkin. Biroq, har ikkala ma'lumotni qayta ishlash va bog'lash ham katalizatorning kompaniya sifatida davom etishi uchun juda muhimdir, shuning uchun hech qanday akademik tadqiqotchining mos kelmaydigan darajada ushbu muammolarni hal qilish uchun resurslarni sarflashi mumkin. Ansolabehere va Hersh o'z maqolalarida ushbu ikki bosqichning natijalarini tekshirish uchun bir nechta qadamlar qo'ygan. Garchi ularning ba'zilari mulkiy bo'lsa-da, bu tekshiruvlar tadqiqot ma'lumotlarini qora quti katta ma'lumotlarga bog'lashni xohlaydigan boshqa tadqiqotchilar uchun foydali bo'lishi mumkin. manbalari.

Ushbu darslikdan umumiy darslar olib boruvchi tadqiqotchilar nima qilishlari mumkin? Birinchidan, katta ma'lumot manbalarini so'rov ma'lumotlari bilan boyitish va tadqiqot ma'lumotlarini katta ma'lumot manbalari bilan boyitishdan juda katta qadriyat mavjud (bu ishni har qanday yo'l bilan ham ko'rishingiz mumkin). Ushbu ikki ma'lumot manbasini birlashtirib, tadqiqotchilar alohida-alohida yoki imkonsiz narsalarni qilishdi. Ikkinchi umumiy dars bo'lsa, katalizator ma'lumoti kabi tijorat ma'lumotlarni yig'ish manbalari "yer haqiqati" deb hisoblanmasligi kerak bo'lsa-da, ba'zi hollarda foydali bo'lishi mumkin. Skeptiklar ba'zida bu agregat, tijoriy ma'lumotlar manbasini mutlaq haqiqat bilan taqqoslashadi va bu ma'lumot manbalarining qisqarishiga ishora qiladilar. Biroq, bu holatda, skeptiklar noto'g'ri taqqoslashni amalga oshiradilar: tadqiqotchilarning mutlaq haqiqatdan kam foydalanadigan barcha ma'lumotlari. Buning o'rniga, to'plangan, tijorat ma'lumot manbalarini mavjud bo'lgan boshqa ma'lumot manbalari (masalan, o'z-o'zini hisobot qilgan ovoz berish xatti-harakati) bilan solishtirish yaxshiroqdir. Nihoyat, Ansolabehere va Hershning tadqiqotining uchinchi umumiy darsi, ayrim hollarda, tadqiqotchilar ko'plab xususiy kompaniyalarning murakkab ijtimoiy ma'lumotlar to'plamlarini to'plash va uyg'unlashtirishda katta investitsiyalardan foydalanishlari mumkin.