3.6.1 Байытылған сұрақ

Байытылған сұрақта сауалнама деректері кейбір маңызды өлшемдерді қамтитын, бірақ басқа болмаған үлкен дерек көзінің айналасындағы мәтінді құрастырады.

Сауалдама деректерін және үлкен деректер көздерін біріктірудің бір жолы - бұл сұрақ тудыратын сұрақ тудыратын процесс. Байытылған сұрақта үлкен деректер көзі кейбір маңызды өлшемдерді қамтиды, бірақ басқа өлшемдер жоқ, сондықтан зерттеуші бұл жетіспейтін өлшеулерді сауалнамада жинайды және екі дерек көзін біріктіреді. Байытылған сұрақтың мысалы мысалында, Burke and Kraut (2014) Facebook-та өзара әрекеттесудің достық күшінің жоғарылағандығы туралы Burke and Kraut (2014) 3.2 бөлімде сипатталғандай Burke and Kraut (2014) зерттеуі болып табылады. Бұл жағдайда Burke және Kraut Facebook журнал деректерімен сауалнама деректерін біріктірді.

Алайда, Бурк пен Краут жұмыс істейтін жағдай, зерттеушілердің әдеттегідей сұраған байытқан екі үлкен проблемамен айналысуға тура келмейтінін білдірді. Алдымен, бір деректер жиынтығындағы дұрыс жазба дұрыс жазба арқылы сәйкестігін қамтамасыз ету үшін пайдаланылуы мүмкін деректер көздерінде бірегей идентификатор болмаған жағдайда, жеке деңгейдегі деректер жинақтарын нақты байланыстыру, жазба байланысы деп аталатын процесс қиын болуы мүмкін басқа деректер жиынтығында. Байытылған сұраныстағы екінші негізгі мәселе зерттеушілердің бағалауы үшін үлкен деректер көзінің сапасын жиі қиындықтар тудырады, өйткені деректер жасалатын үдеріс патенттелген болуы мүмкін және 2-тарауда сипатталған мәселелердің көпшілігіне сезімтал болуы мүмкін. Басқаша айтқанда, байытылған сұрақ жиі қателесіп, сауалнамаларды белгісіз сападағы қара-қорап деректер көздеріне байланыстырады. Алайда, осы проблемаларға қарамастан, байытылған сұрақ Стивен Ансолабехер мен Эитан Хершпен (2012) Құрама Штаттардағы дауыс беру үлгілері туралы зерттеулерінде көрсеткендей, маңызды зерттеулер жүргізу үшін пайдаланылуы мүмкін.

Сайлаушылардың қатысуы саясаттану саласындағы ауқымды зерттеулердің тақырыбы болды, ал өткен кезеңде зерттеушілердің дауыстарды кім қабылдайтынын түсіндірді және неліктен зерттеу деректерін талдауға негізделді. Алайда Құрама Штаттарда дауыс беру үкімет әрбір азаматтың дауыс бергені туралы жазады (әрине, үкімет әрбір азаматтың кім дауыс бергенін жазмайды). Көптеген жылдар бойы бұл үкіметтік дауыс беру қағаздары қағаз бетінде қол жетімді болды, елдегі әр түрлі жергілікті билік орындарында шашыраңқы болды. Бұл саяси ғалымдарға сайлаушылардың толық бейнесін беруі және дауыс беру туралы сауалнамаларда дауыс берудің шынайы мінез-құлқымен (Ansolabehere and Hersh 2012) адамдармен салыстырғанын салыстыру өте қиын, бірақ мүмкін емес.

Бірақ бұл дауыс беру жазбалары цифрландырылды, ал бірқатар жеке компаниялар жүйелі түрде барлық американдықтардың дауыс беру әрекеттерін қамтитын толық мастералды дауыс беру файлдарын шығару үшін жүйелі түрде жинады және біріктірді. Ansolabehere және Hersh, осы компаниялардың бірі - Catalist LCC-ті сайлаушылардың жақсы суретін қалыптастыруға көмектесу үшін өздерінің мастерлік дауыс беру файлдарын пайдалану үшін серіктестік жасады. Бұдан басқа, оларды зерттеу деректер жинау және үйлестіруге айтарлықтай қаражат жұмсаған компаниялардың жиналған және басқарған сандық жазбаларына негізделген, сондықтан компаниялардың көмегінсіз және аналогтық жазбаларды пайдаланбай өткен бұрынғы күш-жігерге қарағанда бірқатар артықшылықтар ұсынды.

2-тараудағы көптеген деректер көздері сияқты, Каталист мастер-философиясы Ансолаберже мен Хершке қажетті демографиялық, түсіндірме және мінез-құлық туралы мәліметтерді қамтыған жоқ. Шын мәнінде, олар дауыс берудің дауыс беру тәртібімен (мысалы, Каталистің деректер базасындағы ақпаратпен) сауалнамаларда дауыс берудің мінез-құлқын салыстыруды аса қызықтырды. Осылайша, Ансолабере және Херш өздеріне осы тарауда айтылған үлкен әлеуметтік сауалнама ретінде келетін деректерді жинады. Содан кейін олар Каталистке мәлімет берді, ал Каталист оларды жарамды дауыс беру тәртібін (Каталистен), өзін-өзі хабардар етудің дауыс беру тәртібін (ККЖЖ-дан) және респонденттердің демографиялықтығы мен көзқарастарын (CCES-тен) 3.13). Басқаша айтқанда, Ансолабере және Херш дауыс беру деректерін зерттеу мәліметтерімен бірге біріктірді, бұл деректер көзімен жеке мүмкін болмады.

3.13 сурет: Ансолаберердің және Херштің зерттеуінің схемасы (2012). Негізгі деректерді жасау үшін катализатор әртүрлі дереккөздердегі ақпаратты біріктіреді және үйлестіреді. Біріктіру процесі, мұқият болғанымен, бастапқы деректер көздеріндегі қателерді таратады және жаңа қателерді енгізеді. Екінші қате көзі - сауалнама деректері мен негізгі деректердің арасындағы жазбаша байланыс. Егер әрбір адам дерек көздерінде тұрақты, бірегей идентификаторға ие болса, онда сілтеме тривиальды болар еді. Бірақ, катализатор бұл атаумен, жыныспен, туған жылы мен үй мекен-жайында жетілмеген идентификаторларды пайдаланып байланыс жасауы керек еді. Өкінішке орай, көптеген жағдайларда толық емес немесе дұрыс емес ақпарат болуы мүмкін; Гомер Симпсон деп аталатын сайлаушы Гомер Джей Симпсон, Гоми Дж Симпсон немесе тіпті Гомер Сампсин секілді болуы мүмкін. Каталисттік мастер-дереккөздердегі қателіктерге қарамастан және рекордтық байланыстағы қателіктерге қарамастан, Ansolabehere және Hersh бірнеше түрлі тексерулер арқылы өздерінің бағалауына сенім арта алды.

3.13 сурет: Ansolabehere and Hersh (2012) зерттеуінің схемасы Ansolabehere and Hersh (2012) . Негізгі деректерді жасау үшін катализатор әртүрлі дереккөздердегі ақпаратты біріктіреді және үйлестіреді. Біріктіру процесі, мұқият болғанымен, бастапқы деректер көздеріндегі қателерді таратады және жаңа қателерді енгізеді. Екінші қате көзі - сауалнама деректері мен негізгі деректердің арасындағы жазбаша байланыс. Егер әрбір адам дерек көздерінде тұрақты, бірегей идентификаторға ие болса, онда сілтеме тривиальды болар еді. Бірақ, катализатор бұл атаумен, жыныспен, туған жылы мен үй мекен-жайында жетілмеген идентификаторларды пайдаланып байланыс жасауы керек еді. Өкінішке орай, көптеген жағдайларда толық емес немесе дұрыс емес ақпарат болуы мүмкін; Гомер Симпсон деп аталатын сайлаушы Гомер Джей Симпсон, Гоми Дж Симпсон немесе тіпті Гомер Сампсин секілді болуы мүмкін. Каталисттік мастер-дереккөздердегі қателіктерге қарамастан және рекордтық байланыстағы қателіктерге қарамастан, Ansolabehere және Hersh бірнеше түрлі тексерулер арқылы өздерінің бағалауына сенім арта алды.

Аралас деректер файлы арқылы Ансолабере және Херш үш маңызды қорытындыға келді. Біріншіден, дауыс берудің шамадан тыс болып жатқандығы туралы хабарлау: дауыс беруге қатысушылардың жартысына жуығы дауыс беру туралы хабарлады, ал біреу дауыс беру туралы хабардар болса, олардың нақты дауыс бергені 80% ғана. Екіншіден, шамадан тыс есеп беру кездейсоқ емес: жоғары деңгейде хабарлау жоғары білімді, жақсы білімді, мемлекеттік істермен айналысатын партизандар арасында жиі кездеседі. Басқаша айтқанда, дауыс беруге барынша ықылас білдіретін адамдар да бар. Үшіншіден, ең қатал, есептердің жүйелі сипатына байланысты, сайлаушылар мен қарыз алушылар арасындағы нақты айырмашылықтар тек сауалнамадан көрінгеннен аз. Мысалы, бакалавр дәрежесі бар тұлғалар дауыс беру туралы 22 пайыздық пунктке артық болып отыр, бірақ дауыс беру үшін 10 пайыздық тармақ ғана мүмкін. Шындығында, дауыс берудің қолданыстағы ресурстық негізделген теориялары кімнің шынымен дауыс бергенін болжауға қарағанда, кімнің дауыс беруі туралы хабарлауы туралы алдын-ала болжауда әлдеқайда жақсы (мысалы, зерттеушілер бұрын қолданған деректер). Осылайша, Ansolabehere and Hersh (2012) эмпирикалық Ansolabehere and Hersh (2012) жаңа теорияларға дауыс беруді түсінуге және болжауға мүмкіндік береді.

Бірақ бұл нәтижелерге қаншалықты сенім артуымыз керек? Есіңізде болсын, бұл нәтижелер қате мәліметсіз қара-қорап деректеріне байланысты қателіктердің белгісіз санына байланысты. Нақтырақ айтсақ, нәтижелер екі негізгі қадамға байланысты: (1) катализатордың нақты дерекқордың деректерін алу үшін көптеген деректер көздерін біріктіру қабілеті және (2) катализатордың сауал деректерін оның негізгі деректеріне байланыстыру мүмкіндігі. Бұл қадамдардың әрқайсысы қиын, ал кез келген қадамдағы қателіктер зерттеушілерді дұрыс емес тұжырымдарға әкелуі мүмкін. Дегенмен, деректерді өңдеу және байланыстыру катализатордың компания ретінде өмір сүруі үшін өте маңызды, сондықтан бұл проблемаларды шешуге ресурстарды жұмсай алады, жиі ешқандай академиялық зерттеуші сәйкес келмейтін ауқымда. Өз жұмыстарында Ансолабере және Херш бұл екі қадамның нәтижелерін тексеру үшін бірқатар қадамдар жасайды - олардың кейбіреулері меншік болып табылады, және бұл тексерістер сауал деректерін қара-үлкен деректерге байланыстырғысы келетін басқа зерттеушілер үшін пайдалы болуы мүмкін көздер.

Осы зерттеуден жалпы сабақтарды зерттеушілер не істей алады? Біріншіден, зерттеу деректерімен үлкен деректер көздерін байыту және үлкен дерек көздерімен сауалнама деректерін байытудан үлкен құндылық бар (бұл зерттеуді басқа жолмен көруге болады). Осы екі деректер көздерін біріктіре отырып, зерттеушілер жеке-дара мүмкін емес нәрсені жасай алды. Екінші жалпы сабақ, катализатордың деректері сияқты коммерциялық деректер көздерінің біріктірілуіне қарамастан, кейбір жағдайларда «пайдалы» болуы мүмкін. Скептиктер кейде бұл жинақталған, коммерциялық деректер көзін абсолюттік шындықпен салыстырады және осы деректер көздерінің қысқаруына назар аударады. Алайда, бұл жағдайда, скептиктер дұрыс емес салыстыру жүргізеді: зерттеушілер абсолюттік шындыққа жетпейтін барлық деректер. Оның орнына, жинақталған, коммерциялық деректер көздерін басқа қол жетімді деректер көздерімен (мысалы, өздігінен хабарланған дауыс беру әрекеттері) салыстырып көріңіз, ол әрдайым қателіктерге ие. Соңында, Ансолаберердің және Херштің зерттеуінің үшінші жалпы сабағы, кейбір жағдайларда, зерттеушілер көптеген жеке компаниялар күрделі әлеуметтік деректер жиынтығын жинау мен үйлестіруде үлкен инвестициялардың пайдасын көре алады.