3.6.1 Збогатен прашалник

Во збогатеното поставување, податоците од истражувањето го градат контекстот околу еден голем извор на податоци кој содржи некои важни мерења, но немаат други.

Еден начин да ги комбинираме податоците од анкетата и големите извори на податоци е процес што ќе го наречам збогатен со барање . Во збогатен прашањето, голем извор на податоци содржи некои важни мерења, но нема други мерења, па истражувачот ги собира овие исчезнати мерења во анкетата, а потоа ги поврзува двата извори на податоци заедно. Еден пример за збогатување на прашањето е студијата на Burke and Kraut (2014) за тоа дали интеракцијата на Фејсбук ја зголемува силата на пријателство, што ја опишав во делот 3.2). Во тој случај, Бурк и Краут ги комбинираа податоците за податоците со податоци на Фејсбук.

Поставката во која Бурк и Краут работеа, сепак, значеше дека тие не мораа да се справат со два големи проблеми кои истражувачите што го прават збогатувани поставуваат обично се соочуваат. Прво, всушност, ги поврзува заедно комплети на индивидуално-ниво на податоци, процес наречен рекорд поврзување, може да биде тешко, ако не постои единствен идентификатор во двата извори на податоци кои можат да се користат за да се осигура дека точниот рекорд во една базата се совпаѓа со точна евиденција во други податоци. Вториот главен проблем со збогатено барање е дека квалитетот на големиот извор на податоци често ќе биде тежок за истражувачите да проценат, бидејќи процесот преку кој се создаваат податоците може да биде неслободен и би можел да биде подложен на многу од проблемите опишани во поглавјето 2. Со други зборови, збогатеното поставување честопати ќе вклучи поврзување на анкетите со црно-кутија податоци со непознат квалитет. И покрај овие проблеми, сепак, збогатеното поставување може да се искористи за да се спроведат важни истражувања, како што покажаа Стивен Ансолабехере и Ејтан Херш (2012) во нивното истражување за моделите на гласање во САД.

Одѕивот на гласачите беше предмет на детално истражување во политичките науки, а во минатото, разбирањето на истражувачите за тоа кои гласови и зошто генерално се базираа на анализата на податоците од истражувањето. Гласањето во САД, сепак, е невообичаено однесување во тоа што владата евидентира дали секој граѓанин гласал (се разбира, владата не запишува за кого секој граѓанин гласа). Долги години, овие владини записи за гласање беа достапни на хартија, расфрлани во различни локални владини канцеларии низ целата земја. Ова го направи многу тешко, но не и невозможно, политичките научници да имаат целосна слика за електоратот и да споредат што велат луѓето во анкетите за гласање со нивното вистинско гласачко однесување (Ansolabehere and Hersh 2012) .

Но, овие записи за гласање сега се дигитализирани, а голем број приватни компании систематски ги собраа и ги споија за да произведат сеопфатни датотеки за гласовни гласања кои го содржат гласачкото однесување на сите Американци. Ansolabehere и Hersh соработувале со една од овие компании - катализатор LCC - со цел да го искористат својот говор за гласање за да помогнат во развојот на подобра слика на електоратот. Понатаму, бидејќи нивната студија се потпирала на дигиталните записи собрани и куратирани од страна на компанија која инвестирала значителни ресурси за собирање и усогласување на податоците, таа понудила неколку предности во однос на претходните напори што биле направени без помош на компании и со користење на аналогни записи.

Како и многу други големи извори на податоци во поглавјето 2, главната датотека на Катализатор не вклучуваше голем дел од демографските, ставодните и бихејвиоралните информации што им беа потребни на Ansolabehere и Hersh. Всушност, тие беа особено заинтересирани за споредување на пријавено гласачко однесување во анкети со потврдено однесување за гласање (т.е. информациите во базата на Катализатор). Значи Ansolabehere и Hersh ги собраа податоците што ги сакаа како големо општествено истражување, CCES, споменато погоре во ова поглавје. Потоа тие им ги дадоа своите податоци на Катализатор, а Катализатот им ја врати датотеката со споени податоци која вклучуваше потврдено однесување за гласање (од Катализатор), самоопределено гласачко однесување (од CCES) и демографијата и ставовите на испитаниците (од CCES) 3.13). Со други зборови, Ansolabehere и Hersh ги комбинирале податоците за евиденцијата на гласањето со податоците од истражувањето со цел да направат истражување кое не било можно со извор на податоци поединечно.

Слика 3.13: Шема на студијата на Ансолахехере и Херш (2012). За да се создаде главната datafile, Catalist ги комбинира и усогласува информациите од многу различни извори. Овој процес на спојување, без оглед колку е внимателен, ќе пропагира грешки во оригиналните извори на податоци и ќе воведе нови грешки. Вториот извор на грешки е рекордната поврзаност помеѓу податоците од истражувањето и главната податочна датотека. Ако секој човек имал стабилен, единствен идентификатор во двата извори на податоци, тогаш поврзаноста би била тривијална. Но, Каталистот мораше да ја направи врската со користење на несовршени идентификатори, во овој случај името, полот, годината на раѓање и домашната адреса. За жал, за многу случаи може да има нецелосни или неточни информации; гласачот по име Хомер Симпсон може да се појави како Хомер Џеј Симпсон, Хоми Џ Симпсон, па дури и Хомер Сампсон. И покрај потенцијалот за грешки во матичната датотека на Катализатор и грешките во рекордното поврзување, Ансолабехере и Херш успеаја да изградат доверба во нивните проценки преку неколку различни видови проверки.

Слика 3.13: Шема на студијата на Ansolabehere and Hersh (2012) . За да се создаде главната datafile, Catalist ги комбинира и усогласува информациите од многу различни извори. Овој процес на спојување, без оглед колку е внимателен, ќе пропагира грешки во оригиналните извори на податоци и ќе воведе нови грешки. Вториот извор на грешки е рекордната поврзаност помеѓу податоците од истражувањето и главната податочна датотека. Ако секој човек имал стабилен, единствен идентификатор во двата извори на податоци, тогаш поврзаноста би била тривијална. Но, Каталистот мораше да ја направи врската со користење на несовршени идентификатори, во овој случај името, полот, годината на раѓање и домашната адреса. За жал, за многу случаи може да има нецелосни или неточни информации; гласачот по име Хомер Симпсон може да се појави како Хомер Џеј Симпсон, Хоми Џ Симпсон, па дури и Хомер Сампсон. И покрај потенцијалот за грешки во матичната датотека на Катализатор и грешките во рекордното поврзување, Ансолабехере и Херш успеаја да изградат доверба во нивните проценки преку неколку различни видови проверки.

Со нивната комбинирана датотека со податоци, Ансолахехере и Херш дојдоа до три важни заклучоци. Прво, прекумерното известување за гласањето е неконтролирано: скоро половина од гласачите пријавиле гласање, а ако некој пријавил гласање, има само 80% шанса дека всушност гласале. Второ, прекумерното известување не е случајно: прекумерното известување е почеста кај високопризнатите, добро образовани, партизани кои се занимаваат со јавни работи. Со други зборови, луѓето кои најверојатно ќе гласаат, исто така, најверојатно ќе лажат за гласање. Трето, и најкритички, поради систематскиот карактер на прекумерно известување, вистинските разлики помеѓу гласачите и непроценките се помали отколку што се појавуваат само од анкети. На пример, оние со диплома имаат околу 22 процентни поени со поголема веројатност да пријават гласање, но имаат само 10 процентни поени поголема веројатност да гласаат. Излегува, можеби не е изненадувачки, дека постојните теории за гласање базирани на ресурси се многу подобри во предвидувањето на тоа кој ќе го пријави гласањето (што се податоците што истражувачите ги користеле во минатото) отколку што предвидуваат кој всушност гласа. Така, емпирискиот наод на Ansolabehere and Hersh (2012) бара нови теории да го разберат и да го предвидат гласањето.

Но, колку треба да им веруваме на овие резултати? Запомнете, овие резултати зависат од грешки кои се поврзуваат со податоци со црна кутија со непознати количини на грешки. Поконкретно, резултатите зависат од два клучни чекори: (1) способноста на Каталистите да комбинираат многу различни извори на податоци за да произведат прецизна говорна датотека за податоци и (2) способноста на Катализаторот да ги поврзе податоците од истражувањето со нејзината матична датотека со податоци. Секој од овие чекори е тежок, а грешките во секој чекор може да доведат до погрешни заклучоци на истражувачите. Сепак, обработката и поврзувањето на податоците се од клучно значење за континуираното постоење на катализатор како компанија, така што може да инвестира ресурси за решавање на овие проблеми, често во обем што ниту еден академски истражувач не може да го совлада. Во нивниот труд, Ансолахехере и Херш одат низ неколку чекори за да ги проверат резултатите од овие два чекори - иако некои од нив се неслободни - и овие проверки би можеле да бидат корисни за други истражувачи кои сакаат да ги поврзат податоците од анкетата со големи податоци со црна кутија извори.

Кои се општите лекции што истражувачите можат да ги извлечат од оваа студија? Прво, постои огромна вредност и од збогатувањето на големите извори на податоци со податоците од анкетите и од збогатувањето на податоците од анкетата со големи извори на податоци (оваа студија може да се види и во секој случај). Со комбинирање на овие два извори на податоци, истражувачите успеале да направат нешто што било невозможно, било поединечно. Втората генерална лекција е дека иако агрегираните, комерцијални извори на податоци, како што се податоците од Катализатор, не треба да се сметаат за "вистинска вистина", во некои случаи тие можат да бидат корисни. Скептиците понекогаш го споредуваат овој агрегиран, комерцијален извор на податоци со апсолутна Вистина и истакнуваат дека овие извори на податоци се кратки. Меѓутоа, во овој случај, скептиците прават погрешна споредба: сите податоци што истражувачите ги користат не спаѓаат во апсолутна Вистина. Наместо тоа, подобро е да се споредат агрегирани, комерцијални извори на податоци со други достапни извори на податоци (на пример, само-пријавено гласачко однесување), кои секогаш имаат грешки. Конечно, третата општа лекција од студијата Ansolabehere и Hersh е дека во некои ситуации, истражувачите можат да имаат корист од големите инвестиции што многу приватни компании ги прават во собирањето и усогласувањето на сложените множества на социјални податоци.