3.6.2 Збогатен прашува

Иако тоа може да биде неуредна, збогатен поставување може да се моќни.

Еден поинаков пристап за справување со непотполноста на дигитални податоци за следење е да ја збогати директно со податоците од анкетата, процес кој јас ќе се јавам збогатен прашува. Еден пример на збогатен прашува е проучување на Burke and Kraut (2014) , кој што е опишано претходно во глава (Дел 3.2), за тоа дали интеракција на Facebook се зголемува силата пријателство. Во тој случај, Бурк и Краут комбинираат податоците од анкетата со логовите Фејсбук.

Ја поставката што Бурк и Краут работеа, пак, значи дека тие не треба да се справи со два големи проблеми со кои истражувачите прави збогатен барајќи лице. Прво, всушност поврзување заедно сетови на податоци-процес наречен рекорд поврзаност, на појавување на рекорд во една базата со соодветна евиденција во другите базата-може да биде тешко и грешка-склони (ќе видите еден пример на овој проблем подолу ). Вториот главен проблем на збогатен бара е дека квалитетот на дигиталните траги често ќе биде тешко за истражувачите да се процени. На пример, понекогаш процесот преку кој таа се наплати, се заштитени и можат да бидат подложни на многу од проблемите со кои се опишани во Глава 2. Со други зборови, збогатен прашува често ќе вклучува грешка-склони поврзување на анкетите извори црно-кутија податоци на непознати квалитет. И покрај загриженоста дека овие два проблеми се воведе, тоа е можно да се спроведат значајни истражувања со оваа стратегија е докажано од страна на Стивен Ansolabehere и Еитан Херш (2012) во нивните истражувања на моделот на гласање во САД. Вреди да се оди во текот на оваа студија во некои детали, бидејќи многу од стратегии кои Ansolabehere и Херш развиени ќе биде корисна и во други апликации на збогатен прашува.

Одѕивот на гласачите беше предмет на детално истражување во политички науки, и во минатото, разбирање на кое гласа и зошто генерално е врз основа на анализата на податоците од премерот на истражувачите. Гласање во САД, сепак, е невообичаено однесување во тоа што владата евиденција дали секој граѓанин гласал (се разбира, владата нема да ги снима кој секој граѓанин гласови за). За многу години, овие владини записи гласање биле достапни на хартија форми, расфрлани во различни локални владини канцеларии низ целата земја. Ова го направи тоа тешко, но не и невозможно, за политичките научници да се има целосна слика за електоратот и да се споредат она што луѓето го велат во анкети за гласање за нивното однесување гласање (Ansolabehere and Hersh 2012) .

Но, сега тие нерегуларности записи дигитализирани, и голем број на приватни фирми систематски се собираат и се спои овие записи гласање за производство на сеопфатни датотеки господар на глас која снима однесувањето на глас на сите Американци. Ansolabehere и Херш соработува со една од овие компании-катализатор LCC, со цел да ги користат нивните господар датотека гласање за да помогне во развојот на подобра слика од електоратот. Понатаму, бидејќи се потпре на дигитални записи собираат и куратор од страна на компанијата, тој нуди голем број на предности во однос на претходните напори од страна на истражувачите што беше направено без помош на компаниите и користење на аналогни податоци.

Како и многу од дигитални извори трага во Глава 2, катализатор господар датотека не вклучува голем дел од демографските, ставовите, однесувањето и информации кои Ansolabehere и Херш потребно. Во прилог на оваа информација, Ansolabehere и Херш беа посебно заинтересирани за споредба пријавени однесување гласањето се потврдени однесување гласање (на пример, информации во базата на податоци катализатор). Значи, истражувачите собрани податоците кои сакаат како дел од конгресните избори во Студијата за соработка (CCES), голем социјално истражување. Следно, истражувачите даде овие податоци за да катализатор и катализатор даде истражувачите се врати на спои датотека на податоци кои се вклучени потврдени однесување гласање (од катализатор), однесувањето на гласањето на само-објави (од CCES) и демографијата и ставовите на испитаниците (од CCES ). Со други зборови, Ansolabehere и Херш збогатен податоци на гласање, со податоците од анкетата, и како резултат на тоа претпријатието датотека им овозможува да се направи нешто што ниту датотека овозможено поединечно.

Со збогатување господар датотека на податоци на катализатор со податоците од анкетата, Ansolabehere и Херш дојде до три важни заклучоци. Прво, над-пријавување на гласањето е неконтролираното: Речиси половина од не-гласачи пријавени за гласање. Или, уште еден начин на гледање на тоа е ако некој пријавени за гласање, има само 80% шанса на што тие всушност гласале. Второ, со текот пријавување не е случаен, над-пријавување е почеста кај високи примања, добро образовани, партизаните, кои се ангажирани во јавните работи. Со други зборови, луѓето кои се најверојатно да гласаат се, исто така, најверојатно, да се лаже за гласање. Трето, и повеќето критички, бидејќи на систематска природа на над-известување, постојните разлики помеѓу гласачите и не-гласачи се помали од оние што се појавуваат само од анкети. На пример, оние со ергени степен се околу 22 процентни поени поголема веројатност да го пријавите на глас, но само 10 проценти поголема веројатност да се вистински гласовите. Понатаму, постоечките теории на гласање базирана на ресурси се многу подобри во предвидувањето на кој ќе се пријавите за гласање од кои всушност гласови, емпириски наоди која бара нови теории за да се разбере и да се предвиди право на глас.

Но, колку треба да имаме доверба во овие резултати? Се сеќавам на овие резултати зависат од грешка-склони поврзување на податоци црно-кутија со непозната количина на грешка. Поконкретно, резултатите зависат од два клучни чекори: 1) способноста на катализатор да се комбинираат многу различни извори на податоци за да се произведе точна господар datafile и 2) способноста на катализатор за поврзување на податоците од истражувањето на својот господар datafile. Секој од овие чекори е доста тешко и грешки во било чекор може да доведе истражувачите до погрешни заклучоци. Сепак, и обработка на податоци и за појавување се од клучно значење за опстанокот на катализатор како компанија, така што може да се инвестира ресурси во решавањето на овие проблеми, често се во размер дека ниту еден поединец академски истражувач или група истражувачи може да одговара. Во натамошно читање на крајот од ова поглавје, јас го опишам овие проблеми во повеќе детали и како Ansolabehere и Херш се изгради доверба во нивните резултати. Иако овие податоци се специфични за оваа студија, прашања слични на нив ќе произлезат за други истражувачи кои сакаат да се поврзат со црно-кутија извори на податоци, дигитални трага.

Кои се општите лекции истражувачите можат да се извлечат од оваа студија? Прво, постои огромна вредност од збогатување на дигиталните траги со податоците од анкетата. Второ, дури и покрај тоа што овие собрани, комерцијални извори на податоци не треба да се смета за "земјата вистината", а во некои случаи тие можат да бидат корисни. Всушност, тоа е најдобро да се споредат овие извори на податоци да не се апсолутна вистина (од каде што секогаш ќе падне кратко). Напротив, тоа е подобро да ги спореди со други достапни извори на податоци, кои секогаш имаат грешки, како и.