3.6.1 Обогаћено пита

У обогаћеном питању, подаци истраживања граде контекст око једног великог извора података који садржи нека важна мерења, али недостају други.

Један од начина комбиновања података истраживања и великих извора података је процес који ћу назвати обогаћеним питањем . У обогаћеном питању, велики извор података садржи неколико важних мјерења, али нема других мјерења, тако да истраживач прикупља ове недостајуће мере у истраживању, а затим повезује два извора података заједно. Један пример обогаћеног питања јесте студија Burke and Kraut (2014) о томе да ли интеракција на Фацебоок-у повећава снагу пријатељства, коју сам описао у одељку 3.2). У том случају, Бурке и Краут су заједно анкетирали податке са подацима дневника Фацебоок-а.

Поставка у којој су Бурке и Краут радили, подразумевали су да се не морају бавити са два велика проблема која истраживачи који обогаћују постављање обично суочавају. Прво, уствари повезивање скупова података на нивоу појединачних нивоа, процес који се зове повезивање записа , може бити тешко ако не постоји јединствени идентификатор у оба извора података који се могу користити како би се осигурало да се тачан запис у једном скупу података подудара с правилним записом у другом скупу података. Други главни проблем са обогаћеним питањем је да ће квалитет великог извора података често бити тешко за истраживаче да процијене, јер процес кроз који се стварају подаци могу бити власнички и могу бити подложни многим проблемима описаним у поглављу 2. Другим ријечима, обогаћено постављање питања ће често укључивати повезивање анкетама погрешно повезаних са црно-кутијским изворима података непознатог квалитета. Упркос овим проблемима, обогаћено постављање питања може се користити за обављање важних истраживања, што су показали Степхен Ансолабехере и Еитан Херсх (2012) у њиховом истраживању узорака гласања у Сједињеним Државама.

Излазност гласача је предмет опсежних истраживања у политичким наукама, а у прошлости је разумијевање кохерентних гласача и зашто се генерално заснивало на анализи података истраживања. Међутим, гласање у Сједињеним Државама је неуобичајено понашање у томе што влада евидентира да ли је сваки грађанин гласао (наравно, влада не евидентира за кога сваки грађанин гласа). Ове године владине књиге о гласању су доступне на папирним формама, распоређене у различитим локалним владиним уредима широм земље. Ово је отежавало, али не и немогуће, да политичари стекну потпуну слику бирачког тела и упореде оно што људи кажу у анкетама о гласању са својим стварним понашањем гласања (Ansolabehere and Hersh 2012) .

Али ове евиденције о гласању су сада дигитализоване, а велики број приватних компанија их је систематски прикупљало и спајало како би произвело свеобухватне датотеке гласачког гласања које садрже гласање понашања свих Американаца. Ансолабехере и Херсх су се удружили са једним од ових компанија-Катализатор ЛЦЦ-а, како би користили датотеку својих гласачких гласова како би помогли у развијању боље слике бирачког тела. Штавише, будући да се њихова студија ослања на дигиталне податке које је сакупљала и куривала компанија која је уложила значајне ресурсе у прикупљање и усклађивање података, понудила је бројне предности у односу на претходне напоре који су учињени без помоћи компанија и коришћењем аналогних записа.

Као и многи од великих извора података у поглављу 2, каталистички мастер фајл није укључивао већину демографских, ставничких и понашања које су потребни Ансолабехеру и Херсху. Заправо, они су посебно заинтересовани за упоређивање извештаја о понашању гласања у анкетама са валидираним понашањем гласања (тј. Информације у бази Катализма). Тако су Ансолабехере и Херсх прикупили податке које су жељели као велико социјално истраживање, ЦЦЕС, поменут раније у овом поглављу. Потом су дали своје податке Цаталисту, а Цаталист их је вратио у спајаљену датотеку са подацима који су потврдили понашање гласања (из Катализма), самоподешено понашање гласања (од ЦЦЕС-а) и демографске и ставове испитаника (од ЦЦЕС-а) (слика 3.13). Другим ријечима, Ансолабехере и Херсх су комбинирали податке о гласачким записима са подацима истраживања како би истраживање било могуће неусловно било са изворима података појединачно.

Слика 3.13: Схема студије Ансолабехере и Херсх (2012). Да би креирао главни датафиле, Цаталист комбинује и усклађује информације из различитих извора. Овај процес спајања, без обзира колико пажљив, пропагира грешке у изворним изворима података и уводи нове грешке. Други извор грешака је рекордна веза између података истраживања и главног датафилеа. Ако свака особа има стабилан, јединствени идентификатор у оба извора података, тада би веза била тривијална. Али, Цаталист је морао да изврши везу користећи несавршене идентификаторе, у овом случају име, пол, годину рођења и кућну адресу. Нажалост, у многим случајевима могу бити непотпуне или нетачне информације; гласач Хомер Симпсон би могао да се појави као Хомер Јаи Симпсон, Хомие Ј Симпсон или чак Хомер Сампсон. Упркос потенцијалу грешака у каталистичком мастер фајлу података и грешкама у повезивању рекорда, Ансолабехере и Херсх су успјели изградити повјерење у своје процјене кроз неколико различитих врста провјера.

Слика 3.13: Схема студије Ansolabehere and Hersh (2012) . Да би креирао главни датафиле, Цаталист комбинује и усклађује информације из различитих извора. Овај процес спајања, без обзира колико пажљив, пропагира грешке у изворним изворима података и уводи нове грешке. Други извор грешака је рекордна веза између података истраживања и главног датафилеа. Ако свака особа има стабилан, јединствени идентификатор у оба извора података, тада би веза била тривијална. Али, Цаталист је морао да изврши везу користећи несавршене идентификаторе, у овом случају име, пол, годину рођења и кућну адресу. Нажалост, у многим случајевима могу бити непотпуне или нетачне информације; гласач Хомер Симпсон би могао да се појави као Хомер Јаи Симпсон, Хомие Ј Симпсон или чак Хомер Сампсон. Упркос потенцијалу грешака у каталистичком мастер фајлу података и грешкама у повезивању рекорда, Ансолабехере и Херсх су успјели изградити повјерење у своје процјене кроз неколико различитих врста провјера.

Са њиховим комбинованим подацима, Ансолабехере и Херсх су дошли до три важна закључка. Прво, прекомерно извјештавање о гласању је бескрајно: готово половина гласача извијестила је о гласању, а ако је неко пријавио гласање, само је 80% шансе да су гласали. Друго, прекомерно извештавање није случајно: прекомерно извештавање је чешће код високообразованих, добро образованих, партизана који се баве јавним пословима. Другим речима, највероватније је да ће људи који су највероватније гласали о гласању. Треће, а најкритичније, због систематске природе прекомерног извјештавања, стварне разлике између бирача и безвредника су мање него што се појављују управо из анкета. На примјер, они са бацхелор'с дегрее-ом имају око 22 процентна поена вјеројатније да пријаве гласање, али су само 10 процентних поена вјероватније да ће гласати. Изгледа, можда није изненађујуће, да су постојеће теорије гласања на бази ресурса много боље у предвиђању ко ће пријавити гласање (што су подаци које су истраживачи користили у прошлости) него што предвиђају ко заправо гласује. Тако, емпиријски налаз Ansolabehere and Hersh (2012) захтева нове теорије да разумеју и предвиде гласање.

Али колико треба да верујемо овим резултатима? Запамтите, ови резултати зависе од пријеноса погрешних података на податке црне кутије са непознатом грешком. Конкретније, резултати се одвајају на два кључна корака: (1) могућност Цаталиста да комбинира многе различите изворе података како би произвела тачан главни датафиле и (2) способност Цаталиста да повеже податке истраживања са главном податковном датотеком. Сваки од ових корака је тешко, а грешке у било којем кораку могу довести истраживаче у погрешне закључке. Међутим, обрада и повезивање података су од пресудног значаја за наставак постојања Цаталиста као компаније, тако да може уложити ресурсе у рјешавање ових проблема, често у скали коју ниједан академски истраживач не може подударати. У свом чланку, Ансолабехере и Херсх пролазе кроз низ корака како би провјерили резултате ових два корака - иако су неки од њих заштићени - а ове провјере би могле бити корисне за друге истраживаче који желе повезати податке истраживања са великим подацима црне кутије извори.

Које су опће лекције које истраживачи могу извући из ове студије? Прво, постоји огромна вриједност и од обогаћивања великих извора података са подацима истраживања и од обогаћивања података истраживања са великим изворима података (можете видети ову студију било који начин). Комбинујући ова два извора података, истраживачи су могли учинити нешто што је било немогуће било појединачно. Друга општа лекција је да, иако агрегирани, комерцијални извори података, као што су подаци из Цаталиста, не треба сматрати "истином земље", у неким случајевима могу бити корисни. Скептици понекад упоређују овај збирни, комерцијални извор података са апсолутном истином и истичу да ови извори података остану кратки. Међутим, у овом случају скептици праве погрешно упоређивање: сви подаци које истраживачи користе не потпишу апсолутну Истину. Уместо тога, боље је упоређивање агрегираних, комерцијалних извора података са другим расположивим изворима података (нпр. Самопријављено понашање гласања), које увијек имају грешке. На крају, трећа општа лекција студије Ансолабехере и Херсх је да у неким ситуацијама истраживачи могу имати користи од огромних инвестиција које многе приватне компаније чине у прикупљању и усклађивању сложених сетова социјалних података.