3.6.1 Обогатено искане

Този превод е създаден от компютър. ×

3.6.1 Обогатено искане

В обогатеното искане данните от проучванията изграждат контекст около голям източник на данни, който съдържа някои важни измервания, но липсват други.

Един от начините да комбинирате данните от изследванията и големите източници на данни е процес, който ще наричам обогатен питам . При обогатения питащ голям източник на данни съдържа някои важни измервания, но липсват други измервания, така че изследователят събира тези липсващи измервания в проучване и след това свързва двата източника на данни заедно. Един пример за обогатено запитване е проучването на Burke and Kraut (2014) дали взаимодействието между Facebook и Facebook увеличава силата на приятелството, което описах в раздел 3.2). В този случай Бърк и Краут обединяват данните от изследванията с данни от дневника във Facebook.

Установяването, в което работеха Бърк и Креут обаче, означаваше, че те не трябваше да се справят с два големи проблема, които изследователите вършат да обогатяват, като обикновено се питат. Първо, всъщност свързването на отделните набори от данни, процес, наречен свързване на записи , може да бъде трудно, ако в двата източника на данни няма уникален идентификатор, който може да се използва, за да се гарантира, че правилният запис в един набор от данни е съчетан с правилния запис в другият набор от данни. Вторият основен проблем с обогатеното искане е, че качеството на големия източник на данни често ще бъде трудно за изследователите да оцени, защото процесът, чрез който се създават данните, може да бъде патентован и може да бъде податлив на много от проблемите, описани в глава 2. С други думи, обогатеното запитване често включва свързано с грешки свързване на проучвания с източници на данни с неизвестно качество. Въпреки тези проблеми обаче обогатеното искане може да бъде използвано за провеждане на важни изследвания, както показаха Стивън Ансолабере и Ейтан Херш (2012) в изследванията си върху моделите за гласуване в Съединените щати.

Избирателната активност е обект на задълбочени изследвания в областта на политическите науки и в миналото разбирането на изследователите за това кой гласува и защо обикновено се основава на анализа на данните от изследванията. Гласуването в Съединените щати обаче е необичайно поведение, тъй като правителството записва дали всеки гражданин е гласувал (разбира се, правителството не записва кой е гласувал всеки гражданин). В продължение на много години тези правителствени протоколи за гласуване бяха на разположение на хартиени носители, разпръснати в различни бюра на местните власти в цялата страна. Това направи много трудно, но не и невъзможно политолозите да имат пълна картина на електората и да сравнят онова, което казват хората в анкети за гласуване с действителното им поведение за гласуване (Ansolabehere and Hersh 2012) .

Но тези записи за гласуване вече са цифровизирани и редица частни компании систематично събират и обединяват, за да произвеждат изчерпателни главни файлове за гласуване, които съдържат поведението на всички американци за гласуване. Ansolabehere и Hersh си партнираха с една от тези компании - каталози LCC - за да използват главния си файл за гласуване, за да помогнат да се разработи по-добра картина на електората. Освен това, тъй като изследването им се основава на цифрови записи, събрани и подготвени от компания, която е инвестирала значителни ресурси за събиране на данни и хармонизация, тя предлага редица предимства в сравнение с предишни усилия, извършени без помощта на компании и чрез използване на аналогови записи.

Подобно на много от големите източници на данни в глава 2, катализаторският файл не включваше голяма част от демографската, нагласителната и поведенческата информация, която Ansolabehere и Hersh са имали нужда. Всъщност, те бяха особено заинтересовани от сравняването на отчетеното поведение при гласуване в проучвания с валидирано поведение на гласуване (т.е. информацията в каталозичната база данни). И така, Ансолабери и Херш събираха данните, които искаха, като голямо обществено проучване, CCES, споменато по-рано в тази глава. После предадоха данните си на катализатора, а катализаторът им даде обратно обединен файл с данни, който включваше валидирано поведение за гласуване (от каталога), самоописаното поведение на гласуване (от CCES) и демографските данни и отношението на респондентите (от CCES) 3.13). С други думи, Ansolabehere и Hersh комбинират данните от записите за гласуване с данните от изследванията, за да направят проучване, което не беше възможно с нито един от източниците на данни поотделно.

Фигура 3.13: Схема на изследването на Ansolabehere and Hersh (2012) . За да създаде основния файл с данни, катализаторът съчетава и хармонизира информацията от много различни източници. Този процес на сливане, без значение колко внимателен, ще разпространява грешки в оригиналните източници на данни и ще въведе нови грешки. Вторият източник на грешки е връзката между данните от проучването и основния файл с данни. Ако всеки човек има стабилен, уникален идентификатор и в двата източника на данни, тогава връзката ще бъде тривиална. Но катализаторът трябваше да свърже връзката с несъвършени идентификатори, в този случай име, пол, година на раждане и домашен адрес. За съжаление, в много случаи може да има непълна или неточна информация; гласоподавател на име Омир Симпсън може да се появи като Омир Джей Симпсън, Хоми Д Симпсън или дори Хомър Сампсин. Независимо от възможността за грешки в каталога на главния файл с данни и грешките в записването, Ansolabehere и Hersh успяха да изградят доверие в своите оценки чрез няколко различни вида проверки.

С комбинирания си досие за данни, Ansolabehere и Hersh дойдоха до три важни извода. Първо, прекаленото отчитане на гласуването е широко разпространено: почти половината от нежеланите гласуваха, а ако някой съобщи за гласуване, има само 80% вероятност те да гласуват. Второ, прекаленото отчитане не е случайно: прекаленото отчитане е по-често срещано сред високодоходните, добре образовани партизани, които се занимават с обществени дела. С други думи, хората, които най-вероятно ще гласуват, също най-вероятно ще лъжат за гласуването. Трето и най-критично, поради систематичния характер на прекаленото отчитане, действителните различия между гласоподавателите и неучастници са по-малки, отколкото изглеждат само от проучвания. Например, тези с бакалавърска степен са с около 22 процентни пункта по-вероятно да докладват за гласуването, но са с по-голяма вероятност да гласуват само с 10 процентни пункта. Оказва се, може би не е изненадващо, че съществуващите теории за гласуване, основаващи се на ресурсите, са много по-добри при предсказването кой ще докладва гласуването (което са данните, които изследователите са използвали в миналото), отколкото при предсказването на кой всъщност гласува. По този начин емпиричната находка на Ansolabehere and Hersh (2012) призовава за нови теории за разбиране и предсказване на гласуването.

Но колко трябва да се доверяваме на тези резултати? Не забравяйте, че тези резултати зависят от грешките, свързани с данните в черна кутия с неизвестни количества грешки. По-конкретно, резултатите се отнасят до две ключови стъпки: (1) способността на катализатора да комбинира много различни източници на данни, за да създаде точен мастер файл с данни и (2) способността на катализатора да свърже данните от изследването с неговия основен информационен файл. Всяка от тези стъпки е трудна и грешките в двете стъпки могат да доведат изследователите до грешни изводи. Въпреки това обработката на данни и свързването им са от решаващо значение за продължаването на съществуването на катализатора като компания, така че той може да инвестира ресурси в решаването на тези проблеми, често в мащаб, който нито един академичен изследовател не може да съответства. В своя доклад Ансолабеър и Херш преминават през няколко стъпки, за да проверят резултатите от тези две стъпки - въпреки че някои от тях са собственост - и тези проверки може да са полезни и за други изследователи, които желаят да свържат данните от изследванията с големи данни от черна кутия източници.

Какви са общите уроци, които изследователите могат да извлекат от това проучване? Първо, има огромна стойност, както от обогатяване на големи източници на данни с данни от проучвания, така и от обогатяване на данните от изследванията с големи източници на данни (можете да видите това изследване по един или друг начин). Чрез комбинирането на тези два източника на данни, изследователите успяха да направят нещо, което беше невъзможно и с всеки отделен човек. Вторият общ урок е, че макар и обобщени, търговските източници на данни, като например данните от каталога, не трябва да се считат за "земна истина", в някои случаи те могат да бъдат полезни. Скептиците понякога сравняват този агрегиран източник на търговски данни с абсолютна Истина и посочват, че тези източници на данни са недостатъчни. Обаче в този случай скептиците правят грешно сравнение: всички данни, които изследователите използват, не отговарят на абсолютната истина. Вместо това е по-добре да сравнявате обобщените източници на търговски данни с други налични източници на данни (напр. Самооправдано поведение при гласуването), което неизменно има грешки. И накрая, третият общ урок от проучването Ansolabehere и Hersh е, че в някои ситуации изследователите могат да се възползват от огромните инвестиции, които много частни компании правят в събирането и хармонизирането на сложни комплекти от социални данни.