3.6.2 Обогатен исканата

Въпреки, че тя може да бъде разхвърлян, обогатен исканата може да бъде мощен.

Един различен подход за справяне с непълнотата на цифрови данни следа е да го обогати директно с данните от изследването, един процес, който ще се обадя обогатен имота. Един пример на обогатен исканата е изучаването на Burke and Kraut (2014) , които описах по-рано в тази глава (раздел 3.2), за това дали взаимодействие на Facebook повишава здравината приятелство. В този случай, Бърк и Крот комбинира данните от проучването с регистрационните данни на Facebook.

Настройката, че Бърк и Крот работили, обаче, означава, че те не трябва да се справят с две големи проблеми, които изследователите правят обогатен с молба лицето. На първо място, всъщност се свържат заедно набори-а данни процес, наречен запис връзката на това съвпадение на запис в един набор от данни със съответния запис в друг набор от данни, може да бъде трудно и с грешки (ще видите пример за този проблем по-долу ). Вторият основен проблем на обогатен питам е, че качеството на цифрови следи често ще бъде трудно за учените да оценят. Например, понякога процесът, чрез който тя се събира, е патентована и може да бъде податлив на много от проблемите, описани в глава 2. С други думи, обогатен исканата често ще включва податлива на грешки свързване на проучвания на източници черна кутия с данни от неизвестен качество. Въпреки опасенията, че тези два проблема се въведе, че е възможно да се проведат важни изследвания с тази стратегия, както беше демонстрирано от Стивън Ansolabehere и Ейтан Хърш (2012) в своите изследвания относно тенденциите при гласуване в САЩ. Това е полезно, за да разясни това изследване в някои подробности, тъй като много от стратегиите, които Ansolabehere и Хърш разработени ще бъде полезен и в други приложения на обогатен имота.

Избирателната активност е била обект на задълбочени изследвания по политически науки, и в миналото, разбиране на който гласува и защо обикновено се базира на анализа на данните от проучването на изследователите. Гласуването в САЩ, обаче, е необичайно поведение в че правителството записи дали всеки гражданин е гласувал (разбира се, правителството не записва които всеки гражданин вота за). В продължение на много години, тези правителствени записи на глас са били на разположение на хартиени формуляри, разпръснати в различни офиси на местното самоуправление в страната. Това прави трудно, но не и невъзможно, за политолози, за да имат по-пълна картина на електората и да сравняват това, което хората казват в изследванията за гласуване на действителния им поведение гласуване (Ansolabehere and Hersh 2012) .

Но, сега тези които гласуват записи са били дигитализирани, както и редица частни компании са систематично събрани и обединени тези записи глас да произвежда комплексни файлове майстор на глас, които записват поведението на гласуване на всички американци. Ansolabehere и Хърш партнира с една от тези фирми-Catalist LCC-, за да използвате техния главен файл гласуване да спомогне за разработването на по-добра картина от избирателите. Освен това, тъй като тя се позовава на цифрови записи, събрани и курирана от една компания, тя предлага редица предимства в сравнение с предишните усилия на изследователите, които са били направени без помощта на фирми и използването на аналогови записи.

Подобно на много от цифрови източници следи в глава 2, на Catalist основната документация не включва голяма част от демографски, нагласите и поведението информацията, че Ansolabehere и Хърш необходимо. В допълнение към тази информация, Ansolabehere и Хърш са особено заинтересовани в сравняване съобщава поведението на гласоподавателите да валидиран поведение гласуване (т.е., на информацията в базата данни Catalist). Така че, изследователите събират данните, които те искат, като част от Конгреса на изборите изследване на Cooperative (CCES), голяма социална анкета. След това учените са дали тази информация да Catalist, и Catalist даде на изследователите назад слятото файл с данни, който включва валидиран поведение гласуване (от Catalist), поведението на глас на респондентите (от CCES) и демографията и нагласи на анкетираните (от CCES ). С други думи, Ansolabehere и Хърш обогатен данните на глас с данните от изследването, и в резултат на сливането файл им дава възможност да се направи нещо, което нито файл активиран индивидуално.

Чрез обогатяване на основната документация на данни на Catalist с данни от проучвания, Ansolabehere и Хърш стигна до три важни заключения. Първо, над-отчитане на гласуването е изправен: почти половината от негласуващите съобщава гласуване. Или, друг начин на възприемане на това е, ако някой съобщи на глас, има само 80% шанс за, че те действително гласува. Второ, над-докладване не е случаен; над-отчитане е по-често сред висок доход, добре образовани, партизани, които са ангажирани в обществените дела. С други думи, хората, които са най-склонни да гласуват, са също най-вероятно да лъжат за гласуване. Трето, и най-критично, тъй като на системния характер на над-докладване, действителните разлики между избирателите и негласуващите са по-малки, отколкото те се появяват само от проучвания. Например, тези, с бакалавърска степен са около 22 процентни пункта по-вероятно да докладва за гласуване, но са само на 10 процентни пункта по-вероятно да действителния вот. Освен това, съществуващите теории за гласуване-базирани ресурси са много по-добри в предсказването кой ще докладва за гласуване от които действително гласа, емпирична констатация, че призовава за нови теории, за да разберат и да прогнозират гласуване.

Но, колко трябва да се доверим на тези резултати? Запомни тези резултати зависят от податлива на грешки свързване на данни черна кутия с неизвестни количества грешка. По-конкретно, резултатите зависят от два основни етапа: 1) способността на Catalist да се комбинират много коренно различни източници на данни, за да се получи точна майстор файл от данни и 2) способността на Catalist да се свържат данните от проучването си господар файл от данни. Всяка от тези стъпки е доста трудно и грешки в двата стъпка може да доведе изследователи до погрешни заключения. Въпреки това, както за обработка на данни и съвпадение са от решаващо значение за по-нататъшното съществуване на Catalist като компания, така че може да инвестира средства в решаването на тези проблеми, често и в мащаб, че нито една отделна академична изследовател или група от изследователи могат да се сравняват. В по-нататъшното четене в края на тази глава, ще опиша тези проблеми в по-големи подробности и как Ansolabehere и Хърш изграждане на доверие в своите резултати. Въпреки, че тези детайли са специфични за това изследване, въпроси, подобни на тях ще възникнат за други изследователи, които желаят да се свърже към черната кутия източници на данни цифров следи.

Какви са общите уроци изследователи могат да извлекат от това проучване? Първо, има огромна стойност от обогатяването на цифрови следи с данни от проучвания. Второ, въпреки че тези обобщени, търговски източници на данни не трябва да се счита за "земята истина", в някои случаи те могат да бъдат полезни. В действителност, това е най-добре да се сравняват тези източници на данни не абсолютна истина (от които те винаги ще попадат кратко). Напротив, то е по-добре да ги сравни с други налични източници на данни, които неизменно имат грешки, както добре.