3.6.1 засилена прашува

Поврзување на вашиот истражување на дигиталните траги може да биде како молат сите ваши прашања во секое време.

Барање обично доаѓа во две главни категории: анкета на примерок и пописи. Анкети на примерок, каде што ќе имаат пристап до мал број на луѓе, може да биде флексибилен, навремено и релативно евтини. Сепак, анкети на примерок, бидејќи тие се базирани на примерок, често се ограничени во нивно решавање; со истражувањето на примерок, таа е често тешко да се прават проценки за одредени географски региони или за одредени демографски групи. Пописи, од друга страна, се обиде да разговара со сите во населението. Тие имаат голема резолуција, но тие се обично скапо, во тесен фокус (тие вклучуваат само мал број на прашања), и не навремено (што се случи на фиксен распоред, како што на секои 10 години) (Kish 1979) . Сега замисли ако истражувачите можеле да се комбинираат најдобрите карактеристики на анкета на примерок и пописи; Замислете ако истражувачите би можеле да побараат секое прашање за сите секој ден.

Очигледно, ова постојано, насекаде, секогаш на истражување е еден вид на социјална научна фантазија. Но, се чини дека ние може да почнат да се приближи со комбинирање прашања во анкетите од мал број на луѓе со дигиталните траги од многу луѓе. Јас ова го нарекуваат вид на комбинација засилена прашува. Ако се направи добро, тоа може да ни помогне да обезбедува процена што се повеќе локални (за помали географски области), повеќе гранули (за одредени демографски групи) и поактуелна.

Еден пример за засилена прашува доаѓа од работа на Исуса Blumenstock, кој сакаше да се соберат податоци кои ќе го помогне развојот водич во сиромашните земји. Поконкретно, Blumenstock сакаше да се создаде систем за мерење на богатство и благосостојба која комбинација на комплетноста на пописот со флексибилност и зачестеноста на анкетата (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Всушност, јас сум веќе опишано работа Blumenstock на кратко во Поглавје 1.

За да почнете со, Blumenstock соработува со најголемиот мобилен телефон провајдер во Руанда. Компанијата го обезбеди анонимизирани трансакција евиденција од околу 1,5 милиони корисници опфаќа однесување од 2005 и 2009 година се најавува содржи информации за секој повик и текст пораки како што се времето на почеток, траење и приближната географска локација на повикувачот и примачот. Пред да почнам да зборувам за статистички прашања, тоа е да се истакне дека овој прв чекор може да биде една од најтешките. Како што е опишано во Глава 2, повеќето дигитални податоци за следење е недостапен за истражувачите. И, многу компании се оправдано спремна да ги споделат нивните податоци, бидејќи тоа е приватна; односно нивните клиенти, најверојатно, не се очекува дека нивните досиеја ќе бидат поделени во рефус-со истражувачите. Во овој случај, истражувачите се внимателни чекори за да се анонимизираат податоците и нивната работа е надгледуван од страна на трети лица (т.е. нивните IRB). Но, и покрај овие напори, овие податоци се веројатно сè уште се идентификуваат и тие, најверојатно, содржат чувствителни информации (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ќе се вратам на овие етички прашања во Поглавје 6.

Потсетиме дека Blumenstock бил заинтересиран за мерење на богатство и благосостојба. Но, овие особини не се директно во повикот евиденција. Со други зборови, овие повик евиденција се нецелосни за ова истражување, една заедничка карактеристика на дигиталните траги што беше разговарано во детали во Поглавје 2. Но, се чини веројатно дека повикот евиденција најверојатно имаат некои информации за богатство и благосостојба. Значи, еден начин на поставување прашање Blumenstock би можел да биде: дали е можно да се предвиди како некој ќе одговори на истражувањето врз основа на нивните дигитални податоци трага? Ако е така, тогаш со поставување на неколку луѓе што може да се погоди одговорите на сите други.

За оценка на овој емпириски, Blumenstock и истражувачки асистенти од Кигали Институтот за наука и технологија наречена примерок од околу илјада корисници на мобилни телефони. Истражувачите објасни целите на проектот на учесниците, на прашањето за согласноста на нивните да се поврзе одговорите на прашањата на повикот евиденција, а потоа побара од нив серија на прашања за да се измери нивното богатство и благосостојба, како што се "Дали имате радио? "и" Дали имате велосипед? "(види Слика 3.11 за делумна листа). Сите учесници во истражувањето, се компензира финансиски.

Следно, Blumenstock користи постапка на две-чекор заеднички во податоците науката: функција инженеринг проследено со надгледувана учење. Прво, во фазата на функција инженеринг, за сите оние кои се интервјуирани, Blumenstock конвертира повикот евиденција во сет од карактеристики за секој човек; податоци научниците може да се нарече овие карактеристики "карактеристики" и социјални научници ќе ги нарекуваат "променливи". На пример, за секој човек, Blumenstock пресметува вкупниот број на денови со активности, бројот на посебен народ лице е во контакт со, на износот на парите потрошени за емитување, и така натаму. Критички, добра функција инженеринг бара познавање на поставување на истражувањето. На пример, ако тоа е важно да се направи разлика меѓу домашни и меѓународни повици (можеме да очекуваме луѓето кои се јавите на меѓународно да биде побогат), тогаш тоа мора да се направи во чекор функција инженеринг. Еден истражувач со малку разбирање на Руанда не би можеле да го вклучите оваа функција, а потоа и за предвидување на перформансите на моделот ќе страдаат.

Потоа, во чекор надгледувано учење, Blumenstock изградена статистички модел да се предвиди како одговор на анкетата за секое лице врз основа на нивните карактеристики. Во овој случај, Blumenstock користи логистичка регресија со 10-пати крос-валидација, но тој може да се користат разни други пристапи статистички или машинско учење.

Значи колку добро таа функционира? Blumenstock беше во можност да се предвиди одговори на анкетата прашања како "Дали имате радио?" И "Дали имате велосипед?" Користење на функции кои произлегуваат од повик евиденција? На некој начин. Точноста на предвидувањата беа високи, за некои особини (Слика 3.11). Но, секогаш е важно да се споредат сложен метод предвидување против едноставна алтернатива. Во овој случај, едноставна алтернатива е да се предвиди дека секој ќе даде најчестиот одговор. На пример, 97,3% се изјасниле дека поседува радио, па ако Blumenstock предвидоа дека секој би го пријавите поседува радио тој би имал точност од 97,3%, што е изненадувачки слични на условите за извршување на посложени неговата постапка (97.6% точност). Со други зборови, сите фенси податоци и моделирање зголеми точноста на предвидување од 97,3% до 97,6%. Сепак, за други прашања, како што се "Дали имате велосипед?", Предвидувањата се подобри од 54,4% до 67,6%. Поопшто, Слика 3.12 емисии за некои карактеристики Blumenstock не се подобри многу подалеку од само правење на едноставни основно предвидување, но тоа за други особини е направен некаков напредок.

Слика 3.11: предвидување точност за статистички модел обучени со повик евиденција. Резултати од Табела 2 од Blumenstock (2014).

Слика 3.11: предвидување точност за статистички модел обучени со повик евиденција. Резултати од Табела 2 од Blumenstock (2014) .

Слика 3.12: Споредба на предвидливо точноста за статистички модел обучени со повик евиденција на едноставни основно предвидување. Поени се малку jittered да се избегне преклопување; види Табела 2 од Blumenstock (2014) за точните вредности.

Слика 3.12: Споредба на предвидливо точноста за статистички модел обучени со повик евиденција на едноставни основно предвидување. Поени се малку jittered да се избегне преклопување; види Табела 2 од Blumenstock (2014) за точните вредности.

Во овој момент може да се размислува дека овие резултати се по малку разочарувачки, но само една година подоцна, Blumenstock и двајца негови колеги-Gabriel Cadamuro и Роберт На објавил труд во науката со значително подобри резултати (Blumenstock, Cadamuro, and On 2015) . Имаше две главни технички причини за подобрување: 1) тие се користат пософистицирани методи (на пример, нов пристап кон карактеризираат инженеринг и многу пософистициран модел учење машина) и 2) наместо да се обидува да заклучиме одговори на поединечните прашања истражувањето (на пример, "Дали имате радио?"), тие се обиделе да заклучиме композитен индекс на богатство.

Blumenstock и неговите колеги покажаа ефикасноста на нивниот пристап во два начина. Прво, тие откриле дека за луѓето во нивните примерок, тие може да направи многу добра работа на предвидување на нивното богатство од повик евиденција (Слика 3.14). Второ, и уште поважно, Blumenstock и неговите колеги покажаа дека нивната процедура би можел да произведе проценки висок квалитет на географската распределба на богатството во Руанда. Поконкретно, тие се користат нивниот модел на машина за учење, кој е обучен за нивната примерок од околу 1.000 луѓе, да се предвиди богатството на сите 1,5 милиони луѓе во повикот евиденција. Понатаму, со геопросторните податоци вградени во податоците за повик (потсетиме дека податоците за повикување ги вклучува и локацијата на најблискиот мобилен кула за секој повик), истражувачите беа во можност да се процени приближната местото на живеење на секој човек. Ставањето на овие две проценки заедно, истражувањето произведени проценка на географската дистрибуција на претплатникот богатство во исклучително мали просторни грануларност. На пример, тие може да се процени просечната богатство во секоја од Руанда 2148 клетки (најмалата административна единица во земјата). Овие предвидените вредности богатство беа толку гранули што беа тешко да се провери. Значи, истражувачите собрани нивните резултати да се произведе проценки за просечното богатство на Руанда 30 окрузи. Овие проценки област на ниво на се силно поврзани со проценките од златен стандард традиционалната анкета, демографски и здравствени Анкетата за Руанда (Слика 3.14). Иако проценките на два извори биле слични, проценките од Blumenstock и неговите колеги беа околу 50 пати поевтино и 10 пати побрзо (кога трошоците во мери во однос на варијабилни трошоци). Ова драматично намалување на трошоците значи дека наместо да се кандидира на секои неколку години, што е стандард за демографски и здравствени истражувања-хибрид на мала анкета во комбинација со големи податоци дигитални траги може да се кандидира секој месец.

Слика 3.13: Шематски на Blumenstock, Cadamuro и On (2015). Дата повик од телефонска компанија била претворена во матрицата со еден ред за секое лице и една колона за секоја функција (на пример, променлива). Следно, истражувачите изградена надгледувана учење модел да се предвиди одговорите на прашањата од лице со функција матрица. Потоа, надгледувана учење модел беше искористена за да се импутира одговорите на прашањата за секого. Во суштина, истражувачите користеле одговорите од околу илјада луѓе се припишуваат богатство од околу еден милион луѓе. Исто така, истражувачите проценуваат на приближно местото на живеење за сите 1,5 милиони луѓе врз основа на локациите на нивните повици. Кога овие две проценки беа комбинирани-проценетата богатство и проценетата местото на живеење, резултатите се слични на проценките на демографски и истражување за здравјето, златен стандард традиционалната анкета (Слика 3.14).

Слика 3.13: Шематски на Blumenstock, Cadamuro, and On (2015) . Дата повик од телефонска компанија била претворена во матрицата со еден ред за секое лице и една колона за секоја функција (на пример, променлива). Следно, истражувачите изградена надгледувана учење модел да се предвиди одговорите на прашањата од лице со функција матрица. Потоа, надгледувана учење модел беше искористена за да се импутира одговорите на прашањата за секого. Во суштина, истражувачите користеле одговорите од околу илјада луѓе се припишуваат богатство од околу еден милион луѓе. Исто така, истражувачите проценуваат на приближно местото на живеење за сите 1,5 милиони луѓе врз основа на локациите на нивните повици. Кога овие две проценки беа комбинирани-проценетата богатство и проценетата местото на живеење, резултатите се слични на проценките на демографски и истражување за здравјето, златен стандард традиционалната анкета (Слика 3.14).

Слика 3.14: Резултати од Blumenstock, Cadamuro и On (2015). На индивидуално ниво, истражувачите беа во можност да се направи разумна работа во предвидувањето на нечија имотна од нивниот повик евиденција. Проценките на област на ниво на богатство, кои се врз основа на проценка на богатството и местото на живеење, резултатите индивидуални ниво биле слични на резултатите од Анкетата за демографски и здравствени, златен стандард традиционалната анкета.

Слика 3.14: Резултати од Blumenstock, Cadamuro, and On (2015) . На индивидуално ниво, истражувачите беа во можност да се направи разумна работа во предвидувањето на нечија имотна од нивниот повик евиденција. Проценките на област на ниво на богатство, кои се врз основа на проценка на богатството и местото на живеење, резултатите индивидуални ниво биле слични на резултатите од Анкетата за демографски и здравствени, златен стандард традиционалната анкета.

Во заклучок, Blumenstock е засилена бара истражување на податоци пристап во комбинација со дигитални податоци за следење за да се произведе проценки се спореди со проценките анкета златен стандард. Овој пример исто така ја разјаснува некои од размени помеѓу засилена прашува и традиционалните методи на истражување. Прво, засилена прашува проценките беа повеќе навремено, значително поевтини, и многу повеќе гранули. Но, од друга страна, во овој момент, не постои силна теоретска основа за овој вид на засилена прашува. Тоа е, овој пример не се појави кога тоа ќе работам и кога го нема. Понатаму, засилена пристап прашува уште нема добри начини да се измери неизвесноста околу својата проценки. Сепак, засилена прашува има длабоки врски со три големи области во областа на статистиката-модел базиран пост-стратификација (Little 1993) , импутација (Rubin 2004) , и проценка мали области (Rao and Molina 2015) -И така што очекувам дека напредокот ќе биде брзо.

Засилена прашува следи основен рецепт кои можат да бидат прилагодени на вашата конкретна ситуација. Постојат две состојки и два чекори. Двете состојки се: 1) дигитален трага базата која е широко, но тенка (што е, таа има многу луѓе, но не на информациите што ви треба за секоја лица) и 2) преглед кој е тесен, но дебели (што е, тоа има само неколку луѓе, но има информации кои ви се потребни за тие луѓе). Потоа, постојат два чекори. Прво, за луѓе и извори на податоци, да се изгради модел на машина за учење дека го користи дигитални податоци за следење за да се предвиди анкета одговори. Следно, ги користат тој модел машина за учење да се припише на истражувањето одговорите на сите податоци во дигиталниот трага. Така, ако има некои прашања што сакате да прашате за многу луѓе, за дигитални податоци трага изгледа од оние луѓе кои би можеле да се користат за да се предвиди нивните одговори.

Споредба на првиот и вториот обид Blumenstock е на проблемот, исто така, покажува една важна лекција за преминот од вториот ера на пристапи третата ера на истражувањето истражување: на почетокот не е крајот. Тоа е, многу пати, на првиот пристап нема да биде најдобар, но ако Истражувачите продолжуваат да работат, работите може да се добие подобро. Поопшто, при оценувањето на нови пристапи за социјални истражувања во дигиталната ера, важно е да се направи на два различни проценки: 1) колку добро оваа работа сега и 2) како и дали мислите дека ова би можеле да работат во иднина, како пејзаж на податоци промени и како истражувачи се посвети повеќе внимание на проблемот. Иако, истражувачите се обучени да се направи првиот вид на евалуација (колку е добар е тоа особено парче на истражување), вториот е често повеќе важно.