3.6.2 Узмоцнены просяць

Гэты пераклад быў створаны з дапамогай кампутара. ×

3.6.2 Узмоцнены просяць

Ўзмоцнены з просьбай з дапамогай прагнастычнай мадэлі для аб'яднання дадзеных абследавання з некалькіх людзей з вялікім крыніцай дадзеных з многіх.

Іншы спосаб аб'яднаць абследавання і вялікія крыніцы дадзеных з'яўляецца працэсам , які я буду называць ўзмоцненыя спытае. У узмоцненых запытанага, даследчык выкарыстоўвае мадэль прагназавання для аб'яднання невялікай колькасці дадзеных абследавання з вялікім крыніцай дадзеных для атрымання ацэнкі на шкале або зярністасці, што не было б магчыма з любым крыніцай дадзеных паасобку. Важны прыклад Узмацняецца пытацца прыходзіць ад працы Джошуа Blumenstock, які хацеў, каб сабраць дадзеныя, якія маглі б дапамагчы развіццю кіраўніцтва ў бедных краінах. У мінулым даследчыкі збіраюць дадзеныя такога роду звычайна павінны былі прыняць адзін з двух падыходаў: выбарачныя абследаванняў або перапісаў. Выбарачныя абследавання, дзе даследчыкі бяруць інтэрв'ю невялікай колькасці людзей, могуць быць гнуткімі, своечасова, і адносна танна. Тым не менш, гэтыя даследаванні, таму што яны заснаваныя на выбарцы, часта абмежаваныя ў іх вырашэнні. Пры выбарачным абследаванні, часта бывае цяжка зрабіць ацэнкі аб канкрэтных геаграфічных рэгіёнах або для пэўных дэмаграфічных груп. Перапісу, з другога боку, спроба ўзяць інтэрв'ю ва ўсіх, і таму яны могуць быць выкарыстаны для атрымання адзнак для невялікіх геаграфічных рэгіёнаў або дэмаграфічных груп. Але Перапісу , як правіла , дарагія, вузкія ў фокусе (яны ўключаюць у сябе толькі невялікая колькасць пытанняў), а не своечасова (яны адбываюцца на фіксаваным графіку, напрыклад, кожныя 10 гадоў) (Kish 1979) , (Kish 1979) . Замест таго, каб быць прывязаным выбарачных абследаванняў або перапісаў, уявіце сабе, калі б даследчыкі маглі б аб'яднаць у сабе лепшыя характарыстыкі абодвух. Уявіце сабе, калі б даследчыкі маглі задаць усе пытанні да кожнага чалавека кожны дзень. Відавочна, што гэта паўсюдна, заўсёды на даследаванне з'яўляецца свайго роду сацыяльнай навукі фантазіі. Але гэта сапраўды здаецца , што мы можам пачаць , каб наблізіць гэта шляхам аб'яднання пытанняў абследавання з невялікага ліку людзей з лічбавымі слядамі ад многіх людзей.

даследаванні Blumenstock пачалося, калі ён быў партнёрам найбуйнейшым пастаўшчыком мабільных тэлефонаў у Руандзе, і кампанія падала анонимизированную запіс транзакцый ад каля 1,5 мільёнаў кліентаў у перыяд паміж 2005 і 2009 Гэтымі запісамі ўтрымліваюць інфармацыю аб кожным паведамленні выкліку і тэксту, напрыклад, час пачатку, працягласць і прыкладныя геаграфічнае месцазнаходжанне выклікае абанента і прымача. Перш чым казаць аб статыстычных пытаннях, то варта адзначыць, што гэта першы крок можа быць адзін з самых цяжкіх для многіх даследчыкаў. Як я апісаў у чале 2, большасць буйных крыніц дадзеных з'яўляюцца недаступнымі для даследчыкаў. Тэлефон мета-дадзеныя, у прыватнасці, асабліва недаступныя , таму што гэта ў прынцыпе немагчыма ананімныя і амаль напэўна змяшчае інфармацыю , што ўдзельнікі будуць разглядаць адчувальную (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . У дадзеным канкрэтным выпадку, даследчыкі былі асцярожныя, каб абараніць дадзеныя і іх праца кантралюецца трэцяй бокам (г.зн. іх IRB). Я вярнуся да гэтых этычных пытаннях, больш падрабязна ў главе 6.

Blumenstock быў зацікаўлены ў вымярэнні багацця і дабрабыту. Але гэтыя рысы не непасрэдна ў запісах выклікаў. Іншымі словамі, гэтыя запісы выклікаў з'яўляюцца няпоўнымі для дадзенага даследавання-агульная рыса буйных крыніц дадзеных , якія былі падрабязна абмеркаваны ў чале 2. Тым ня менш, уяўляецца верагодным , што запісы выклікаў , верагодна , маюць некаторую інфармацыю , якая можа ўскосна прадастаўляць інфармацыю пра багацце і дабрабыту. Улічваючы такую магчымасць, Blumenstock пытаецца, ці можна навучыць мадэль навучання машыны, каб прадказаць, як нехта адкажа на апытанне на аснове сваіх запісаў пра выклікі. Калі б гэта было магчыма, то Blumenstock мог бы выкарыстаць гэтую мадэль для прагназавання адказаў на апытанне ўсіх 1,5 млн кліентаў.

Для таго, каб пабудаваць і навучыць такую мадэль, Blumenstock і асістэнты з Кігалі інстытут навукі і тэхнікі называюць выпадковую выбарку каля тысячы кліентаў. Даследнікі патлумачылі мэты праекта удзельнікаў, прасілі іх згоду звязаць адказы абследавання для запісаў пра выклікі, а затым задалі ім шэраг пытанняў для ацэнкі іх багаццяў і дабрабыту, такія як «у вас ёсць зрабіць радыё? »і" У вас ёсць ровар? "(глядзіце малюнак 3.14 для частковага спісу). Усе ўдзельнікі даследавання былі кампенсаваныя ў фінансавым стаўленні.

Далей Blumenstock выкарыстоўваецца працэдура двухступеньчатая агульнага ў галіне машыннага навучання: асаблівасць інжынернага наступным наглядам навучання. Ва- першае, у асаблівасць інжынернай стадыі, для ўсіх, хто даваў інтэрв'ю, Blumenstock канвертаваны запісу выклікаў у набор характарыстык аб кожным чалавеку; Навукоўцы дадзеныя маглі б назваць гэтыя характарыстыкі «асаблівасць» і сацыёлагі назвалі б іх «зменныя». Напрыклад, для кожнага чалавека, Blumenstock разлічваецца агульная колькасць дзён з актыўнасцю, колькасць розных людзей, чалавек знаходзіўся ў кантакце з таго, сума грошай, выдаткаваных на эфірны час, і гэтак далей. Крытычна, добрая асаблівасць інжынерныя патрабуюць ведаў умоў даследавання. Напрыклад, калі гэта важна адрозніваць ўнутраныя і міжнародныя званкі (мы маглі б чакаць, што людзі, якія называюць на міжнародным узроўні, каб быць багацей), то гэта павінна быць зроблена на асаблівасць інжынернага этапе. Даследчык з невялікім разуменнем Руанды не можа ўключаць у сябе гэтую функцыю, а затым прагнастычная эфектыўнасць мадэлі будзе пакутаваць.

Далей, у якую курыруе этапе навучання, Blumenstock пабудаваў мадэль , каб прадказаць рэакцыю абследавання для кожнага чалавека , у залежнасці ад іх асаблівасцяў. У гэтым выпадку, Blumenstock выкарыстоўвалі лагістычную рэгрэсію, але ён мог бы выкарыстаць цэлы шэраг іншых падыходаў статыстычнага або машыннага навучання.

Так як жа гэта працавала? Было Blumenstock стану прадказаць адказы на пытанні анкеты, як «У вас ёсць радыё?» І «Ці ёсць у вас ёсць ровар?», Выкарыстоўваючы функцыі, атрыманыя з запісаў выклікаў? Для таго , каб ацаніць эфектыўнасць яго прагнознай мадэлі, Blumenstock выкарыстоўваецца крос-праверкі, метад шырока выкарыстоўваецца ў навуцы дадзеных , але рэдка ў сацыяльнай навуцы. Мэтай крыжаванай праверкі з'яўляецца забеспячэнне справядлівай ацэнкі прагнознай прадукцыйнасці па мадэлі шляхам навучання яго і тэставання на розных падмноства дадзеных. У прыватнасці, Blumenstock падзяліць свае дадзеныя на 10 порцый па 100 чалавек кожны. Затым ён выкарыстаў дзевяць кавалкаў, каб навучаць сваю мадэль, і прагнастычныя эфектыўнасць навучаюць мадэлі была ацэненая на пакінутым кавалку. Ён паўтарыў гэтую працэдуру 10 разоў, з кожнай порцыяй дадзеных, атрымаць адзін абарот у якасці праверкі дадзеных-і асераднёных вынікаў.

Дакладнасць прадказанняў была высокая для некаторых прыкмет (малюнак 3.14); напрыклад, Blumenstock можа прадказаць з дакладнасцю 97,6%, калі хто-то валодаў радыё. Гэта можа здацца уражлівым, але заўсёды важна параўноўваць комплексны метад прагназавання супраць просты альтэрнатывы. У гэтым выпадку простая альтэрнатыва, каб прадказаць, што кожны дасць найболей агульны адказ. Напрыклад, 97,3% рэспандэнтаў паведамілі, валодаюць радыё, так што калі Blumenstock прадказаў, што кожны будзе паведамляць валоданні радыё, ён бы меў дакладнасць 97.3%, што дзіўна падобна на выкананне яго больш складанай працэдуры (дакладнасць 97,6%) , Іншымі словамі, усе фантазіі дадзеныя і мадэляванне павысіць дакладнасць прагназавання з 97,3% да 97,6%. Тым не менш, для іншых пытанняў, такіх, як «У вас ёсць ровар?», Прагнозы палепшыўся з 54,4% да 67,6%. У цэлым, паказчык 3,15 паказвае, што для некаторых прыкмет Blumenstock ня паляпшалася далёка за межы проста зрабіць просты базавы прагноз, але і для іншых прыкмет ёсць некаторае паляпшэнне. Гледзячы толькі на гэтыя вынікі, аднак, вы можаце не думаць, што такі падыход з'яўляецца асабліва перспектыўным.

Малюнак 3.14: Predictive дакладнасць для статыстычнай мадэлі навучанай з запісамі выклікаў. Адаптавана з Blumenstock (2014) , табліца 2.

Малюнак 3.15: Параўнанне дакладнасці прагнозу для статыстычнай мадэлі навучанай з запісамі выклікаў да простага базавага прадказанні. Акуляры злёгку jittered, каб пазбегнуць перакрыццяў. Адаптавана з Blumenstock (2014) , табліца 2.

Тым ня менш, толькі адзін год праз, Blumenstock і двое яго калег-Габрыэль Cadamuro і Роберт On-апублікавалі артыкул у Science з істотна лепшымі вынікамі (Blumenstock, Cadamuro, and On 2015) . Былі дзве асноўныя тэхнічныя прычыны такога паляпшэння: (1) яны выкарыстоўвалі больш складаныя метады (гэта значыць, новы падыход да асаблівасць тэхнікі і больш складаныя мадэлі для прагназавання рэакцыі ад асаблівасцяў) і (2), а не спрабаваць зрабіць выснову адказаў на індывідуальныя пытанні абследавання (напрыклад, «у вас ёсць радыё ці што?»), яны паспрабавалі вывесці індэкс складовага багацця. Гэтыя тэхнічныя ўдасканаленні азначалі, што яны маглі б зрабіць разумную працу з дапамогай запісаў выклікаў для прагназавання багацця для людзей у іх выбарцы.

Прадказанне багацця людзей ва ўзоры, аднак, не з'яўляецца канчатковай мэтай даследавання. Памятаеце, што канчатковай мэтай было аб'яднаць некаторыя з лепшых асаблівасцяў выбарачных абследаванняў і перапісаў для атрымання дакладных ацэнак высокага дазволу беднасці ў краінах, якія развіваюцца. Для таго, каб ацаніць іх здольнасць да дасягнення гэтай мэты, Blumenstock і яго калегі выкарысталі сваю мадэль і свае дадзеныя, каб прадказаць дабрабыт усяго 1,5 мільёна людзей, у запісе выклікаў. І яны выкарыстоўвалі геопространственных інфармацыі, убудаванай у запісе выклікаў (нагадаем, што дадзеныя ўключалі ў сябе размяшчэнне бліжэйшай сотавай вышцы для кожнага выкліку), каб ацаніць прыкладнае месца жыхарства кожнага чалавека (малюнак 3.17). Падставіўшы гэтыя дзве ацэнкі разам, Blumenstock і яго калегі вырабілі ацэнку геаграфічнага размеркавання абаненцкага багацця пры надзвычай тонкай прасторавай дэталізацыі. Напрыклад, яны маглі б ацаніць сярэдняе багацце ў кожным з 2148 клетак Руанды (найменшая адміністрацыйная адзінка ў краіне).

Наколькі добра гэтыя ацэнкі супадаюць з фактычным узроўнем беднасці ў гэтых рэгіёнах? Перш чым адказаць на гэтае пытанне, я хацеў бы падкрэсліць той факт, што ёсць шмат прычын, каб быць скептычна. Напрыклад, здольнасць рабіць прагнозы на індывідуальным узроўні, было даволі шумна (малюнак 3.17). І, магчыма, больш важна, людзі з мабільнымі тэлефонамі могуць сістэматычна адрознівацца ад людзей без мабільных тэлефонаў. Такім чынам, Blumenstock і калегі могуць пацярпець ад тыпаў памылак ахопу , якія прадузята 1936 апытання Literary Digest , што я апісаў раней.

Для таго, каб атрымаць адчуванне якасці іх ацэнак, Blumenstock і калегам неабходна параўнаць іх з чымсьці іншым. На шчасце, прыкладна ў той жа час, як іх даследаванні, іншая група даследчыкаў працуе больш традыцыйны сацыялагічнае апытанне ў Руандзе. Гэта іншае даследаванне, якое было часткай шырока паважанай галіне дэмаграфіі і аховы здароўя па праграмах мела вялікі бюджэт і выкарыстоўваюцца высакаякасныя, традыцыйныя метады. Таму ацэнкі ад дэмаграфіі і аховы здароўя абгрунтавана можна лічыць залатым стандартам ацэнкі. Пры параўнанні двух ацэнак, яны былі вельмі падобныя (малюнак 3.17). Іншымі словамі, шляхам аб'яднання невялікай колькасці дадзеных абследавання з запісаў пра выклікі, Blumenstock і яго калегі змаглі атрымаць ацэнкі, супастаўныя з тымі, з залатым стандартам падыходаў.

Скептык мог бы ўбачыць гэтыя вынікі, як расчараванне. У рэшце рэшт, адзін са спосабаў іх прагляду, каб сказаць, што пад час выкарыстаньня вялікіх дадзеных і машыннага навучання, Blumenstock і яго калегі змаглі атрымаць ацэнкі, якія могуць быць зроблены больш надзейна ўжо існуючымі метадамі. Але я не думаю, што гэта правільны спосаб думаць аб гэтым даследаванні па дзвюх прычынах. Па-першае, ацэнкі ад Blumenstock і яго калегі былі прыкладна ў 10 разоў хутчэй і ў 50 разоў танней (калі кошт вымяраецца ў тэрмінах зменных выдаткаў). Як я сцвярджаў раней у гэтай чале, даследчыкі ігнаруюць затраты на свой страх і рызыка. У гэтым выпадку, напрыклад, рэзкае зніжэнне кошту азначае, што замест таго, каб бегчы праз кожныя некалькі гадоў, як гэта стандарт для дэмаграфічных і медыцынскіх абследаванняў, такога роду абследавання можна было б працаваць кожны месяц, што забяспечыла б шматлікія перавагі для даследчыкаў і палітыкі вытворцы. Другая прычына не прымаць меркаванне скептыка ў тым, што гэта даследаванне дае асноўны рэцэпт, які можа быць адаптаваны да розных навукова-даследчым сітуацыях. Гэты рэцэпт мае толькі два інгрэдыенты і два крокі. Інгрэдыенты (1) вялікі крыніца дадзеных, шырокія, але тонкі (г.зн. у яго ёсць шмат людзей, але не інфармацыя, што вам трэба пра кожнага чалавека) і (2) даследаванні, якое вузкае, але тоўстым (гэта значыць, ён мае толькі некалькі людзей, але ў яго ёсць інфармацыя, што вам трэба пра тых людзей). Гэтыя інгрэдыенты затым аб'ядноўваюць у два этапы. Па-першае, для людзей у абодвух крыніцах дадзеных, пабудаваць мадэль навучання машыны, якая выкарыстоўвае вялікі крыніца дадзеных для прагназавання адказаў апытання. Затым, выкарыстоўвайце гэтую мадэль прыпісваць апытанне адказы кожнага ў вялікай крыніцы дадзеных. Такім чынам, калі вы маеце нейкі - то пытанне , які вы хочаце задаць шмат людзей, шукаць вялікі крыніца дадзеных з тых людзей , якія могуць быць выкарыстаны для прагназавання іх адказу, нават калі вы не клапоціцеся аб вялікім крыніцы дадзеных. Гэта значыць, Blumenstock і яго калегі не па сваёй сутнасці клапаціцца пра запіс выклікаў; яны клапаціліся толькі пра запіс выклікаў, таму што яны могуць быць выкарыстаны для прагназавання адказаў апытання, што яны клапоцяцца аб. Гэтая характарыстыка толькі ускосны цікавасць у вялікіх зыходных дадзеных-вытворцах ўзмацняецца з просьбай адрозніваецца ад убудаванага запытанага, які я апісаў раней.

Малюнак 3.16: Схема даследаванні Blumenstock, Cadamuro і С (2015). запісу выклікаў з тэлефоннай кампаніі была ператворана ў матрыцу з адным радком для кожнага чалавека, і адзін слупок для кожнай функцыі (гэта значыць зменная). Далей даследчыкі пабудавалі кантраляваную мадэль навучання, каб прадказаць адказы на апытанне з матрыцы людзей-па-функцыя. Затым паднаглядных мадэль навучання была выкарыстаная для стаўлення адказаў абследавання для ўсіх 1,5 млн кліентаў. Акрамя таго, даследчыкі ацанілі прыкладнае месца пражывання для ўсіх 1,5 млн кліентаў, заснаваных на месцах іх званкоў. Калі-былі рэзідэнцыі аб'яднаны гэтыя дзве ацэнкі ацэначнае багацця і ацэненае месца, вынікі былі аналагічныя ацэнках ад дэмаграфіі і аховы здароўя, залаты стандарт традыцыйнага апытання (малюнак 3.17).

Малюнак 3.16: Схема даследаванні Blumenstock, Cadamuro, and On (2015) . запісу выклікаў з тэлефоннай кампаніі была ператворана ў матрыцу з адным радком для кожнага чалавека, і адзін слупок для кожнай функцыі (напрыклад, зменная). Далей даследчыкі пабудавалі кантраляваную мадэль навучання, каб прадказаць адказы на апытанне з матрыцы людзей-па-функцыя. Затым паднаглядных мадэль навучання была выкарыстаная для стаўлення адказаў абследавання для ўсіх 1,5 млн кліентаў. Акрамя таго, даследчыкі ацанілі прыкладнае месца пражывання для ўсіх 1,5 млн кліентаў, заснаваных на месцах іх званкоў. Калі-былі рэзідэнцыі аб'яднаны гэтыя дзве ацэнкі ацэначнае багацця і ацэненае месца, вынікі былі аналагічныя ацэнках ад дэмаграфіі і аховы здароўя, залаты стандарт традыцыйнага апытання (малюнак 3.17).

Малюнак 3.17: Вынікі Blumenstock, Cadamuro, а на (2015). На індывідуальным узроўні, даследнікі змаглі зрабіць разумную работу ў прадказанні нечага багацця ад сваіх запісаў выклікаў. Ацэнкі раённага ўзроўню дабрабыту для Руанды 30 раёнаў-якія былі заснаваны на ацэнках індывідуальнага ўзроўню дабрабыту і месца жыхарства, былі аналагічныя выніках з ИДЗ, залаты стандарт традыцыйнага апытання. Адаптавана з Blumenstock, Cadamuro, а на (2015), згодна з фиг.1 і 3су.

Малюнак 3.17: Вынікі Blumenstock, Cadamuro, and On (2015) . На індывідуальным узроўні, даследнікі змаглі зрабіць разумную работу ў прадказанні нечага багацця ад сваіх запісаў выклікаў. Ацэнкі раённага ўзроўню дабрабыту для Руанды 30 раёнаў-якія былі заснаваны на ацэнках індывідуальнага ўзроўню дабрабыту і месца жыхарства, былі аналагічныя выніках з ИДЗ, залаты стандарт традыцыйнага апытання. Адаптавана з Blumenstock, Cadamuro, and On (2015) , згодна з фиг.1 і 3су.

У зняволенні Узмоцненыя просім падыход у спалучэнні дадзеныя абследаванняў Blumenstock з вялікім крыніцай дадзеных для атрымання адзнак, супастаўных з тымі, ад абследавання залатога стандарту. Гэты канкрэтны прыклад таксама ўдакладняе некаторыя кампрамісы паміж Узмацняецца задаваць пытанні і традыцыйныя метадамі абследавання. Ўзмоцненыя просім ацэнкі былі больш своечасова, значна танней, і больш крупчастымі. Але, з іншага боку, ёсць яшчэ не моцная тэарэтычная аснова для такога роду ўзмацняліся пытацца. Гэта адзін прыклад не показывает, калі гэты падыход будзе працаваць і калі ён не будзе, і даследчыкі, якія выкарыстоўваюць гэты падыход, павінны быць асабліва занепакоеныя магчымымі прыхільнасцямі, выкліканых тым, хто ўваходзяць, і хто не ўваходзяць у іх вялікім крыніцы дадзеных. Акрамя таго, узмоцненая запытаная падыход яшчэ не мае добрыя спосабы колькаснай ацэнкі нявызначанасці вакол сваіх ацэнак. Да шчасця, узмоцнены запытаная мае глыбокія сувязі ў трох вялікіх абласцях ў ацэнцы статыстыкі, малой плошчы (Rao and Molina 2015) , стаўлення (Rubin 2004) , а таксама на аснове мадэлі постстратификация (якая сама па сабе цесна звязаная з г - ном П., метад , які я апісаў раней у гэтай чале) (Little 1993) . З-за гэтыя глыбокія сувязі, я мяркую, што шмат хто з метадалагічных асноў Узмацняецца пытацца ў хуткім часе будуць палепшаны.

Нарэшце, параўноўваючы першую і другую спробу Blumenstock таксама иллюстрируешь важны ўрок аб лічбавым ўзросце сацыяльных даследаваннях: пачатак не канец. Гэта значыць, у шмат разоў, то першы падыход не будзе лепшым, але калі даследчыкі працягваюць працаваць, усё можа стаць лепш. У цэлым, пры ацэнцы новых падыходаў да сацыяльных даследаваннях у эпоху лічбавых тэхналогій, важна, каб зрабіць два розных ацэнак: (1) Наколькі добра гэта працуе цяпер? і (2) Наколькі добра будзе гэтая праца ў будучыні па меры змены дадзеных ландшафту і як даследчыкі надаюць больш увагі да гэтай праблемы? Хоць даследнікі навучаны, каб зрабіць першы выгляд ацэнкі, другі часта з'яўляецца больш важным.