3.6.1 Magnari spyrja

Krækjur könnun á stafrænu ummerki geta verið eins og að biðja alla spurningum þínum á öllum tímum.

Asking koma yfirleitt í tvo meginflokka: úrtakskannanir og manntöl. Úrtakskönnunum, þar sem þú aðgang lítinn fjölda fólks, getur verið sveigjanleg, tímabær, og tiltölulega ódýrt. Hins vegar sýni kannanir, vegna þess að þeir eru byggðar á úrtaki, eru oft takmörkuð í ályktun sinni; með könnun sýni, er það oft erfitt að gera áætlanir um einstök landsvæði eða fyrir tiltekna lýðfræðilega hópa. Manntöl, hins vegar, að reyna að viðtal alla í þýði. Þeir hafa mikla upplausn, en þeir eru yfirleitt dýrari, þröngt í fókus (þeir eru aðeins fáeinum spurningum), og ekki tímabær (þeir gerast á fastri áætlun, svo sem hvert 10 ára) (Kish 1979) . Nú ímynda sér ef vísindamenn gætu sameina bestu eiginleika úrtakskönnunum og manntöl; ímynda sér ef vísindamenn gætu spyrja í hvert spurningu til allra á hverjum degi.

Vitanlega, þetta stöðugt, alls staðar nálægur, alltaf-á könnun er einskonar félagsleg vísindi ímyndunarafl. En, það virðist sem við getum byrjað að samræma þetta með því að sameina könnun upplýsingum frá litlum fjölda fólks með stafrænum ummerki frá mörgum. Ég kalla þessa tegund af samsetningu magnað spyrja. Ef gert vel, gæti það hjálpað okkur veitir mat, sem eru meira staðbundin (fyrir smærri landsvæðum), meira korn (fyrir tilteknum lýðfræðilega hópa), og tímabær.

Eitt dæmi um magna spyrja kemur frá vinnu Joshua Blumenstock, sem vildi til að safna gögnum sem myndi hjálpa leiða þróun í fátækum löndum. Nánar tiltekið, Blumenstock langaði til að búa til kerfi til að mæla auð og velferð að sameina heilleika manntali með sveigjanleika og tíðni könnun (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Í raun hef ég nú þegar lýst verk Blumenstock er stuttlega í 1. kafla.

Til að byrja, Blumenstock samstarfi við stærsta farsímafélag í té í Rúanda. Félagið veitt honum nafnlaus viðskipti færslur frá um 1,5 milljónir viðskiptavina nær hegðun frá árinu 2005 og 2009. The logs innihalda upplýsingar um hvert símtal og textaskilaboðum eins og byrjun tíma, lengd og áætlaða landfræðilegri staðsetningu þess sem hringir og móttökutæki. Áður en við byrjum að tala um tölfræðilegar málefni, er það þess virði að benda á að þetta fyrsta skrefið gæti verið einn af the herða. Eins og lýst er í 2. kafla, mest stafræn rekja gögn er óaðgengilegur vísindamönnum. Og, eru mörg fyrirtæki réttilega hikandi við að deila gögnum sínum vegna þess að það er lokað; það er viðskiptavinir þeirra líklega ekki búast við að færslur þeirra verður deilt í einu-með vísindamönnum. Í þessu tilviki, að vísindamenn tóku varfærin skref til nafnlausa gögn og vinna þeirra var umsjón með þriðja aðila (þ.e. IRB þeirra). En, þrátt fyrir þessar aðgerðir, eru þessi gögn sennilega enn auðkennd og þeir innihalda líklegt viðkvæmar upplýsingar (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ég aftur á þessum siðferðilegu spurningu í 6. kafla.

Muna að Blumenstock hefði áhuga á að mæla auð og velferð. En eru þessi eiginleiki ekki beint í kalla færslur. Með öðrum orðum, eru þessar kalla færslur ófullnægjandi fyrir þessari rannsókn, sameiginlegt stafrænum ummerki sem var rætt í smáatriðum í 2. kafla En, það virðist líklegt að kalla færslur hafa sennilega einhverjar upplýsingar um auð og velferð. Svo, ein leið til að spyrja spurning Blumenstock gæti verið: það er hægt að spá fyrir um hvernig einhver mun svara könnun á grundvelli þeirra stafrænum gögnum snefilefni? Ef svo er, þá með því að spyrja nokkra menn sem við getum giska svör allir aðrir.

Til að meta þetta reynslan, Blumenstock og rannsóknir aðstoðarmenn frá Kigali Institute of Science and Technology kallast sýnishorn af um þúsund farsíma viðskiptavina símans. Rannsakendur útskýrði markmið verkefnisins að þátttakendur, bað um samþykki þeirra til að tengja Könnun á símtali færslur, og þá spurði þá nokkrar spurningar til að mæla auð þeirra og velferð, svo sem "Ert þú átt útvarp? "og" Áttu hjól? "(sjá mynd 3.11 fyrir hluta lista). Allir þátttakendur í könnuninni voru bætt fjárhagslega.

Næst, Blumenstock notaði tveggja þrepa aðferð algeng í gögnum vísindum: lögun verkfræði eftir stýrða námi. First, í lögun verkfræði skref, fyrir alla sem var viðtal, Blumenstock breytt kalla færslur inn í hóp af eiginleikum um hvern einstakling; gögn vísindamenn gætu hringt þessi einkenni "lögun" og félagsleg vísindamenn myndu kalla þá "breytur." Til dæmis, fyrir hvern einstakling, Blumenstock reiknað heildarfjölda daga með starfsemi, fjölda mismunandi fólki maður hefur verið í sambandi við, að upphæð af peningum eytt í útsending, og svo framvegis. Gagnrýnin, góður eiginleiki verkfræði krefst þekkingar á umhverfi rannsókna. Til dæmis, ef það er mikilvægt að greina á milli innlendra og símtöl til útlanda (og búast mætti ​​við fólk sem kalla á alþjóðavettvangi til að vera ríkari), þá er þetta verður gert á lögun verkfræði skref. A rannsóknir með smá skilning á Rúanda gæti ekki fela þennan eiginleika, og þá sjálfvirkri frammistöðu líkansins mun þjást.

Næst, í umsjón læra skref, Blumenstock byggði tölfræðilíkan að spá könnun svar fyrir hvern einstakling byggt á lögun þeirra. Í þessu tilviki, Blumenstock notað aðhvarfsgreiningu með 10-falt yfir-mat, en hann hefði getað notað ýmsar aðrar aðferðir tölfræðilegar eða vél nám.

Svo hversu vel var það að vinna? Var Blumenstock fær um að spá svör við könnun spurningum eins og "Áttu útvarp?" Og "Áttu hjól?" Nota eiginleika unnin úr skrám kalla? Eiginlega. Nákvæmni spár voru mikil fyrir suma eiginleika (Mynd 3.11). En, það er alltaf mikilvægt að bera saman flókna spá aðferð gegn einföldum val. Í þessu tilfelli, einfalt val er að spá því að allir vilja gefa algengasta svarið. Til dæmis, 97,3% tilkynnt að eiga útvarp þannig að ef Blumenstock hafði spáð því að allir myndu tilkynna eiga útvarp sem hann hefði haft nákvæmni 97,3%, sem er furðu svipað frammistöðu flóknari málsmeðferð hans (97.6% nákvæmni). Með öðrum orðum, allir ímynda gögn og líkan aukið nákvæmni spá frá 97,3% til 97,6%. Hins vegar, fyrir aðrar spurningar, svo sem "Áttu hjól?", Spár batnað frá 54,4% til 67,6%. Almennt, mynd 3.12 sýnir að sumir eiginleiki Blumenstock ekki bæta mikið lengra bara að gera einfalda grunnlínumagnið spá, en það fyrir aðra eiginleika það var einhver framför.

Mynd 3.11: Sjálfvirk nákvæmni fyrir tölfræðilegar upplýsingar þjálfað með færslur kalla. Niðurstöður úr töflu 2 Blumenstock (2014).

Mynd 3.11: Sjálfvirk nákvæmni fyrir tölfræðilegar upplýsingar þjálfað með færslur kalla. Niðurstöður úr töflu 2 Blumenstock (2014) .

Mynd 3.12: Samanburður á sjálfvirkri nákvæmni fyrir tölfræðilegar upplýsingar þjálfað með færslur kalla til einfalda grunnlínu spá. Stig eru örlítið jittered að forðast skörun; sjá töflu 2 í Blumenstock (2014) fyrir nákvæmlega gildi.

Mynd 3.12: Samanburður á sjálfvirkri nákvæmni fyrir tölfræðilegar upplýsingar þjálfað með færslur kalla til einfalda grunnlínu spá. Stig eru örlítið jittered að forðast skörun; sjá töflu 2 í Blumenstock (2014) fyrir nákvæmlega gildi.

Á þessum tímapunkti sem þú gætir verið að hugsa að þessar niðurstöður eru dálítið vonbrigði, en bara einu ári síðar, Blumenstock og tveir samstarfsmenn-Gabriel Cadamuro og Robert On-út pappír í Science með verulega betri árangri (Blumenstock, Cadamuro, and On 2015) . Það voru tveir helstu tæknilegar ástæður fyrir því að bæta: 1) þeir nota flóknari aðferðir (þ.e. nýja nálgun að lögun verkfræði og flóknari vél nám líkan) og 2) frekar en að reyna að álykta svör við einstökum spurningum könnunarinnar (td "Áttu útvarp?"), reyndi þeir að álykta samsettur auð vísitölu.

Blumenstock og samstarfsmenn sýndu árangur nálgun þeirra á tvo vegu. First, finna þeir að fyrir fólk í úrtakinu þeirra, þeir gætu gert mjög gott starf við að spá auð sinn úr skrám kalla (Mynd 3.14). Í öðru lagi, og alltaf meira um vert, Blumenstock og samstarfsmenn sýndu að málsmeðferð þeirra gæti framleiða hágæða mat á landfræðilega dreifingu auðs í Rúanda. Nánar tiltekið, þeir nota þeirra vél nám líkan, sem var þjálfaðir á úrtaki þeirra um 1.000 manns, til að spá fyrir auð allra 1,5 milljónir manna í kalla færslur. Ennfremur með geospatial gögn embed í símtali gögn (muna að kalla gögn eru um staðsetningu næsta klefi turn fyrir hvert símtal), sem vísindamenn gátu til að meta áætlaða búsetustað hvers einstaklings. Setja þessar tvær áætlanir saman, rannsóknir framleitt mat á landfræðilega dreifingu áskrifandi auðs á mjög fínu staðbundnum granularity. Til dæmis, gætu þeir áætla meðaleyðslu auð í hverju Rúanda er 2148 frumur (minnstu stjórnsýslueiningar í landinu). Þessi áætluðu auð gildi voru svo kornótt þeir voru erfitt að stöðva. Svo, vísindamenn samanlögð úrslit þeirra til að framleiða mat á meðaltali auð 30 héruðum Rúanda er. Þessar hverfi-stigi áætlanir voru í sterkum tengslum við mat frá gullfæti hefðbundnum könnun, Rúanda Lýðfræðileg og heilsa (Mynd 3.14). Þótt matið frá tveimur aðilum voru svipuð, áætlanir frá Blumenstock og samstarfsmenn voru um 50 sinnum ódýrari og 10 sinnum hraðar (þegar kostnaður mæld í skilmálar af breytilegum kostnaði). Þessi mikla lækkun á kostnaði þýðir að frekar en að vera að keyra á nokkurra ára fresti, sem er staðall fyrir Lýðfræðilegum og Heilnæmiskannanir-blendingur af litlum könnun ásamt stóru stafrænum gögnum snefilefni væri hægt að keyra í hverjum mánuði.

Mynd 3.13: Yfirlit um Blumenstock, Cadamuro og On (2015). Hringja gögn frá símafyrirtækinu var breytt í fylki með eina röð fyrir hvern einstakling og einn dálk fyrir hverja aðgerð (þ.e. breytilegri). Næst, vísindamenn byggði stýrðan læra líkan til að spá fyrir um Könnun úr mann með lögun fylki. Þá stýrði nám líkan var notað til að tilreiknar Könnun fyrir alla. Í raun, vísindamenn notað viðbrögð um eitt þúsund manns að tilreiknar auð um ein milljón manna. Einnig, vísindamenn áætlað áætlaða búsetu fyrir alla 1,5 milljónir manna á grundvelli stöðum símtöl þeirra. Þegar þessar tvær áætlanir voru sameinaðir-the áætlað auð og áætlaður búsetustað-niðurstöður voru svipaðar áætlanir frá lýðfræðilegum og Health Survey, gull-staðall hefðbundna könnun (mynd 3.14).

Mynd 3.13: Yfirlit um Blumenstock, Cadamuro, and On (2015) . Hringja gögn frá símafyrirtækinu var breytt í fylki með eina röð fyrir hvern einstakling og einn dálk fyrir hverja aðgerð (þ.e. breytilegri). Næst, vísindamenn byggði stýrðan læra líkan til að spá fyrir um Könnun úr mann með lögun fylki. Þá stýrði nám líkan var notað til að tilreiknar Könnun fyrir alla. Í raun, vísindamenn notað viðbrögð um eitt þúsund manns að tilreiknar auð um ein milljón manna. Einnig, vísindamenn áætlað áætlaða búsetu fyrir alla 1,5 milljónir manna á grundvelli stöðum símtöl þeirra. Þegar þessar tvær áætlanir voru sameinaðir-the áætlað auð og áætlaður búsetustað-niðurstöður voru svipaðar áætlanir frá lýðfræðilegum og Health Survey, gull-staðall hefðbundna könnun (mynd 3.14).

Mynd 3.14: Niðurstöður úr Blumenstock, Cadamuro, og á (2015). Á einstökum stigi, sem vísindamenn gátu til að gera hæfilegan starf á spá auð einhvers úr skrám kalla þeirra. Mat á hverfi-stigi auð-sem voru byggð á einstaklingsbundnu stigi áætlun um auð og búsetu-niðurstöður voru svipaðar niðurstöður úr Lýðfræðileg og Health Survey, gull-staðall hefðbundnum könnun.

Mynd 3.14: Niðurstöður úr Blumenstock, Cadamuro, and On (2015) . Á einstökum stigi, sem vísindamenn gátu til að gera hæfilegan starf á spá auð einhvers úr skrám kalla þeirra. Mat á hverfi-stigi auð-sem voru byggð á einstaklingsbundnu stigi áætlun um auð og búsetu-niðurstöður voru svipaðar niðurstöður úr Lýðfræðileg og Health Survey, gull-staðall hefðbundnum könnun.

Að lokum, Blumenstock er magnað spyrja nálgun ásamt könnun gagna með stafrænum gögnum snefilefni til að framleiða mat sambærileg við gull-staðall mati könnun. Þetta tiltekna dæmi skýrir einnig sumir af the málamiðlanir milli magna spyrja og hefðbundnum aðferðum könnun. Í fyrsta lagi magnaðar spyrja áætlanir voru tímabær, verulega ódýrari, og fleira kornótt. En, á hinn bóginn, á þessum tíma, það er ekki mikil fræðilegur grundvöllur fyrir þessa tegund af magna hallann spyrja. Það er, þetta eitt dæmi er ekki að sýna þegar það mun virka og þegar það verður ekki. Ennfremur er magnað uppsett aðferð hefur enn ekki góðar leiðir til að mæla óvissu um mat sínum. Hins vegar magnað uppsett hefur djúpar tengsl við þremur stórum svæðum í statistics-líkan byggir post-lagskiptingu (Little 1993) , áætla stærðir (Rubin 2004) , og lítil svæði matsaðferðir (Rao and Molina 2015) -Og svo ég býst við að framfarir muni vera hraður.

Magna uppsett fylgir undirstöðu uppskrift sem hægt er að sníða að aðstæðum þínum. Það eru tvær hráefni og tveimur skrefum. Þessar tvær innihaldsefni eru 1) stafræna snefill gagnapakka sem er breiður en þunn (það er, það hefur marga fólk en ekki þær upplýsingar sem þú þarft um hvern aðila) og 2) könnun sem er þröngt en þykkur (það er, það hefur aðeins fáir, en það hefur þær upplýsingar sem þú þarft um þetta fólk). Þá eru tvö skref. Í fyrsta lagi fyrir fólk í báðum aðilum gögn, byggja upp vél nám líkan sem notar stafrænum gögnum snefil að spá könnun svör. Næst, nota þessi vél nám líkan til tilreiknar könnun svör allra í stafrænum gögnum snefilefni. Svona, ef það er einhver spurning sem þú vilt spyrja að fullt af fólki, leita stafrænum gögnum snefilefni úr þeim sem gæti notað til að spá svar þeirra.

Samanburður fyrsta og annað tilraun Blumenstock er á vandamálinu einnig sýnir mikilvæga lexíu um umskipti frá seinni tímum þriðja tímabil aðferðir að kanna rannsóknir: byrjunin er ekki endirinn. Það er mörgum sinnum, fyrst nálgun mun ekki vera the bestur, en ef vísindamenn halda áfram að vinna, það er hægt að fá betri. Almennt, þegar meta nýjar aðferðir til félagslegrar rannsóknir í stafrænni öld, það er mikilvægt að gera tvær mismunandi mati: 1) hversu vel virkar þetta núna og 2) hversu vel þú heldur að þetta gæti virkað í framtíðinni eins og gögn landslag breytingar og eins vísindamönnum verja meiri athygli á því vandamáli. Þó eru vísindamenn þjálfaðir til að gera fyrsta konar mat (hversu gott er þetta tiltekna stykki af rannsóknum), annað er oft meira máli.