3.6.1 Încîl û pirs ji

Çekiribe û lêgerîna te ji bo şopên dîjîtal nikare mîna padişayekî kesî pirsên we yên di hemû deman de be.

anketên test û jimartina: pirskirin, bi giştî di du kategoriyan de sereke bê. anketên rate, ku tu bikevî hejmarek piçûk a xelkê, dikare bibe nerm, di wextê xwe, û erzantir e. Lê belê, ji anketên test, ji ber ku ew bi ser test bingeha, bi caran li çareseriya wan bi sînor; bi lêkolînê test, ew e gelek caran zehmet e ji bo ku bi texmînî li ser herêmên taybet an jî ji bo komên civakê taybet. Jimartina, li aliyê din jî, hewldana ji bo hevpeyvînê de hemû kesên ku di nifûsa. Ew xwedî Versyonekî mezin, di heman demê de ew bi piranî biha, teng li fokusê (ew bi tenê di nav de hejmarek piçûk ên questions), û di wextê xwe ne (ew li ser bername sabît bibe, wek her 10 salan) (Kish 1979) . Niha em xeyal, eger lêkolîneran, dibe ku baş taybetiyên anketên test û jimartina êlêmêntên; difikirin eger lêkolînerên nikaribû her pirs ji her kesî her roj dipirsim.

Bê şik, ev berdewame, belav bûne, her dem-li ser anketa cure fantasy zanistên civakî de ye. Lê belê, xuya dike ku em dikarin dest bi hejma- ev by yekbûneke pirsên anketê ji hejmarek piçûk a gelê bi şopên digital ji gelek kesan. Ez bang dikim ev type of combination bergirî pirsîn. Eger baş kiriye, ew dikare alîkariya me texmîna ku herêmî more (ji bo deverên cografîk yên biçûk) in, tane more (ji bo komên civakê bi taybetî), û di wextê xwe zêdetir dike.

Yek mînak ji xwe dipirsî, bergirî ji karê Joshua Blumenstock, ku dixwest ji bo berhevkirina daneyên ku wê pêşketina rêber li welatên xizan alîkariya tê. Bi taybetî, Blumenstock xwest ku avakirina sîstema ji bo pîvandinê dewlemendî û rehetiya ku bi hev re bi temamî ji serjimartineke bi nermbûna û firehiya a anketa (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Bi rastî, ez ji niha ve bi kurtî li Chapter 1 şirove kiriye kar Blumenstock da.

Ji bo destpêkirina, Blumenstock bi mezintirîn xizmeta telefonên mobîl li Rwanda bûya. Şîrketa wî records mêjera veşartî re ji li ser 1.5 milyon mişterî helwesta salekî de ji 2005 û 2009. The têketin zanyariyên li ser hev bang û text message wek dema destpêka, duration, û cihê lê nêzîkî dozvanê û destikê dayîn. Berî ku em dest li ser pirsên îstatîstîk, hêjayî û nîşan kir ku ev gava yekem de dibe ku yek ji herî dijwar e. Weke ku di Chapter 2 şirove, herî welat şopên digital ji hişên lêkolîner e. Û, gelek şirketên mafdar de dudil ji bo parvekirina agahiyên xwe, ji ber ku taybet e; ku mişterîyên xwe dibe ne li bende bû ku qeydên wan parve-li wê bê bulk-bi lêkolîneran. Di vê rewşê de, lêkolînerên ku gavên baldar bo anonymize daneyên girt û xebatên wan ji aliyê third-party (ango, IRb xwe) hilanîn bû. Lê, li gel van hewldanan, ev welat in, dibe hêj jî naskirî û ew îhtîmala zanyariyên hesas (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ez ê ji bo van pirsa exlaqî li Chapter 6 vegere.

Bibîr bînin, ku Blumenstock bala pîvandinê dewlemendî û rehetiya bû. Lê belê, ev karakterî ne rasterast di qeydên telefonî de ne. Bi gotineke din, ev qeydên banga ji bo vê lêkolînê de, taybetmendîya hevpar a şopên dîjîtal ku bi berfirehî li Beşa 2. nîqaş kirin ne temam in, lê belê wisa xuya dike dûre, ku di qeydên telefonî de, dibe hin agahî li ser dewlemendî û rehetiya hene. Bi vî awayî, yek riya pirsîna pirsa Blumenstock, dibe: gengaz e ku mirov pêşbînî bike, çawa yekî ji bo lêkolînê li gor daneyên şopên digital xwe bersiv bidin? Eger wisa be, wê demê ji aliyê pirs ji çend kesan em dikarin bersivęn ji her kesê din texmîn.

Ji bo nirxandina vê ezmûnî, Blumenstock û erkedarê ji Enstîtuya Kigali of Science and Technology a test of about a hezar mişteriyên telefona mobîl de tê gotin. Lêkolîneran armancên projeyê jî ji beşdaran re şîrove, ji bo erêkirina wan jî berve ku bersiva anketê ji bo qeydên telefonî de pirsî, û ji wan re çend pirs pirsîn: ji bo pîvandinê dewlemendiya xwe û rehetiya, wek "Ma hûn xwe a radyo? "û" Ma tu bi xwe a bicycle bike? "(binêrin li Xiflteya 3.11 ji bo lîsteya qismî). Hemû beşdaran di lêkolînê de aborî telafî kirin.

endezyariya feature li pey hînbûnê sergêrî: Next, Blumenstock prosedureke du-gaveke hevbeş li zanistê welat tê bikaranîn. Yekem, di gava engineering dirêj, ji bo her kesî ku hevpeyvîn bû, Blumenstock records bang li nav a set ji taybetmendiyên li ser her kesî bîya; zanyarên welat bibe ji van taybetiyên Ji bo nimûne dibêjin "taybetmendiyên" û zanistên civakî, ji wan re dibêjin "tê guherîn.", ji bo her kesekî, Blumenstock tê hesabkirin, hejmara giştî ya rojan de bi aktîvîteyên, hejmara kesên ku cuda kesekî hatiye li têkilî bi meblexa pere xerc li ser ekranan, û da ser. Bilindtirîn, endazyarî, feature baş pêdivî bi zanîna mîhengê lêkolînê. Ji bo nimûne, eger ev girîng e ku mirov ferqên di navbera navxweyî û navnetewî (em li bende kesên telefonî navnetewî de be dewlemendtir) e, hingê divê ev li ber gaveke engineering feature bê kirin. A lêkolînera bi têgihiştina kêm ji Rwanda bibe vê taybetiyê di nav de ne, û paşê bi performansa pêşdîtinê ya modela wê cefayê bikişîne.

Next, di gava fêrbûna sergêrî, Blumenstock ava a modela statîstîk ku pêşbînî li ser bersiva anketê de ji bo her kesekî ku li ser taybetiyên xwe. Di vê rewşê de, Blumenstock regresyonê bi cihbûn û bi 10-qatî cross-çiraxî bikaranîn, lê nikaribû cîhêreng ên din helwestên fêrbûna statîstîk an machine hatine bikaranîn.

Îcar çawa baş ev kar kir? Blumenstock bikaribe pêşbînî bike, bersivên bi rapirsiyekî pirsên wek bû "Ma hûn xwe a radyo?" Û "Ma hûn xwe a bicycle bike?" Bikaranîna taybetiyan Navdêr records banga? Derxistin. Ji bo şaşitî û bendewariyan bilind ji bo hinek taybetmendiyên (WÊNE 3.11) bûn. Lê belê, ev e herdem girîng to compare rêbazeke Pêşbîniyên tevlîhev dijî alternatîf a sade. Di vê rewşê de, a alternatîf hêsan e mirov pêşbînî bike, ku herkes dê bersiva herî bidin. Ji bo nimûne, 97,3% ragihandin xwedîbûna radyo da ku eger Blumenstock pêşbînî kiribû ku hemû rapor xwedîbûna radio ku ew ê rastiya 97,3%, e ku yên nişkegavî li similar to performansê cezakirina tevlihevtir xwe (rastbûna 97.6%) heye. Bi gotineke din, hemû daneyên spehî û Modelê ji bo şaşitî û Pêşbîniyên ji 97,3% ji bo 97.6% zêde bûye. Lê belê, ji bo pirsên din, yên wek "Ma tu bi xwe a bicycle?", Bendewariyan ji 54,4% ji 67,6% başkirin. Bi awayekî giştî, Figure 3.12 nîşan dide ji bo hinek taybetmendiyên Blumenstock ew çiqas dê bi tenê ji çêkirina Pêşbîniyên sade border baştirkirina ne, lê ku ji bo taybetiyên din bû hin başkirina hene.

Figure 3.11: rastbûna pêşdîtinê bo model, îstatîstîk hatine perwerdekirin bi records banga. Results ji Xiflteya 2, ji Blumenstock (2014).

Figure 3.11: rastbûna pêşdîtinê bo model, îstatîstîk hatine perwerdekirin bi records banga. Results ji Xiflteya 2, ji Blumenstock (2014) .

Figure 3.12: eyna ji bo şaşitî û pêşdîtinê bo model, îstatîstîk hatine perwerdekirin bi records banga ji bo Pêşbîniyên border sade. Points bi sivikî jittered ji bo pênaskirin; Xiflteya 2, ji Blumenstock (2014) ji bo nirxên rastîn bibîne.

Figure 3.12: eyna ji bo şaşitî û pêşdîtinê bo model, îstatîstîk hatine perwerdekirin bi records banga ji bo Pêşbîniyên border sade. Points bi sivikî jittered ji bo pênaskirin; Xiflteya 2, ji dîtina Blumenstock (2014) ji bo nirxên rastîn.

Di vî warî de hûn bê difikirin ku ev encam hinekî daxê, lê bi tenê yek, piştî salekê, Blumenstock û du hevalên-Gabriel Cadamuro û Robert ser-weşand paper li Science bi encam ji bihaya baştir (Blumenstock, Cadamuro, and On 2015) . bûn du sedemên teknîkî yên sereke ji bo başkirina hene: 1) ew rêbazên sofîstîke bikaranîn (ango, nêrîneke nû ji bo feature endaziyarî û modela fêrbûna machine sofîstîke) û 2) bêtir hewl dide ku nîşan dide ku bersiva pirsên anketê şexsî (wek nimûne, "Ma a radyo hûn xwe?"), ew hewl da ku nîşan dide ku ji pêrista dewlemendî pêkhatî.

Blumenstock û hevalên performansê ji nêzîkatiya wan bi du awayan nîşan da. Yekem, ewan dîtin, ku ji bo gelê li test wan, lê wan nikaribû karekî rind baş ji encama dewlemendiya wan ji qeydên bang dike (Şikil 3.14) bikin. Duyemîn, û her û her ji vê jî zêdetir, Blumenstock û hevalên xwe da xuyakirin, ku pêvajoya kirarî wan texmînên-high quality of belavkirina cografîk yên dewlemendîyên li Rwanda hilberîne. Bi taybetî, ew model fêrbûna makîna xwe, ku li ser testê xwe yên li ser 1,000 kes perwerde kirin, tê bikaranîn ku pêşbînî li ser dewlemendiya hemû 1.5 milyon kes di qeydên telefonî de. Din, bi daneyên jeowusatî bicîbûyî de li welat banga de (bibîrxistin ku daneya telefonî de di nav de cihê herî nêz birca hucreyê de ji bo her bang), ku lêkolînerên nikare texmîn cihê nêzîkî rûniştinê ya her kesî bûn. Ango van herdu texmînên bi hev re, di lêkolîna texmînî di dabeşkirina cografîk yên dewlemendiya abonetiyê li granularity pirralî gelek xas çêkirin. Ji bo nimûne, ew nikaribû ku dewlemendiya average li her yek ji 2148 hucreyên Ruwandayê (ya herî biçûk jî yekîneya îdarî li welêt) texmîn dikin. Ev nirxên dewlemendî Caf, da tane ew jî zehmet bûn. Bi vî awayî, ku lêkolîner encamên wan -şandîyên ji bo hilberîna bi texmînî yên ku dewlemendiya navînî ji 30 navçeyên Rwanda da. Van hejmaran-asta navçeyê bi tundî ji texmînên ji zêr lêkolînê kevneşop standard related kirin, ruwandayî Demographic û Health Survey (WÊNE 3.14). Tevî ku bi texmînî ji du çavkaniyên ji hev bûn, li gor ji Blumenstock û hevalên xwe re behsa 50 car erzantir û 10 car bi leztir (gava ku mesrefa li di warê lêçûnên variable pîvandin) bûn. Ev decrease dramatîk li mesrefa tê wateya ku şûna run her çend salan-wek standard ji bo Demographic û Health e Rapirsî-the hybrid yên lêkolînê biçûk bi hev re bi big welat şopên dîjîtal dikarin her mehê bên birêvebirin.

Figure 3.13: Schematic ji Blumenstock, Cadamuro, û ser (2015). Daneyên Banga ji şîrketa telefonê de ji bo matrix bi yek row ji bo her yekî û yek column ji bo her feature (i.e., variable) bûbû. Next, lêkolînerên ku modela fêrbûna sergêrî ava ku pêşbînî li ser bersiva anketê ji kesê destê matrix feature. Hingê, modela fêrbûna sergêrî ji bo hesab ji bersiva anketê ji bo her kesî hat bikaranîn. Di rastiyę de, lêkolînerên ku bersiv li ser hezar kes ji bo hesab ji serweta li ser yek milyon kesan. Jî, ku lêkolînerên cihê nêzîkî rûniştinê ji bo hemû 1.5 milyon kes li ser deverên ku bangên xwe texmînkirin. Dema ku ev her du bi texmînî kombîne-the bûn dewlemendî texmînkirin û cihê ku tê texmînkirin ji rûniştinê-encamên similar to bi texmînî ji Demographic û Health Survey, lêkolînê kevneşop zêr-standard (WÊNE 3.14) bûn.

Figure 3.13: Schematic ji Blumenstock, Cadamuro, and On (2015) . Daneyên Banga ji şîrketa telefonê de ji bo matrix bi yek row ji bo her yekî û yek column ji bo her feature (ango, variable) bûbû. Next, lêkolînerên ku modela fêrbûna sergêrî ava ku pêşbînî li ser bersiva anketê ji kesê destê matrix feature. Hingê, modela fêrbûna sergêrî ji bo hesab ji bersiva anketê ji bo her kesî hat bikaranîn. Di rastiyę de, lêkolînerên ku bersiv li ser hezar kes ji bo hesab ji serweta li ser yek milyon kesan. Jî, ku lêkolînerên cihê nêzîkî rûniştinê ji bo hemû 1.5 milyon kes li ser deverên ku bangên xwe texmînkirin. Dema ku ev her du bi texmînî kombîne-the bûn dewlemendî texmînkirin û cihê ku tê texmînkirin ji rûniştinê-encamên similar to bi texmînî ji Demographic û Health Survey, lêkolînê kevneşop zêr-standard (WÊNE 3.14) bûn.

Figure 3.14: Results ji Blumenstock, Cadamuro, û ser (2015). Li-asta kesayetan de, lêkolînerên ku karibin karekî maqûl li encama dewlemendiya yekî ji records banga xwe de bûn. Li gor yên-level navçeya dewlemendî-ku li ser texmînên-asta şexsî yên dewlemendî û cihê mana-encamên bingeha bûn similar to results ji Demographic û Health Survey, lêkolînê kevneşop zêr-standard bûn.

Figure 3.14: Results ji Blumenstock, Cadamuro, and On (2015) . Li-asta kesayetan de, lêkolînerên ku karibin karekî maqûl li encama dewlemendiya yekî ji records banga xwe de bûn. Li gor yên-level navçeya dewlemendî-ku li ser texmînên-asta şexsî yên dewlemendî û cihê mana-encamên bingeha bûn similar to results ji Demographic û Health Survey, lêkolînê kevneşop zêr-standard bûn.

Di encamê de, Blumenstock ya bergirî pirs ji nêzîkatiya bi hev re daneyên lêkolînê bi daneya şopên digital ji bo hilberîna texmînên cureyî bi texmînî lêkolînê zêr-standard. Ev mînak bi taybetî jî zelal dike hin ji yên ku bazirganî-jikarderxistinê ya di navbera xwe dipirsî, bergirî û metodên lêkolînê kevneşop. Yekem, li gor pirs bergirî di wextê xwe zêdetir, ji bihaya erzantir, û tane zêdetir bûn. Lê, li aliyê din jî, di vê demê de ye, bi bingeha teorîk jî gelekî xurt ji bo bi vî rengî ji xwe dipirsî, bergirî li wê derê. Ku, ev yek nimûne nade dema ku ev kar wê û gava ku, ew dê ne. Din, bi nêzîkatiya xwe dipirsî, bergirî hîn riyên baş ji bo parêzwanên nehatê, li dora texmînên xwe tune ne. Lê belê, dipirsî, bergirî û têkiliya kûr ji bo sê herêmên mezin li ser bingeha statistics-model post-asûna (Little 1993) , imputation (Rubin 2004) , û li gorî nirxa biçûk-herêma (Rao and Molina 2015) şerekî wisa ez hêvî dikim ku pêşketina wê bi lez bibin.

xwe dipirsî, bergirî li pey bivî bingehîn ku dikare ji bo rewşa taybetî xwe were mesaxtin. du malzemeyên û du gav hene. Du malzemeyên in 1) a dataset şopên dîjîtal e ku wide lê tenik (ku ye, wê gelek kes lê ne ku tu li ser her kesên pêwîstiya) û 2) a lêkolînê jî ew e ku teng lê qalind (ku ye, ku ev tenê çend kes, di heman demê de ev heye ku agahiyên ku te li ser wan kesên ku pêwîstiya). Hingê, in, du gav hene. Pêşî, ji bo kesên ku di her du çavkaniyên daneyan, ava a modela fêrbûna makîneyeke ku ji zimên welat şopên dîjîtal mirov pêşbînî bike, bersîvên anketê. Next, bi kar tînin ku modela fêrbûna makîne ji bo hesab ji bersîvên anketê ji her kesê ku di welat şopên digital. Bi vî awayî, eger e hin pirsa ku tu dixwazî ​​bixwaze, ku gelek kes jî, ji bo welat şopên dîjîtal binêrin ji wan kesên ku dê bên bikaranîn, texmîna bersiva wan tune.

Dema meriv pêşî û yên diduyan hewldana Blumenstock ya li pirsgirêkê jî h'ejmara an derseke girîng li ser derbasbûna ji serdema duyemîn ji bo helwestên serdema sêyemîn bi rapirsînê: di destpêkê de ye, dawiya ne. Ku tê, gelek caran, bi nêzîkatiya yekem dê ne be baştirîn, lê eger lêkolînerên berdewam xebatê, tiştên ku dikarin baştir. Bi awayekî giştî, gava ku nirxandin û nêzîktêdayînên nû ji bo lêkolînên civakî ya ku di serdema dîjîtal, ev girîng e ku mirov du nirxandinên cuda: 1) çawa baş nizane ev xebata niha û 2) çawa baş tu difikirî ku ev bibe, di pêşerojê de wek landscape welat ji kar Guherandinên û wek lêkolîner eleqeyek zêdetir ji bo vê pirsgirêkê. Tevî ku, lêkolîner bi perwerdekirin, da ku kind yekemîn ya nirxandinê (çawa baş ev perçeka taybet ya lêkolînan e), ya duyem e, gelek caran zêdetir girîng e.