3.6.1 amplifikati tistaqsi

Linking istħarriġ tiegħek għal traċċi diġitali jistgħu jkunu simili tistaqsi kulħadd mistoqsijiet tiegħek fil-ħinijiet kollha.

Tistaqsi ġeneralment jiġi f'żewġ kategoriji prinċipali: stħarriġ kampjun u ċensimenti. kampjuni ta 'stħarriġ, fejn inti aċċess numru żgħir ta' nies, jista 'jkun flessibbli, f'waqtha, u relattivament irħisa. Madankollu, kampjuni ta 'stħarriġ, peress li huma bbażati fuq kampjun, huma spiss limitati fir-riżoluzzjoni tagħhom; bi stħarriġ kampjun, huwa spiss diffiċli biex jagħmlu stimi dwar ir-reġjuni ġeografiċi speċifiċi jew għal gruppi demografiċi speċifiċi. Ċensimenti, min-naħa loħra, tentattiv biex tintervista lil kulħadd fil-popolazzjoni. Huma għandhom riżoluzzjoni kbira, iżda huma ġeneralment għoljin, dejqa fil-fokus (dawn jinkludu biss numru żgħir ta 'mistoqsijiet), u mhux fil-ħin (jigru fuq skeda fissa, bħal kull 10 snin) (Kish 1979) . Issa immaġina jekk riċerkaturi tista 'tikkombina l-aqwa karatteristiċi ta' stħarriġ ta 'kampjuni u ċensimenti; immaġina jekk riċerkaturi tista 'titlob kull mistoqsija għal kulħadd kuljum.

Ovvjament, dan kontinwa, kullimkien, dejjem fuq stħarriġ huwa tip ta 'fantasija xjenza soċjali. Iżda, jidher li nistgħu jibdew approssimati dan billi tikkombina mistoqsijiet istħarriġ minn numru żgħir ta 'nies ma' traċċi diġitali minn ħafna nies. I call dan it-tip ta 'kombinazzjoni amplifikat titlob. Jekk isir sew, tista 'tgħin lilna jipprovdi stima li huma aktar lokali (għal żoni ġeografiċi iżgħar), iktar granulari (għal gruppi demografiċi speċifiċi), u aktar f'waqtu.

Eżempju wieħed ta 'tistaqsi amplifikati ġej mill-ħidma ta' Joshua Blumenstock, li riedu biex tinġabar data li jgħinu l-iżvilupp gwida fil-pajjiżi foqra. B'mod aktar speċifiku, Blumenstock riedu li tinħoloq sistema biex tkejjel il-ġid u l-benessri li għaqqad l-kompletezza ta 'ċensiment mal-flessibbiltà u l-frekwenza ta' stħarriġ (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Fil-fatt, stajt diġà deskritt ħidma Blumenstock s-qosor fil-Kapitolu 1.

Biex tibda, Blumenstock IMSEHBIN ma 'l-akbar fornitur telefon ċellulari fir-Rwanda. Il-kumpanija pprovdiet lilu rekords ta 'transazzjonijiet anonimizzata mid madwar 1.5 miljun konsumatur li jkopri l-imġiba mill-2005 u 2009. L-zkuk fihom informazzjoni dwar kull sejħa u test messaġġ bħall-ħin tal-bidu, it-tul, u l-lokazzjoni ġeografika approssimattiva tal-sejjieħ u riċevitur. Qabel nibdew nitkellmu dwar il-kwistjonijiet ta 'statistika, ta' min isemmi li din l-ewwel pass jista 'jkun wieħed mill-agħar. Kif deskritt fil-Kapitolu 2, l-aktar traċċa tad-data diġitali huwa inaċċessibbli għar-riċerkaturi. U, ħafna kumpaniji huma raġun lura milli jaqsmu d-data tagħhom minħabba li huwa privat; jiġifieri l-klijenti tagħhom probabbilment ma jistennew li r-rekords tagħhom se jiġu kondiviża fil-massa 'ma' riċerkaturi. F'dan il-każ, ir-riċerkaturi ħadu passi bir-reqqa biex tanonimizza-data u x-xogħol tagħhom kien sorveljat minn parti terza (jiġifieri, IRB tagħhom). Iżda, minkejja dawn l-isforzi, din id-data huma probabbilment għadu identifikabbli u dawn x'aktarx ikun fihom informazzjoni sensittiva (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . I ser terġa 'lura għal dawn mistoqsija etiċi fil-Kapitolu 6.

Ifakkar li Blumenstock kien interessat fil-kejl tal-ġid u l-benessri. Iżda, dawn il-karatteristiċi mhumiex direttament fir-rekords sejħa. Fi kliem ieħor, dawn ir-rekords sejħa huma inkompleti għal din ir-riċerka, karatteristika komuni ta 'traċċi diġitali li kienet diskussa fid-dettall fil-Kapitolu 2. Iżda, jidher probabbli li r-rekords sejħa probabilment jkollhom xi informazzjoni dwar il-ġid u l-benessri. Allura, mod wieħed ta 'tistaqsi mistoqsija Blumenstock seta' jkun: huwa possibbli li wieħed ibassar kif xi ħadd se tirrispondi għal stħarriġ ibbażat fuq id-data tagħhom traċċi diġitali? Jekk iva, allura billi tistaqsi ftit nies nistgħu raden-tweġibiet tal kulħadd.

Biex tevalwa din empiriku, Blumenstock u riċerka assistenti mit f'Kigali Istitut tax-Xjenza u t-Teknoloġija sejjaħ kampjun ta 'madwar elf klijenti tat-telefonija mobbli. Ir-riċerkaturi spjegaw l-għanijiet tal-proġett għall-parteċipanti, li jintalab jagħti l-kunsens tagħhom biex jingħaqdu r-risposti istħarriġ għar-rekords sejħa, u mbagħad talbithom sensiela ta 'mistoqsijiet biex titkejjel l-ġid tagħhom u l-benessri, bħal "Inti stess radju? "u" inti stess roti? "(ara l-Figura 3.11 għal lista parzjali). Il-parteċipanti kollha fl-istħarriġ kienu kkumpensati finanzjarjament.

Sussegwentement, Blumenstock tintuża proċedura f'żewġ stadji komuni fix-xjenza tad-dejta: l-inġinerija karatteristika segwit minn tagħlim taħt superviżjoni. L-ewwel, fil-pass ta 'inġinerija karatteristika, għal kulħadd li kien intervistat, Blumenstock konvertiti ir-rekords sejħa fis-sett ta' karatteristiċi dwar kull persuna; xjentisti data tista 'sejħa dawn il-karatteristiċi "karatteristiċi" u xjentisti soċjali kieku ssejjaħ minnhom "varjabbli." Per eżempju, għal kull persuna, Blumenstock kalkolat in-numru totali ta' ġranet b'attività, in-numru ta 'nies distinti persuna kienet f'kuntatt ma', l-ammont ta 'flus jintefqu fuq xandir televiżiv, u l-bqija. B'mod kritiku, inġinerija tajba karatteristika teħtieġ għarfien ta 'l-iffissar tar-riċerka. Per eżempju, jekk huwa importanti li ssir distinzjoni bejn is-sejħiet domestiċi u internazzjonali (nistgħu nistennew nies li jagħmlu sejħa internazzjonalment biex ikunu sinjuri), allura dan għandu jsir fil-fażi tat-inġinerija karatteristika. Riċerkatur mal-fehim ftit tar-Rwanda tista 'ma tinkludix din il-karatteristika, u allura l-prestazzjoni tbassir tal-mudell se jsofru.

Sussegwentement, fil-pass tat-tagħlim sorveljata, Blumenstock bnew mudell statistiku li wieħed ibassar ir-rispons istħarriġ għal kull persuna bbażata fuq il-karatteristiċi tagħhom. F'dan il-każ, Blumenstock użati regressjoni loġistika ma '10 darbiet bejn il-validazzjoni, iżda huwa seta użaw varjetà ta' approċċi ta 'tagħlim oħrajn statistiku jew magna.

Allura kif ukoll ma taħdem? Kienet Blumenstock kapaċi jbassru t-tweġibiet għall-istħarriġ mistoqsijiet bħal "Inti stess radju?" U "Inti stess roti?" Bl-użu karatteristiċi li ġejjin minn rekords sejħa? Speċita. Il-preċiżjoni tal-previżjonijiet kienu għoljin għal xi karatteristiċi (Figura 3.11). Iżda, huwa dejjem importanti li jqabblu metodu previżjoni kumplessi kontra alternattiva sempliċi. F'dan il-każ, alternattiva sempliċi huwa li jbassru li kulħadd se jagħti l-aktar tweġiba komuni. Per eżempju, 97.3% rrappurtat proprjetarja ta 'radju hekk jekk Blumenstock kien bassar li kulħadd se tirrapporta tkun proprjetarja ta' radju hija kien ikollha preċiżjoni ta '97.3%, li hija sorprendentement simili għall-prestazzjoni tal-proċedura iktar kumplessa tiegħu (eżattezza 97.6%). Fi kliem ieħor, id-data kollha fancy u mmudellar żiedu l-eżattezza tal-previżjoni minn 97.3% għal 97.6%. Madankollu, għal kwistjonijiet oħra, bħal "Inti stess roti?", Il-previżjonijiet tjiebet minn 54.4% għal 67.6%. B'mod aktar ġenerali, Figura 3.12 turi għal xi karatteristiċi Blumenstock ma ttejbitx ħafna lil hinn minn sempliċiment jagħmlu l-previżjoni tal-linja bażi sempliċi, iżda li għal karatteristiċi oħra kien hemm xi titjib.

Figura 3.11: preċiżjoni Tbassir għall-mudell statistiku mħarrġa rekords sejħa. Riżultati minn Tabella 2 tal Blumenstock (2014).

Figura 3.11: preċiżjoni Tbassir għall-mudell statistiku mħarrġa rekords sejħa. Riżultati minn Tabella 2 tal Blumenstock (2014) .

Figura 3.12: Tqabbil ta 'eżattezza ta' tbassir għall-mudell statistiku mħarrġa rekords sejħa għall-previżjoni tal-linja bażi sempliċi. Punti huma kemmxejn jittered jiġu evitati sovrapożizzjoni; ara t-Tabella 2 tal Blumenstock (2014) għall-valuri eżatti.

Figura 3.12: Tqabbil ta 'eżattezza ta' tbassir għall-mudell statistiku mħarrġa rekords sejħa għall-previżjoni tal-linja bażi sempliċi. Punti huma kemmxejn jittered jiġu evitati sovrapożizzjoni; ara t-Tabella 2 tal Blumenstock (2014) għall-valuri eżatti.

Fuq dan il-punt inti tista 'tkun ħsieb li dawn ir-riżultati huma daqsxejn diżappuntanti, iżda wieħed biss sena wara, Blumenstock u żewġ kollegi-Gabriel Cadamuro u Robert On-ppubblikaw dokument fix-Xjenza b'riżultati sostanzjalment aħjar (Blumenstock, Cadamuro, and On 2015) . Kien hemm żewġ raġunijiet tekniċi ewlenin għat-titjib: 1) huma wżati metodi aktar sofistikati (jiġifieri, approċċ ġdid għall-karatteristika ta 'inġinerija u mudell aktar sofistikata tagħlim magna) u 2) aktar milli jippruvaw jiddeduċu tweġibiet għall-mistoqsijiet istħarriġ individwali (eż "inti stess radju?"), huma attentat li wieħed jiddeduċi minn indiċi ġid kompost.

Blumenstock u l-kollegi wera l-prestazzjoni tal-approċċ tagħhom f'żewġ modi. L-ewwel, huma sabu li għall-persuni fil-kampjun tagħhom, huma jistgħu jagħmlu xogħol pjuttost tajba ta 'tbassir ġid tagħhom minn rekords sejħa (Figura 3.14). It-tieni nett, u dejjem aktar importanti, Blumenstock u l-kollegi wrew li proċedura tagħhom jistgħu jipproduċu estimi ta 'kwalità għolja tad-distribuzzjoni ġeografika ta' ġid fir-Rwanda. B'mod aktar speċifiku, huma użati mudell tat-tagħlim tal-magni tagħhom, li kien imħarreġ fuq kampjun tagħhom ta 'madwar 1,000 ruħ, li wieħed ibassar il-ġid ta' 1.5 miljun ruħ kollha fir-rekords sejħa. Barra minn hekk, id-data ġeospazzjali integrati fid-data sejħa (jfakkru li d-data għassa jinkludi l-post tat-torri ċellula eqreb għal kull sejħa), ir-riċerkaturi kienu kapaċi tistima l-post approssimattiv ta 'residenza ta' kull persuna. Inpoġġu dawn iż-żewġ stimi flimkien, ir-riċerka prodotta stima tad-distribuzzjoni ġeografika tal-ġid abbonat fuq granularità spazjali estremament multa. Per eżempju, dawn jistgħu jistmaw il-ġid medja f'kull wieħed mill Rwanda 2148 ċelloli (l-iżgħar unità amministrattiva fil-pajjiż). Dawn il-valuri ġid previsti tant kienu granulari kienu diffiċli li jiġu verifikati. Allura, ir-riċerkaturi aggregat riżultati tagħhom jiġu prodotti estimi tal-ġid medja tar-Rwanda tal-30 distretti. Dawn l-istimi ta 'livell distrettwali kienu marbuta strettament ma' l-istimi minn deheb stħarriġ tradizzjonali standard, il demografika u s-Saħħa Istħarriġ Rwanda (Figura 3.14). Għalkemm l-estimi miż-żewġ sorsi kienu simili, l-istimi mill Blumenstock u l-kollegi kienu madwar 50 darbiet irħas u 10 darbiet aktar mgħaġġla (fejn l-ispiża fir mkejla f'termini ta 'spejjeż varjabbli). Dan it-tnaqqis drammatiku fl-ispiża ifisser li minflok qed titmexxa kull ftit snin 'kif huwa standard għall Demografiċi u Saħħa Stħarriġ--ibridu tal-istħarriġ żgħir kkombinata ma' dejta kbar traċċi diġitali tista 'titmexxa kull xahar.

Figura 3.13: skematika tal Blumenstock, Cadamuro, u Min (2015). dejta Sejħa mill-kumpanija tat-telefon kienet konvertita għal matriċi ma filliera waħda għal kull persuna u l-kolonna waħda għal kull karatteristika (jiġifieri, varjabbli). Sussegwentement, ir-riċerkaturi bnew mudell ta 'tagħlim taħt superviżjoni biex wieħed ibassar ir-risposti istħarriġ mill-persuna li karatteristika matriċi. Imbagħad, il-mudell tat-tagħlim taħt superviżjoni ġiet użata biex timputa r-risposti istħarriġ għal kulħadd. Essenzjalment, ir-riċerkaturi użat it-tweġibiet minn madwar elf ruħ li timputa l-ġid ta 'madwar miljun ruħ. Ukoll, ir-riċerkaturi stmat il-post approssimattiv ta 'residenza għal 1.5 miljun ruħ kollha bbażati fuq il-postijiet ta' sejħiet tagħhom. Meta dawn iż-żewġ stimi kienu kkombinati 'l-ġid stmat u l-post stmata tar-residenza tal-riŜultati kienu simili għal stimi mill-demografiku u l-Istħarriġ tas-Saħħa, stħarriġ tradizzjonali standard tad-deheb (Figura 3.14).

Figura 3.13: skematika tal Blumenstock, Cadamuro, and On (2015) . dejta Sejħa mill-kumpanija tat-telefon kienet konvertita għal matriċi ma filliera waħda għal kull persuna u l-kolonna waħda għal kull karatteristika (jiġifieri, varjabbli). Sussegwentement, ir-riċerkaturi bnew mudell ta 'tagħlim taħt superviżjoni biex wieħed ibassar ir-risposti istħarriġ mill-persuna li karatteristika matriċi. Imbagħad, il-mudell tat-tagħlim taħt superviżjoni ġiet użata biex timputa r-risposti istħarriġ għal kulħadd. Essenzjalment, ir-riċerkaturi użat it-tweġibiet minn madwar elf ruħ li timputa l-ġid ta 'madwar miljun ruħ. Ukoll, ir-riċerkaturi stmat il-post approssimattiv ta 'residenza għal 1.5 miljun ruħ kollha bbażati fuq il-postijiet ta' sejħiet tagħhom. Meta dawn iż-żewġ stimi kienu kkombinati 'l-ġid stmat u l-post stmata tar-residenza tal-riŜultati kienu simili għal stimi mill-demografiku u l-Istħarriġ tas-Saħħa, stħarriġ tradizzjonali standard tad-deheb (Figura 3.14).

Figura 3.14: Riżultati minn Blumenstock, Cadamuro, u Min (2015). Fil-livell individwali, ir-riċerkaturi kienu kapaċi jagħmlu xogħol raġonevoli bi tbassir ġid ta 'xi ħadd minn rekords sejħa tagħhom. L-istimi tal-livell distrettwali kienu bbażati fuq stimi ta 'livell individwali ta' ġid u l-post ta 'residenza tal-riŜultati li-ġid kienu simili għal riżultati mill-Istħarriġ demografiku u s-Saħħa, stħarriġ tradizzjonali standard tad-deheb.

Figura 3.14: Riżultati minn Blumenstock, Cadamuro, and On (2015) . Fil-livell individwali, ir-riċerkaturi kienu kapaċi jagħmlu xogħol raġonevoli bi tbassir ġid ta 'xi ħadd minn rekords sejħa tagħhom. L-istimi tal-livell distrettwali kienu bbażati fuq stimi ta 'livell individwali ta' ġid u l-post ta 'residenza tal-riŜultati li-ġid kienu simili għal riżultati mill-Istħarriġ demografiku u s-Saħħa, stħarriġ tradizzjonali standard tad-deheb.

Bħala konklużjoni, Blumenstock amplifikati tistaqsi approċċ ikkombinat dejta tal-istħarriġ mad-data traċċi diġitali jiġu prodotti estimi komparabbli ma 'stimi ta' stħarriġ standard deheb. Dan l-eżempju partikolari jikkjarifika wkoll xi wħud mill-kompromessi bejn tistaqsi amplifikati u metodi ta 'stħarriġ tradizzjonali. L-ewwel, l-istimi tistaqsi amplifikati kienu aktar f'waqtha, sostanzjalment irħas, u aktar granulari. Iżda, min-naħa l-oħra, f'dan iż-żmien, ma jkunx hemm bażi teoretika soda għal dan it-tip ta titlob amplifikat. Dan huwa, dan l-eżempju wieħed ma jurix meta se taħdem u meta se le. Barra minn hekk, l-approċċ tistaqsi amplifikat għad m'għandhiex modi tajba biex jikkwantifikaw l-inċertezza madwar l-istimi tagħha. Madankollu, tistaqsi amplifikati għandha konnessjonijiet fil-fond lejn tliet oqsma kbar fil b'bażi ta 'statistika ta' mudell għal wara l-istratifikazzjoni (Little 1993) , ta 'imputazzjoni (Rubin 2004) , u stima taż-żona żgħira (Rao and Molina 2015) -u so I jistennew li l-progress se jkun malajr.

titlob amplifikata isegwi riċetta bażiku li jistgħu jiġu adattati għal sitwazzjoni partikolari tiegħek. Hemm żewġ ingredjenti u żewġ passi. Iż-żewġ ingredjenti huma 1) traċċa diġitali dataset dik hija wiesgħa, iżda irqiq (jiġifieri, hija għandha ħafna nies imma mhux l-informazzjoni li għandek bżonn dwar kull persuna) u 2) stħarriġ li huwa dejjaq iżda oħxon (jiġifieri, hija għandha biss ftit nies, iżda għandu l-informazzjoni li għandek bżonn dwar dawk il-persuni). Imbagħad, hemm żewġ passi. L-ewwel, għall-poplu fiż-żewġ sorsi ta 'data, jibnu mudell ta' tagħlim magna li juża d-data traċċi diġitali li wieħed ibassar tweġibiet istħarriġ. Sussegwentement, l-użu dan il-mudell tat-tagħlim magna biex timputa l-tweġibiet istħarriġ ta 'kulħadd fid-data ta' traċċa diġitali. Għalhekk, jekk ikun hemm xi kwistjoni li inti tixtieq li tistaqsi lill lottijiet ta 'nies, tfittex għal data traċċi diġitali minn dawk in-nies li jistgħu jintużaw biex jitbassru risposta tagħhom.

Tqabbil ewwel u t-tieni tentattiv Blumenstock fiż-problema turi wkoll lezzjoni importanti dwar it-transizzjoni mill tieni era għal approċċi era terzi għall-istħarriġ ta 'riċerka: il-bidu mhuwiex it-tmiem. Dan huwa, ħafna drabi, l-ewwel approċċ mhux se tkun l-aħjar, imma jekk riċerkaturi ħidma kontinwa, l-affarijiet jistgħu jiksbu aħjar. B'mod aktar ġenerali, meta tkun qed tevalwa approċċi ġodda għar-riċerka soċjali fl-era diġitali, huwa importanti li tagħmel żewġ evalwazzjonijiet distinti: 1) kemm ma dan ix-xogħol issa u 2) kif ukoll do you think dan jista jaħdem fil-futur bħala l-pajsaġġ dejta bidliet u bħala riċerkaturi jiddedikaw aktar attenzjoni għall-problema. Għalkemm, ir-riċerkaturi huma mħarrġa biex jagħmlu l-ewwel tip ta 'valutazzjoni (kif tajba hija din il-biċċa partikolari ta' riċerka), it-tieni huwa spiss aktar importanti.