3.6.1 DRYDANOL gofyn

Gall cysylltu eich arolwg i olion digidol fod fel ofyn eich cwestiynau i bawb ar bob adeg.

Gofyn yn gyffredinol yn dod mewn dau brif gategori: arolygon sampl a chyfrifiadau. Gall arolygon sampl, lle byddwch yn cael mynediad i nifer fach o bobl, yn hyblyg, yn amserol, ac yn gymharol rhad. Fodd bynnag, mae arolygon sampl, oherwydd eu bod yn seiliedig ar sampl, yn aml yn gyfyngedig yn eu penderfyniad; gydag arolwg sampl, mae'n aml yn anodd i wneud amcangyfrifon ynghylch rhanbarthau daearyddol penodol neu ar gyfer grwpiau demograffig penodol. Cyfrifiadau, ar y llaw arall, yn ceisio cyfweld pawb yn y boblogaeth. Maent wedi datrys wych, ond yn gyffredinol maent yn ddrud, cul yn ffocws (eu bod ond yn cynnwys nifer fechan o gwestiynau), ac nid amserol (maent yn digwydd ar amserlen sefydlog, megis bob 10 mlynedd) (Kish 1979) . Nawr, dychmygwch pe gallai ymchwilwyr gyfuno'r nodweddion gorau o arolygon sampl a chyfrifiadau; dychmygwch pe gallai ymchwilwyr ofyn pob cwestiwn i bawb bob dydd.

Yn amlwg, parhaus hwn, hollbresennol, bob amser yn-ar arolwg yn fath o ffantasi gwyddorau cymdeithasol. Ond, mae'n ymddangos y gallwn ddechrau bras hyn drwy gyfuno cwestiynau arolwg o nifer fach o bobl gydag olion digidol o lawer o bobl. Rwy'n galw y math hwn o gyfuniad mwyhau gofyn. Os wneud yn dda, gallai ein helpu darparu amcangyfrif sy'n fwy lleol (ar gyfer ardaloedd daearyddol llai o faint), yn fwy gronynnog (ar gyfer grwpiau demograffig penodol), ac yn fwy amserol.

Un enghraifft o ofyn chwyddo yn dod o waith Joshua Blumenstock, a oedd am gasglu data a fyddai'n helpu datblygu canllaw mewn gwledydd tlawd. Yn fwy penodol, Blumenstock eisiau creu system i fesur cyfoeth a lles sy'n cyfuno cyflawnrwydd cyfrifiad gyda'r hyblygrwydd ac amlder arolwg (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Yn wir, yr wyf eisoes wedi ei ddisgrifio gwaith Blumenstock yn fyr ym Mhennod 1.

I ddechrau, Blumenstock partneriaeth gyda'r darparwr ffôn symudol mwyaf yn Rwanda. Mae'r cwmni yn yr amod iddo cofnodion trafodion anonymized o tua 1.5 miliwn o gwsmeriaid sy'n cwmpasu ymddygiad o 2005 a 2009. Mae'r logiau cynnwys gwybodaeth am bob galwad a neges destun, megis yr amser cychwyn, hyd, a lleoliad daearyddol bras y galwr a'r derbynnydd. Cyn i ni ddechrau siarad am y materion ystadegol, mae'n werth nodi y gall y cam cyntaf yn un o'r anoddaf. Fel y disgrifir ym Mhennod 2, mae'r rhan fwyaf data olrhain digidol yn anhygyrch i ymchwilwyr. Ac, mae llawer o gwmnïau yn haeddiannol betrusgar i rannu eu data oherwydd ei fod yn breifat; hynny yw eu cwsmeriaid mae'n debyg nad oedd yn disgwyl y bydd eu cofnodion yn cael eu rhannu i mewn swmp-gydag ymchwilwyr. Yn yr achos hwn, mae'r ymchwilwyr yn cymryd camau gofalus i anonymize data ac mae eu gwaith yn cael ei oruchwylio gan drydydd parti (hy, eu IRB). Ond, er gwaethaf yr ymdrechion hyn, mae'r data hyn yn ôl pob tebyg yn dal yn eu hadnabod ac maent yn debygol o gynnwys gwybodaeth sensitif (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . 'N annhymerus' yn ôl at gwestiwn moesegol hyn ym Mhennod 6.

Dwyn i gof bod yn Blumenstock ddiddordeb mewn mesur cyfoeth a lles. Ond, nid yw nodweddion hyn yn uniongyrchol yn y cofnodion alwad. Mewn geiriau eraill, cofnodion galwadau hyn yn anghyflawn ar gyfer ymchwil hwn, yn nodwedd gyffredin o olion digidol a drafodwyd yn fanwl ym Mhennod 2. Ond, mae'n ymddangos yn debygol bod y cofnodion galwadau yn ôl pob tebyg yn cael rhywfaint o wybodaeth am gyfoeth a lles. Felly, un ffordd o ofyn gallai cwestiwn Blumenstock fydd: a yw'n bosibl i ragweld sut y bydd rhywun yn ymateb i arolwg yn seiliedig ar eu data olrhain digidol? Os felly, yna drwy ofyn ychydig o bobl y gallwn ddyfalu'r atebion pawb arall.

Er mwyn asesu hyn empirig, Blumenstock ac ymchwil chynorthwywyr o Kigali Athrofa Gwyddoniaeth a Thechnoleg a elwir yn sampl o tua mil o gwsmeriaid ffonau symudol. Eglurodd yr ymchwilwyr amcanion y prosiect i'r cyfranogwyr, gofyn am eu caniatâd i gysylltu'r ymatebion i'r arolwg i'r cofnodion galwadau, ac yna gofynnwyd iddynt cyfres o gwestiynau i fesur eu cyfoeth a lles, megis "A ydych yn berchen ar radio? "a" ydych chi'n berchen ar feic? "(gweler Ffigur 3.11 am restr rhannol). Pawb sy'n cymryd rhan yn yr arolwg yn cael eu gwneud iawn yn ariannol.

Nesaf, defnyddio Blumenstock trefn dau gam cyffredin mewn gwyddoniaeth data: peirianneg nodwedd ddilyn gan ddysgu dan oruchwyliaeth. Yn gyntaf, yn y cam peirianneg nodwedd, ar gyfer pawb sy'n ei gyfweld, trosi Blumenstock cofnodion alwad i mewn i set o nodweddion am bob person; Gallai gwyddonwyr data alw nodweddion hyn "nodweddion" ac y byddai gwyddonwyr cymdeithasol yn eu galw "newidynnau." Er enghraifft, ar gyfer pob person, Blumenstock cyfrifo cyfanswm nifer y dyddiau gyda gweithgarwch, mae nifer y bobl wahanol person wedi bod mewn cysylltiad â hwy, y swm o arian a wariwyd ar amser darlledu, ac yn y blaen. Yn allweddol, peirianneg nodwedd dda yn gofyn am wybodaeth am y lleoliad ymchwil. Er enghraifft, os yw'n bwysig gwahaniaethu rhwng galwadau domestig a rhyngwladol (y gallem ddisgwyl i bobl sy'n galw yn rhyngwladol i fod yn gyfoethocach), yna mae hyn gael ei wneud yn y cam peirianneg nodwedd. Efallai na Mae ymchwilydd gyda ychydig o ddealltwriaeth o Rwanda yn cynnwys nodwedd hon, ac yna bydd y perfformiad rhagfynegol y model yn dioddef.

Nesaf, yn y cam dysgu dan oruchwyliaeth, a adeiladwyd Blumenstock model ystadegol i ragweld yr ymateb arolwg ar gyfer pob person yn seiliedig ar eu nodweddion. Yn yr achos hwn, defnyddiodd Blumenstock atchwel logistaidd gyda 10 gwaith yn fwy traws-ddilysu, ond gallai fod wedi defnyddio amrywiaeth o ddulliau dysgu ystadegol neu beiriant arall.

Felly pa mor dda y gwnaethom yn gweithio? A oedd Blumenstock gallu rhagfynegi atebion i gwestiynau arolwg fel "Ydych chi'n berchen ar radio?" A "A ydych yn berchen ar feic?" Gan ddefnyddio nodweddion sy'n deillio o gofnodion galwad? Math o. Mae cywirdeb y rhagfynegiadau yn uchel ar gyfer rhai nodweddion (Ffigur 3.11). Ond, mae bob amser yn bwysig cymharu dull rhagfynegiad cymhleth yn erbyn dewis arall syml. Yn yr achos hwn, mae dewis arall syml yw rhagweld y bydd pawb yn rhoi'r ateb mwyaf cyffredin. Er enghraifft, adroddodd 97.3% yn berchen ar radio wedi rhagweld Blumenstock felly os y byddai pawb yn adrodd yn berchen ar radio byddai wedi cael chywirdeb 97.3%, sydd yn rhyfeddol o debyg i berfformiad ei gweithdrefn fwy cymhleth (97.6% cywirdeb). Mewn geiriau eraill, yr holl ddata ffansi a modelu cynyddu cywirdeb y rhagfynegiad o 97.3% i 97.6%. Fodd bynnag, ar gyfer cwestiynau eraill, megis "Ydych chi'n berchen ar feic?", Mae'r rhagfynegiadau gwella o 54.4% i 67.6%. Yn fwy cyffredinol, dengys Ffigur 3.12 ar gyfer rhai nodweddion Blumenstock nid oedd yn gwella llawer y tu hwnt i ddim ond gwneud y rhagfynegiad llinell sylfaen syml, ond ar gyfer nodweddion eraill roedd rhywfaint o welliant.

Ffigur 3.11: cywirdeb Rhagfynegol ar gyfer model ystadegol wedi'u hyfforddi gyda chofnodion galwadau. Canlyniadau o Dabl 2 o Blumenstock (2014).

Ffigur 3.11: cywirdeb Rhagfynegol ar gyfer model ystadegol wedi'u hyfforddi gyda chofnodion galwadau. Canlyniadau o Dabl 2 o Blumenstock (2014) .

Ffigur 3.12: Cymhariaeth o gywirdeb rhagfynegol ar gyfer model ystadegol wedi'u hyfforddi gyda chofnodion galwad i rhagfynegiad sylfaenol syml. Pwyntiau yn cael eu jittered ychydig i osgoi gorgyffwrdd; gweler Tabl 2 o Blumenstock (2014) ar gyfer gwerthoedd union.

Ffigur 3.12: Cymhariaeth o gywirdeb rhagfynegol ar gyfer model ystadegol wedi'u hyfforddi gyda chofnodion galwad i rhagfynegiad sylfaenol syml. Pwyntiau yn cael eu jittered ychydig i osgoi gorgyffwrdd; gweler Tabl 2 o Blumenstock (2014) ar gyfer gwerthoedd union.

Ar y pwynt hwn efallai y byddwch yn meddwl bod y canlyniadau hyn yn ychydig yn siomedig, ond dim ond un flwyddyn yn ddiweddarach, Blumenstock a dau gydweithiwr-Gabriel Cadamuro a Robert Ar-cyhoeddi papur mewn Gwyddoniaeth gyda chanlyniadau sylweddol well (Blumenstock, Cadamuro, and On 2015) . Roedd dau brif reswm technegol ar gyfer y gwelliant: 1) eu bod yn defnyddio dulliau mwy soffistigedig (hy, dull newydd o gynnwys peirianneg a model dysgu beiriant mwy soffistigedig) a 2) yn hytrach na cheisio casglu ymatebion i gwestiynau arolwg unigol (ee, "ydych chi'n berchen ar radio?"), maent yn ceisio casglu mynegai cyfoeth cyfansawdd.

Blumenstock a chydweithwyr yn dangos perfformiad eu hymagwedd mewn dwy ffordd. Yn gyntaf, maent yn darganfod bod ar gyfer y bobl yn eu sampl, gallent wneud gwaith 'n bert da o ragfynegi eu cyfoeth o gofnodion ffoniwch (Ffigur 3.14). Yn ail, ac yn dragywydd yn bwysicach, Blumenstock a chydweithwyr yn dangos y gallai eu gweithdrefn cynhyrchu amcangyfrifon o ansawdd uchel o ddosbarthiad daearyddol cyfoeth yn Rwanda. Yn fwy penodol, maent yn defnyddio eu model dysgu peiriant, a gafodd ei hyfforddi yn eu sampl o tua 1,000 o bobl, i ragfynegi cyfoeth yr holl 1.5 miliwn o bobl yn y cofnodion alwad. Bellach, gyda'r data geo-ofodol hymgorffori yn y data ffoniwch (cofio bod y data alwad yn cynnwys lleoliad y tŵr gell agosaf ar gyfer pob galwad), mae'r ymchwilwyr yn gallu amcangyfrif y man bras preswyl pob unigolyn. Rhoi y ddau amcangyfrif gyda'i gilydd, cynhyrchodd y gwaith ymchwil amcangyfrif o ddosbarthiad daearyddol y cyfoeth danysgrifiwr ar granularity gofodol gain dros ben. Er enghraifft, gallai maent yn amcangyfrif y cyfoeth cyfartalog ym mhob un o'r 2148 gelloedd Rwanda (uned weinyddol lleiaf yn y wlad). Mae'r gwerthoedd cyfoeth a ragwelir mor gronynnog eu bod yn anodd i wirio. Felly, mae'r ymchwilwyr agregu eu canlyniadau i gynhyrchu amcangyfrifon o'r cyfoeth cyfartalog o Rwanda 30 ddosbarthau. Mae'r amcangyfrifon hyn ar lefel dosbarth yn perthyn yn gryf i amcangyfrifon o arolwg traddodiadol safon aur, yr Arolwg Demograffig ac Iechyd Rwanda (Ffigur 3.14). Er bod yr amcangyfrifon o'r ddwy ffynhonnell yn debyg, yr amcangyfrifon o Blumenstock a chydweithwyr roedd tua 50 gwaith yn rhatach a 10 gwaith yn gyflymach (pan cost yn fesur o ran costau newidiol). Mae'r gostyngiad dramatig yn y gost yn golygu bod yn hytrach na chael eu rhedeg bob ychydig flynyddoedd-fel sy'n safonol ar gyfer Demograffig ac Iechyd Arolygon-y gallai hybrid o arolwg bach gyfuno â data olrhain digidol mawr yn cael eu cynnal bob mis.

Ffigur 3.13: Sgematig o Blumenstock, Cadamuro, ac On (2015). data galwad gan y cwmni ffôn ei drawsnewid i matrics gydag un rhes ar gyfer pob unigolyn ac un golofn ar gyfer pob nodwedd (h.y., amrywiol). Nesaf, mae'r ymchwilwyr adeiladu model dysgu dan oruchwyliaeth i ragweld yr ymatebion i'r arolwg gan y person gan matrics nodwedd. Yna, mae'r model dysgu dan oruchwyliaeth yn cael ei ddefnyddio i impute yr ymatebion i'r arolwg i bawb. Yn ei hanfod, mae'r ymchwilwyr yn defnyddio'r ymatebion o tua mil o bobl i impute y cyfoeth o tua un miliwn o bobl. Hefyd, mae'r ymchwilwyr amcangyfrif y man bras preswyl ar gyfer yr holl 1.5 miliwn o bobl yn seiliedig ar y lleoliadau eu galwadau. Pan fydd y ddau amcangyfrif eu cyfuno-y cyfoeth amcangyfrif ac amcangyfrifir y man preswyl-y canlyniadau yn debyg i amcangyfrifon o Arolwg Iechyd, arolwg draddodiadol aur-safonol (Ffigur 3.14) demograffig a.

Ffigur 3.13: Sgematig o Blumenstock, Cadamuro, and On (2015) . data galwad gan y cwmni ffôn ei drawsnewid i matrics gydag un rhes ar gyfer pob unigolyn ac un golofn ar gyfer pob nodwedd (hy, amrywiol). Nesaf, mae'r ymchwilwyr adeiladu model dysgu dan oruchwyliaeth i ragweld yr ymatebion i'r arolwg gan y person gan matrics nodwedd. Yna, mae'r model dysgu dan oruchwyliaeth yn cael ei ddefnyddio i impute yr ymatebion i'r arolwg i bawb. Yn ei hanfod, mae'r ymchwilwyr yn defnyddio'r ymatebion o tua mil o bobl i impute y cyfoeth o tua un miliwn o bobl. Hefyd, mae'r ymchwilwyr amcangyfrif y man bras preswyl ar gyfer yr holl 1.5 miliwn o bobl yn seiliedig ar y lleoliadau eu galwadau. Pan fydd y ddau amcangyfrif eu cyfuno-y cyfoeth amcangyfrif ac amcangyfrifir y man preswyl-y canlyniadau yn debyg i amcangyfrifon o Arolwg Iechyd, arolwg draddodiadol aur-safonol (Ffigur 3.14) demograffig a.

Ffigur 3.14: Canlyniadau o Blumenstock, Cadamuro, ac On (2015). Ar-lefel unigol, mae'r ymchwilwyr yn gallu i wneud swydd rhesymol ar ragfynegi cyfoeth rhywun o'u cofnodion alwad. Mae amcangyfrifon o lefel dosbarth cyfoeth-a oedd yn seiliedig ar amcangyfrifon-lefel unigol o gyfoeth a man preswylio-y canlyniadau yn debyg i'r canlyniadau Arolwg Demograffig ac Iechyd, arolwg draddodiadol aur-safonol.

Ffigur 3.14: Canlyniadau o Blumenstock, Cadamuro, and On (2015) . Ar-lefel unigol, mae'r ymchwilwyr yn gallu i wneud swydd rhesymol ar ragfynegi cyfoeth rhywun o'u cofnodion alwad. Mae amcangyfrifon o lefel dosbarth cyfoeth-a oedd yn seiliedig ar amcangyfrifon-lefel unigol o gyfoeth a man preswylio-y canlyniadau yn debyg i'r canlyniadau Arolwg Demograffig ac Iechyd, arolwg draddodiadol aur-safonol.

I gloi, Blumenstock yn chwyddo yn gofyn i ddata arolwg ymagwedd gyfuno â data olrhain digidol i gynhyrchu amcangyfrifon cymharu'r amcangyfrifon â'r arolwg aur-safonol. Mae'r enghraifft benodol hefyd yn egluro rhai o'r cyfaddawdau rhwng gofyn chwyddo a dulliau arolygu traddodiadol. Yn gyntaf, mae'r amcangyfrifon yn gofyn chwyddo yn fwy amserol, yn sylweddol rhatach, ac yn fwy gronynnog. Ond, ar y llaw arall, ar hyn o bryd, nid oes sail ddamcaniaethol gref ar gyfer y math hwn o ofyn chwyddo. Hynny yw, nid yw hyn yn un enghraifft yn dangos pryd y bydd yn gweithio a phan na fydd. Ymhellach, nid oes gan y dull a ofynnir chwyddo ffyrdd da i fesur ansicrwydd o amgylch ei hamcangyfrifon. Fodd bynnag, mae gan gofyn chwyddo gysylltiadau dwfn i dri maes mawr yn seiliedig ar ystadegau-model ôl-haeniad (Little 1993) , phriodoli (Rubin 2004) , ac amcangyfrif ardaloedd bach (Rao and Molina 2015) -a felly yr wyf yn disgwyl y cynnydd bydd fod yn gyflym.

gofyn mwyhau yn dilyn rysáit sylfaenol y gellir eu teilwra i'ch sefyllfa benodol. Mae dau cynhwysion a dau gam yn. Y ddau cynhwysion yn 1) set ddata olrhain digidol sy'n yn eang ond yn denau (hynny yw, mae ganddo lawer o bobl, ond nid yw'r wybodaeth sydd ei hangen arnoch am bob person) a 2) arolwg sy'n gul ond trwchus (hynny yw, mae ganddo dim ond ychydig o bobl, ond mae wedi y wybodaeth sydd ei hangen arnoch am y bobl hynny). Yna, mae dau gam. Yn gyntaf, ar gyfer y bobl yn y ddau ffynonellau data, adeiladu model dysgu peiriant sy'n defnyddio data olrhain digidol i ragweld atebion arolwg. Nesaf, defnyddiwch y model dysgu peiriant i impute atebion arolwg o bawb yn y data olrhain digidol. Felly, os oes rhywfaint o gwestiwn yr ydych eisiau eu gofyn i lawer o bobl, yn edrych am ddata olrhain digidol gan y bobl hynny y gellid eu defnyddio i ragweld eu ateb.

Cymharu ymgais gyntaf ac ail Blumenstock yn y broblem hefyd yn dangos gwers bwysig am y newid o ail gyfnod i ddulliau trydydd cyfnod i gynnal arolwg ymchwil: nid y dechrau yw diwedd. Hynny yw, sawl gwaith, mae'r dull cyntaf ni fydd y gorau, ond os ymchwilwyr parhaus weithio, gall pethau wella. Yn fwy cyffredinol, wrth werthuso dulliau newydd o ymchwil gymdeithasol yn yr oes ddigidol, mae'n bwysig gwneud dau werthusiad benodol: 1) pa mor dda y mae hyn yn gweithio yn awr a 2) pa mor dda ydych chi'n meddwl y gallai hyn weithio yn y dyfodol wrth i'r dirwedd data newidiadau ac fel ymchwilwyr rhoi mwy o sylw at y broblem. Er, mae ymchwilwyr yn cael eu hyfforddi i wneud y math cyntaf y gwerthusiad (pa mor dda yw darn penodol hwn o waith ymchwil), yr ail yn aml yn bwysicach.