3.6.2 kuuliza kwa maneno

tafsiri hii iliundwa na kompyuta. ×

3.6.2 kuuliza kwa maneno

Amplified kuuliza kutumia mfano wa kuimarisha kuchanganya data utafiti kutoka watu wachache na chanzo kikubwa data kutoka kwa watu wengi.

Njia tofauti ya kuchanganya uchunguzi na vyanzo vya data kubwa ni mchakato ambao nitawaita wito wa kuuliza . Kwa kuimarishwa kuuliza, mtafiti anatumia mfano wa utabiri kuchanganya kiasi kidogo cha data za utafiti na chanzo kikubwa cha data ili kuzalisha makadirio kwa kiwango au granularity ambayo haiwezekani na chanzo cha data moja kwa moja. Mfano muhimu wa kuulizwa kuuliza unatoka kwa kazi ya Joshua Blumenstock, ambaye alitaka kukusanya data ambazo zinaweza kusaidia kuongoza maendeleo katika nchi masikini. Katika siku za nyuma, watafiti walikusanya data hii kwa kawaida walipaswa kuchukua njia moja kati ya mbili: tafiti za sampuli au censuses. Uchunguzi wa sampuli, ambapo watafiti wanahojiana idadi ndogo ya watu, wanaweza kubadilika, wakati, na kwa bei nafuu. Hata hivyo, tafiti hizi, kwa sababu zinazingatia sampuli, mara nyingi hupunguzwa katika azimio lao. Kwa utafiti wa sampuli, mara nyingi ni vigumu kufanya makadirio kuhusu mikoa maalum ya kijiografia au kwa makundi maalum ya watu. Vipaji, kwa upande mwingine, jaribu kuhoji kila mtu, na hivyo wanaweza kutumika kutengeneza makadirio ya mikoa ndogo ya kijiografia au makundi ya watu. Lakini kwa ujumla gharama za gharama ni za gharama kubwa, zenye mwelekeo mdogo (zinajumuisha idadi ndogo ya maswali), na si wakati (hutokea kwa ratiba maalum, kama kila baada ya miaka 10) (Kish 1979) . Badala ya kushikamana na tafiti za sampuli au uchunguzi, fikiria kama watafiti wanaweza kuchanganya sifa bora za wote wawili. Fikiria kama watafiti wanaweza kuuliza kila swali kwa kila mtu kila siku. Kwa wazi, hii ya kawaida, utafiti mara zote ni aina ya fantasy ya sayansi ya jamii. Lakini inaonekana kwamba tunaweza kuanza kulinganisha hili kwa kuchanganya maswali ya utafiti kutoka kwa idadi ndogo ya watu wenye athari ya digital kutoka kwa watu wengi.

Utafiti wa Blumenstock ulianza wakati alipokubaliana na mtoa huduma mkubwa wa simu za mkononi nchini Rwanda, na kampuni hiyo ilitoa rekodi za manunuzi zisizoonyeshwa kutoka kwa wateja milioni 1.5 kati ya 2005 na 2009. Kumbukumbu hizi zilizomo habari kuhusu kila simu na ujumbe wa maandishi, kama wakati wa kuanza, muda , na eneo la kijiografia cha karibu ya mpiga simu na mpokeaji. Kabla ya kuzungumza kuhusu masuala ya takwimu, ni muhimu kutaja kuwa hatua hii ya kwanza inaweza kuwa moja ya ngumu zaidi kwa watafiti wengi. Kama nilivyoelezea katika sura ya 2, vyanzo vingi vya data havipatikani kwa watafiti. Takwimu za simu za simu, hususan, hazipatikani kwa sababu haziwezekani kudhibitisha na kwa hakika ina habari ambazo washiriki (Mayer, Mutchler, and Mitchell 2016; Landau 2016) nyeti (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Katika kesi hii, watafiti walikuwa makini kulinda data na kazi yao ilikuwa kusimamiwa na chama cha tatu (yaani, IRB yao). Nitarejea kwa masuala haya ya kimaadili kwa undani zaidi katika sura ya 6.

Blumenstock alikuwa na hamu ya kupima utajiri na ustawi. Lakini sifa hizi sio moja kwa moja katika kumbukumbu za wito. Kwa maneno mengine, kumbukumbu hizi za wito si kamili kwa ajili ya utafiti huu-kipengele cha kawaida cha vyanzo vya data kubwa ambavyo vilijadiliwa kwa undani katika sura ya 2. Hata hivyo, inaonekana inawezekana kuwa rekodi za wito zinaweza kuwa na habari ambazo zinaweza kutoa habari kuhusu utajiri na ustawi. Kutokana na uwezekano huu, Blumenstock aliuliza kama inawezekana kufundisha mfano wa kujifunza mashine ili kutabiri jinsi mtu atakavyoitikia uchunguzi kulingana na kumbukumbu zao za wito. Ikiwa hii inawezekana, basi Blumenstock inaweza kutumia mfano huu kutabiri majibu ya utafiti wa wateja wote milioni 1.5.

Ili kujenga na kufundisha mfano huo, Blumenstock na wasaidizi wa utafiti kutoka Taasisi ya Sayansi na Teknolojia ya Kigali inayoitwa sampuli ya random ya wateja wapatao elfu. Watafiti walielezea malengo ya mradi kwa washiriki, waliomba idhini yao ya kuunganisha majibu ya uchunguzi kwenye rekodi za wito, na kisha akawauliza mfululizo wa maswali ili kupima utajiri wao na ustawi, kama vile "Je, una redio? "na" Je, una bicycle? "(tazama takwimu 3.14 kwa orodha ya sehemu). Washiriki wote katika utafiti walilipwa fidia.

Kisha, Blumenstock alitumia utaratibu wa hatua mbili unaojulikana katika kujifunza mashine: uhandisi wa kipengele ikifuatiwa na kujifunza. Kwanza, katika hatua ya uhandisi ya kipengele , kwa kila mtu aliyeulizwa, Blumenstock akageuza rekodi za wito katika seti ya sifa kuhusu kila mtu; Wanasayansi wa data wanaweza kuwaita sifa hizi "vipengele" na wanasayansi wa kijamii watawaita "vigezo." Kwa mfano, kwa kila mtu, Blumenstock alihesabu idadi kamili ya siku na shughuli, idadi ya watu tofauti mtu amewasiliana naye, kiasi cha fedha kilichotumiwa wakati wa hewa, na kadhalika. Kwa maana, uhandisi mzuri wa uhitaji inahitaji ujuzi wa mazingira ya utafiti. Kwa mfano, ikiwa ni muhimu kutofautisha kati ya wito wa ndani na wa kimataifa (tunaweza kutarajia watu wanaowaita kimataifa kuwa wenye tajiri), basi hii lazima ifanyike katika hatua ya uhandisi ya kipengele. Mtafiti aliye na uelewa mdogo wa Rwanda hawezi kuingiza kipengele hiki, na kisha utendaji wa utabiri wa mtindo utaweza kuteseka.

Kisha, katika hatua ya kujifunza inasimamiwa , Blumenstock ilijenga mfano kutabiri majibu ya utafiti kwa kila mtu kulingana na sifa zao. Katika kesi hii, Blumenstock alitumia regression ya vifaa, lakini angeweza kutumia njia nyingine za takwimu au mashine ya kujifunza.

Hivyo ni kazi gani? Ilikuwa na Blumenstock kutabiri majibu ya maswali ya utafiti kama "Je! Unao redio?" Na "Je, una bicycle?" Kwa kutumia vipengele vilivyotokana na kumbukumbu za wito? Ili kutathmini utendaji wa mfano wake wa utabiri, Blumenstock alitumia uthibitisho wa msalaba , mbinu ambayo hutumiwa kwa kawaida katika sayansi ya data lakini mara chache katika sayansi ya kijamii. Lengo la kuthibitisha msalaba ni kutoa tathmini ya haki ya utendaji wa utabiri wa mfano kwa kuifanya na kuijaribu kwenye subsets tofauti za data. Hasa, Blumenstock akagawanya data yake ndani ya chunks 10 ya watu 100 kila mmoja. Kisha, alitumia kizuizi cha tisa ili kufundisha mfano wake, na utendaji wa utabiri wa mfano uliofundishwa ulipimwa kwenye chunk iliyobaki. Alirudia utaratibu huu mara 10-na kila chunk ya data kupata upeo mmoja kama data ya uthibitisho-na matokeo yaliyopatikana.

Usahihi wa utabiri ulikuwa juu kwa sifa fulani (Fungu 3.14); kwa mfano, Blumenstock inaweza kutabiri kwa usahihi wa 97.6% ikiwa mtu anamiliki redio. Hii inaweza kuonekana ya kushangaza, lakini daima ni muhimu kulinganisha njia tata ya utabiri dhidi ya mbadala rahisi. Katika kesi hii, mbadala rahisi ni kutabiri kwamba kila mtu atatoa jibu la kawaida. Kwa mfano, 97.3% ya washiriki waliripoti kumiliki redio hivyo kama Blumenstock alitabiri kwamba kila mtu atasema kuwa na redio angeweza kuwa na usahihi wa 97.3%, ambayo ni ya kushangaza sawa na utendaji wa utaratibu wake mgumu (97.6% usahihi) . Kwa maneno mengine, data na dhana zote za dhana ziliongeza usahihi wa utabiri kutoka 97.3% hadi 97.6%. Hata hivyo, kwa maswali mengine, kama "Je, una bicycle?", Utabiri uliongezeka kutoka 54.4% hadi 67.6%. Kwa ujumla, takwimu 3.15 inaonyesha kwamba kwa baadhi ya sifa Blumenstock hakuwa na kuboresha mengi zaidi ya kufanya tu rahisi utabiri wa msingi, lakini kwa sifa nyingine kulikuwa na baadhi ya kuboresha. Ukiangalia tu matokeo haya, hata hivyo, huenda usifikiri kwamba njia hii inaahidi sana.

Kielelezo 3.14: Usahihi wa utabiri kwa mfano wa takwimu uliofundishwa na kumbukumbu za wito. Iliyotokana na Blumenstock (2014) , meza 2.

Kielelezo 3.15: Kulinganisha usahihi wa utabiri kwa mfano wa takwimu uliofundishwa na rekodi za wito kwa utabiri rahisi wa msingi. Vipengee vinapigwa kidogo ili kuepuka kuingiliana. Iliyotokana na Blumenstock (2014) , meza 2.

Hata hivyo, mwaka mmoja tu baadaye, Blumenstock na wenzake wawili-Gabriel Cadamuro na Robert On-walichapisha karatasi katika Sayansi yenye matokeo mazuri zaidi (Blumenstock, Cadamuro, and On 2015) . Kulikuwa na sababu kuu mbili za kiufundi za kuboresha hili: (1) walitumia mbinu zaidi za kisasa (yaani, mbinu mpya ya kuunda uhandisi na mfano wa kisasa zaidi kutabiri majibu kutoka kwa vipengele) na (2) badala ya kujaribu kutoa majibu kwa mtu binafsi maswali ya utafiti (kwa mfano, "Je! una radio?"), walijaribu kuingiza index ya utajiri wa composite. Maboresho haya ya kiufundi yalimaanisha kuwa wanaweza kufanya kazi nzuri ya kutumia rekodi za wito kutabiri utajiri kwa watu katika sampuli yao.

Kutabiri utajiri wa watu katika sampuli, hata hivyo, sio lengo kuu la utafiti. Kumbuka kwamba lengo kuu lilikuwa ni kuchanganya baadhi ya vipengele bora vya tafiti za sampuli na uchunguzi ili kuzalisha makadirio sahihi, juu ya azimio ya umasikini katika nchi zinazoendelea. Kutathmini uwezo wao wa kufikia lengo hili, Blumenstock na wenzake walitumia mfano wao na data zao kutabiri utajiri wa watu milioni 1.5 katika kumbukumbu za wito. Nao walitumia maelezo ya geospatial yaliyoingia kwenye rekodi za wito (kukumbuka kwamba data ni pamoja na eneo la mnara wa karibu wa kila simu) ili kukadiria eneo la makazi ya kila mtu (takwimu 3.17). Kuweka makadirio haya mawili pamoja, Blumenstock na wenzake walizalisha makadirio ya usambazaji wa kijiografia wa utajiri wa mteja katika granularity nzuri sana ya anga. Kwa mfano, wanaweza kulinganisha utajiri wa wastani katika kila aina ya Rwanda 2,148 seli (kitengo kidogo cha utawala nchini).

Je, makadirio haya yanafananishwa na kiwango gani cha umasikini katika mikoa hii? Kabla ya kujibu swali hilo, nataka kusisitiza ukweli kwamba kuna sababu nyingi za kuwa na wasiwasi. Kwa mfano, uwezo wa kufanya utabiri katika ngazi ya mtu binafsi ilikuwa nzuri kelele (takwimu 3.17). Na, labda muhimu zaidi, watu wenye simu za mkononi wanaweza kuwa tofauti na watu bila simu za mkononi. Hivyo, Blumenstock na wenzake wanaweza kuteseka kutokana na aina za makosa ya chanjo ambazo zilipendeza utafiti wa 1936 wa Literary Digest ambao nilielezea mapema.

Ili kupata hisia ya ubora wa makadirio yao, Blumenstock na wafanyakazi wenzake wanahitaji kulinganisha yao na kitu kingine. Kwa bahati nzuri, karibu wakati huo huo kama utafiti wao, kundi jingine la watafiti lilifanya uchunguzi wa kijamii wa jadi nchini Rwanda. Uchunguzi huu mwingine-ambao ulikuwa ni sehemu ya mpango wa Utafiti wa Watu wa Kijiografia na Afya - ulikuwa na bajeti kubwa na kutumika mbinu za juu, za jadi. Kwa hiyo, makadirio kutoka kwa Utafiti wa Watu na Afya yanaweza kuzingatiwa kuwa makadirio ya dhahabu-kiwango. Wakati makadirio mawili yalifananishwa, yalikuwa sawa sawa (takwimu 3.17). Kwa maneno mengine, kwa kuchanganya kiasi kidogo cha data za uchunguzi na rekodi za wito, Blumenstock na wenzake waliweza kuzalisha makadirio sawa na wale kutoka mbinu za dhahabu-kawaida.

Skeptic inaweza kuona matokeo haya kama tamaa. Baada ya yote, njia moja ya kuwaangalia ni kusema kwamba kwa kutumia data kubwa na kujifunza mashine, Blumenstock na wenzake waliweza kuzalisha makadirio ambayo yanaweza kufanywa kwa uhakika zaidi na njia zilizopo tayari. Lakini sidhani kwamba ndiyo njia sahihi ya kufikiri juu ya utafiti huu kwa sababu mbili. Kwanza, makadirio kutoka kwa Blumenstock na wenzake walikuwa mara 10 kwa kasi na mara 50 nafuu (wakati gharama inapimwa kwa kiwango cha gharama za kutofautiana). Kama nilivyojadili mapema katika sura hii, watafiti hupuuza gharama kwa hatari yao. Katika kesi hiyo, kwa mfano, kushuka kwa kasi kwa gharama kunamaanisha kwamba badala ya kukimbia kila baada ya miaka michache-kama ilivyo kwa Utafutaji wa Idadi ya Watu na Afya-aina hii ya utafiti inaweza kuendeshwa kila mwezi, ambayo inaweza kutoa faida nyingi kwa watafiti na sera watengeneza. Sababu ya pili ya kuchukua maoni ya wasiwasi ni kwamba utafiti huu hutoa kichocheo cha msingi ambacho kinaweza kufanana na hali nyingi za utafiti. Kichocheo hiki kina viungo mbili tu na hatua mbili. Viungo ni (1) chanzo kikubwa cha data ambacho ni pana lakini nyembamba (yaani, ina watu wengi lakini siyo habari unayohitaji kuhusu kila mtu) na (2) utafiti ambao ni nyembamba lakini nene (yaani, una tu watu wachache, lakini ina maelezo ambayo unahitaji kuhusu watu hao). Viungo hivi basi vinashirikiwa katika hatua mbili. Kwanza, kwa watu katika vyanzo vyote vya data, jenga mtindo wa kujifunza mashine ambao unatumia chanzo kikubwa cha data kutabiri majibu ya utafiti. Ifuatayo, tumia mfano huo ili kuhamasisha majibu ya utafiti ya kila mtu katika chanzo kikubwa cha data. Kwa hiyo, ikiwa kuna swali ambalo unataka kuuliza watu wengi, angalia chanzo kikubwa cha data kutoka kwa watu hao ambao wanaweza kutumiwa kutabiri jibu lao, hata kama hujali kuhusu chanzo kikubwa cha data . Hiyo ni, Blumenstock na wafanyakazi wenzake hawakujali kuhusu rekodi za wito; wao tu walikuwa na wasiwasi juu ya rekodi ya wito kwa sababu wangeweza kutumika kutabiri majibu ya utafiti ambao walitunza. Nia hii ya pekee ya moja kwa moja katika chanzo kikubwa cha data-hufanya kuboresha kuuliza tofauti kutoka kuingizwa iliyoingia, ambayo nilielezea mapema.

Mchoro 3.16: Mpango wa utafiti wa Blumenstock, Cadamuro, na On (2015). Rekodi ya wito kutoka kwa kampuni ya simu ilibadilishwa kwenye tumbo na mstari mmoja kwa kila mtu na safu moja kwa kila kipengele (yaani, variable). Kisha, watafiti walijenga mfano wa kujifunza kusimamiwa kutabiri majibu ya uchunguzi kutoka kwa matrix ya mtu-na-kipengele. Kisha, mfano wa kujifunza uliosimamiwa ulitumiwa kuhamasisha majibu ya utafiti kwa wateja wote milioni 1.5. Pia, watafiti walidhani makadirio ya makao ya makao kwa wateja wote milioni 1.5 kulingana na maeneo ya wito wao. Wakati makadirio haya mawili-utajiri wa makadirio na makadirio ya makaazi-yameunganishwa, matokeo yalikuwa sawa na makadirio kutoka Utafiti wa Watu na Afya, uchunguzi wa kawaida wa dhahabu (takwimu 3.17).

Mchoro 3.16: Mpango wa utafiti wa Blumenstock, Cadamuro, and On (2015) . Rekodi ya wito kutoka kwa kampuni ya simu ilibadilishwa kwenye matrix kwa mstari mmoja kwa kila mtu na safu moja kwa kila kipengele (yaani, variable). Kisha, watafiti walijenga mfano wa kujifunza kusimamiwa kutabiri majibu ya uchunguzi kutoka kwa matrix ya mtu-na-kipengele. Kisha, mfano wa kujifunza uliosimamiwa ulitumiwa kuhamasisha majibu ya utafiti kwa wateja wote milioni 1.5. Pia, watafiti walidhani makadirio ya makao ya makao kwa wateja wote milioni 1.5 kulingana na maeneo ya wito wao. Wakati makadirio haya mawili-utajiri wa makadirio na makadirio ya makaazi-yameunganishwa, matokeo yalikuwa sawa na makadirio kutoka Utafiti wa Watu na Afya, uchunguzi wa kawaida wa dhahabu (takwimu 3.17).

Kielelezo 3.17: Matokeo kutoka Blumenstock, Cadamuro, na On (2015). Katika ngazi ya mtu binafsi, watafiti waliweza kufanya kazi nzuri katika kutabiri utajiri wa mtu kutoka kwa kumbukumbu zao za wito. Makadirio ya utajiri wa ngazi ya wilaya kwa wilaya 30 za Rwanda-ambazo zilizingatia makadirio ya kiwango cha mtu binafsi na mali-zimefanana na matokeo ya Utafiti wa Watu na Afya, uchunguzi wa kawaida wa dhahabu. Iliyotokana na Blumenstock, Cadamuro, na On (2015), takwimu 1a na 3c.

Kielelezo 3.17: Matokeo kutoka Blumenstock, Cadamuro, and On (2015) . Katika ngazi ya mtu binafsi, watafiti waliweza kufanya kazi nzuri katika kutabiri utajiri wa mtu kutoka kwa kumbukumbu zao za wito. Makadirio ya utajiri wa ngazi ya wilaya kwa wilaya 30 za Rwanda-ambazo zilizingatia makadirio ya kiwango cha mtu binafsi na mali-zimefanana na matokeo ya Utafiti wa Watu na Afya, uchunguzi wa kawaida wa dhahabu. Iliyotokana na Blumenstock, Cadamuro, and On (2015) , takwimu 1a na 3c.

Kwa kumalizia, Blumenstock imedhamiriwa kuuliza mbinu pamoja na data ya utafiti na chanzo kikubwa cha data kuzalisha makadirio sawa na wale kutoka utafiti wa dhahabu-kiwango. Mfano huu pia unafafanua baadhi ya biashara kati ya kukuzwa kwa kuuliza na mbinu za uchunguzi wa jadi. Walipendekezwa kuuliza makadirio walikuwa zaidi wakati, kiasi kikubwa nafuu, na zaidi punjepunje. Lakini, kwa upande mwingine, bado hakuna msingi thabiti wa kinadharia wa aina hii ya kukuza kuuliza. Mfano huu pekee haukuonyesha wakati mbinu hii itafanya kazi na wakati haitakuwa, na watafiti wanaotumia mbinu hii wanahitaji kuwa na wasiwasi hasa juu ya uwezekano wa kutokuwepo unaosababishwa na nani aliyejumuishwa-na ambaye hajumuishi-katika chanzo kikubwa cha data. Zaidi ya hayo, njia ya kuuliza yenye nguvu haifai njia nzuri za kuhakikisha kutokuwa na uhakika karibu na makadirio yake. Kwa bahati nzuri, kupanuliwa kwa kuuliza kuna uhusiano mkubwa na maeneo makuu matatu katika takwimu za ndogo-eneo (Rao and Molina 2015) , imputation (Rubin 2004) , na muundo wa msingi wa stratification (ambayo yenyewe ni karibu na Mheshimiwa P., njia ambayo nilielezea awali katika sura) (Little 1993) . Kwa sababu ya uhusiano huu wa kina, ninatarajia kuwa misingi mingi ya utaratibu wa kuimarishwa kuuliza hivi karibuni itafanywa kuboreshwa.

Hatimaye, kulinganisha majaribio ya kwanza na ya pili ya Blumenstock pia inaonyesha somo muhimu kuhusu utafiti wa kijamii wa umri wa digital: mwanzo sio mwisho. Hiyo ni mara nyingi, mbinu ya kwanza haitakuwa bora, lakini kama watafiti wanaendelea kufanya kazi, mambo yanaweza kuwa bora zaidi. Kwa ujumla, wakati wa kutathmini mbinu mpya za utafiti wa kijamii katika umri wa digital, ni muhimu kufanya tathmini mbili tofauti: (1) Hii inafanya kazi vizuri sasa? na (2) hii itafanyika vizuri zaidi wakati hali ya data inabadilika na kama watafiti wanazingatia shida zaidi? Ingawa watafiti wamefundishwa kufanya aina ya kwanza ya tathmini, pili ni mara nyingi muhimu zaidi.