3.6.1 Kuboresha kuuliza

Katika kuuliza kwa manufaa, data ya utafiti inajenga muktadha karibu na chanzo kikubwa cha data ambacho kina vigezo muhimu lakini hawana wengine.

Njia moja ya kuchanganya data za utafiti na vyanzo vya data kubwa ni mchakato ambao nitaita kuwa na utajiri kuuliza . Katika kuuliza kustawi, chanzo kikubwa cha data kina vipimo muhimu lakini hauna vipimo vingine hivyo mtafiti hukusanya vipimo hivi vilivyopatikana katika utafiti na kisha huunganisha vyanzo viwili vya data pamoja. Mfano mmoja wa kuuliza utajiri ni utafiti na Burke and Kraut (2014) kuhusu kuwa kuingiliana kwenye Facebook kunaongeza nguvu ya urafiki, ambayo nilielezea katika kifungu 3.2). Katika hali hiyo, Burke na Kraut pamoja data ya utafiti na data ya logi ya Facebook.

Mpangilio ambao Burke na Kraut walikuwa wakifanya kazi, hata hivyo, walisema kuwa hawakubidi kukabiliana na matatizo mawili makubwa ambayo watafiti wanafanya kuimarisha kuuliza kawaida uso. Kwanza, kwa kweli kuunganisha seti ya data ya kiwango cha mtu binafsi, mchakato unaoitwa kuunganishwa kwa rekodi , inaweza kuwa ngumu ikiwa hakuna kitambulisho cha kipekee katika vyanzo vyote vya data vinavyoweza kutumia ili kuhakikisha rekodi sahihi katika dasasiti moja inafanana na rekodi sahihi katika dataset nyingine. Tatizo kuu la pili na kuulizwa kwa utajiri ni kwamba ubora wa chanzo kikubwa cha data mara nyingi kuwa vigumu kwa watafiti kuchunguza kwa sababu mchakato ambao data hutengenezwa inaweza kuwa wamiliki na inaweza kuwa na matatizo mengi yanayoelezwa katika sura ya 2. Kwa maneno mengine, kuimarisha kuuliza mara nyingi huhusisha kuunganishwa kwa makosa ya kawaida ya tafiti kwa vyanzo vya data-nyeusi-sanduku ya ubora usiojulikana. Licha ya matatizo haya, hata hivyo, kuuliza kustahili kunaweza kutumiwa kufanya utafiti muhimu, kama ilivyoonyeshwa na Stephen Ansolabehere na Eitan Hersh (2012) katika utafiti wao juu ya mifumo ya kupiga kura nchini Marekani.

Upigaji kuraji wa kupigia kura umekuwa chini ya utafiti wa kina katika sayansi ya siasa, na, katika siku za nyuma, uelewa wa watafiti wa kura na kwa nini kwa ujumla imekuwa kulingana na uchambuzi wa takwimu za uchunguzi. Upigaji kura nchini Marekani, hata hivyo, ni tabia isiyo ya kawaida kwa kuwa serikali inarekodi ikiwa kila raia amepiga kura (bila shaka, serikali haina kurekodi kila kura ya wananchi). Kwa miaka mingi, rekodi hizi za kupiga kura za serikali zilipatikana kwenye fomu za karatasi, zilizotawanyika katika ofisi mbalimbali za serikali za mitaa kote nchini. Hii imefanya kuwa vigumu sana, lakini haiwezekani, kwa wanasayansi wa kisiasa kuwa na picha kamili ya wapiga kura na kulinganisha kile watu wanasema katika uchunguzi juu ya kupiga kura na tabia yao halisi ya kupiga kura (Ansolabehere and Hersh 2012) .

Lakini rekodi hizi za kupiga kura zimepigwa digitized, na makampuni kadhaa ya kibinafsi wamekusanywa kwa utaratibu na kuunganisha ili kuzalisha faili za kupiga kura za kina zilizo na tabia ya kupiga kura ya Wamarekani wote. Ansolabehere na Hersh walishirikiana na mojawapo ya makampuni haya-Kikatalani LCC-ili watumie faili yao ya kupigia kura ili kuendeleza picha bora ya wapiga kura. Zaidi ya hayo, kwa sababu utafiti wao ulitegemea rekodi za digital zilizokusanywa na kuzingatiwa na kampuni ambayo imewekeza rasilimali kubwa katika kukusanya data na kuunganisha, ilitoa faida kadhaa juu ya jitihada zilizopita zilizofanyika bila msaada wa makampuni na kwa kutumia kumbukumbu za analog.

Kama vyanzo vingi vya data katika sura ya 2, faili ya Kikatalist haijumuisha mengi ya idadi ya watu, tabia, na tabia ambazo Ansolabehere na Hersh zinahitajika. Kwa kweli, walikuwa na nia ya kulinganisha tabia ya kupiga kura ya taarifa katika tafiti na tabia ya kuthibitishwa (yaani, habari katika database ya Kikatalist). Hivyo Ansolabehere na Hersh walikusanya data waliyotaka kama uchunguzi mkubwa wa jamii, CCES, iliyotajwa mapema katika sura hii. Kisha walitoa data zao kwa Kikatalist, na Kikatalist iliwapa tena faili ya data iliyounganishwa ambayo ilijumuisha tabia iliyokubalika ya kupiga kura (kutoka kwa Kikatalist), tabia ya kujitegemea ya kupiga kura (kutoka CCES) na idadi ya watu na mitazamo ya washiriki (kutoka CCES) (takwimu 3.13). Kwa maneno mengine, Ansolabehere na Hersh walikusanya data ya kumbukumbu ya kupiga kura na data za utafiti ili kufanya utafiti ambao haiwezekani na chanzo cha data moja kwa moja.

Kielelezo 3.13: Mpango wa utafiti na Ansolabehere na Hersh (2012). Kuunda faili ya data, Kikatalani inachanganya na kuunganisha habari kutoka vyanzo vingi tofauti. Utaratibu huu wa kuunganisha, bila kujali jinsi ya makini, utaeneza makosa katika vyanzo vya data vya awali na utaanzisha makosa mapya. Chanzo cha makosa cha pili ni uhusiano wa rekodi kati ya data ya utafiti na datafile ya bwana. Ikiwa kila mtu alikuwa na kitambulisho imara, cha kipekee katika vyanzo vyote vya data, basi ushirikiano utakuwa wa maana. Lakini, Kikatalani ilipaswa kufanya ushirikiano kwa kutumia vitambulisho vya kutosha, kwa jina hili, jinsia, mwaka wa kuzaliwa, na anwani ya nyumbani. Kwa bahati mbaya, kwa matukio mengi kunaweza kuwa na taarifa isiyo kamili au sahihi; mpiga kura aitwaye Homer Simpson anaweza kuonekana kama Homer Jay Simpson, Homie J Simpson, au hata Homer Sampsin. Licha ya uwezekano wa makosa katika datafile ya bwana Kikatalist na makosa katika ushirikiano wa rekodi, Ansolabehere na Hersh waliweza kujenga ujasiri katika makadirio yao kupitia aina mbalimbali za hundi.

Kielelezo 3.13: Mpango wa utafiti na Ansolabehere and Hersh (2012) . Kuunda faili ya data, Kikatalani inachanganya na kuunganisha habari kutoka vyanzo vingi tofauti. Utaratibu huu wa kuunganisha, bila kujali jinsi ya makini, utaeneza makosa katika vyanzo vya data vya awali na utaanzisha makosa mapya. Chanzo cha makosa cha pili ni uhusiano wa rekodi kati ya data ya utafiti na datafile ya bwana. Ikiwa kila mtu alikuwa na kitambulisho imara, cha kipekee katika vyanzo vyote vya data, basi ushirikiano utakuwa wa maana. Lakini, Kikatalani ilipaswa kufanya ushirikiano kwa kutumia vitambulisho vya kutosha, kwa jina hili, jinsia, mwaka wa kuzaliwa, na anwani ya nyumbani. Kwa bahati mbaya, kwa matukio mengi kunaweza kuwa na taarifa isiyo kamili au sahihi; mpiga kura aitwaye Homer Simpson anaweza kuonekana kama Homer Jay Simpson, Homie J Simpson, au hata Homer Sampsin. Licha ya uwezekano wa makosa katika datafile ya bwana Kikatalist na makosa katika ushirikiano wa rekodi, Ansolabehere na Hersh waliweza kujenga ujasiri katika makadirio yao kupitia aina mbalimbali za hundi.

Kwa faili yao ya data ya pamoja, Ansolabehere na Hersh walifikia hitimisho tatu muhimu. Kwanza, taarifa zaidi ya kupiga kura imeenea: karibu nusu ya wasio na maoni waliripoti kupigia kura, na kama mtu aliripoti kupiga kura, kuna fursa ya 80% tu kwamba walipiga kura. Pili, taarifa ya juu sio ya random: taarifa za juu ni za kawaida kati ya watu wenye elimu ya juu, wenye elimu vizuri, washirika waliohusika katika masuala ya umma. Kwa maneno mengine, watu ambao wana uwezekano wa kupiga kura pia wana uwezekano mkubwa wa kusema uwongo kuhusu kupiga kura. Tatu, na kwa kiasi kikubwa, kwa sababu ya asili ya utaratibu wa kutoa taarifa zaidi, tofauti halisi kati ya wapiga kura na wasio na maoni ni ndogo zaidi kuliko yanaonekana tu kutoka kwa tafiti. Kwa mfano, wale walio na kiwango cha bachelor ni karibu asilimia 22 ya uwezekano wa kutoa taarifa ya kupiga kura, lakini ni pointi 10 tu ya asilimia zaidi ya kupiga kura. Inabadilika, labda haishangazi, kuwa nadharia zilizopo za msingi za kupiga kura ni bora zaidi katika kutabiri nani atakayeripoti kupiga kura (ambayo ni data ambayo watafiti wametumia zamani) kuliko vile wanavyotabiri ambao kwa kweli ni kura. Kwa hiyo, uchunguzi wa maandishi wa Ansolabehere and Hersh (2012) wito kwa nadharia mpya ili kuelewa na kutabiri kura.

Lakini ni kiasi gani tunapaswa kuamini matokeo haya? Kumbuka, matokeo haya yanategemea kuunganishwa na kosa lililounganishwa kwenye data ya sanduku la mweusi na kiasi kisichojulikana cha kosa. Zaidi ya hayo, matokeo yamezingatia hatua mbili muhimu: (1) uwezo wa Kikatalist kuchanganya vyanzo vingi vya data tofauti ili kuzalisha faili sahihi ya data na (2) uwezo wa Kikatalist kuunganisha data ya utafiti kwenye faili yake ya data. Kila moja ya hatua hizi ni ngumu, na makosa katika hatua yoyote inaweza kusababisha watafiti kwa hitimisho sahihi. Hata hivyo, usindikaji wa data na kuunganisha data ni muhimu kwa kuwepo kwa Kikatalist kama kampuni, hivyo inaweza kuwekeza rasilimali katika kutatua matatizo haya, mara kwa mara kwa kiwango ambacho hakuna mtafiti wa kitaaluma anayeweza kufanana. Katika karatasi yao, Ansolabehere na Hersh hupita kupitia hatua kadhaa ili kuangalia matokeo ya hatua hizi mbili-ingawa baadhi yao ni wamiliki-na hundi hizi zinaweza kuwasaidia kwa watafiti wengine wanaotaka kuunganisha data ya utafiti kwenye data nyeusi-sanduku kubwa vyanzo.

Watafiti wa masomo ya jumla wanaweza kujifunza kutoka kwenye utafiti huu? Kwanza, kuna thamani kubwa sana kutoka kwa kuimarisha vyanzo vyenye vya data na data ya utafiti na kutoka kwa kuimarisha data za utafiti na vyanzo vyenye vya data (unaweza kuona njia hii aidha). Kwa kuchanganya vyanzo hivi viwili vya data, watafiti waliweza kufanya kitu ambacho haikuwezekana kwa kila mmoja. Somo la pili la jumla ni kwamba ingawa vyema, vyanzo vya data vya biashara, kama data kutoka kwa Kikatalist, haipaswi kuchukuliwa "ukweli wa chini," wakati mwingine, inaweza kuwa na manufaa. Watazamaji wakati mwingine hulinganisha chanzo cha data cha jumla, cha kibiashara na Kweli na kuelezea kwamba vyanzo hivi vya data hupungukiwa. Hata hivyo, katika kesi hii, wasiwasi wanafanya kulinganisha vibaya: data zote ambazo watafiti hutumia hupungukiwa na Ukweli kamili. Badala yake, ni vyema kulinganisha vyanzo vya data vyenye jumla, vyanzo vya biashara na vyanzo vingine vya data (kwa mfano, tabia ya kujitegemea ya kupigia kura), ambayo huwa na makosa pia. Hatimaye, somo la tatu la jumla la utafiti wa Ansolabehere na Hersh ni kwamba katika hali fulani, watafiti wanaweza kufaidika na uwekezaji mkubwa ambao makampuni mengi ya kibinafsi hufanya katika kukusanya na kuunganisha seti za data za kijamii.