2.3.1 Kubwa

Seti kubwa ni njia ya mwisho; wao si mwisho katika wenyewe.

Kipengele kinachojadiliwa sana katika vyanzo vya data kubwa ni kwamba ni BIG. Machapisho mengi, kwa mfano, kuanza kwa kuzungumza-na wakati mwingine kujisifu-kuhusu kiasi gani cha data walichochambua. Kwa mfano, karatasi iliyochapishwa katika Sayansi ya kusoma mwenendo wa matumizi ya neno katika Google Books corpus ni pamoja na yafuatayo (Michel et al. 2011) :

Kifaransa [45 bilioni], Kihispania (45 bilioni), Kijerumani (bilioni 37), Kichina (bilioni 13), Kirusi (bilioni 35), na Kiebrania (Bilioni 2). Kazi za kale zaidi zilichapishwa katika miaka ya 1500. Miongo ya mapema imewakilishwa na vitabu vichache tu kwa mwaka, yenye maneno mia kadhaa. Mnamo 1800, corpus inakua hadi maneno milioni 98 kwa mwaka; mwaka wa 1900, bilioni 1.8; na kwa mwaka 2000, bilioni 11. Corpus haiwezi kusoma na mwanadamu. Ikiwa ulijaribu kusoma maingilio ya lugha ya Kiingereza tu kutoka mwaka wa 2000 peke yake, kwa kasi nzuri ya maneno 200 / min, bila kuvuruga kwa chakula au usingizi, itachukua miaka 80. Mlolongo wa barua ni zaidi ya mara 1000 kuliko genome ya binadamu: Ikiwa uliandika kwenye mstari wa moja kwa moja, ungefikia Mwezi na kurudi mara 10 juu. "

Kiwango cha data hii ni ya kushangaza bila shaka, na sisi tumefurahi kwamba timu ya Vitabu vya Google imetoa data hizi kwa umma (kwa kweli, baadhi ya shughuli mwishoni mwa sura hii hutumia data hii). Lakini, wakati wowote unapoona kitu kama hiki unapaswa kuuliza: ni kwamba data hiyo yote inafanya kitu chochote? Je! Wangeweza kufanya utafiti huo kama data inaweza kufikia Mwezi na kurudi mara moja tu? Nini kama data inaweza kufikia juu ya Mlima Everest au juu ya mnara wa Eiffel?

Katika kesi hiyo, utafiti wao, kwa kweli, una matokeo mengine yanayotaka maneno makubwa ya maneno kwa muda mrefu. Kwa mfano, kitu kimoja wanachochunguza ni mageuzi ya sarufi, hususan mabadiliko katika kiwango cha msongamano wa kawaida wa kitenzi. Kwa kuwa vigezo vingine vya kawaida ni nadra, kiasi kikubwa cha data ni haja ya kuchunguza mabadiliko kwa muda. Mara nyingi, watafiti wanaonekana kutibu ukubwa wa chanzo kikubwa cha data kama mwisho- "angalia data ngapi ninaweza kuimarisha" - sio njia ya lengo muhimu zaidi la kisayansi.

Katika uzoefu wangu, kujifunza kwa matukio ya nadra ni mojawapo ya mwisho wa kisayansi maalum kwamba darasani kubwa huwa na uwezo. Ya pili ni utafiti wa heterogeneity, kama inavyoweza kuonyeshwa na utafiti na Raj Chetty na wenzake (2014) juu ya uhamaji wa kijamii nchini Marekani. Katika siku za nyuma, watafiti wengi wamejifunza uhamaji wa kijamii kwa kulinganisha matokeo ya maisha ya wazazi na watoto. Utafutaji thabiti kutoka kwa fasihi hizi ni kwamba wazazi wenye faida huwa na watoto wenye faida, lakini nguvu za uhusiano huu hutofautiana kwa muda na nchi zote (Hout and DiPrete 2006) . Hivi karibuni, hata hivyo, Chetty na wenzake waliweza kutumia rekodi za ushuru kutoka kwa watu milioni 40 ili kukadiria ukosefu wa uhamiaji kati ya miongoni mwa mikoa mjini Marekani (takwimu 2.1). Kwa mfano, waligundua kwamba uwezekano wa mtoto kufikia kiwango cha juu cha usambazaji wa mapato ya kitaifa kuanzia familia katika quintile ya chini ni karibu 13% huko San Jose, California, lakini ni asilimia 4 tu huko Charlotte, North Carolina. Ikiwa unatazama sura ya 2.1 kwa muda, unaweza kuanza kujiuliza kwa nini uhamiaji wa kiingiliano ni wa juu katika maeneo mengine kuliko wengine. Chetty na wenzake walikuwa na swali sawa, na waligundua kwamba maeneo ya juu ya uhamiaji yana ubaguzi wa chini wa makazi, ukosefu wa chini wa mapato, shule bora za msingi, mtaji mkubwa wa kijamii, na utulivu mkubwa wa familia. Bila shaka, uhusiano huu peke yake hauonyeshe kuwa sababu hizi husababisha uhamiaji wa juu, lakini zinaonyesha mifumo iwezekanayo ambayo inaweza kuchunguliwa katika kazi zaidi, ambayo ndiyo hasa ambayo Chetty na wenzake wamefanya katika kazi inayofuata. Tazama jinsi ukubwa wa data ulivyo muhimu sana katika mradi huu. Ikiwa Chetty na wenzi wenzake walitumia rekodi za kodi ya watu 40,000 badala ya milioni 40, hawangeweza kuhesabu urithi wa kikanda na hawakuweza kufanya utafiti wa baadaye ili kujaribu kutambua taratibu zinazounda tofauti hii.

Kielelezo 2.1: Kiwango cha nafasi ya mtoto wa kufikia juu ya 20% ya usambazaji wa mapato huwapa wazazi chini ya 20% (Chetty et al. 2014). Makadirio ya kiwango cha kikanda, ambayo yanaonyesha urithi, husababisha maswali ya kuvutia na ya muhimu ambayo hayatoke kwa makadirio ya ngazi moja ya kitaifa. Makadirio haya ya ngazi ya kikanda yaliwezekana kwa sehemu kwa sababu watafiti walikuwa wakitumia chanzo kikubwa cha data: kumbukumbu za ushuru wa watu milioni 40. Imeundwa kutoka kwa data inapatikana katika http://www.equality-of-opportunity.org/.

Kielelezo 2.1: Kiwango cha nafasi ya mtoto wa kufikia juu ya 20% ya usambazaji wa mapato huwapa wazazi chini ya 20% (Chetty et al. 2014) . Makadirio ya kiwango cha kikanda, ambayo yanaonyesha urithi, husababisha maswali ya kuvutia na ya muhimu ambayo hayatoke kwa makadirio ya ngazi moja ya kitaifa. Makadirio haya ya ngazi ya kikanda yaliwezekana kwa sehemu kwa sababu watafiti walikuwa wakitumia chanzo kikubwa cha data: kumbukumbu za ushuru wa watu milioni 40. Imeundwa kutoka kwa data inapatikana katika http://www.equality-of-opportunity.org/.

Hatimaye, pamoja na kusoma matukio ya nadra na kujifunza heterogeneity, datasets kubwa pia huwawezesha watafiti kuchunguza tofauti ndogo. Kwa hakika, mengi ya kuzingatia data kubwa katika sekta ni juu ya tofauti hizi ndogo: kwa uaminifu kutambua tofauti kati ya 1% na 1.1% viwango vya click-kupitia tangazo inaweza kutafsiri katika mamilioni ya dola katika mapato ya ziada. Katika mazingira mengine ya kisayansi, hata hivyo, tofauti ndogo hizo haziwezi kuwa muhimu sana, hata kama zina takwimu muhimu (Prentice and Miller 1992) . Lakini, katika mazingira mengine ya sera, wanaweza kuwa muhimu wakati wa kutazamwa kwa jumla. Kwa mfano, ikiwa kuna hatua mbili za afya ya umma na moja ni ya ufanisi zaidi kuliko nyingine, kisha kuamua kuingilia ufanisi zaidi inaweza kuishia kuokoa maelfu ya maisha ya ziada.

Ingawa ukubwa ni mali nzuri wakati unatumiwa kwa usahihi, nimeona kuwa inaweza wakati mwingine kusababisha hitilafu ya dhana. Kwa sababu fulani, ukubwa unaonekana kuwaongoza watafiti kupuuza jinsi data yao ilivyozalishwa. Wakati ukubwa hupunguza haja ya kuwa na wasiwasi juu ya hitilafu ya random, kwa kweli huongeza haja ya kuwa na wasiwasi juu ya makosa ya utaratibu, aina ya makosa ambayo nitakuelezea hapa chini ambayo yanatoka kutokana na upendeleo wa jinsi data inavyoundwa. Kwa mfano, katika mradi nitaelezea baadaye katika sura hii, watafiti walitumia ujumbe uliozalishwa mnamo Septemba 11, 2001 ili kuzalisha mstari wa juu wa azimio wakati wa mashambulizi ya shambulio la kigaidi (Back, Küfner, and Egloff 2010) . Kwa sababu watafiti walikuwa na idadi kubwa ya ujumbe, hakuwa na kweli wanahitaji kuwa na wasiwasi kuhusu kama mifumo waliyoona-kuongeza hasira juu ya mwendo wa siku-inaweza kuelezewa na mabadiliko ya random. Kulikuwa na data nyingi na muundo ulikuwa wazi sana kwamba vipimo vyote vya takwimu vya takwimu zilipendekeza kuwa hii ilikuwa mfano halisi. Lakini, vipimo hivi vya takwimu hazikujua jinsi data ilivyoundwa. Kwa kweli, imebadilika kuwa mwelekeo mingi ulihusishwa na bot moja ambayo ilizalisha ujumbe zaidi na zaidi usio na maana siku nzima. Kuondoa bot hii moja kuharibiwa kabisa baadhi ya matokeo muhimu katika karatasi (Pury 2011; Back, Küfner, and Egloff 2011) . Kwa urahisi tu, watafiti ambao hawafikiri juu ya kosa la utaratibu wanakabiliwa na hatari ya kutumia dasasets zao kubwa ili kupata makadirio sahihi ya kiasi kikubwa, kama vile maudhui ya kihisia ya ujumbe usio na maana unaozalishwa na boti la kawaida.

Kwa kumalizia, datasets kubwa sio mwisho wao wenyewe, lakini zinaweza kuwezesha aina fulani za utafiti ikiwa ni pamoja na utafiti wa matukio ya nadra, makadirio ya heterogeneity, na kutambua tofauti ndogo. Majedwali makubwa pia yanaonekana kuongoza watafiti wengine kupuuza jinsi data yao ilivyoundwa, ambayo inaweza kuwasababisha kupata makadirio sahihi ya kiasi kikubwa.