2.2 Big nga data

Ang dagkong datos gimugna ug gikolekta sa mga kompanya ug gobyerno alang sa mga katuyoan gawas sa pagsiksik. Busa, ang paggamit niini nga datos alang sa panukiduki nagkinahanglan og pagbalos.

Ang una nga paagi nga daghang mga tawo nga nakasugat sa sosyal nga pagsiksik sa digital nga edad mao ang pinaagi sa kasagaran gitawag nga dagkong datos . Bisan pa sa kaylap nga paggamit niini nga termino, wala'y panag-uyon mahitungod sa unsa man nga dagko nga datos bisan kini. Apan, usa sa labing komon nga mga kahulugan sa dagkong datos ang naka-focus sa "3 Vs": Volume, Variety, and Velocity. Sa hagdan, adunay daghan nga mga datos, sa nagkalainlaing mga format, ug gilalang kini kanunay. Ang ubang mga fans nga dagkong datos usab nagdugang sa ubang "Vs" sama sa Veracity ug Value, samtang ang ubang mga kritiko nagdugang Vs sama sa Vague and Vacuous. Imbes ang 3 "Vs" (o ang 5 "Vs" o ang 7 "Vs"), alang sa mga katuyoan sa social research, sa akong hunahuna ang mas maayo nga dapit nga magsugod mao ang 5 "Ws": Kinsa, Unsa, Diin, Kanus , ug Ngano. Sa pagkatinuod, sa akong hunahuna nga daghan sa mga hagit ug mga oportunidad nga gihimo sa dagkong mga tinubdan sa datos nagsunod gikan sa usa lamang ka "W": Ngano.

Sa analog nga edad, kadaghanan sa mga datos nga gigamit alang sa sosyal nga panukiduki gimugna alang sa katuyoan sa pagpanukiduki. Apan, sa digital nga edad, daghang datus ang gimugna sa mga kompaniya ug gobyerno alang sa mga katuyoan gawas sa pagpanukiduki, sama sa paghatag serbisyo, pagmugna og kita, ug pagdumala sa mga balaod. Apan, ang mga tawong malipayon nakamatngon nga mahimo nimong repurpose kining datos sa korporasyon ug gobyerno alang sa pagsiksik. Sa paghunahuna balik sa arte sa arte sa kapitulo 1, sama nga gibutang ni Duchamp ang usa ka butang nga nakit-an sa paghimo sa art, ang mga siyentipiko karon makahimo na sa pagtuki sa nakaplagan nga mga datos sa pagmugna og panukiduki.

Samtang adunay walay duhaduha nga dako nga mga oportunidad alang sa pagbalikbalik, ang paggamit sa datos nga wala gimugna alang sa mga katuyoan sa pagpanukiduki nagpakita usab sa bag-ong mga hagit. Itandi, pananglitan, ang usa ka serbisyo sa social media, sama sa Twitter, nga adunay tradisyonal nga survey sa opinyon sa publiko, sama sa General Social Survey. Ang nag-unang mga tumong sa Twitter mao ang paghatag og serbisyo ngadto sa mga tiggamit niini ug sa paghimo og kaayohan. Ang General Social Survey, sa pikas bahin, naka-focus sa pagmugna og data pangkinabuhian nga katuyoan alang sa sosyal nga panukiduki, labi na sa panukiduki sa opinyon sa publiko. Kini nga kalainan sa mga tumong nagpasabot nga ang datos nga gibuhat sa Twitter ug nga gihimo sa General Social Survey adunay nagkalain-laing mga kabtangan, bisan ang duha mahimong magamit sa pagtuon sa opinyon sa publiko. Ang Twitter nagapadagan sa usa ka sukod ug kadali nga dili matupngan sa General Social Survey, apan, dili sama sa General Social Survey, ang Twitter dili maampingong nag-sample sa mga tiggamit ug wala maningkamot sa pagpadayon sa pagkomparar sa paglabay sa panahon. Tungod kay kining duha ka mga tinubdan sa kasayuran lahi ra kaayo, kini dili makatarunganon sa pag-ingon nga ang General Social Survey mas maayo kaysa Twitter o vice versa. Kung gusto nimo ang oras-oras nga pagsukod sa tibuok kalibutan nga pagbati (eg, Golder and Macy (2011) ), ang Twitter labing maayo. Sa laing bahin, kon gusto nimo nga masabtan ang dugay nga mga kausaban sa polarization of attitudes sa Estados Unidos (eg, DiMaggio, Evans, and Bryson (1996) ), nan ang General Social Survey mao ang pinakamaayo nga pagpili. Labaw sa kinatibuk-an, kay sa pagsulay nga makiglalis nga ang dagkong mga tinubdan sa datos mas maayo o mas grabe kay sa ubang mga matang sa datos, kini nga kapitulo mosulay sa pagpatin-aw alang sa unsang mga matang sa mga panukiduki sa pagsiksik ang dagkong mga tinubdan sa datos adunay madanihon nga mga kabtangan ug alang sa unsang mga matang sa mga pangutana sila dili maayo.

Sa diha nga naghunahuna mahitungod sa dagkong mga tinubdan sa datos, daghang mga tigdukiduki nagpunting dayon sa mga datos sa online nga gimugna ug gikolekta sa mga kompanya, sama sa mga log sa search engine ug mga post sa social media. Bisan pa, kini nga hiktin nga tumong naghatag sa duha ka laing importante nga mga tinubdan sa dagko nga datos. Una, nagkadaghan ang dagkong mga tinubdan sa kasayuran sa datos gikan sa digital devices sa pisikal nga kalibutan. Pananglitan, niining kapituloha, isulti ko kanimo ang mahitungod sa usa ka pagtuon nga gibutang ang mga data sa check-out sa supermarket aron tun-an kung giunsa ang pagka-produktibo sa usa ka trabahante nga naka-apekto sa produktibo sa iyang mga kaedad (Mas and Moretti 2009) . Unya, sa ulahing mga kapitulo, isulti ko kanimo ang mahitungod sa mga tigdukiduki nga naggamit sa mga rekord sa tawag gikan sa mga cellphone (Blumenstock, Cadamuro, and On 2015) ug mga datos sa billing nga gimugna sa electric utilities (Allcott 2015) . Ingon sa gipakita niini nga mga panig-ingnan, ang dagkong mga tinubdan sa datos sa datos mahitungod sa labaw pa kay sa pamatasan sa internet

Ang ikaduha nga mahinungdanon nga tinubdan sa dagkong datos nga gimingaw sa gamay nga pagtagad sa online behavior mao ang datos nga gimugna sa mga gobyerno. Ang mga datos sa gobyerno, nga gitawag sa mga tigdukiduki nga mga rekord sa pagdumala sa gobierno , naglakip sa mga butang sama sa mga rekord sa buhis, mga rekord sa eskwelahan, ug mga rekord sa mahinungdanon nga mga estadistika (pananglitan, mga registries of births ug kamatayon) Ang mga gobyerno nagmugna niining matang sa datos alang sa, sa pipila ka mga kaso, gatusan ka mga tuig, ug ang sosyal nga mga siyentipiko nagpahimulos kanila sa hapit basta adunay sosyal nga mga siyentipiko. Apan, unsa ang nausab mao ang pag-digitize, nga nakapahimo niini nga mas sayon ​​alang sa mga gobyerno sa pagkolekta, pagpadala, pagtipig, ug pagsusi sa datos. Pananglitan, niining kapituloha, isulti ko kanimo ang mahitungod sa usa ka pagtuon nga nagbutang sa mga datos gikan sa mga digital nga metro sa gobyerno sa New York City aron masulbad ang usa ka sukaranan nga debate sa labor economics (Farber 2015) . Unya, sa ulahing mga kapitulo, isulti ko kanimo kung giunsa gigamit ang mga rekord sa pagbotar sa gobyerno sa usa ka survey (Ansolabehere and Hersh 2012) ug usa ka eksperimento (Bond et al. 2012) .

Sa akong hunahuna ang ideya sa repurposing mao ang mahinungdanon sa pagkat-on gikan sa dagkong mga tinubdan sa datos, ug busa, sa dili pa maghisgot nga mas espesipiko mahitungod sa mga kabtangan sa dagkong mga tinubdan sa datos (seksyon 2.3) ug kung unsaon kini gamiton sa pagsiksik (seksyon 2.4), ganahan ko aron sa paghalad sa duha ka piraso sa kinatibuk-ang tambag mahitungod sa pagbalos. Una, mahimong makatintal nga hunahunaon ang kalainan nga akong gipatindog ingon nga anaa sa taliwala sa "nakaplagan" nga datos ug "gihimo" nga datos. Duol kana, apan dili kini husto. Bisan pa, gikan sa panglantaw sa mga tigdukiduki, ang dagkong mga tinubdan sa datos "nakit-an," dili kini mahulog gikan sa langit. Hinunoa, ang mga tinubdan sa datos nga "nakaplagan" sa mga tigdukiduki gihimo sa usa ka tawo alang sa usa ka katuyoan. Tungod kay ang "nakaplagan" nga datos gidisenyo sa usa ka tawo, kanunay kong girekomendar nga sulayan ang pagsabut kutob sa mahimo mahitungod sa mga tawo ug sa mga proseso nga nagmugna sa imong data. Ikaduha, sa diha nga ikaw nagbalik-balik sa mga datos, sa kasagaran makatabang kaayo ang paghanduraw sa maayo nga dataset alang sa imong problema ug unya itandi ang maayo nga dataset sa usa nga imong gigamit. Kon wala ka mangolekta sa imong datos, mahimo nga adunay mahinungdanong mga kalainan tali sa imong gusto ug unsa ang anaa kanimo. Ang pagkamatikod niini nga mga kalainan makatabang sa pagpatin-aw kon unsa ang imong mahimo ug dili makakat-on gikan sa datos nga anaa kanimo, ug kini mahimo nga mosugyot og bag-ong datos nga kinahanglang imong kolektahon.

Sa akong kasinatian, ang mga sosyal nga siyentipiko ug datos nga mga siyentipiko sa kasagaran nagkaduol sa pagbag-o sa lahi kaayo. Ang mga sosyal nga siyentipiko, kinsa naanad sa pagtrabaho sa mga datos nga gidesinyo alang sa panukiduki, kasagaran nga dali nga ipunting ang mga problema sa mga repurposed data samtang gibaliwala ang mga kalig-on niini. Sa laing bahin, ang mga datos sa mga siyentipiko sa kasagaran nagpunting sa mga benepisyo sa mga repurposed nga data samtang gibaliwala ang mga kahuyang niini. Siyempre, ang labing maayo nga paagi mao ang usa ka hybrid. Kana mao, ang mga tigdukiduki kinahanglan nga makasabut sa mga kinaiya sa dagkong mga tinubdan sa datos-maayo ug dili maayo-ug dayon hunahunaon unsaon sa pagkat-on gikan kanila. Ug, mao kana ang plano alang sa nahibilin niini nga kapitulo. Sa sunod nga seksyon, akong ihulagway ang napulo ka kasagarang mga kinaiya sa dagkong mga tinubdan sa datos. Unya, sa mosunod nga seksyon, akong hubiton ang tulo ka mga pamaagi sa panukiduki nga mahimong maayo ang pagtrabaho sa maong datos.