2.2 Big data

translation na ito ay nilikha sa pamamagitan ng isang computer. ×

2.2 Big data

Malaking data ay nilikha at nakolekta ng mga kumpanya at pamahalaan para sa mga layunin maliban sa pananaliksik. Samakatuwid, ang paggamit ng data na ito para sa pananaliksik ay nangangailangan ng muling pagsasauli.

Ang unang paraan na ang maraming tao ay nakatagpo ng panlipunang pananaliksik sa digital age ay sa pamamagitan ng kung ano ang madalas na tinatawag na malaking data . Sa kabila ng malawakang paggamit ng terminong ito, walang pinagkasunduan ang tungkol sa kung ano ang malaking data kahit na. Gayunpaman, ang isa sa mga pinaka-karaniwang kahulugan ng malaking data ay nakatuon sa "3 Vs": Dami, Iba't Iba, at Kabilisan. Halos, mayroong maraming data, sa iba't ibang mga format, at patuloy itong nalikha. Ang ilang mga tagahanga ng malaking data ay nagdaragdag din ng iba pang mga "Vs" tulad ng Veracity and Value, samantalang ang ilang mga kritiko ay nagdaragdag ng mga Vs tulad ng Hindi Tiyak at Bako. Sa halip na ang 3 "Vs" (o ang 5 "Vs" o 7 "Vs"), para sa mga layunin ng panlipunang pananaliksik, sa tingin ko ang isang mas mahusay na lugar upang magsimula ay ang 5 "Ws": Sino, Ano, Saan, Kailan , at bakit. Sa katunayan, sa tingin ko na marami sa mga hamon at pagkakataon na nilikha ng mga malalaking data pinagmulan ay sumusunod mula sa isang "W" lamang: Bakit.

Sa analogong edad, ang karamihan ng data na ginamit para sa panlipunang pananaliksik ay nilikha para sa layunin ng paggawa ng pananaliksik. Gayunman, sa digital age, ang isang malaking halaga ng data ay nilikha ng mga kumpanya at pamahalaan para sa mga layunin maliban sa pananaliksik, tulad ng pagbibigay ng mga serbisyo, pagbuo ng kita, at pangangasiwa ng mga batas. Gayunpaman, natutunan ng mga creative na tao na maaari mong repurpose ang data ng korporasyon at gobyerno para sa pananaliksik. Pag-iisip muli sa pagkakatulad ng sining sa kabanata 1, tulad ng pagtanggi ni Duchamp ng isang nahanap na bagay upang lumikha ng sining, ang mga siyentipiko ay maaari na ngayong magresulta sa nahanap na data upang lumikha ng pananaliksik.

Habang walang alinlangan malaking pagkakataon para sa repurposing, gamit ang data na hindi nilikha para sa mga layunin ng pananaliksik ay nagtatanghal din ng mga bagong hamon. Ihambing, halimbawa, ang isang serbisyo ng social media, tulad ng Twitter, na may tradisyonal na pampublikong opinyon sa survey, tulad ng General Social Survey. Ang mga pangunahing layunin ng Twitter ay upang magbigay ng serbisyo sa mga gumagamit nito at upang makinabang. Ang Pangkalahatang Panlipunan Survey, sa kabilang banda, ay nakatutok sa paglikha ng data pangkalahatang layunin para sa panlipunang pananaliksik, lalo na para sa pananaliksik sa opinyon ng publiko. Ang pagkakaiba sa mga layunin ay nangangahulugan na ang data na nilikha ng Twitter at na nilikha ng Pangkalahatang Panitikan ng Social ay may iba't ibang mga katangian, kahit na ang parehong ay maaaring gamitin para sa pag-aaral ng opinyon ng publiko. Ang Twitter ay nagpapatakbo sa isang sukat at bilis na hindi maaaring tumugma ang Pangkalahatang Panlipunan Survey, ngunit, hindi katulad ng General Social Survey, ang Twitter ay hindi maingat na nag-sample ng mga gumagamit at hindi gumagana nang husto upang mapanatili ang paghahambing sa paglipas ng panahon. Dahil ang dalawang pinagmumulan ng data ay naiiba, hindi masasabing sasabihin na ang Pangkalahatang Panitikan sa Pananalapi ay mas mahusay kaysa sa Twitter o sa kabaligtaran. Kung gusto mo ng oras-oras na mga panukala ng global mood (hal., Golder and Macy (2011) ), ang Twitter ay pinakamahusay. Sa kabilang banda, kung gusto mong maintindihan ang mga pangmatagalang pagbabago sa polarisasyon ng mga saloobin sa Estados Unidos (halimbawa, DiMaggio, Evans, and Bryson (1996) ), ang Pangkalahatang Panukala sa Social ay ang pinakamahusay na pagpipilian. Higit sa pangkalahatan, sa halip na subukang magtaltalan na ang mga malalaking data ng mga mapagkukunan ay mas mahusay o mas masahol kaysa sa iba pang mga uri ng data, ang kabanatang ito ay susubukan na linawin kung aling mga uri ng mga katanungan sa pananaliksik ang malaking pinagmumulan ng data ay may kaakit-akit na mga katangian at para sa mga uri ng mga katanungan na hindi nila maaaring perpekto.

Kapag nag-iisip tungkol sa mga malalaking pinagmumulan ng data, maraming mga mananaliksik ang tumuon agad sa online na data na nilikha at nakolekta ng mga kumpanya, tulad ng mga log ng search engine at mga post sa social media. Gayunpaman, ang makikitang pokus na ito ay umalis sa dalawang iba pang mahahalagang mapagkukunan ng malaking data. Una, lumalaki ang mga malalaking korporasyon ng malalaking data mula sa mga digital na aparato sa pisikal na mundo. Halimbawa, sa kabanatang ito, sasabihin ko sa iyo ang tungkol sa isang pag-aaral na ang data ng pag-check ng data ng supermarket upang pag-aralan kung paano ang pagiging produktibo ng isang manggagawa ay naapektuhan ng pagiging produktibo ng kanyang mga kasamahan (Mas and Moretti 2009) . Pagkatapos, sa mga susunod na kabanata, sasabihin ko sa iyo ang tungkol sa mga mananaliksik na gumagamit ng mga tala ng tawag mula sa mga mobile phone (Blumenstock, Cadamuro, and On 2015) at data sa pagsingil na nilikha ng mga electric utility (Allcott 2015) . Tulad ng ilarawan sa mga halimbawa, ang mga malalaking data ng mga pinagmumulan ng data ay tungkol sa higit pa sa pag-uugali sa online.

Ang ikalawang mahalagang pinagkukunan ng malaking data na hindi nakuha ng isang makitid na pagtuon sa online na pag-uugali ay ang data na nilikha ng mga pamahalaan. Ang mga datos ng gobyerno, na tinatawagan ng mga mananaliksik sa mga talaan ng pamamahala ng pamahalaan , ay kinabibilangan ng mga bagay tulad ng mga talaan ng buwis, talaan ng paaralan, at mga talaan ng mahahalagang istatistika (hal., Mga registri ng mga kapanganakan at pagkamatay). Ang mga pamahalaan ay lumilikha ng ganitong uri ng data para sa, sa ilang mga kaso, daan-daang taon, at ang mga social scientist ay nagsasamantala sa kanila sa halos hangga't mayroong mga sosyal na siyentipiko. Gayunman, kung ano ang nagbago ay pag-digitize, na naging mas madali para sa mga pamahalaan na mangolekta, magpadala, mag-imbak, at mag-aralan ng data. Halimbawa, sa kabanatang ito, sasabihin ko sa iyo ang tungkol sa isang pag-aaral na nagresulta sa data mula sa mga digital na metrong taksi sa pamahalaang New York City upang matugunan ang isang pangunahing debate sa economics ng paggawa (Farber 2015) . Pagkatapos, sa mga susunod na kabanata, sasabihin ko sa iyo kung paano ginamit ang mga talaan ng botohan ng pamahalaan sa isang survey (Ansolabehere and Hersh 2012) at isang eksperimento (Bond et al. 2012) .

Sa palagay ko ang ideya ng repurposing ay napakahalaga sa pag-aaral mula sa mga malalaking pinagmumulan ng data, at sa gayon, bago magsalita nang higit na partikular tungkol sa mga katangian ng malaking mga mapagkukunan ng data (seksyon 2.3) at kung paano ito magagamit sa pananaliksik (seksyon 2.4), gusto ko upang mag-alok ng dalawang piraso ng pangkalahatang payo tungkol sa repurposing. Una, maaari itong maging kaakit-akit upang isipin ang kaibahan na itinakda ko bilang nasa pagitan ng "nahanap" na data at "dinisenyo" na data. Iyan ay malapit, ngunit hindi tama. Kahit na, mula sa pananaw ng mga mananaliksik, ang mga malalaking pinagmumulan ng data ay "natagpuan," hindi lamang sila nahulog mula sa kalangitan. Sa halip, ang mga pinagmumulan ng data na "natagpuan" ng mga mananaliksik ay dinisenyo ng isang tao para sa ilang layunin. Dahil ang "nahanap" na data ay dinisenyo ng isang tao, palagi kong inirerekumenda na subukan mong maunawaan hangga't maaari tungkol sa mga tao at mga proseso na lumikha ng iyong data. Ikalawa, kapag nag-repurposing ka ng data, kadalasan ay kapaki-pakinabang na isipin ang perpektong dataset para sa iyong problema at pagkatapos ay ihambing ang perpektong dataset gamit ang isa na iyong ginagamit. Kung hindi mo kinokolekta ang iyong data sa iyong sarili, malamang na maging mahalagang mga pagkakaiba sa pagitan ng kung ano ang gusto mo at kung ano ang mayroon ka. Ang pagpuna sa mga pagkakaiba na ito ay makakatulong na linawin kung ano ang magagawa mo at hindi maaaring matutunan mula sa data na mayroon ka, at maaari itong magmungkahi ng bagong data na dapat mong kolektahin.

Sa aking karanasan, ang mga siyentipiko sa lipunan at ang mga siyentipiko ng datos ay may posibilidad na lumapit sa pag-iiba nang iba. Ang mga sosyal na siyentipiko, na bihasa sa pagtatrabaho sa data na idinisenyo para sa pananaliksik, ay kadalasang mabilis upang ituro ang mga problema sa repurposed data habang hindi papansin ang mga lakas nito. Sa kabilang panig, ang mga siyentipiko ng datos ay kadalasang mabilis na ituro ang mga benepisyo ng mga data na repurposed habang binabalewala ang mga kahinaan nito. Naturally, ang pinakamahusay na diskarte ay isang hybrid. Iyon ay, kailangan ng mga mananaliksik na maunawaan ang mga katangian ng malaking pinagkukunan ng data-parehong mabuti at masama-at pagkatapos ay malaman kung paano matutunan mula sa kanila. At, iyon ang plano para sa natitirang bahagi ng kabanatang ito. Sa susunod na seksyon, ilalarawan ko ang sampung karaniwang katangian ng malalaking data source. Pagkatapos, sa susunod na seksyon, ilalarawan ko ang tatlong mga diskarte sa pananaliksik na maaaring gumana nang mahusay sa naturang data.