2.2 Big data

Big data ay nilikha at na nakolekta sa pamamagitan ng pamahalaan para sa mga layunin maliban sa pananaliksik. Gamit ang data para sa pananaliksik, samakatuwid, ay nangangailangan ng repurposing.

Isang idealized view ng panlipunang pananaliksik imagines isang siyentipiko pagkakaroon ng isang ideya at pagkatapos ay pagkolekta ng data upang subukan na ideya. Ito estilo ng pananaliksik ay humantong sa isang masikip magkasya sa pagitan ng pananaliksik tanong at data, ngunit ito ay limitado dahil ang isang indibidwal researcher ay madalas na hindi magkaroon ng mga mapagkukunan na kailangan upang mangolekta ng mga data na kailangan nila, tulad ng malaki, mayaman, at nationally-kinatawan data. Samakatuwid, ang isang pulutong ng panlipunang pananaliksik sa nakalipas ay ginagamit malakihang panlipunan survey, tulad ng General Social Survey (GSS), ang American National Election Study (ANES), at Panel Pag-aaral ng Income Dynamics (PSID). Ang mga malalaking-scale survey ay karaniwang tatakbo sa pamamagitan ng isang koponan ng mga mananaliksik at mga ito ay dinisenyo upang lumikha ng data na maaaring magamit sa pamamagitan ng maraming mga mananaliksik. Dahil sa ang mga layunin ng mga malalaking-scale survey, dakilang pag-aalaga ay ilagay sa pagdisenyo ng mga koleksyon ng data at paghahanda ang mga nagresultang data para sa paggamit ng mga mananaliksik. Ang mga data ay sa pamamagitan ng mga mananaliksik at para sa mga mananaliksik.

Karamihan panlipunang pananaliksik gamit ang digital pinagkukunan edad, gayunpaman, ay sa panimula naiiba. Sa halip ng paggamit ng data na nakolekta ng mga mananaliksik at para sa mga mananaliksik, ito ay gumagamit pinagkukunan ng data na nalikha at nakolekta sa pamamagitan ng mga negosyo at pamahalaan para sa kanilang sariling mga layunin tulad ng paggawa ng isang tubo, na nagbibigay ng isang serbisyo, o pagbibigay ng isang batas. Ang mga negosyo at pamahalaan pinagkukunan ng data ay may dumating na tinatawag na malaking data. Paggawa ng pananaliksik na may malaking data ay naiiba kaysa sa paggawa ng pananaliksik na may data na orihinal na nilikha para sa pananaliksik. Ihambing, halimbawa, ang isang social media website, tulad ng Twitter, na may tradisyonal na pampublikong opinyon survey tulad ng General Social Survey (GSS). pangunahing layunin ni Twitter ay upang magbigay ng serbisyo sa mga gumagamit nito at upang gumawa ng isang tubo. Sa proseso ng pagkamit ng mga layunin, Twitter lumilikha data na maaaring maging kapaki-pakinabang para sa pag-aaral ang ilang mga aspeto ng pampublikong opinyon. Ngunit, hindi katulad ng General Social Survey (GSS), Twitter ay hindi lalo na nakatutok sa mga social research.

Ang terminong malaki data ay frustratingly malabo, at ito mga grupo ng sama-sama ng maraming iba't ibang mga bagay. Para sa mga layunin ng panlipunang pananaliksik, tingin ko ito ay kapaki-pakinabang upang makilala sa pagitan ng dalawang uri ng malaking pinagkukunan ng data:. Government records administrative at negosyo mga talaan administrative Government administrative talaan ay data na ay nilikha sa pamamagitan ng pamahalaan bilang bahagi ng kanilang routine na gawain. Ang mga uri ng mga talaan na ito ay ginagamit ng mga mananaliksik sa nakalipas-tulad ng pag-aaral demographers kapanganakan, kasal, at kamatayan talaan-ngunit pamahalaan ay increasingly pagkolekta at ilalabas ang mga detalyadong talaan sa analisable forms. Halimbawa, ang pamahalaan New York City na naka-install digital metro sa loob ng bawat taxi sa lungsod. Ang mga metro-record ang lahat ng mga uri ng data tungkol sa bawat biyahe sa taxi kasama na ang driver, ang oras ng simula at lokasyon, ang ihinto ang oras at lokasyon, at ang fare. Sa isang pag-aaral na kukunin ko na sabihin sa ibang pagkakataon sa kabanatang ito, Henry Farber (2015) repurposed mga data upang matugunan ang isang pangunahing debate sa labor economics tungkol sa kaugnayan ng oras-oras na sahod at ang bilang ng mga oras na nagtrabaho.

Ang ikalawang pangunahing uri ng malaking data para sa mga social pananaliksik ay negosyo talaan administratibo. Ang mga ito ay data na negosyo lumikha at mangolekta ng bilang bahagi ng kanilang routine na gawain. Ang mga negosyo talaan administrative ay madalas na tinatawag digital traces, at isama ang mga bagay tulad ng query logs search engine, social media mga post, at tawagan talaan mula sa mga mobile phone. Critically, ang mga negosyo talaan administrative ay hindi lamang tungkol sa online na pag-uugali. Halimbawa, tindahan na gumagamit ng pag-check-out scanners ay ang paglikha ng real-time na takal na manggagawa produktibo. Sa isang pag-aaral na kailangan ko bang sabihin sa iyo ang tungkol sa ibang pagkakataon sa kabanatang ito, Alexandre Mas at Enrico Moretti (2009) repurposed ito supermarket Check-Out data upang pag-aralan kung paano produktibo ng mga manggagawa ay naapektuhan ng pagiging produktibo ng kanilang mga kapantay.

Bilang parehong mga halimbawa ilarawan, ang ideya ng repurposing ay pangunahing sa pag-aaral mula sa malaking data. Sa aking karanasan, panlipunan siyentipiko at mga siyentipiko data diskarte sa ito repurposing napaka naiiba. Social siyentipiko, na ay bihasa sa nagtatrabaho sa mga data na dinisenyo para sa pananaliksik, ay mabilis na ituro ang mga problema sa repurposed data habang hindi papansin ang kanyang lakas. Sa kabilang dako, ang data siyentipiko ay mabilis na ituro ang mga benepisyo ng repurposed data habang binabalewala nito kahinaan. Naturally, ang pinakamahusay na diskarte ay magiging isang hybrid. Iyon ay, ang mga mananaliksik na kailangan upang maunawaan ang mga katangian ng mga bagong mga pinagkukunan ng data-parehong mabuti at masama-at pagkatapos ay malaman kung paano upang matuto mula sa kanila. At, na ang plano para sa mga naiwan ng kabanatang ito. Next, ako ay naglalarawan sampung mga karaniwang katangian ng negosyo at pamahalaan administrative data. Pagkatapos nito, ako ay naglalarawan ng tatlong approach pananaliksik na maaaring magamit sa mga data, na paglalapit na ay well-ugma sa mga katangian ng data na ito.