2.2 dejta Big

Tagħrif kbir huwa maħluq u miġbur minn kumpaniji u gvernijiet għal skopijiet oħra barra r-riċerka. L-użu ta 'din id-dejta għar-riċerka, għalhekk, teħtieġ ripetizzjoni.

L-ewwel mod li ħafna nies jiltaqgħu mar-riċerka soċjali fl-era diġitali huwa permezz ta 'dak li spiss jissejjaħ data kbira . Minkejja l-użu mifrux ta 'dan it-terminu, m'hemm l-ebda kunsens dwar liema data kbira hija saħansitra. Madankollu, waħda mid-definizzjonijiet l-aktar komuni ta 'dejta kbira tiffoka fuq "3 Vs": Volum, Varjetà, u Velocity. Bejn wieħed u ieħor, hemm ħafna dejta, f'diversi formati, u qed tinħoloq b'mod kostanti. Xi partitarji ta 'dejta kbira jżidu wkoll "Vs" oħra bħal Verità u Valur, filwaqt li xi kritiċi żiedu Vs bħal Vague u Vakwu. Minflok it-3 "V" (jew il-5 "Vs" jew is-7 "Vs"), għall-finijiet ta 'riċerka soċjali, naħseb li post aħjar biex tibda huwa l-5 "Ws": Who, What, Where, When , u Għaliex. Fil-fatt, naħseb li ħafna mill-isfidi u l-opportunitajiet maħluqa minn sorsi ta 'dejta kbar isegwu minn waħda biss "W": Għaliex.

Fl-età Analog, il-biċċa l-kbira tad-dejta li ntużat għar-riċerka soċjali nħolqot għall-iskop ta 'riċerka. Fl-era diġitali, madankollu, qed tinħoloq ammont kbir ta 'dejta minn kumpaniji u gvernijiet għal skopijiet oħra barra r-riċerka, bħalma huma l-forniment ta' servizzi, il-ġenerazzjoni tal-profitt u l-amministrazzjoni tal-liġijiet. Madankollu, in-nies kreattivi rrealizzaw li tista ' tirriproduċi din id-dejta korporattiva u tal-gvern għar-riċerka. Meta wieħed jaħseb fuq l-analoġija ta 'l-arti fil-kapitolu 1, hekk kif Duchamp reġa' ppropona oġġett misjub biex joħloq arti, ix-xjentisti issa jistgħu jerġgħu jipproteġu d-data misjuba biex joħolqu riċerka.

Filwaqt li hemm bla dubju opportunitajiet enormi għar-ripopolazzjoni, l-użu ta 'dejta li ma nħolqitx għall-finijiet tar-riċerka tippreżenta wkoll sfidi ġodda. Qabbel, pereżempju, servizz tal-midja soċjali, bħal Twitter, bi stħarriġ dwar l-opinjoni pubblika tradizzjonali, bħall-Istħarriġ Soċjali Ġenerali. L-għanijiet ewlenin ta 'Twitter huma li jipprovdu servizz lill-utenti tiegħu u li jagħmlu profitt. L-Istħarriġ Soċjali Ġenerali, min-naħa l-oħra, huwa ffokat fuq il-ħolqien ta 'dejta ta' skop ġenerali għar-riċerka soċjali, b'mod partikolari għar-riċerka tal-opinjoni pubblika. Din id-differenza fl-għanijiet tfisser li d-dejta maħluqa minn Twitter u dik maħluqa mill-Istħarriġ Soċjali Ġenerali għandhom proprjetajiet differenti, għalkemm it-tnejn jistgħu jintużaw għall-istudju tal-opinjoni pubblika. Twitter jaħdem fuq skala u ħeffa li l-Istħarriġ Soċjali Ġenerali ma jistax jaqbel, iżda, kuntrarjament għall-Istħarriġ Soċjali Ġenerali, Twitter ma jagħmilx kampjuni b'attenzjoni tal-utenti u ma jaħdimx sew biex iżomm il-komparabilità maż-żmien. Minħabba li dawn iż-żewġ sorsi ta 'dejta huma tant differenti, ma jagħmilx sens li wieħed jgħid li l-Istħarriġ Soċjali Ġenerali huwa aħjar minn Twitter jew viċi versa. Jekk trid miżuri kull siegħa ta 'burdata globali (eż. Golder and Macy (2011) ), Twitter huwa l-aħjar. Min-naħa l-oħra, jekk trid tifhem bidliet fit-tul fil-polarizzazzjoni tal-attitudnijiet fl-Istati Uniti (eż. DiMaggio, Evans, and Bryson (1996) ), allura l-Istħarriġ Soċjali Ġenerali huwa l-aħjar għażla. B'mod aktar ġenerali, aktar milli tipprova ssostni li sorsi ta 'dejta kbar huma aħjar jew agħar minn tipi oħra ta' dejta, dan il-kapitolu jipprova jiċċara għal liema tipi ta 'mistoqsijiet ta' riċerka sorsi ta 'dejta kbar għandhom proprjetajiet attraenti u għal liema tipi ta' mistoqsijiet jistgħu ma jkunux ideali.

Meta taħseb dwar sorsi kbar ta 'dejta, bosta riċerkaturi jiffukaw immedjatament fuq dejta onlajn maħluqa u miġbura minn kumpaniji, bħalma huma z-zkuk tal-magni tat-tiftix u l-postijiet tal-midja soċjali. Madankollu, din l-attenzjoni dejqa tħalli barra żewġ sorsi importanti oħra ta 'dejta kbira. L-ewwel, is-sorsi ta 'dejta kbar dejjem jikbru ġejjin minn apparati diġitali fid-dinja fiżika. Pereżempju, f'dan il-kapitolu, jien ser ngħidilkom dwar studju li d-dejta ta 'check-out ta' supermarket riposti biex tistudja kif il-produttività tal-ħaddiem hija affettwata mill-produttività ta 'sħabhom (Mas and Moretti 2009) . Imbagħad, fil-kapitoli aktar tard, jien ser ngħidlek dwar riċerkaturi li użaw rekords ta 'sejħiet minn telefowns ċellulari (Blumenstock, Cadamuro, and On 2015) u data tal-kontijiet maħluqa minn utilitajiet elettriċi (Allcott 2015) . Kif juru dawn l-eżempji, is-sorsi tad-data kbar korporattivi huma aktar minn sempliċement imġieba onlajn.

It-tieni sors importanti ta 'dejta kbira mitlufa b'fokus dejjaq fuq l-imġiba onlajn huwa d-data maħluqa mill-gvernijiet. Din id-dejta tal-gvern, li r-riċerkaturi jitolbu rekords amministrattivi tal-gvern , jinkludu affarijiet bħar-rekords tat-taxxa, rekords tal-iskejjel u rekords tal-istatistika vitali (eż., Reġistri ta 'twelid u mwiet). Il-gvernijiet ilhom joħolqu dan it-tip ta 'dejta għal, f'xi każijiet, mijiet ta' snin, u xjenzati soċjali ilhom jisfruttawhom għal kważi sakemm kien hemm xjentisti soċjali. Dak li nbidel, madankollu, huwa d-diġitizzazzjoni, li għamlitha drastikament aktar faċli għall-gvernijiet biex jiġbru, jittrażmettu, jaħżnu u janalizzaw id-dejta. Pereżempju, f'dan il-kapitolu, ser ngħidilkom dwar studju li d-dejta riformulata mill-miters tat-taxi diġitali tal-gvern ta 'New York City sabiex tindirizza dibattitu fundamentali fl-ekonomija tax-xogħol (Farber 2015) . Imbagħad, fil-kapitoli ta 'wara, jien ser ngħidlek dwar kif ir-reġistri tal-votazzjoni miġbura mill-gvern intużaw (Ansolabehere and Hersh 2012) u esperiment (Bond et al. 2012) .

Naħseb li l-idea tar-ripopolazzjoni hija fundamentali għat-tagħlim minn sorsi kbar ta 'data, u għalhekk, qabel nitkellmu b'mod aktar speċifiku dwar il-proprjetajiet ta' sorsi ta 'dejta kbar (taqsima 2.3) u kif dawn jistgħu jintużaw fir-riċerka (sezzjoni 2.4) li toffri żewġ biċċiet ta 'pariri ġenerali dwar ir-ripopolazzjoni. L-ewwelnett, jista 'jkun li jitħajjar li wieħed jaħseb dwar il-kuntrast li stajt twaqqaf bħala bejn dejta "misjuba" u "ddisinjata". Dak huwa qrib, imma mhux pjuttost tajjeb. Anki jekk, mill-perspettiva tar-riċerkaturi, sorsi kbar ta 'data huma "misjuba", huma ma jaqgħux biss mis-sema. Minflok, sorsi ta 'dejta li huma "misjuba" mir-riċerkaturi huma mfassla minn xi ħadd għal xi skop. Minħabba li data "misjuba" hija mfassla minn xi ħadd, dejjem nirrakkomanda li tipprova tifhem kemm jista 'jkun dwar in-nies u l-proċessi li ħolqu d-data tiegħek. It-tieni nett, meta tkun qed tirripurponi d-dejta, ta 'spiss tkun estremament utli li timmaġina s-sett tad-dejta ideali għall-problema tiegħek u mbagħad tqabbel dak id-dejtabejż ideali ma' dak li tkun qed tuża. Jekk ma tiġborx id-dejta tiegħek innifsek, x'aktarx ikun hemm differenzi importanti bejn dak li trid u dak li għandek. Meta tinnota dawn id-differenzi, tgħin biex tiċċara x'tista 'u ma tistax titgħallem mid-dejta li għandek, u tista' tissuġġerixxi data ġdida li għandek tiġbor.

Fl-esperjenza tiegħi, ix-xjenzati soċjali u xjenzati tad-dejta għandhom it-tendenza li javviċinaw ir-ripopolazzjoni b'mod differenti ħafna. Ix-xjenzjati soċjali, li huma mdorrijin jaħdmu b'data ddisinjata għar-riċerka, huma tipikament malajr biex jindikaw il-problemi b'dejta ripopolata filwaqt li jinjoraw is-saħħiet tiegħu. Min-naħa l-oħra, ix-xjentisti tad-dejta huma tipikament malajr biex jindikaw il-benefiċċji tad-dejta repurposed filwaqt li jinjora n-nuqqasijiet tiegħu. Naturalment, l-aħjar approċċ huwa ibridu. Jiġifieri, ir-riċerkaturi jridu jifhmu l-karatteristiċi ta 'sorsi ta' dejta kbar - kemm tajbin kif ukoll ħżiena - u mbagħad insemmu kif jitgħallmu minnhom. U, dak huwa l-pjan għall-bqija ta 'dan il-kapitolu. Fit-taqsima li jmiss, se niddeskrivi għaxar karatteristiċi komuni ta 'sorsi ta' data kbar. Imbagħad, fit-taqsima li ġejja, se niddeskrivi tliet metodi ta 'riċerka li jistgħu jaħdmu tajjeb b'din id-dejta.