2.2 data Big

translation iki digawe dening komputer. ×

2.2 data Big

Data amba dicipta lan dikumpulake dening perusahaan lan pemerintah kanggo tujuan liya tinimbang riset. Nggunakake data iki kanggo riset, mulane, mbutuhake repurposing.

Cara pisanan sing ditemoni wong akeh ing panaliten sosial ing jaman digital yaiku liwat apa sing asring diarani data gedhe . Senadyan nggunakake istilah iki nyebar, ora ana konsensus babagan data gedhe apa wae. Nanging, salah sawijining dhéfinisi sing paling umum ing data amba fokus ing "3 Vs": Volume, Variety, lan Velocity. Akeh, ana akeh data, ing macem-macem format, lan digawé terus-terusan. Sawetara penggemar data gedhe uga nambah "Vs" kayata Veracity and Value, dene sawetara kritikus nambahake Vs kayadene Vague lan Vacuous. Tinimbang 3 "Vs" (utawa 5 "Vs" utawa 7 "Vs"), kanggo tujuan riset sosial, aku mikir panggonan sing luwih apik kanggo miwiti yaiku 5 "Ws": Siapa, Apa, Ngendi, Nalika , lan Kenapa. Ing kasunyatan, aku akeh sing tantangan lan kesempatan sing digawé dening sumber data gedhe mung saka "W": Apa.

Ing zaman analog, sebagian besar data sing digunakake kanggo riset sosial digawe kanggo tujuan nglakoni panaliten. Nanging, ing umur digital, data ageng digawé dening perusahaan lan pemerintah kanggo tujuan liyane tinimbang riset, kayata nyediakake layanan, ngasilake untung, lan ngurus hukum. Nanging wong-wong kreatif wis nyadari yen sampeyan bisa nggayuh data perusahaan lan pamarentah kanggo riset. Mikir maneh analogi seni ing bab 1, kaya Duchamp nampilake objek sing ditemokake kanggo nggawe seni, para ilmuwan saiki bisa ngusulake nemokake data kanggo nggawe riset.

Nalika samesthine ana kesempatan gedhe kanggo repurposing, nggunakake data sing ora digawe kanggo tujuan riset uga presents tantangan anyar. Sambungake, contone, layanan media sosial, kayata Twitter, karo survey opini umum tradisional, kayata Survey Sosial Umum. Tujuan utama Twitter yaiku nyedhiyakake layanan kanggo para pangguna lan nggawe keuntungan. Ing panliten sosial umum, difokusake nyiptakake data umum kanggo riset sosial, utamane kanggo riset opini umum. Prabédan ing gol iki tegese data sing digawe dening Twitter lan digawe dening Survey Sosial Umum duwe sifat beda, sanajan loro bisa digunakake kanggo sinau opini umum. Twitter ngoperasikake skala lan kacepetan yen Survey Sosial Umum ora bisa cocog, nanging, ora kaya Survey Sosial Umum, Twitter ora nganggo conto kanthi teliti lan ora bisa ngupayakake komparibilitas saka wektu. Amarga loro sumber data kasebut beda, ora bisa dipikirake yen Survey Sosial Umum luwih apik tinimbang Twitter utawa uga sabanjure. Yen sampeyan pengin ngukur swasana ati global (contone, Golder and Macy (2011) ), Twitter paling apik. Saliyane, yen sampeyan pengin ngerti owah-owahan jangka panjang ing polarisasi sikap ing Amerika Serikat (kayata DiMaggio, Evans, and Bryson (1996) ), banjur Survey Sosial Umum minangka pilihan sing paling apik. Luwih umum, tinimbang nyoba mbantah sing sumber data gedhe luwih apik utawa luwih elek saka jinis data liyane, bab iki bakal nyoba kanggo njlentrehake apa pitakonan riset pitakonan sing gedhe banget sumber data lan pitakon pitakonan sing padha ora becik.

Nalika mikir babagan sumber data gedhe, akeh peneliti langsung fokus marang data online sing digawe lan dikumpulake dening perusahaan, kayata log mesin telusuran lan postingan media sosial. Nanging, fokus iki mung loro sumber data penting sing penting. Kaping pisanan, sumber data gedhe perusahaan teka saka piranti digital ing donya fisik. Contone, ing bab iki, aku bakal ngandhani babagan panaliten sing ngeculake data check-out supermarket kanggo nyinaoni babagan produktivitas buruhane sing dialami dening produktivitas dheweke (Mas and Moretti 2009) . Banjur, ing bab sabanjuré, aku bakal ngandhani babagan peneliti sing nggunakake cathetan telpon saka telpon seluler (Blumenstock, Cadamuro, and On 2015) lan data tagihan sing digawe dening keperluan listrik (Allcott 2015) . Minangka conto iki nggambarake, sumber data perusahaan gedhe luwih saka mung prilaku online.

Sumber data penting sing gedhe ora kejawab fokus fokus ing prilaku online yaiku data sing digawe dening pemerintah. Data pamaréntahan iki, sing neliti nyebut cathetan administratif pamaréntah , kalebu perkara kayata catetan pajak, cathetan sekolah, lan catetan statistik penting (contone, registri lair lan pati). Pemerintah wis nggawe data iki kanggo, ing sawetara kasus, atusan taun, lan ilmuwan sosial wis ngeksploitasi wong-wong mau saklawasé nganti wis ana ilmuwan sosial. Nanging, apa sing wis diganti dadi digitisasi, sing ndadekake kanthi dramatically luwih gampang kanggo pemerintah ngumpulake, ngirim, nyimpen, lan nganalisa data. Contone, ing bab iki, aku bakal ngandhani babagan panlitaman sing ngganti data saka pamarentah metro pamarentahan New York City kanggo ngatasi perdebatan dhasar ing ekonomi tenaga kerja (Farber 2015) . Banjur, ing bab sadurunge, aku bakal nemokake babagan carane rekaman pemungutan suara sing digunakake ing survey (Ansolabehere and Hersh 2012) lan eksperimen (Bond et al. 2012) .

Aku mikir yen repurposing minangka dhasar kanggo sinau saka sumber data gedhe, lan, sadurunge ngomong luwih spesifik babagan sifat-sifat sumber data gedhe (bagean 2.3) lan carane iki bisa digunakake ing riset (bagean 2.4), Aku seneng kanggo menehi loro saran umum babagan repurposing. Kaping pisanan, bisa dicoba kanggo mikir babagan kontras sing aku wis nyetel minangka data antarane "ketemu" lan "dirancang". Sing cedhak, nanging ora cukup bener. Sanajan, saka perspektif peneliti, sumber data sing gedhe "ditemokake," dheweke ora mung tiba saka langit. Nanging, sumber data sing "ditemokake" dening peneliti dirancang dening wong kanggo sawetara tujuan. Amarga "ketemu" data sing dirancang dening wong, aku tansah menehi rekomendasi sing nyoba kanggo mangerteni apa akeh babagan wong lan pangolahan sing digawe data. Kapindho, nalika sampeyan repurposing data, asring banget mbiyantu kanggo mbayangake dataset becik kanggo masalah banjur mbandhingake sing dataset becik karo sing sampeyan nggunakake. Yen sampeyan ora nglumpukake data dhewe, ana kemungkinan sing beda antarane sing dikarepake lan apa sing sampeyan duwe. Nemtokake beda kasebut bakal mbantu njlentrehake apa sing bisa lan ora bisa sinau saka data sing sampeyan duwe, lan bisa suggest data anyar sing kudu dikumpulake.

Ing pengalaman, ilmuwan sosial lan ilmuwan data cenderung nyedhak kanthi cara sing beda-beda. Ilmuwan sosial, sing wis biasa nganggo data sing dirancang kanggo riset, biasane cepet nunjukake masalah karo data repurposed nalika ngilangi kekuwatane. Ing tangan liyane, para ilmuwan data biasane cepet nuduhake keuntungan saka data repurposed nalika mbantah kelemahane. Alami, pendekatan sing paling apik yaiku Sato. Sing, peneliti kudu mangerteni ciri-ciri sumber data gedhe-becik lan ala-banjur nemtokake cara sinau saka wong-wong mau. Lan, yaiku rencana kanggo sisa bab iki. Ing bagean sabanjure, aku bakal nemtokake sepuluh ciri umum sumber data gedhe. Banjur, ing bagean ing ngisor iki, aku bakal njlèntrèhaké telung pendekatan panelitèn sing bisa dianggo kanthi becik karo data kasebut.