2.2 data Big

Data Big sing digawé lan diklumpukake dening pemerintah kanggo tujuan liyane saka riset. Nggunakake data iki kanggo riset, mulane, mbutuhake repurposing.

Tampilan idealized riset sosial foto ilmuwan gadhah idea lan banjur ngempalaken data kanggo nyoba idea sing. Iki gaya riset ndadékaké kanggo Pas nyenyet antarane Pitakonan riset lan data, nanging diwatesi amarga paneliti individu kerep ora duwe sumber daya needed kanggo ngumpulake data lagi perlu, kayata data gedhe, sugih, lan nasional-wakil. Mulane, akèh riset sosial ing sasi wis digunakake survey sosial gedhe-ukuran, kayata Survey Umum Social (GSS), Amérika Study Pemilihan National (ANES), lan Panel Study of Income Dynamics (PSID). Iki survey gedhe-ukuran sing umume mbukak dening tim peneliti lan padha dirancang kanggo nggawe data sing bisa digunakake dening akeh peneliti. Amarga saka gol saka survey gedhe-ukuran iki, gedhe care sijine menyang ngrancang koleksi data lan nyepakaké data asil dienggo dening peneliti. Iki data dening peneliti lan kanggo panliti.

Paling riset sosial nggunakake sumber umur digital, Nanging, dhasar beda. Tinimbang nggunakake data sing diklumpukake dening peneliti lan kanggo panliti, iku migunakake sumber data sing digawe lan diklumpukake dening bisnis lan pemerintah sing tujuane dhewe kayata nggawe MediaWiki, nyediakake layanan, utawa administering hukum. Sumber data bisnis lan pemerintah wis teka kanggo bisa disebut data amba. Mengkono riset karo data amba beda saka mengkono riset karo data sing Originally digawé kanggo riset. Mbandhingaké, contone, situs media sosial, kayata Twitter, karo survey karo masyarakat tradisional kayata Survey Social Umum (GSS). gol utama Twitter kang kanggo nyedhiyani layanan kanggo kedhaftar lan kanggo nggawe MediaWiki. Ing proses nampa iki gol, Twitter nggawe data sing bisa migunani kanggo sinau aspèk tartamtu saka masyarakat. Nanging, kados Survey Social Umum (GSS), Twitter ora utamané fokus ing riset sosial.

The data amba term punika frustratingly samar, lan kelompok bebarengan akeh perkara. Kanggo tujuan panelitèn sosial, aku iku mbiyantu kanggo mbedakake antarane rong jinis sumber data amba:. Cathetan administratif pamaréntahan lan cathetan administratif bisnis cathetan administratif Government sing data sing digawe dening pemerintah minangka bagéan saka aktivitas tumindake sing. Iki jinis cathetan wis digunakake dening peneliti ing sasi-kuwi minangka demographers sinau lair, cathetan-nanging marriage, lan pati pemerintah sing saya ngempalaken lan ngeculake cathetan rinci ing formulir analyzable. Contone, pamaréntah New York City diinstal meter digital nang saben taxi in kutha. meter iki ngrekam kabeh jinis data bab saben kulo taxi kalebu driver, wektu wiwitan lan lokasi, wektu mandeg lan lokasi, lan beya. Ing studi sing aku bakal ngomong mengko ing bab iki, Henry Farber (2015) repurposed data iki kanggo alamat debat dhasar ing ekonomi pegawe babagan hubungan antarane bayaran jam lan nomer jam makarya.

Jinis utama kapindho data amba kanggo riset sosial cathetan administratif bisnis. Iki data sing bisnis nggawe lan ngumpulake minangka bagéan saka aktivitas tumindake sing. Cathetan administratif bisnis iki asring disebut ngambah digital, lan kalebu iku kaya log pitakonan search engine, kiriman media sosial, lan nelpon cathetan saka telpon seluler. Kritis, cathetan administratif bisnis iki ora mung babagan prilaku online. Contone, toko sing nggunakake mriksa-metu scanner sing nggawe ngukur nyata-wektu produktivitas buruh. Ing studi sing sing Aku pitutur marang kowe bab mengko ing bab iki, Alexandre Mas lan Enrico Moretti (2009) repurposed supermarket priksa-metu data kanggo sinau carane produktivitas sing buruh 'iki dampak dening produktivitas sing ora pati cetho.

Minangka loro conto ilustrasi, ing idea saka repurposing punika dhasar kanggo learning saka data amba. Ing pengalaman, ilmuwan sosial lan ilmuwan data pendekatan kanggo iki repurposing banget beda. ilmuwan sosial, sing rakulino kanggo nggarap data dirancang kanggo riset, sing cepet tumuju metu masalah karo data repurposed sarta nglirwakaké sawijining kekiyatan. Ing tangan liyane, ilmuwan data sing cepet tumuju metu keuntungan saka data repurposed sarta nglirwakaké kelemahane sawijining. Alamiah, pendekatan paling apik hibrida. Sing, peneliti kudu ngerti karakteristik iki sumber anyar data-loro apik lan ala-lan banjur tokoh metu carane sinau saka wong-wong mau. Lan, sing rencana kanggo seko bab iki. Sabanjure, aku bakal njlèntrèhaké sepuluh ciri umum data bisnis lan pemerintah administratif. Sawisé iku, aku bakal njlèntrèhaké telung cedhak riset sing bisa dipigunakaké karo data iki, cedhak sing uga cocog kanggo karakteristik data iki.