2.2 data Big

Data badag anu dijieun jeung dikumpulkeun ku pausahaan jeung pamaréntah pikeun tujuan séjén ti panalungtikan. Ngagunakeun data ieu panalungtikan, ku kituna, ngabutuhkeun repurposing.

Cara mimiti nu loba jalma sapatemon panalungtikan sosial dina umur digital nyaéta ngaliwatan naon ilahar disebut data badag. Sanajan pamakéan nyebar tina istilah ieu, aya konsensus ngeunaan naon data badag malah aya. Sanajan kitu, salah sahiji definisi paling umum data badag museurkeun kana "3 Vs": Jilid, Ragam, sarta laju. Kasarna, aya loba data, dina rupa-rupa format, sarta eta keur dijieun terus. Sababaraha fans data badag ogé nambahkeun séjén "Vs" kayaning Veracity na Niley, sedengkeun sabagian kritik nambahkeun Vs kayaning samar tur Vacuous. Tinimbang 3 "Vs" (atawa 5 "Vs" atawa 7 "Vs"), pikeun kaperluan panalungtikan sosial, Jigana hiji tempat hadé pikeun ngamimitian teh 5 "Ws": Saha, Anu, Dimana, Lamun , sarta Kunaon. Malah mah pikir nu loba tantangan jeung kasempetan dijieun ku sumber data badag nuturkeun ti ngan hiji "W": Naha.

Dina umur analog, lolobana data nya éta dipaké pikeun panalungtikan sosial dijieun keur kaperluan ngalakonan panalungtikan. Dina umur digital, kumaha oge, jumlah badag data keur dijieun ku pausahaan jeung pamaréntah pikeun tujuan séjén ti panalungtikan, kayaning nyadiakeun jasa, generating kauntungan, sarta administering hukum. Jalma kreatif, kumaha oge, geus sadar yen anjeun tiasa repurpose ieu perusahaan tur pamaréntah data pikeun ieu panalungtikan. Pamikiran deui ka analogi seni dina bab 1, sagampil Duchamp repurposed hiji objek kapanggih keur nyieun seni, ilmuwan kiwari bisa repurpose kapanggih data pikeun nyieun panalungtikan.

Bari aya undoubtedly kasempetan badag pikeun repurposing, ngagunakeun data nu teu dijieun pikeun kaperluan panalungtikan ogé presents tantangan anyar. Bandingkeun, upamana layanan média sosial, kayaning Twitter, ku survéy pendapat umum tradisional, saperti Survey Sosial Umum. gol utama Twitter urang nu nyadiakeun layanan pikeun pamaké sarta nyieun untung. The Survey Sosial Umum, di sisi sejen, anu fokus kana nyieun data umum-Tujuan pikeun panalungtikan sosial, utamana pikeun panalungtikan pendapat umum. bédana dina gol Ieu ngandung harti yén data dijieun ku Twitter jeung nu dijieun ku Survey Sosial Umum mibanda pasipatan béda, sanajan duanana bisa dipaké pikeun diajar pamadegan umum. Twitter ngoperasikeun dina skala na speed yén Survey Sosial Umum teu cocog, tapi, saperti Survey Sosial Umum, Twitter henteu taliti pamaké sampel sarta teu kerja keras pikeun mulasara comparability kana waktu. Kusabab dua sumber data ieu jadi béda, teu make akal pikiran ngomong yén Survey Sosial Umum leuwih hade tinimbang Twitter atawa sabalikna. Upami anjeun hoyong ukuran hourly sahiji wanda global (misalna Golder and Macy (2011) ), Twitter nyaéta pangalusna. Di sisi séjén, lamun rék ngarti parobahan jangka panjang dina polarisasi ti sikap di Amérika Serikat (misalna DiMaggio, Evans, and Bryson (1996) ), mangka Survey Sosial Umum mangrupa hasil pilihan pangalusna. Leuwih umum, tinimbang nyoba ngajawab yén sumber data badag anu hadé atawa goréng dibandingkeun jenis séjén data, ieu bab baris coba netelakeun nu rupa patarosan panalungtikan sumber data badag mibanda pasipatan pikaresepeun jeung anu rupa patarosan maranéhna bisa jadi teu idéal.

Nalika pamikiran ngeunaan sumber data badag, loba peneliti geura difokuskeun data online dijieun tur dikumpulkeun ku pausahaan, kayaning log search engine sarta tulisan média sosial. Sanajan kitu, fokus sempit kieu daun kaluar dua sumber penting lianna data badag. Kahiji, sumber data badag beuki perusahaan datangna ti alat digital di dunya fisik. Contona, dina ieu bab, kuring gé ngabejaan Anjeun tentang hiji ulikan nu repurposed supermarket pariksa-kaluar data pikeun diajar kumaha produktivitas a worker urang geus impacted ku produktivitas peers dirina (Mas and Moretti 2009) . Saterusna, dina bab engké, abdi gé ngabejaan Anjeun tentang peneliti anu dipaké rékaman panggero ti ponsel (Blumenstock, Cadamuro, and On 2015) sarta data tagihan dijieun ku Utiliti listrik (Allcott 2015) . Salaku conto ieu ngagambarkeun, sumber data badag perusahaan anu ngeunaan leuwih ti kabiasaan ngan online.

Sumber penting kadua data badag lasut ku fokus sempit on kabiasaan online ieu data dijieun ku pamaréntah. Data pamaréntah ieu, anu peneliti nelepon rékaman pamaréntah administratif, kaasup hal saperti rékaman pajeg, rékaman sakola, sarta statistik vital rékaman (misalna registries kalahiran sarta maotna). Pamaréntah geus nyieun jenis ieu data pikeun, dina sababaraha kasus, ratusan taun, sarta élmuwan sosial geus exploiting aranjeunna pikeun ampir salami aya geus élmuwan sosial. Naon geus robah kitu, digitization, nu geus nyieun éta nyirorot gampang pikeun pamaréntah pikeun ngumpulkeun, ngirimkeun, toko, sarta nganalisis data. Contona, dina ieu bab, kuring gé ngabejaan Anjeun tentang hiji ulikan nu repurposed data tina taksi méter digital pamaréntah urang New York City guna alamat hiji perdebatan fundaméntal dina ékonomi kuli (Farber 2015) . Saterusna, dina bab engké, abdi gé ngabejaan Anjeun tentang kumaha rékaman voting-dikumpulkeun pamaréntah anu dipaké dina survey (Ansolabehere and Hersh 2012) jeung hiji percobaan (Bond et al. 2012) .

Jigana pamanggih repurposing mangrupa dasar pikeun diajar tina sumber data badag, sarta jadi, saméméh ngawangkong langkung husus ngeunaan sipat sumber badag data (bagian 2.3) jeung kumaha ieu bisa dipaké dina ieu panalungtikan (bagian 2.4), Abdi resep nawarkeun dua potongan naséhat umum ngeunaan repurposing. Kahiji, tiasa pikabitaeun mikir ngeunaan jelas yen Kuring geus nyetél salaku mahluk antara "kapanggih" data na "dirancang" data. Éta nutup, tapi éta teu cukup katuhu. Sanajan, ti perspektif peneliti, sumber data badag anu "kapendak" aranjeunna teu ngan turun ti langit. Gantina, sumber data nu "kapanggih" ku peneliti nu dirancang ku batur pikeun sababaraha Tujuan. Kusabab "kapanggih" data anu dirancang ku batur, abdi salawasna nyarankeun yén anjeun coba ngartos saloba mungkin ngeunaan jalma jeung prosés nu dijieun data Anjeun. Kadua, nalika anjeun repurposing data, éta mindeng pisan mantuan mun ngabayangkeun nu dataset idéal pikeun masalah anjeun lajeng ngabandingkeun nu dataset idéal jeung salah nu Anjeun anggo. Lamun henteu ngumpulkeun data Anjeun diri, aya kamungkinan jadi béda pentingna antara naon rék na naon kudu. Noticing Bedana ieu baris mantuan netelakeun kumaha anjeun tiasa jeung moal bisa neuleuman tina data anjeun boga, sarta eta bisa nyarankeun data anyar nu kudu ngumpulkeun.

Dina pangalaman kuring, ilmuwan sosial sarta élmuwan data condong kaanggo repurposing pisan béda. élmuwan sosial, anu biasa gawé bareng data dirancang pikeun panalungtikan, nu ilaharna gancang nunjuk kaluar masalah kalawan data repurposed bari ignoring kaunggulan na. Di sisi séjén, ilmuwan data anu ilaharna gancang nunjuk kaluar mangpaat data repurposed bari ignoring kelemahan na. Alami, pendekatan Hadé pisan hibrid. Hartina, peneliti kedah ngartos karakteristik sumber-duanana data badag alus jeung goréng-lajeng angka kaluar kumaha carana diajar ti maranéhna. Na, nu rencana pikeun sésana tina bab ieu. Dina bagian hareup, abdi bakal ngajelaskeun sapuluh ciri umum tina sumber data badag. Lajeng, di bagian handap, abdi bakal ngajelaskeun tilu deukeut panalungtikan nu bisa dianggo ogé kalawan data sapertos.