2.3 Sepuluh ciri umum data besar

Sumber data yang besar cenderung mempunyai beberapa ciri yang sama; sesetengahnya baik untuk penyelidikan sosial dan ada yang umumnya buruk.

Walaupun setiap sumber data yang besar adalah berbeza, adalah berguna untuk mengetahui bahawa terdapat ciri-ciri tertentu yang cenderung berlaku berulang-ulang kali. Oleh itu, daripada mengambil pendekatan platform-oleh-platform (contohnya, apa yang anda perlu tahu tentang Twitter, inilah yang perlu anda ketahui tentang data carian Google, dll.), Saya akan menerangkan sepuluh ciri umum besar sumber data. Melangkah semula dari butiran setiap sistem tertentu dan melihat ciri-ciri umum ini membolehkan para penyelidik untuk mempelajari dengan cepat tentang sumber data sedia ada dan mempunyai satu set idea yang mantap untuk memohon kepada sumber data yang akan diwujudkan pada masa akan datang.

Walaupun ciri-ciri sumber yang dikehendaki dari sumber data bergantung kepada matlamat penyelidikan, saya dapati ia membantu untuk mengelompokkan sepuluh ciri-ciri secara kasar kepada dua kategori yang luas:

  • umumnya bermanfaat untuk penyelidikan: besar, sentiasa aktif, dan tidak aktif
  • umumnya bermasalah untuk penyelidikan: tidak lengkap, tidak boleh diakses, tidak mewakili, hanyut, secara algorithmically confounded, kotor, dan sensitif

Seperti yang saya nyatakan ciri-ciri ini, anda akan melihat bahawa mereka sering muncul kerana sumber data besar tidak dicipta untuk tujuan penyelidikan.