2.3 Sepuluh karakteristik umum dari big data

Sumber data besar cenderung memiliki sejumlah karakteristik yang sama; beberapa umumnya bagus untuk penelitian sosial dan beberapa umumnya buruk.

Meskipun setiap sumber data besar berbeda, akan sangat membantu untuk memperhatikan bahwa ada karakteristik tertentu yang cenderung terjadi berulang kali. Oleh karena itu, daripada menggunakan pendekatan platform demi platform (misalnya, inilah yang perlu Anda ketahui tentang Twitter, inilah yang perlu Anda ketahui tentang data pencarian Google, dll.), Saya akan menjelaskan sepuluh karakteristik umum besar sumber data. Melangkah mundur dari detail masing-masing sistem tertentu dan melihat karakteristik umum ini memungkinkan para peneliti untuk cepat belajar tentang sumber data yang ada dan memiliki serangkaian ide yang kuat untuk diterapkan pada sumber data yang akan dibuat di masa depan.

Meskipun karakteristik yang diinginkan dari sumber data bergantung pada tujuan penelitian, saya merasa sangat membantu untuk mengelompokkan sepuluh karakteristik menjadi dua kategori besar:

  • umumnya bermanfaat untuk penelitian: besar, selalu aktif, dan tidak reaktif
  • umumnya bermasalah untuk penelitian: tidak lengkap, tidak dapat diakses, tidak representatif, hanyut, bingung secara algoritme, kotor, dan sensitif

Ketika saya menjelaskan karakteristik ini, Anda akan melihat bahwa mereka sering muncul karena sumber data besar tidak diciptakan untuk tujuan penelitian.