2.3.2.6 Kotor

Sumber data yang besar dapat diisi dengan sampah dan spam.

Beberapa peneliti percaya bahwa sumber data besar, terutama yang berasal dari sumber online, murni karena mereka dikumpulkan secara otomatis. Bahkan, orang-orang yang telah bekerja dengan sumber data yang besar tahu bahwa mereka sering kotor. Artinya, mereka sering termasuk data yang tidak mencerminkan tindakan nyata yang menarik bagi peneliti. Banyak ilmuwan sosial sudah akrab dengan proses pembersihan data survei sosial berskala besar, tetapi membersihkan sumber data yang besar lebih sulit karena dua alasan: 1) mereka tidak diciptakan oleh para peneliti untuk peneliti dan 2) peneliti umumnya memiliki pemahaman yang kurang tentang bagaimana mereka diciptakan.

Bahaya kotor Data jejak digital diilustrasikan oleh Kembali dan rekan ' (2010) studi tentang respon emosional terhadap serangan 11 September 2001. Para peneliti biasanya mempelajari respon terhadap peristiwa tragis menggunakan data retrospektif yang dikumpulkan selama bulan atau bahkan bertahun-tahun. Tapi, Kembali dan rekan menemukan sebuah pesan selalu-on sumber digital jejak-the timestamped, otomatis direkam dari 85.000 Amerika pager-dan ini memungkinkan para peneliti untuk mempelajari respon emosional pada skala waktu yang jauh lebih halus. Kembali dan rekan menciptakan timeline emosional menit-demi-menit 11 September dengan coding isi emosional pesan pager dengan persentase kata yang berhubungan dengan (1) kesedihan (misalnya, menangis, sedih), (2) kecemasan (misalnya, khawatir, takut), dan (3) marah (misalnya, benci, kritis). Mereka menemukan bahwa kesedihan dan kecemasan berfluktuasi sepanjang hari tanpa pola yang kuat, tapi itu ada peningkatan mencolok dalam kemarahan sepanjang hari. Penelitian ini tampaknya menjadi ilustrasi indah dari kekuatan selalu-on sumber data: dengan menggunakan metode standar itu tidak mungkin untuk memiliki waktu-resolusi tinggi dari respon langsung terhadap suatu peristiwa yang tak terduga.

Hanya satu tahun kemudian, bagaimanapun, Cynthia Pury (2011) melihat data lebih hati-hati. Dia menemukan bahwa sejumlah besar pesan seharusnya marah yang dihasilkan oleh pager tunggal dan mereka semua identik. Inilah yang dikatakan pesan-pesan seharusnya marah:

"Mesin Reboot NT [nama] di kabinet [nama] di [lokasi]: KRITIS: [tanggal dan waktu]"

Pesan ini diberi label marah karena mereka termasuk kata "KRITIS", yang umumnya dapat menunjukkan kemarahan tapi tidak dalam kasus ini. Menghapus pesan yang dihasilkan oleh pager otomatis tunggal ini benar-benar menghilangkan kenaikan tampak marah selama hari (Gambar 2.2). Dengan kata lain, hasil utama di Back, Küfner, and Egloff (2010) adalah sebuah artefak dari satu pager. Sebagai contoh ini menggambarkan, analisis relatif sederhana dari data yang relatif kompleks dan berantakan memiliki potensi untuk pergi serius salah.

Gambar 2.2: tren Perkiraan marah selama 11 September 2001 berdasarkan 85.000 pager Amerika (Kembali, Kufner, dan Egloff 2010; Pury 2011; Kembali, Kufner, dan Egloff 2011). Awalnya, Kembali, Kufner, dan Egloff (2010) melaporkan pola peningkatan kemarahan sepanjang hari. Namun, sebagian dari pesan marah jelas tersebut dihasilkan oleh pager tunggal yang berulang kali mengirimkan pesan berikut: mesin Reboot NT [nama] di kabinet [nama] di [lokasi]: KRITIS: [tanggal dan waktu]. Dengan pesan ini dihapus, kenaikan tampak marah menghilang (Pury 2011; Kembali, Kufner, dan Egloff 2011). Angka ini adalah reproduksi dari Gambar 1B di Pury (2011).

Gambar 2.2: tren Perkiraan marah selama 11 September 2001 berdasarkan 85.000 pager Amerika (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Awalnya, Back, Küfner, and Egloff (2010) melaporkan pola peningkatan kemarahan sepanjang hari. Namun, sebagian dari pesan marah jelas tersebut dihasilkan oleh pager tunggal yang berulang kali mengirimkan pesan berikut: "mesin Reboot NT [nama] di kabinet [nama] di [lokasi]: KRITIS: [tanggal dan waktu]". Dengan pesan ini dihapus, kenaikan tampak marah menghilang (Pury 2011; Back, Küfner, and Egloff 2011) . Angka ini adalah reproduksi dari Gambar 1B di Pury (2011) .

Sementara data kotor yang dibuat tidak sengaja-seperti dari satu berisik pager-dapat dideteksi oleh peneliti cukup hati-hati, ada juga beberapa sistem online yang menarik spammer disengaja. spammer ini aktif menghasilkan data palsu, dan-sering termotivasi oleh keuntungan-bekerja sangat keras untuk menjaga spamming mereka tersembunyi. Misalnya, aktivitas politik di Twitter tampaknya mencakup setidaknya beberapa spam yang cukup canggih, dimana beberapa penyebab politik sengaja dibuat agar terlihat lebih populer daripada mereka yang sebenarnya (Ratkiewicz et al. 2011) . Para peneliti bekerja dengan data yang mungkin berisi spam disengaja menghadapi tantangan meyakinkan penonton bahwa mereka telah dideteksi dan dihapus spam yang relevan.

Akhirnya, apa yang dianggap data kotor dapat bergantung dengan cara yang halus pada pertanyaan penelitian Anda. Sebagai contoh, banyak suntingan ke Wikipedia diciptakan oleh bot otomatis (Geiger 2014) . Jika Anda tertarik dalam ekologi Wikipedia, maka bot ini penting. Tapi, jika Anda tertarik pada bagaimana manusia berkontribusi Wikipedia, suntingan ini dibuat oleh bot ini harus dikecualikan.

Cara terbaik untuk menghindari tertipu oleh data kotor yang memahami bagaimana data Anda diciptakan untuk melakukan analisis eksplorasi sederhana, seperti membuat plot pencar sederhana.