2.3.7 Drifting

Kehidupan drift, penggunaan drift, dan drift sistem menjadikannya sukar untuk menggunakan sumber data besar untuk mempelajari trend jangka panjang.

Salah satu kelebihan besar dari banyak sumber data besar ialah mereka mengumpulkan data dari masa ke masa. Ahli-ahli sains sosial memanggil data data terbujur seperti ini . Dan, secara semulajadi, data membujur sangat penting untuk mengkaji perubahan. Walau bagaimanapun, untuk mengukur perubahan secara tepat, sistem pengukuran itu sendiri mesti stabil. Dalam kata sosiologi Otis Dudley Duncan, "jika anda ingin mengukur perubahan, jangan ubah ukuran" (Fischer 2011) .

Malangnya, banyak sistem data besar-terutamanya sistem perniagaan-berubah sepanjang masa, satu proses yang saya panggil hanyut . Khususnya, sistem ini berubah dalam tiga cara utama: populasi hanyut (perubahan dalam siapa yang menggunakannya), hanyut tingkah laku (perubahan cara orang menggunakannya), dan sistem hanyut (perubahan dalam sistem itu sendiri). Ketiga-tiga sumber drift bermakna bahawa apa-apa corak dalam sumber data besar boleh disebabkan oleh perubahan penting di dunia, atau ia boleh disebabkan oleh beberapa bentuk drift.

Sumber pertama drift-populasi drift-disebabkan oleh perubahan dalam siapa yang menggunakan sistem ini, dan perubahan ini dapat terjadi pada kedua-dua masa pendek dan panjang. Sebagai contoh, semasa pilihan raya Presiden AS 2012, perkadaran tweet tentang politik yang ditulis oleh wanita berubah dari hari ke hari (Diaz et al. 2016) . Oleh itu, apa yang mungkin kelihatan perubahan dalam mood ayat Twitter mungkin sebenarnya perubahan dalam siapa yang bercakap pada bila-bila. Sebagai tambahan kepada turun naik jangka pendek ini, terdapat juga trend jangka panjang kumpulan demografi tertentu mengadopsi dan meninggalkan Twitter.

Sebagai tambahan kepada perubahan dalam siapa yang menggunakan sistem, terdapat juga perubahan bagaimana sistem digunakan, yang saya sebut drift tingkah laku. Sebagai contoh, semasa protes Menduduki Gezi 2013 di Turki, para penunjuk perasaan menukar penggunaan hashtag mereka sebagai protes berkembang. Begini bagaimana Zeynep Tufekci (2014) menerangkan drift perilaku, yang dia dapat mengesan kerana dia memerhatikan tingkah laku di Twitter dan secara peribadi:

"Apa yang telah berlaku ialah apabila protes menjadi cerita yang dominan, banyak orang ... berhenti menggunakan hashteg kecuali untuk menarik perhatian kepada fenomena baru ... Walaupun protes terus, dan semakin dipergiatkan, hashtags telah mati. Temubual mendedahkan dua sebab untuk ini. Mula-mula, apabila semua orang tahu topik itu, hashtag sekaligus tidak berlebihan dan membazir pada platform Twitter yang bersifat watak. Kedua, hashtags dilihat sebagai berguna untuk menarik perhatian kepada topik tertentu, bukan untuk membicarakannya. "

Oleh itu, penyelidik yang sedang menuntut protes dengan menganalisis tweet dengan hashtag yang berkaitan bantahan-akan mempunyai rasa yang menyimpang tentang apa yang berlaku kerana drift tingkah laku ini. Sebagai contoh, mereka mungkin percaya bahawa perbincangan mengenai bantahan menurun lama sebelum ia sebenarnya berkurangan.

Jenis hanyut ketiga ialah hanyut sistem. Dalam kes ini, bukan orang yang berubah atau tingkah laku mereka berubah, tetapi sistem itu sendiri berubah. Sebagai contoh, dari masa ke masa Facebook telah meningkatkan had panjang pada kemas kini status. Oleh itu, sebarang kajian membujur tentang kemas kini status akan terdedah kepada artifak yang disebabkan oleh perubahan ini. Sistem drift berkait rapat dengan masalah yang disebut pengertian algoritma, yang akan saya pelajari dalam bahagian 2.3.8.

Untuk membuat kesimpulan, banyak sumber data besar hanyut kerana perubahan dalam siapa yang menggunakannya, bagaimana mereka digunakan, dan bagaimana sistem berfungsi. Sumber-sumber perubahan ini adalah kadang-kadang soalan penyelidikan menarik, tetapi perubahan ini merumitkan keupayaan sumber data besar untuk mengesan perubahan jangka panjang dari masa ke masa.