2.3.2 Selalu

Sentiasa ke data besar membolehkan kajian kejadian yang tidak diduga dan pengukuran masa nyata.

Banyak sistem data yang besar selalu-on; mereka sentiasa mengumpul data. ciri sentiasa ke ini menyediakan penyelidik dengan data membujur (iaitu, data dari masa ke masa). Sebagai sentiasa ke mempunyai dua implikasi penting untuk penyelidikan.

Pertama, pengumpulan data selalu membolehkan penyelidik mempelajari peristiwa yang tidak dijangka dengan cara yang tidak mungkin dilakukan. Sebagai contoh, para penyelidik yang berminat untuk mengkaji protes Menduduki Gezi di Turki pada musim panas 2013 akan menumpukan kepada tingkah laku penunjuk perasaan semasa acara tersebut. Ceren Budak dan Duncan Watts (2015) dapat melakukan lebih banyak lagi dengan menggunakan sifat Twitter secara aktif untuk mempelajari penunjuk perasaan yang menggunakan Twitter sebelum, semasa, dan selepas acara tersebut. Dan, mereka dapat membuat kumpulan perbandingan bukan peserta sebelum, semasa, dan selepas kejadian (angka 2.2). Keseluruhannya, panel ex-post mereka termasuk tweet sebanyak 30,000 orang dalam tempoh dua tahun. Dengan menambah data yang biasa digunakan dari protes dengan maklumat lain ini, Budak dan Watts dapat belajar lebih banyak: mereka dapat menganggarkan jenis orang yang lebih mungkin untuk menyertai protes Gezi dan untuk menganggarkan perubahan sikap peserta dan bukan peserta, dalam jangka pendek (membandingkan pra-Gezi hingga semasa Gezi) dan dalam jangka panjang (membandingkan pra-Gezi dengan post-Gezi).

Rajah 2.2: Reka bentuk yang digunakan oleh Budak dan Watts (2015) untuk mengkaji protes Menduduki Gezi di Turki pada musim panas 2013. Dengan menggunakan sifat Twitter sentiasa, para penyelidik mencipta apa yang dipanggil panel ex-post yang termasuk 30,000 orang dalam tempoh dua tahun. Berbeza dengan kajian tipikal yang memberi tumpuan kepada para peserta semasa protes, panel ex-post menambah 1) data dari peserta sebelum dan sesudah acara dan 2) data dari bukan peserta sebelum, semasa, dan selepas peristiwa. Struktur data yang diperkayakan ini membolehkan Budak dan Watts untuk menganggarkan jenis orang yang lebih cenderung untuk menyertai protes Gezi dan untuk menganggarkan perubahan sikap peserta dan bukan peserta, dalam jangka masa pendek (membandingkan pra-Gezi dengan semasa Gezi ) dan dalam jangka panjang (membandingkan pra-Gezi dengan post-Gezi).

Rajah 2.2: Reka bentuk yang digunakan oleh Budak and Watts (2015) untuk mengkaji protes Menduduki Gezi di Turki pada musim panas 2013. Dengan menggunakan sifat Twitter sentiasa, para penyelidik mencipta apa yang dipanggil panel ex-post yang termasuk 30,000 orang dalam tempoh dua tahun. Berbeza dengan kajian tipikal yang memberi tumpuan kepada para peserta semasa protes, panel ex-post menambah 1) data dari peserta sebelum dan sesudah acara dan 2) data dari bukan peserta sebelum, semasa, dan selepas peristiwa. Struktur data yang diperkayakan ini membolehkan Budak dan Watts untuk menganggarkan jenis orang yang lebih cenderung untuk menyertai protes Gezi dan untuk menganggarkan perubahan sikap peserta dan bukan peserta, dalam jangka masa pendek (membandingkan pra-Gezi dengan semasa Gezi ) dan dalam jangka panjang (membandingkan pra-Gezi dengan post-Gezi).

Seorang yang skeptik mungkin menunjukkan bahawa beberapa anggaran ini boleh dibuat tanpa sumber kutipan data yang selalu (contohnya, anggaran jangka panjang perubahan sikap), dan itu benar, walaupun pengumpulan data sedemikian untuk 30,000 orang akan agak mahal. Walaupun diberi anggaran yang tidak terhad, bagaimanapun, saya tidak dapat memikirkan kaedah lain yang pada asasnya membolehkan para penyelidik untuk bergerak kembali dalam masa dan terus memerhatikan tingkah laku para peserta pada masa lalu. Alternatif yang terdekat adalah untuk mengumpul laporan tindak balas retrospektif, tetapi laporan ini akan mempunyai ketaksamaan terhad dan ketepatan dipersoalkan. Jadual 2.1 menyediakan contoh-contoh lain kajian yang menggunakan sumber data sentiasa untuk mengkaji peristiwa yang tidak dijangka.

Jadual 2.1: Meneliti peristiwa-peristiwa yang tidak dijangka menggunakan sumber data yang selalu digunakan.
Acara yang tidak dijangka Sumber data sentiasa ada Petikan
Menduduki pergerakan Gezi di Turki Twitter Budak and Watts (2015)
Bantahan payung di Hong Kong Weibo Zhang (2016)
Penangkapan polis di New York City Laporan berhenti-dan-frisk Legewie (2016)
Orang yang menyertai ISIS Twitter Magdy, Darwish, and Weber (2016)
Serangan 11 September 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Serangan 11 September 2001 mesej pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Di samping mempelajari peristiwa-peristiwa yang tidak dijangka, sistem data yang selalu digunakan juga membolehkan para penyelidik menghasilkan anggaran masa nyata, yang boleh menjadi penting dalam tetapan di mana pembuat dasar-dalam kerajaan atau industri-mahu bertindak balas berdasarkan kesedaran keadaan. Sebagai contoh, data media sosial boleh digunakan untuk membimbing tindak balas kecemasan kepada bencana alam (Castillo 2016) dan pelbagai sumber data besar yang berbeza boleh digunakan untuk menghasilkan anggaran masa nyata aktiviti ekonomi (Choi and Varian 2012) .

Sebagai kesimpulan, sistem data selalu membolehkan penyelidik mempelajari peristiwa yang tidak dijangka dan memberikan maklumat masa nyata kepada pembuat dasar. Saya tidak, bagaimanapun, berfikir bahawa sistem data selalu sesuai untuk menjejak perubahan dalam tempoh masa yang sangat lama. Itu kerana banyak sistem data besar sentiasa berubah-satu proses yang saya panggil akan hanyut kemudian dalam bab (bahagian 2.3.7).