2.4.1 Menghitung hal

Penghitungan sederhana dapat menarik jika Anda menggabungkan pertanyaan yang bagus dengan data yang baik.

Meskipun ditulis dalam bahasa yang canggih, banyak penelitian sosial benar-benar hanya menghitung sesuatu. Di era data besar, para peneliti dapat menghitung lebih dari sebelumnya, tetapi itu tidak berarti bahwa mereka seharusnya mulai menghitung dengan sembarangan. Sebaliknya, peneliti harus bertanya: Hal-hal apa yang patut dihitung? Ini mungkin tampak seperti hal yang sepenuhnya subjektif, tetapi ada beberapa pola umum.

Seringkali siswa memotivasi penelitian penghitungan mereka dengan mengatakan: Saya akan menghitung sesuatu yang belum pernah dihitung sebelumnya. Sebagai contoh, seorang siswa mungkin mengatakan bahwa banyak orang telah mempelajari migran dan banyak orang telah mempelajari anak kembar, tetapi tidak ada yang pernah mempelajari kembar migran. Menurut pengalaman saya, strategi ini, yang saya sebut motivasi oleh ketidakhadiran , biasanya tidak mengarah pada penelitian yang baik. Motivasi oleh ketidakhadiran adalah seperti mengatakan bahwa ada lubang di sana, dan saya akan bekerja sangat keras untuk mengisinya. Namun tidak semua lubang harus diisi.

Alih-alih memotivasi oleh ketidakhadiran, saya pikir strategi yang lebih baik adalah mencari pertanyaan penelitian yang penting atau menarik (atau idealnya keduanya). Kedua istilah ini agak sulit untuk didefinisikan, tetapi salah satu cara untuk memikirkan penelitian penting adalah bahwa ia memiliki dampak yang dapat diukur atau dimasukkan ke dalam keputusan penting oleh pembuat kebijakan. Misalnya, mengukur tingkat pengangguran adalah penting karena ini merupakan indikator ekonomi yang mendorong keputusan kebijakan. Secara umum, saya pikir para peneliti memiliki pemahaman yang cukup bagus tentang apa yang penting. Jadi, di sisa bagian ini, saya akan memberikan dua contoh di mana saya pikir berhitung menarik. Dalam setiap kasus, para peneliti tidak menghitung sembarangan; melainkan, mereka menghitung dalam pengaturan yang sangat khusus yang mengungkapkan wawasan penting ke dalam gagasan yang lebih umum tentang bagaimana sistem sosial bekerja. Dengan kata lain, banyak yang membuat latihan penghitungan khusus ini menarik bukanlah data itu sendiri, itu berasal dari ide-ide yang lebih umum ini.

Salah satu contoh kekuatan penghitungan sederhana berasal dari studi Henry Farber (2015) tentang perilaku pengemudi taksi New York City. Meskipun kelompok ini mungkin tidak terdengar menarik secara inheren, ini adalah situs penelitian strategis untuk menguji dua teori bersaing dalam ekonomi tenaga kerja. Untuk keperluan penelitian Farber, ada dua fitur penting tentang lingkungan kerja pengemudi taksi: (1) upah per jam mereka berfluktuasi dari hari ke hari, sebagian berdasarkan faktor-faktor seperti cuaca, dan (2) jumlah jam mereka pekerjaan dapat berfluktuasi setiap hari berdasarkan keputusan mereka. Fitur-fitur ini mengarah ke pertanyaan menarik tentang hubungan antara upah per jam dan jam kerja. Model neoklasik dalam ekonomi memprediksi bahwa pengemudi taksi akan bekerja lebih banyak pada hari-hari di mana mereka memiliki upah per jam lebih tinggi. Atau, model dari ekonomi perilaku memprediksi persis sebaliknya. Jika pengemudi menetapkan target pendapatan tertentu - katakanlah $ 100 per hari - dan bekerja sampai target tersebut terpenuhi, maka driver akan berakhir dengan jam kerja yang lebih sedikit pada hari-hari ketika mereka mendapatkan lebih banyak. Misalnya, jika Anda adalah pencari nafkah, Anda mungkin akan bekerja empat jam pada hari yang baik ($ 25 per jam) dan lima jam pada hari yang buruk ($ 20 per jam). Jadi, apakah pengemudi bekerja lebih banyak pada hari-hari dengan upah per jam yang lebih tinggi (seperti yang diperkirakan oleh model neoklasik) atau lebih banyak jam pada hari-hari dengan upah per jam yang lebih rendah (seperti yang diperkirakan oleh model ekonomi perilaku)?

Untuk menjawab pertanyaan ini Farber memperoleh data pada setiap perjalanan taksi yang diambil oleh taksi New York City dari 2009 hingga 2013, data yang sekarang tersedia untuk publik. Data ini - yang dikumpulkan oleh meter elektronik yang mengharuskan kota menggunakan taksi - termasuk informasi tentang setiap perjalanan: waktu mulai, lokasi mulai, waktu akhir, lokasi akhir, tarif, dan tip (jika tip dibayar dengan kartu kredit) . Dengan menggunakan data meteran taksi ini, Farber menemukan bahwa sebagian besar pengemudi bekerja lebih banyak pada hari-hari ketika upah lebih tinggi, konsisten dengan teori neoklasik.

Selain temuan utama ini, Farber mampu menggunakan ukuran data untuk pemahaman heterogenitas dan dinamika yang lebih baik. Dia menemukan bahwa, dari waktu ke waktu, driver yang lebih baru secara bertahap belajar untuk bekerja lebih banyak jam pada hari-hari upah tinggi (misalnya, mereka belajar untuk berperilaku seperti memprediksi model neoklasik). Dan pengemudi baru yang berperilaku lebih seperti penerima target lebih mungkin berhenti menjadi pengemudi taksi. Kedua temuan yang lebih halus ini, yang membantu menjelaskan perilaku yang diamati dari driver saat ini, hanya mungkin karena ukuran dataset. Mereka tidak mungkin untuk mendeteksi dalam studi sebelumnya yang menggunakan kertas lembar perjalanan dari sejumlah kecil sopir taksi selama periode waktu yang singkat (Camerer et al. 1997) .

Penelitian Farber dekat dengan skenario terbaik untuk penelitian menggunakan sumber data besar karena data yang dikumpulkan oleh kota cukup dekat dengan data yang akan dikumpulkan Farber (satu perbedaan adalah bahwa Farber menginginkan data total upah — tarif plus tip — tetapi data kota hanya menyertakan tip yang dibayar dengan kartu kredit). Namun, data saja tidak cukup. Kunci untuk penelitian Farber adalah membawa pertanyaan menarik ke data, sebuah pertanyaan yang memiliki implikasi lebih besar di luar hanya pengaturan khusus ini.

Contoh kedua menghitung hal-hal berasal dari penelitian oleh Gary King, Jennifer Pan, dan Molly Roberts (2013) tentang sensor online oleh pemerintah Cina. Dalam hal ini, bagaimanapun, para peneliti harus mengumpulkan data besar mereka sendiri dan mereka harus berurusan dengan fakta bahwa data mereka tidak lengkap.

Raja dan koleganya termotivasi oleh fakta bahwa posting media sosial di China disensor oleh aparat negara besar yang diduga mencakup puluhan ribu orang. Para peneliti dan warga negara, bagaimanapun, memiliki sedikit pengertian tentang bagaimana sensor ini memutuskan konten apa yang harus dihapus. Para sarjana Cina sebenarnya memiliki ekspektasi yang bertentangan tentang jenis pos yang paling mungkin dihapus. Beberapa orang berpikir bahwa sensor fokus pada posting yang kritis terhadap negara, sementara yang lain berpikir bahwa mereka fokus pada posting yang mendorong perilaku kolektif, seperti protes. Mencari tahu mana dari harapan ini yang benar memiliki implikasi untuk bagaimana para peneliti memahami China dan pemerintah otoriter lainnya yang terlibat dalam penyensoran. Oleh karena itu, King dan rekan ingin membandingkan posting yang diterbitkan dan kemudian dihapus dengan tulisan yang diterbitkan dan tidak pernah dihapus.

Mengumpulkan posting ini melibatkan rekayasa prestasi luar biasa dari merangkak lebih dari 1.000 Cina website-masing media sosial dengan halaman yang berbeda layout-menemukan posting yang relevan, dan kemudian meninjau posting ini untuk melihat yang kemudian dihapus. Selain masalah teknik normal yang terkait dengan skala besar web-crawling, proyek ini memiliki tantangan menambahkan bahwa yang dibutuhkan untuk menjadi sangat cepat karena banyak posting disensor yang diturunkan dalam waktu kurang dari 24 jam. Dengan kata lain, crawler lambat akan kehilangan banyak posting yang disensor. Selanjutnya, crawler harus melakukan semua pengumpulan data ini sementara menghindari deteksi supaya situs media sosial memblokir akses atau mengubah kebijakan mereka dalam menanggapi studi.

Pada saat tugas rekayasa besar-besaran ini telah selesai, Raja dan koleganya telah memperoleh sekitar 11 juta posting di 85 topik yang berbeda yang ditentukan, masing-masing dengan tingkat kepekaan yang diasumsikan. Misalnya, topik sensitivitas tinggi adalah Ai Weiwei, seniman pembangkang; topik sensitivitas menengah adalah apresiasi dan devaluasi mata uang Cina, dan topik sensitivitas rendah adalah Piala Dunia. Dari 11 juta pos ini, sekitar 2 juta telah disensor. Agak mengherankan, King dan rekan menemukan bahwa posting pada topik yang sangat sensitif disensor hanya sedikit lebih sering daripada posting pada topik sensitivitas menengah dan rendah. Dengan kata lain, sensor Cina kemungkinan akan menyensor posting yang menyebutkan Ai Weiwei sebagai posting yang menyebutkan Piala Dunia. Temuan-temuan ini tidak mendukung gagasan bahwa pemerintah menyensor semua posting pada topik-topik sensitif.

Penghitungan sederhana tingkat penyensoran berdasarkan topik ini bisa menyesatkan. Misalnya, pemerintah mungkin menyensor posting yang mendukung Ai Weiwei, tetapi meninggalkan posting yang kritis terhadapnya. Untuk membedakan antara posting lebih hati-hati, para peneliti perlu mengukur sentimen dari setiap posting. Sayangnya, meskipun banyak pekerjaan, metode deteksi sentimen yang sepenuhnya otomatis menggunakan kamus yang sudah ada sebelumnya masih kurang bagus dalam banyak situasi (pikirkan kembali masalah yang menciptakan garis waktu emosional pada 11 September 2001 yang dijelaskan pada bagian 2.3.9). Oleh karena itu, Raja dan rekan membutuhkan cara untuk memberi label pada 11 juta posting media sosial mereka, apakah mereka (1) mengecam negara, (2) mendukung negara, atau (3) laporan tidak relevan atau faktual tentang peristiwa tersebut. Ini kedengarannya seperti pekerjaan besar, tetapi mereka memecahkannya dengan menggunakan trik kuat yang umum dalam ilmu data tetapi relatif jarang dalam ilmu sosial: pembelajaran yang diawasi ; lihat gambar 2.5.

Pertama, dalam langkah yang biasanya disebut preprocessing , para peneliti mengubah posting media sosial menjadi matriks dokumen-istilah , di mana ada satu baris untuk setiap dokumen dan satu kolom yang mencatat apakah posting berisi kata tertentu (misalnya, protes atau lalu lintas) . Selanjutnya, sekelompok asisten peneliti memberi label pada tangan sentimen dari sampel posting. Kemudian, mereka menggunakan data yang berlabel tangan ini untuk membuat model pembelajaran mesin yang dapat menyimpulkan sentimen dari sebuah post berdasarkan karakteristiknya. Akhirnya, mereka menggunakan model ini untuk memperkirakan sentimen dari semua 11 juta pos.

Jadi, daripada membaca dan melabeli secara manual 11 juta tulisan - yang secara logistik tidak mungkin - King dan rekannya secara manual memberi label sejumlah kecil tulisan dan kemudian menggunakan pembelajaran terawasi untuk memperkirakan sentimen dari semua tulisan. Setelah menyelesaikan analisis ini, mereka dapat menyimpulkan bahwa, agak mengejutkan, kemungkinan posting yang dihapus tidak terkait dengan apakah itu kritis terhadap negara atau mendukung negara.

Gambar 2.5: Skema sederhana dari prosedur yang digunakan oleh King, Pan, dan Roberts (2013) untuk memperkirakan sentimen dari 11 juta posting media sosial Cina. Pertama, dalam langkah preprocessing, para peneliti mengubah posting media sosial menjadi matriks dokumen-istilah (lihat Grimmer and Stewart (2013) untuk informasi lebih lanjut). Kedua, mereka mengkodekan sentimen-sentimen dari contoh kecil tulisan. Ketiga, mereka melatih model pembelajaran yang diawasi untuk mengklasifikasikan sentimen posting. Keempat, mereka menggunakan model pembelajaran yang diawasi untuk memperkirakan sentimen dari semua posting. Lihat King, Pan, dan Roberts (2013), lampiran B untuk deskripsi yang lebih detail.

Gambar 2.5: Skema sederhana dari prosedur yang digunakan oleh King, Pan, and Roberts (2013) untuk memperkirakan sentimen dari 11 juta posting media sosial Cina. Pertama, dalam langkah preprocessing , para peneliti mengubah posting media sosial menjadi matriks dokumen-istilah (lihat Grimmer and Stewart (2013) untuk informasi lebih lanjut). Kedua, mereka mengkodekan sentimen-sentimen dari contoh kecil tulisan. Ketiga, mereka melatih model pembelajaran yang diawasi untuk mengklasifikasikan sentimen posting. Keempat, mereka menggunakan model pembelajaran yang diawasi untuk memperkirakan sentimen dari semua posting. Lihat King, Pan, and Roberts (2013) , lampiran B untuk deskripsi yang lebih detail.

Pada akhirnya, Raja dan koleganya menemukan bahwa hanya tiga jenis pos yang secara teratur disensor: pornografi, kritik terhadap sensor, dan mereka yang memiliki potensi aksi kolektif (yaitu, kemungkinan mengarah ke protes berskala besar). Dengan mengamati sejumlah besar posting yang dihapus dan posting yang tidak dihapus, King dan rekannya dapat belajar bagaimana sensor bekerja hanya dengan menonton dan menghitung. Lebih lanjut, bayangan tema yang akan terjadi di seluruh buku ini, pendekatan pembelajaran yang diawasi yang mereka gunakan — memberi label pada tangan beberapa hasil dan kemudian membangun model pembelajaran mesin untuk memberi label sisanya — ternyata sangat umum dalam penelitian sosial di era digital . Anda akan melihat gambar yang sangat mirip dengan gambar 2.5 di bab 3 (Mengajukan pertanyaan) dan 5 (Membuat kolaborasi massa); ini adalah salah satu dari beberapa ide yang muncul dalam beberapa bab.

Contoh-contoh ini - perilaku kerja pengemudi taksi di New York dan perilaku sensor media sosial dari pemerintah Cina - menunjukkan bahwa penghitungan sumber data besar yang relatif sederhana dapat, dalam beberapa situasi, mengarah pada penelitian yang menarik dan penting. Namun dalam kedua kasus tersebut, para peneliti harus membawa pertanyaan menarik ke sumber data besar; datanya saja tidak cukup.