2.3.2.2 tidak boleh diakses

Data yang disimpan oleh perniagaan dan kerajaan adalah sukar bagi penyelidik untuk mengakses.

Pada bulan Mei 2014, Agenda Keselamatan Negara Amerika Syarikat membuka pusat data di luar bandar Utah yang mempunyai nama janggal, Negara Cybersecurity Inisiatif Pusat Data Intelligence Community Komprehensif. Walau bagaimanapun, ini pusat data, yang telah datang yang dikenali sebagai Pusat Data Utah, dilaporkan mempunyai keupayaan mengejutkan. Satu laporan mengatakan bahawa Data Pusat Utah mampu untuk menyimpan dan memproses semua bentuk komunikasi termasuk "kandungan lengkap e-mel peribadi, panggilan telefon bimbit, dan carian Google, dan juga pelbagai data peribadi resit laluan Tempat letak kereta, jadual perjalanan , pembelian kedai buku, dan lain-lain digital `poket sampah '" (Bamford 2012) . Selain daripada kebimbangan penjanaan mengenai sifat sensitif banyak maklumat yang ditangkap dalam data yang besar, yang akan diterangkan lebih lanjut di bawah, Data Pusat Utah adalah contoh melampau sumber data yang kaya yang tidak dapat dicapai oleh penyelidik. Secara umum, banyak sumber data yang besar yang akan berguna kepada penyelidik dikawal dan dihadkan oleh kerajaan (contohnya, data cukai dan data pendidikan) dan syarikat-syarikat (contohnya, pertanyaan kepada enjin dan panggilan telefon meta-data mencari). Oleh itu, data ini tidak akan segera sedia untuk penyelidik di universiti, dan yang paling bahkan tidak akan disediakan untuk penyelidik dalam kerajaan atau syarikat-syarikat.

Dalam pengalaman saya, ramai penyelidik berpangkalan di universiti salah faham sumber tidak berjaya ini. Data ini tidak boleh diakses kerana orang di syarikat-syarikat dan kerajaan bodoh, malas, atau peduli. Sebaliknya, terdapat serius undang-undang, teknikal, perniagaan, dan halangan etika yang menghalang capaian data. Sebagai contoh, beberapa perjanjian syarat-of-perkhidmatan untuk laman web sahaja membolehkan data yang akan digunakan oleh pekerja atau untuk meningkatkan perkhidmatan. Jadi beberapa bentuk perkongsian data boleh mendedahkan syarikat-syarikat untuk tindakan undang-undang yang sah dari pelanggan. Terdapat juga risiko perniagaan yang besar kepada syarikat-syarikat yang terlibat dalam data perkongsian. Cuba bayangkan bagaimana orang ramai akan bertindak balas jika data carian peribadi sengaja bocor dari Google sebagai sebahagian daripada projek penyelidikan universiti. Apa-apa pelanggaran data, jika melampau, walaupun mungkin menjadi risiko kewujudan bagi syarikat itu. Jadi Google dan paling besar syarikat-sangat suka risiko untuk berkongsi data dengan penyelidik.

Malah, hampir semua orang yang berada dalam kedudukan untuk menyediakan akses kepada data yang banyak mengetahui kisah Abdur Chowdhury. Pada tahun 2006, ketika beliau menjadi Ketua Penyelidikan AOL, dia sengaja mengeluarkan apa yang dia fikir telah tanpa nama pertanyaan carian dari 650,000 pengguna AOL untuk komuniti penyelidikan. Setakat yang saya boleh beritahu, Chowdhury dan penyelidik di AOL mempunyai niat yang baik dan mereka menyangka bahawa mereka telah tidak bernama data. Tetapi, mereka adalah salah. Ia dengan cepat mendapati bahawa data tidak seperti tanpa nama sebagai penyelidik berfikir, dan wartawan dari New York Times dapat mengenal pasti orang dalam set data dengan mudah (Barbaro and Zeller Jr 2006) . Apabila masalah-masalah ini ditemui, Chowdhury dikeluarkan data dari laman web AOL, tetapi ia sudah terlambat. Data yang telah diumumkan di laman web lain, dan ia mungkin akan masih boleh didapati apabila anda membaca buku ini. Kerana cubaan untuk berkongsi data dengan komuniti penyelidikan, Chowdhury dipecat, dan ketua pegawai teknologi AOL meletak jawatan (Hafner 2006) . Sebagai contoh ini menunjukkan, manfaat untuk individu tertentu di dalam syarikat-syarikat untuk memudahkan akses data cukup kecil dan senario kes terburuk adalah amat dahsyat.

Penyelidikan boleh, bagaimanapun, mendapat akses kepada data yang tidak dapat dicapai oleh orang awam. Kerajaan mempunyai prosedur yang penyelidik boleh mengikuti memohon akses, dan sebagai contoh kemudian dalam bab ini, penyelidik kadang-kadang boleh mendapat akses kepada data korporat. Sebagai contoh, Einav et al. (2015) bekerjasama dengan penyelidik di eBay untuk mengkaji kesan digital daripada lelongan dalam talian. Saya akan bercakap lebih lanjut mengenai penyelidikan yang datang dari kerjasama ini kemudian dalam bab (Seksyen 2.4.3.2), tetapi saya menyatakannya sekarang kerana ia mempunyai semua empat daripada bahan-bahan yang saya lihat dalam perkongsian yang berjaya: Kepentingan penyelidik, keupayaan penyelidik, kepentingan syarikat, dan keupayaan syarikat. Dengan kata lain, Einav dan rakan-rakannya berminat dan mampu belajar lelongan dalam talian. Dan, eBay juga. Walau bagaimanapun, saya lihat kerjasama mungkin banyak gagal kerana sama ada penyelidik atau syarikat tidak mempunyai salah satu daripada bahan-bahan ini.

Walaupun anda mampu untuk membangunkan perkongsian dengan perniagaan, bagaimanapun, terdapat beberapa kelemahan untuk anda. Pertama, soalan-soalan yang anda boleh meminta dengan data dengan mungkin terhad; syarikat tidak mungkin untuk membolehkan penyelidikan yang boleh membuat mereka kelihatan buruk. Kedua, anda mungkin tidak akan dapat berkongsi data anda dengan penyelidik lain, yang bermaksud bahawa penyelidik lain tidak akan dapat untuk mengesahkan dan memanjangkan keputusan anda. Di samping itu, perkongsian ini dapat mewujudkan sekurang-kurangnya kemunculan konflik kepentingan, di mana orang mungkin berfikir bahawa keputusan anda dipengaruhi oleh perkongsian anda. Semua kelemahan ini dapat diatasi, tetapi ia adalah penting untuk menjelaskan bahawa bekerja dengan data yang tidak boleh diakses kepada semua orang mempunyai kedua-dua upsides dan kelemahan.

Ringkasnya, banyak data yang besar adalah tidak dapat dicapai oleh penyelidik. Terdapat serius undang-undang, teknikal, perniagaan, dan halangan etika yang menghalang capaian data, dan halangan-halangan ini tidak akan hilang. kerajaan negara secara amnya telah menubuhkan prosedur untuk membolehkan akses data, tetapi proses itu boleh menjadi lebih ad hoc di peringkat negeri dan tempatan. Juga, dalam beberapa kes, penyelidik boleh bekerjasama dengan syarikat-syarikat untuk mendapatkan akses data, tetapi ini boleh mewujudkan pelbagai masalah kepada penyelidik.