komentar lebih lanjut

Bagian ini dirancang untuk digunakan sebagai referensi, bukan untuk dibaca sebagai narasi.

  • Pendahuluan (Bagian 5.1)

Kolaborasi massa memadukan ide-ide dari ilmu pengetahuan warga, crowdsourcing, dan kecerdasan kolektif. Ilmu warga biasanya berarti melibatkan "warga" (yaitu, non-ilmuwan) dalam proses ilmiah (Crain, Cooper, and Dickinson 2014) . Crowdsourcing biasanya berarti mengambil masalah biasanya diselesaikan dalam suatu organisasi dan bukan outsourcing ke kerumunan (Howe 2009) . Kecerdasan kolektif biasanya berarti kelompok individu yang bertindak secara kolektif dengan cara yang tampaknya cerdas (Malone and Bernstein 2015) . Nielsen (2012) adalah pengenalan buku-panjang yang indah dalam kekuatan kolaborasi massa untuk penelitian ilmiah.

Ada banyak jenis kolaborasi massa yang tidak cocok dengan tiga kategori yang saya usulkan, dan saya pikir tiga pantas perhatian khusus karena mereka mungkin berguna dalam penelitian sosial di beberapa titik. Salah satu contoh adalah prediksi pasar, di mana peserta membeli dan kontrak perdagangan yang ditukarkan berdasarkan hasil yang terjadi di dunia (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . Pasar memprediksi sering digunakan oleh perusahaan-perusahaan dan pemerintah untuk peramalan, dan pasar memprediksi juga telah digunakan oleh para peneliti sosial untuk memprediksi peniruan dari penelitian yang diterbitkan dalam psikologi (Dreber et al. 2015) .

Contoh kedua yang tidak cocok dengan baik ke dalam skema kategorisasi saya adalah proyek polymath, di mana peneliti berkolaborasi menggunakan blog dan wiki untuk membuktikan teorema matematika baru (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . Proyek polymath dalam beberapa hal mirip dengan Hadiah Netflix, tetapi dalam peserta proyek polymath lebih aktif dibangun di atas solusi parsial lain.

Contoh ketiga yang tidak cocok dengan baik ke dalam skema kategorisasi saya adalah mobilisasi tergantung waktu seperti Badan Defense Advanced Research Projects (DARPA) Jaringan Challenge (yaitu, Red Balloon Tantangan). Untuk lebih lanjut tentang waktu ini mobilisasi sensitif melihat Pickard et al. (2011) , Tang et al. (2011) , dan Rutherford et al. (2013) .

  • Perhitungan manusia (Bagian 5.2)

Istilah "perhitungan manusia" keluar dari pekerjaan yang dilakukan oleh para ilmuwan komputer, dan memahami konteks di balik penelitian ini akan meningkatkan kemampuan Anda untuk memilih masalah yang mungkin setuju untuk itu. Untuk tugas-tugas tertentu, komputer yang sangat kuat dengan kemampuan jauh melebihi manusia bahkan ahli. Misalnya, dalam catur, komputer bisa mengalahkan bahkan yang terbaik grand master. Tapi-dan ini kurang dihargai oleh sosial ilmuwan-untuk tugas-tugas lainnya, komputer sebenarnya jauh lebih buruk daripada orang. Dengan kata lain, sekarang Anda lebih baik daripada bahkan komputer yang paling canggih di tugas-tugas tertentu yang melibatkan pengolahan gambar, video, audio, dan teks. Jadi-seperti yang digambarkan oleh XKCD indah kartun-ada tugas yang mudah untuk komputer dan sulit bagi orang, tetapi ada juga tugas-tugas yang sulit untuk komputer dan mudah bagi orang (Gambar 5.13). ilmuwan komputer bekerja pada hard-untuk-komputer-mudah-untuk-manusia tugas, oleh karena itu, menyadari bahwa mereka bisa termasuk manusia dalam proses komputasi mereka. Berikut adalah cara Luis von Ahn (2005) dijelaskan perhitungan manusia ketika ia pertama kali menciptakan istilah dalam disertasinya: ". Paradigma untuk memanfaatkan kekuatan pemrosesan manusia untuk memecahkan masalah bahwa komputer belum bisa memecahkan"

Gambar 5.13: Untuk beberapa tugas komputer yang menakjubkan, melebihi kemampuan manusia ahli. Tapi, untuk tugas-tugas lain, manusia biasa bisa mengungguli sistem komputer bahkan canggih. masalah skala besar yang melibatkan tugas-tugas yang sulit untuk komputer dan mudah bagi manusia sangat cocok untuk perhitungan manusia. Digunakan sesuai dengan ketentuan yang dijelaskan di sini: http://xkcd.com/license.html

Gambar 5.13: Untuk beberapa tugas komputer yang menakjubkan, melebihi kemampuan manusia ahli. Tapi, untuk tugas-tugas lain, manusia biasa bisa mengungguli sistem komputer bahkan canggih. masalah skala besar yang melibatkan tugas-tugas yang sulit untuk komputer dan mudah bagi manusia sangat cocok untuk perhitungan manusia. Digunakan sesuai dengan ketentuan yang dijelaskan di sini: http://xkcd.com/license.html

Dengan definisi ini Foldit-yang saya jelaskan pada bagian terbuka panggilan-bisa dianggap proyek perhitungan manusia. Namun, saya memilih untuk mengkategorikan Foldit sebagai panggilan terbuka karena membutuhkan keahlian khusus dan dibutuhkan solusi terbaik disumbangkan daripada menggunakan split-berlaku-menggabungkan strategi.

Untuk pengobatan panjang buku yang sangat bagus dari perhitungan manusia, dalam pengertian yang paling umum dari istilah, lihat Law and Ahn (2011) . Bab 3 dari Law and Ahn (2011) memiliki diskusi yang menarik dari menggabungkan langkah-langkah yang lebih kompleks daripada yang di bab ini.

Istilah "split menerapkan--menggabungkan" digunakan oleh Wickham (2011) untuk menggambarkan strategi untuk komputasi statistik, tetapi sempurna menangkap proses banyak proyek perhitungan manusia. Perpecahan-berlaku-menggabungkan strategi ini mirip dengan kerangka MapReduce dikembangkan di Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .

Dua proyek perhitungan manusia cerdas yang saya tidak memiliki ruang untuk membahas adalah permainan ESP (Ahn and Dabbish 2004) dan reCAPTCHA (Ahn et al. 2008) . Kedua proyek ini ditemukan cara-cara kreatif untuk memotivasi peserta untuk memberikan label pada gambar. Namun, kedua proyek ini juga menimbulkan pertanyaan etika karena, tidak seperti Galaxy Zoo, peserta di Game ESP dan reCAPTCHA tidak tahu bagaimana data mereka sedang digunakan (Lung 2012; Zittrain 2008) .

Terinspirasi oleh Game ESP, banyak peneliti telah berusaha untuk mengembangkan orang lain "permainan dengan tujuan" (Ahn and Dabbish 2008) (yaitu, "perhitungan berdasarkan manusia-game" (Pe-Than, Goh, and Lee 2015) ) yang dapat digunakan untuk memecahkan berbagai masalah lainnya. Apa ini "permainan dengan tujuan" memiliki kesamaan adalah bahwa mereka mencoba untuk membuat tugas-tugas yang terlibat dalam perhitungan manusia menyenangkan. Jadi, sementara Game ESP berbagi sama split-berlaku-menggabungkan struktur dengan Galaxy Zoo, hal itu berbeda dalam bagaimana peserta termotivasi-fun vs keinginan untuk membantu ilmu pengetahuan.

Deskripsi saya dari Galaxy Zoo mengacu pada Nielsen (2012) , Adams (2012) , Clery (2011) , dan Hand (2010) , dan presentasi saya dari tujuan penelitian Zoo Galaxy disederhanakan. Untuk lebih lanjut tentang sejarah klasifikasi galaksi dalam astronomi dan bagaimana Zoo Galaxy melanjutkan tradisi ini, melihat Masters (2012) dan Marshall, Lintott, and Fletcher (2015) . Membangun Galaxy Zoo, para peneliti menyelesaikan Galaxy Zoo 2 yang mengumpulkan lebih dari 60 juta lebih klasifikasi morfologi kompleks dari relawan (Masters et al. 2011) . Selanjutnya, mereka bercabang ke masalah di luar morfologi galaksi termasuk menjelajahi permukaan bulan, mencari planet-planet, dan menyalin dokumen lama. Saat ini, semua proyek mereka dikumpulkan di www.zooniverse.org (Cox et al. 2015) . Salah satu proyek-Snapshot Serengeti-memberikan bukti bahwa Galaxy Zoo-jenis proyek klasifikasi citra juga bisa dilakukan untuk penelitian lingkungan (Swanson et al. 2016) .

Bagi peneliti berencana untuk menggunakan pasar tenaga kerja mikro-tugas (misalnya, Amazon Mechanical Turk) untuk proyek perhitungan manusia, Chandler, Paolacci, and Mueller (2013) dan Wang, Ipeirotis, and Provost (2015) menawarkan nasihat yang baik pada desain tugas dan isu-isu terkait lainnya.

Peneliti tertarik untuk membuat apa yang saya disebut generasi kedua sistem perhitungan manusia (misalnya, sistem yang menggunakan label manusia untuk melatih model pembelajaran mesin) mungkin tertarik Shamir et al. (2014) (untuk contoh menggunakan audio) dan Cheng and Bernstein (2015) . Juga, proyek-proyek ini dapat dilakukan dengan panggilan terbuka, dimana peneliti berlomba membuat model pembelajaran mesin dengan kinerja prediktif terbesar. Misalnya, tim Galaxy Zoo berlari panggilan terbuka dan menemukan pendekatan baru yang mengungguli yang dikembangkan di Banerji et al. (2010) ; lihat Dieleman, Willett, and Dambre (2015) untuk rincian.

  • Terbuka panggilan (Bagian 5.3)

panggilan terbuka tidak baru. Bahkan, salah satu panggilan terbuka yang paling terkenal tanggal kembali ke 1714 ketika Parlemen Inggris dibuat The Bujur Prize bagi siapa saja yang bisa mengembangkan cara untuk menentukan bujur dari kapal di laut. Masalahnya bingung banyak ilmuwan terbesar dari hari, termasuk Isaac Newton, dan solusi menang akhirnya disampaikan oleh pembuat jam dari pedesaan yang mendekati masalah berbeda dari para ilmuwan yang berfokus pada solusi yang entah bagaimana akan melibatkan astronomi (Sobel 1996) . Sebagai contoh ini menggambarkan, salah satu alasan bahwa panggilan terbuka diduga bekerja dengan baik adalah bahwa mereka menyediakan akses ke orang-orang dengan perspektif dan keterampilan yang berbeda (Boudreau and Lakhani 2013) . Lihat Hong and Page (2004) dan Page (2008) untuk lebih lanjut tentang nilai keanekaragaman dalam pemecahan masalah.

Masing-masing kasus panggilan terbuka dalam bab ini memerlukan sedikit penjelasan lebih lanjut mengapa itu termasuk dalam kategori ini. Pertama, salah satu cara yang saya membedakan antara perhitungan manusia dan proyek panggilan terbuka adalah apakah output adalah rata-rata semua solusi (perhitungan manusia) atau solusi terbaik (open call). Netflix Prize agak rumit dalam hal ini karena solusi terbaik ternyata menjadi rata-rata canggih dari solusi individu, mendekat disebut solusi ensemble (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Dari perspektif Netflix, namun, semua mereka harus lakukan adalah memilih solusi terbaik.

Kedua, oleh beberapa definisi dari perhitungan manusia (misalnya, Von Ahn (2005) ), Foldit harus dipertimbangkan proyek perhitungan manusia. Namun, saya memilih untuk mengkategorikan Foldit sebagai panggilan terbuka karena membutuhkan keahlian khusus dan dibutuhkan solusi terbaik kontribusi, daripada menggunakan split-berlaku-menggabungkan strategi.

Akhirnya, orang dapat berargumentasi bahwa Peer-to-Paten adalah contoh dari pengumpulan data terdistribusi. Saya memilih untuk memasukkannya sebagai panggilan terbuka karena memiliki struktur kontes-seperti dan hanya kontribusi terbaik yang digunakan (sedangkan dengan pengumpulan data terdistribusi, ide kontribusi yang baik dan buruk kurang jelas).

Untuk lebih lanjut tentang Prize Netflix, melihat Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , dan Feuerverger, He, and Khatri (2012) . Untuk lebih lanjut tentang Foldit melihat, Cooper et al. (2010) , Andersen et al. (2012) , dan Khatib et al. (2011) ; deskripsi saya dari Foldit mengacu pada deskripsi di Nielsen (2012) , Bohannon (2009) , dan Hand (2010) . Untuk lebih lanjut tentang Peer-to-Paten, lihat Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , dan Noveck (2009) .

Mirip dengan hasil Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , Bab 10 laporan keuntungan besar dalam produktivitas inspektur perumahan di New York City ketika inspeksi dipandu oleh model prediksi. Di New York City, model-model prediksi yang dibangun oleh karyawan kota, tetapi dalam kasus lain, orang bisa membayangkan bahwa mereka dapat dibuat atau diperbaiki dengan panggilan terbuka (misalnya, Glaeser et al. (2016) ). Namun, salah satu perhatian utama dengan model prediksi yang digunakan untuk mengalokasikan sumber daya adalah bahwa model memiliki potensi untuk memperkuat bias yang ada. Banyak peneliti sudah tahu "sampah masuk, sampah keluar", dan dengan model prediktif dapat "bias, bias yang keluar." Lihat Barocas and Selbst (2016) dan O'Neil (2016) untuk lebih lanjut tentang bahaya model prediksi yang dibangun dengan data pelatihan bias.

Satu masalah yang mungkin mencegah pemerintah menggunakan kontes terbuka adalah bahwa ia memerlukan rilis data, yang dapat menyebabkan pelanggaran privasi. Untuk lebih lanjut tentang privasi dan rilis data dalam panggilan terbuka melihat Narayanan, Huey, and Felten (2016) dan diskusi dalam Bab 6.

  • Pengumpulan data terdistribusi (Bagian 5.4)

Deskripsi saya dari eBird mengacu pada deskripsi di Bhattacharjee (2005) dan Robbins (2013) . Untuk lebih lanjut tentang bagaimana peneliti menggunakan model statistik untuk menganalisis data eBird melihat Hurlbert and Liang (2012) dan Fink et al. (2010) . Untuk lebih lanjut tentang sejarah ilmu pengetahuan warga di ornothology, lihat Greenwood (2007) .

Untuk lebih lanjut tentang Jurnal Proyek Malawi, lihat Watkins and Swidler (2009) dan Kaler, Watkins, and Angotti (2015) . Dan untuk lebih lanjut tentang proyek terkait di Afrika Selatan, lihat Angotti and Sennott (2015) . Untuk lebih banyak contoh penelitian dengan menggunakan data dari Project Malawi Jurnal melihat Kaler (2004) dan Angotti et al. (2014) .

  • Mendesain sendiri (Bagian 5.5)

Pendekatan saya untuk menawarkan saran desain adalah induktif, berdasarkan contoh sukses dan gagal proyek kolaborasi massa yang saya dengar tentang. Ada juga aliran penelitian mencoba untuk menerapkan lebih umum teori-teori psikologi sosial untuk merancang komunitas online yang relevan dengan desain proyek kolaborasi massa, lihat, misalnya, Kraut et al. (2012) .

Mengenai memotivasi peserta, itu sebenarnya cukup sulit untuk mencari tahu persis mengapa orang berpartisipasi dalam proyek-proyek kolaborasi massa (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Jika Anda berencana untuk memotivasi peserta dengan pembayaran pada pasar tenaga kerja mikro-tugas (misalnya, Amazon Mechanical Turk) Kittur et al. (2013) menawarkan beberapa saran.

Mengenai memungkinkan kejutan, untuk lebih banyak contoh dari penemuan tak terduga keluar dari proyek Zoouniverse, lihat Marshall, Lintott, and Fletcher (2015) .

Mengenai menjadi etis, beberapa perkenalan umum yang baik untuk terlibat masalah yang Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , dan Zittrain (2008) . Untuk masalah yang terkait dengan masalah hukum dengan karyawan kerumunan, melihat Felstiner (2011) . O'Connor (2013) membahas pertanyaan tentang pengawasan etika penelitian ketika peran peneliti dan peserta blur. Untuk masalah yang berkaitan dengan berbagi data sekaligus melindungi participats di proyek ilmu pengetahuan warga, melihat Bowser et al. (2014) . Kedua Purdam (2014) dan Windt and Humphreys (2016) memiliki beberapa diskusi tentang isu-isu etis dalam pengumpulan data terdistribusi. Akhirnya, sebagian besar proyek mengakui kontribusi tetapi tidak memberikan kredit penulis kepada peserta. Dalam Foldit, para pemain Foldit sering terdaftar sebagai seorang penulis (Cooper et al. 2010; Khatib et al. 2011) . Dalam proyek-proyek panggilan terbuka lainnya, kontributor memenangkan sering dapat menulis makalah yang menjelaskan solusi mereka (misalnya, Bell, Koren, and Volinsky (2010) dan Dieleman, Willett, and Dambre (2015) ). Dalam keluarga Galaxy Zoo proyek, kontributor sangat aktif dan penting kadang-kadang diundang untuk menjadi co-penulis di atas kertas. Misalnya, Ivan Terentev dan Tim Matorny, dua peserta Radio Galaxy Zoo dari Rusia, yang co-penulis di salah satu surat kabar yang muncul dari proyek yang (Banfield et al. 2016; Galaxy Zoo 2016) .