aktiviti

  • darjah kesukaran: mudah mudah , sederhana sederhana , keras keras , sangat susah sangat susah
  • memerlukan matematik ( memerlukan matematik )
  • memerlukan pengekodan ( memerlukan pengekodan )
  • pengumpulan data ( pengumpulan data )
  • kegemaran saya ( kegemaran saya )
  1. [ sangat susah , memerlukan pengekodan , pengumpulan data , kegemaran saya Salah satu tuntutan paling menarik dari penyelidikan Benoit dan rakan-rakan (2016) mengenai pengekodan ramai manifesto politik adalah bahawa hasilnya boleh dihasilkan. Merz, Regel, and Lewandowski (2016) menyediakan akses kepada Corpus Manifesto. Cuba untuk menghasilkan semula angka 2 dari Benoit et al. (2016) menggunakan pekerja dari Amazon Mechanical Turk. Bagaimana keadaannya adalah hasil anda?

  2. [ sederhana Dalam projek InfluenzaNet, panel sukarela melaporkan laporan kejadian, kelaziman, dan kesihatan yang berkaitan dengan penyakit seperti influenza (Tilston et al. 2010; Noort et al. 2015) .

    1. Bandingkan dan kontras reka bentuk, kos, dan kemungkinan ralat di InfluenzaNet, Google Flu Trends, dan sistem pengesanan influenza tradisional.
    2. Pertimbangkan masa yang tidak selesa, seperti wabak bentuk novel yang baru. Huraikan kesilapan yang mungkin di dalam setiap sistem.
  3. [ keras , memerlukan pengekodan , pengumpulan data ] The Economist adalah majalah berita mingguan. Buat projek pengiraan manusia untuk melihat sama ada nisbah wanita ke lelaki di atas penutup telah berubah dari masa ke masa.

    1. Majalah ini boleh mempunyai liputan yang berlainan di lapan wilayah yang berbeza (Afrika, Asia Pasifik, Eropah, Kesatuan Eropah, Amerika Latin, Timur Tengah, Amerika Utara, dan United Kingdom) dan mereka semua boleh dimuat turun dari laman web majalah itu. Pilih salah satu kawasan ini dan lakukan analisis. Pastikan untuk menerangkan prosedur anda dengan terperinci yang cukup bahawa mereka boleh direplikasi oleh orang lain.

    Soalan ini diilhamkan oleh projek yang sama oleh Justin Tenuto, seorang saintis data di CrowdFlower syarikat crowdsourcing: lihat "Time Magazine Really Likes Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ sangat susah , memerlukan pengekodan , pengumpulan data ] Membina soalan sebelumnya, kini menjalankan analisis untuk semua lapan wilayah.

    1. Apa perbezaan yang anda dapati di seluruh rantau?
    2. Berapa banyak masa dan wang tambahan yang diperlukan untuk meningkatkan analisis anda ke semua lapan kawasan?
    3. Bayangkan bahawa Economist mempunyai 100 liputan yang berlainan setiap minggu. Anggarkan berapa banyak masa dan wang tambahan yang diperlukan untuk meningkatkan analisis anda kepada 100 liputan seminggu.
  5. [ keras , memerlukan pengekodan ] Terdapat beberapa laman web yang menganjurkan projek panggilan terbuka, seperti Kaggle. Mengambil bahagian dalam salah satu projek tersebut, dan terangkan apa yang anda pelajari mengenai projek tertentu dan mengenai panggilan terbuka pada umumnya.

  6. [ sederhana ] Lihat melalui jurnal baru-baru ini dalam bidang anda. Adakah terdapat sebarang kertas yang boleh dirumuskan sebagai projek panggilan terbuka? Mengapa atau mengapa tidak?

  7. [ mudah ] Purdam (2014) menerangkan pengumpulan data yang diedarkan tentang mengemis di London. Huraikan kekuatan dan kelemahan reka bentuk penyelidikan ini.

  8. [ sederhana ] Redundancy adalah cara penting untuk menilai kualiti pengumpulan data yang diedarkan. Windt and Humphreys (2016) membangun dan menguji sistem untuk mengumpulkan laporan peristiwa konflik dari orang-orang di Kongo Timur. Baca kertas.

    1. Bagaimanakah reka bentuk mereka menjanjikan lebihan?
    2. Mereka menawarkan beberapa pendekatan untuk mengesahkan data yang dikumpulkan dari projek mereka. Meringkaskan mereka. Yang paling meyakinkan anda?
    3. Cadangkan cara baru supaya data dapat disahkan. Cadangan harus cuba meningkatkan keyakinan yang anda miliki dalam data dengan cara yang kos efektif dan etika.
  9. [ sederhana ] Karim Lakhani dan rakan-rakan (2013) membuat panggilan terbuka untuk mendapatkan algoritma baru untuk menyelesaikan masalah dalam biologi pengiraan. Mereka menerima lebih daripada 600 penyertaan yang mengandungi 89 pendekatan komputasi novel. Daripada penyerahan, 30 melebihi prestasi Institut Kesihatan Nasional AS MegaBLAST, dan penyerahan terbaik mencapai kedalaman dan ketepatan yang lebih besar (1,000 kali lebih cepat).

    1. Baca karya mereka, kemudian mencadangkan masalah penyelidikan sosial yang boleh menggunakan pertandingan terbuka yang sama. Khususnya, pertandingan terbuka seperti ini difokuskan pada mempercepat dan meningkatkan prestasi algoritma sedia ada. Sekiranya anda tidak dapat memikirkan masalah seperti ini di dalam bidang anda, cuba jelaskan mengapa tidak.
  10. [ sederhana , kegemaran saya ] Banyak projek pengiraan manusia bergantung kepada peserta dari Amazon Mechanical Turk. Daftar untuk menjadi pekerja di Amazon Mechanical Turk. Luangkan satu jam bekerja di sana. Bagaimanakah impak anda terhadap reka bentuk, kualiti, dan etika projek pengiraan manusia?