Kegiatan

  • tingkat kesulitan: mudah mudah , medium medium , keras keras , sangat keras sangat keras
  • membutuhkan matematika ( membutuhkan matematika )
  • membutuhkan pengkodean ( membutuhkan pengkodean )
  • pengumpulan data ( pengumpulan data )
  • kesukaanku ( kesukaanku )
  1. [ sangat keras , membutuhkan pengkodean , pengumpulan data , kesukaanku ] Salah satu klaim paling menarik dari penelitian Benoit dan rekan (2016) tentang pengkodean orang-orang dari manifesto politik adalah bahwa hasilnya dapat direproduksi. Merz, Regel, and Lewandowski (2016) menyediakan akses ke Manifesto Corpus. Cobalah untuk mereproduksi gambar 2 dari Benoit et al. (2016) menggunakan pekerja dari Amazon Mechanical Turk. Seberapa mirip hasil Anda?

  2. [ medium ] Dalam proyek InfluenzaNet, panel sukarelawan melaporkan kejadian, prevalensi, dan perilaku pencarian kesehatan terkait dengan influenza-like-illness (Tilston et al. 2010; Noort et al. 2015) .

    1. Bandingkan dan bedakan desain, biaya, dan kemungkinan kesalahan dalam InfluenzaNet, Google Pantau Flu, dan sistem pelacakan influenza tradisional.
    2. Pertimbangkan waktu yang tidak pasti, seperti wabah bentuk baru influenza. Jelaskan kemungkinan kesalahan di setiap sistem.
  3. [ keras , membutuhkan pengkodean , pengumpulan data ] The Economist adalah majalah berita mingguan. Buat proyek komputasi manusia untuk melihat apakah rasio perempuan terhadap laki-laki di sampul telah berubah dari waktu ke waktu.

    1. Majalah ini dapat memiliki sampul yang berbeda di delapan wilayah berbeda (Afrika, Asia Pasifik, Eropa, Uni Eropa, Amerika Latin, Timur Tengah, Amerika Utara, dan Inggris) dan semuanya dapat diunduh dari situs web majalah. Pilih salah satu dari wilayah ini dan lakukan analisis. Pastikan untuk mendeskripsikan prosedur Anda dengan cukup detail sehingga dapat direplikasi oleh orang lain.

    Pertanyaan ini terinspirasi oleh proyek serupa oleh Justin Tenuto, seorang ilmuwan data di CrowdFlower, perusahaan crowdsourcing: lihat “Majalah Time Sangat Suka Dudes” (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ sangat keras , membutuhkan pengkodean , pengumpulan data ] Berdasarkan pertanyaan sebelumnya, sekarang lakukan analisis untuk semua delapan wilayah.

    1. Perbedaan apa yang Anda temukan di seluruh kawasan?
    2. Berapa banyak waktu dan uang ekstra yang diperlukan untuk meningkatkan analisis Anda ke delapan wilayah?
    3. Bayangkan bahwa Economist memiliki 100 cover berbeda setiap minggunya. Perkirakan berapa banyak waktu dan uang ekstra yang diperlukan untuk meningkatkan analisis Anda hingga 100 sampul per minggu.
  5. [ keras , membutuhkan pengkodean ] Ada beberapa situs web yang menjadi host proyek panggilan terbuka, seperti Kaggle. Berpartisipasi dalam salah satu proyek tersebut, dan jelaskan apa yang Anda pelajari tentang proyek tertentu itu dan tentang panggilan terbuka secara umum.

  6. [ medium ] Lihat edisi terbaru jurnal di bidang Anda. Apakah ada dokumen yang bisa dirumuskan ulang sebagai proyek panggilan terbuka? Mengapa atau mengapa tidak?

  7. [ mudah ] Purdam (2014) menjelaskan pengumpulan data terdistribusi tentang pengemis di London. Rangkumlah kekuatan dan kelemahan desain penelitian ini.

  8. [ medium ] Redundansi adalah cara penting untuk menilai kualitas pengumpulan data terdistribusi. Windt and Humphreys (2016) mengembangkan dan menguji sistem untuk mengumpulkan laporan tentang peristiwa konflik dari orang-orang di Kongo Timur. Baca korannya.

    1. Bagaimana desain mereka memastikan redundansi?
    2. Mereka menawarkan beberapa pendekatan untuk memvalidasi data yang dikumpulkan dari proyek mereka. Rangkumlah mereka. Yang paling meyakinkan bagi Anda?
    3. Ajukan cara baru agar data dapat divalidasi. Saran harus mencoba untuk meningkatkan kepercayaan diri yang Anda miliki dalam data dengan cara yang hemat biaya dan etis.
  9. [ medium ] Karim Lakhani dan rekan (2013) menciptakan panggilan terbuka untuk mengumpulkan algoritme baru untuk memecahkan masalah dalam biologi komputasi. Mereka menerima lebih dari 600 pengiriman yang berisi 89 pendekatan komputasi baru. Dari pengajuan, 30 melebihi kinerja Megablast National Institutes of Health AS, dan pengiriman terbaik mencapai akurasi dan kecepatan yang lebih besar (1.000 kali lebih cepat).

    1. Baca makalah mereka, dan kemudian usulkan masalah penelitian sosial yang dapat menggunakan jenis kontes terbuka yang sama. Khususnya, kontes terbuka semacam ini difokuskan untuk mempercepat dan meningkatkan kinerja suatu algoritma yang sudah ada. Jika Anda tidak bisa memikirkan masalah seperti ini di bidang Anda, coba jelaskan mengapa tidak.
  10. [ medium , kesukaanku ] Banyak proyek komputasi manusia bergantung pada peserta dari Amazon Mechanical Turk. Mendaftar untuk menjadi pekerja di Amazon Mechanical Turk. Habiskan satu jam bekerja di sana. Bagaimana ini memengaruhi pemikiran Anda tentang desain, kualitas, dan etika proyek komputasi manusia?