Kegiatan

Kunci:

  • tingkat kesulitan: mudah mudah , medium medium , hard keras , sangat keras sangat keras
  • membutuhkan matematika ( membutuhkan matematika )
  • membutuhkan coding ( membutuhkan coding )
  • pengumpulan data ( pengumpulan data )
  1. [ sangat keras . membutuhkan coding . pengumpulan data ] Salah satu klaim paling menarik dari Benoit et al. (2015) dari kerumunan-coding dari manifesto politik adalah bahwa hasil yang direproduksi. Merz, Regel, and Lewandowski (2016) menyediakan akses ke Manifesto Corpus. Cobalah untuk mereproduksi Gambar 2 dari Benoit et al. (2015) menggunakan pekerja dari Amazon Mechanical Turk. Bagaimana serupa yang hasil Anda?

  2. [ medium ] Dalam proyek InfluenzaNet panel relawan dari orang melaporkan kejadian, prevalensi, dan kesehatan perilaku mencari yang berkaitan dengan influenza-like-penyakit (ILI) (Tilston et al. 2010; Noort et al. 2015) .

    1. Membandingkan dan kontras desain, biaya, dan kesalahan mungkin di InfluenzaNet, Google Flu Trends, dan sistem pelacakan influenza tradisional.
    2. Pertimbangkan waktu tenang, seperti wabah flu babi. Jelaskan kesalahan mungkin dalam setiap sistem.
  3. [ keras . membutuhkan coding . pengumpulan data ] The Economist adalah majalah berita mingguan. Buat proyek perhitungan manusia untuk melihat apakah rasio perempuan dengan laki-laki di sampul telah meningkat dari waktu ke waktu.

    1. Majalah ini dapat memiliki sampul yang berbeda di delapan daerah yang berbeda (Afrika, Asia Pasifik, Eropa, Uni Eropa, Amerika Latin, Timur Tengah, Amerika Utara, dan Inggris) dan mereka semua dapat didownload dari situs The Economist . Pilih salah satu dari daerah ini dan melakukan analisis. Pastikan untuk menjelaskan prosedur Anda dengan cukup detail bahwa mereka dapat direplikasi oleh orang lain.

    Pertanyaan ini terinspirasi oleh sebuah proyek serupa oleh Justin Tenuto, seorang ilmuwan data pada perusahaan crowdsourcing CrowdFlower , lihat "Majalah Time Sungguh Suka Dudes" .

  4. [ sangat keras . membutuhkan coding . pengumpulan data ] Bangunan pada pertanyaan di atas, sekarang melakukan analisis untuk semua delapan daerah.

    1. Perbedaan apa yang Anda temukan di daerah?
    2. Berapa banyak tambahan waktu dan uang yang dibutuhkan untuk analisis Anda untuk semua delapan dari daerah skala-up?
    3. Bayangkan bahwa Economist memiliki 100 sampul yang berbeda setiap minggu. Memperkirakan berapa banyak waktu ekstra dan uang itu akan mengambil untuk skala-up analisis untuk 100 selimut per minggu.
  5. [ keras . membutuhkan coding ] [Kaggle] (https://www.kaggle.com/) adalah website yang host proyek panggilan terbuka. Berpartisipasi dalam salah satu proyek mereka.

  6. [ medium ] Lihat melalui edisi terbaru jurnal di bidang Anda. Apakah ada kertas yang bisa saja dirumuskan sebagai proyek panggilan terbuka? Mengapa atau mengapa tidak?

  7. [ mudah ] Purdam (2014) dijelaskan koleksi data terdistribusi tentang mengemis di London. Meringkas kekuatan dan kelemahan dari desain penelitian ini.

  8. [ medium ] Redundansi adalah cara penting untuk menilai kualitas pengumpulan data terdistribusi. Windt and Humphreys (2016) mengembangkan dan menguji sistem untuk mengumpulkan laporan dari peristiwa konflik dari orang-orang di Timur Kongo. Membaca koran.

    1. Bagaimana desain mereka memastikan redundansi?
    2. Mereka menawarkan beberapa pendekatan untuk memvalidasi data yang dikumpulkan dari proyek mereka. Meringkas mereka. Yang paling meyakinkan untuk Anda?
    3. Mengusulkan cara baru bahwa data dapat divalidasi. Saran harus mencoba untuk meningkatkan kepercayaan diri yang akan Anda miliki di data dengan cara yang hemat biaya dan etis.
  9. [ medium ] Karim Lakhani dan rekan (2013) dibuat panggilan terbuka untuk meminta algoritma baru untuk memecahkan masalah dalam biologi komputasi. Mereka menerima lebih dari 600 pengajuan mengandung 89 pendekatan komputasi baru. Dari pengajuan, mereka menerima 30 yang melampaui kinerja dari US National Institutes of Health ini megablast, dan pengajuan terbaik dicapai baik akurasi yang lebih besar dan kecepatan (1.000 kali lebih cepat).

    1. Membaca koran mereka, dan kemudian mengusulkan masalah penelitian sosial yang bisa menggunakan jenis yang sama dari kontes terbuka. Secara khusus, jenis kontes terbuka difokuskan pada mempercepat dan meningkatkan kinerja algoritma yang ada. Jika Anda tidak bisa memikirkan masalah seperti ini di bidang Anda, cobalah untuk menjelaskan mengapa tidak.
  10. [ medium ] Banyak proyek perhitungan manusia mengandalkan peserta dari Amazon Mechanical Turk. Mendaftar untuk menjadi pekerja di Amazon Mechanical Turk. Menghabiskan satu jam bekerja di sana. Bagaimana dampak ini pikiran Anda tentang desain, kualitas, dan etika proyek compuation manusia?