aktiviti

Kunci:

  • tahap kesukaran: mudah mudah , sederhana sederhana , keras keras , sangat susah sangat susah
  • memerlukan matematik ( memerlukan matematik )
  • memerlukan pengekodan ( memerlukan pengekodan )
  • pengumpulan data ( pengumpulan data )
  1. [ sangat susah , memerlukan pengekodan , pengumpulan data ] Salah satu dakwaan yang paling menarik dari Benoit et al. (2015) ke atas orang ramai-pengekodan manifesto politik bahawa keputusan yang diulang. Merz, Regel, and Lewandowski (2016) menyediakan akses kepada Manifesto Corpus. Cuba untuk mengeluarkan semula Rajah 2 daripada Benoit et al. (2015) menggunakan pekerja dari Amazon Mekanikal Turk. Bagaimana yang serupa keputusan anda?

  2. [ sederhana ] Dalam projek InfluenzaNet yang panel sukarelawan orang melaporkan kejadian, kelaziman, dan kesihatan mencari tingkah laku yang berkaitan dengan influenza-like-illness (ILI) (Tilston et al. 2010; Noort et al. 2015) .

    1. Membanding dan membezakan reka bentuk, kos, dan kesilapan mungkin dalam InfluenzaNet, Trend Flu Google, dan sistem pengesanan influenza tradisional.
    2. Pertimbangkan masa yang tidak menentu, seperti wabak selesema babi. Huraikan kesilapan yang mungkin dalam setiap sistem.
  3. [ keras , memerlukan pengekodan , pengumpulan data ] The Economist adalah majalah berita mingguan. Buat projek pengiraan manusia untuk melihat jika nisbah wanita kepada lelaki pada penutup telah meningkat dari masa ke masa.

    1. Majalah ini boleh mempunyai penutup yang berbeza dalam lapan kawasan yang berbeza (Afrika, Asia Pasifik, Eropah, Kesatuan Eropah, Amerika Latin, Timur Tengah, Amerika Utara, dan United Kingdom) dan mereka semua boleh dimuat turun daripada laman web The Economist . Memilih salah satu daripada kawasan-kawasan ini dan melaksanakan analisis. Pastikan untuk menggambarkan prosedur anda dengan detail yang cukup bahawa mereka boleh ditiru oleh orang lain.

    Soalan ini telah diilhamkan oleh projek yang sama dengan Justin Tenuto, seorang saintis data di syarikat crowdsourcing yang CrowdFlower , lihat "Time Magazine Really Suka Dudes" .

  4. [ sangat susah , memerlukan pengekodan , pengumpulan data ] Membina pada soalan di atas, kini menjalankan analisis untuk semua lapan kawasan.

    1. Apakah perbezaan adakah anda mencari di seluruh kawasan?
    2. Berapa banyak tambahan masa dan wang ia mengambil masa untuk skala-up analisis anda ke semua lapan kawasan?
    3. Bayangkan bahawa Economist mempunyai 100 penutup yang berbeza setiap minggu. Menganggarkan berapa banyak masa tambahan dan wang ia akan mengambil masa untuk skala-up analisis anda ke 100 meliputi setiap minggu.
  5. [ keras , memerlukan pengekodan ] [Kaggle] (https://www.kaggle.com/) adalah sebuah laman web yang menjadi tuan rumah projek panggilan terbuka. Mengambil bahagian dalam salah satu daripada projek-projek.

  6. [ sederhana ] Lihat melalui isu baru-baru jurnal dalam bidang anda. Adakah terdapat apa-apa kertas yang mungkin telah dirumus semula projek panggilan terbuka? Mengapa atau mengapa tidak?

  7. [ mudah ] Purdam (2014) menyifatkan koleksi data yang mengedarkan kira-kira mengemis di London. Merumuskan kekuatan dan kelemahan reka bentuk kajian ini.

  8. [ sederhana ] Redundancy adalah satu cara penting untuk menilai kualiti pengumpulan data diedarkan. Windt and Humphreys (2016) membangunkan dan menguji sistem untuk mengumpul laporan peristiwa konflik daripada orang di Timur Congo. Membaca akhbar.

    1. Bagaimanakah reka bentuk mereka memastikan lebihan?
    2. Mereka menawarkan beberapa pendekatan untuk mengesahkan data yang diperoleh daripada projek mereka. Merumuskan mereka. Yang merupakan yang paling meyakinkan kepada anda?
    3. Mencadangkan cara baru bahawa data dapat disahkan. Cadangan harus cuba untuk meningkatkan keyakinan bahawa anda akan mempunyai dalam data dengan cara yang kos efektif dan beretika.
  9. [ sederhana ] Karim Lakhani dan rakan-rakan (2013) dicipta gesaan terbuka untuk mendapatkan algoritma baru untuk menyelesaikan masalah dalam biologi pengiraan. Mereka menerima lebih daripada 600 penyertaan yang mengandungi 89 pendekatan pengiraan novel. Penghujahan, mereka menerima 30 yang melebihi prestasi National Institutes AS MegaBLAST Kesihatan, dan penyerahan yang terbaik dicapai kedua-dua ketepatan yang lebih besar dan kelajuan (1000 kali lebih cepat).

    1. Membaca akhbar mereka, dan kemudian mencadangkan satu masalah penyelidikan sosial yang boleh menggunakan jenis yang sama pertandingan terbuka. Khususnya, ini jenis pertandingan terbuka memberi tumpuan kepada mempercepatkan dan meningkatkan prestasi algoritma yang sedia ada. Jika anda tidak boleh memikirkan masalah seperti ini dalam bidang anda, cuba untuk menjelaskan mengapa tidak.
  10. [ sederhana ] Banyak projek pengiraan manusia bergantung kepada peserta dari Amazon Mekanikal Turk. Mendaftar untuk menjadi seorang pekerja di Amazon Mekanikal Turk. Luangkan satu jam bekerja di sana. Bagaimanakah kesan ini fikiran anda mengenai reka bentuk, kualiti, dan etika projek compuation manusia?