Các hoạt động

Chìa khóa:

  • mức độ khó khăn: dễ dàng dễ dàng , Trung bình Trung bình , cứng cứng , Rất cứng rất cứng
  • đòi hỏi toán ( đòi hỏi toán học )
  • đòi hỏi mã hóa ( đòi hỏi mã hóa )
  • thu thập dữ liệu ( thu thập dữ liệu )
  1. [ rất cứng , đòi hỏi mã hóa , thu thập dữ liệu ] Một trong những tuyên bố thú vị nhất từ Benoit et al. (2015) trên đám đông-mã hóa của bản tuyên ngôn chính trị là các kết quả có thể sinh sản. Merz, Regel, and Lewandowski (2016) cung cấp quyền truy cập vào các Tuyên ngôn Corpus. Hãy thử để tái tạo hình 2 từ Benoit et al. (2015) sử dụng công nhân từ Amazon Mechanical Turk. Làm thế nào tương tự như là kết quả của bạn?

  2. [ Trung bình ] Trong các dự án InfluenzaNet một bảng điều khiển tự nguyện của người dân báo cáo tỷ lệ mắc, tỷ lệ, và sức khỏe hành vi tìm kiếm liên quan đến cúm-như-bệnh (ILI) (Tilston et al. 2010; Noort et al. 2015) .

    1. So sánh và đối thiết kế, chi phí, và các lỗi có khả năng trong InfluenzaNet, Google Trends cúm, và các hệ thống theo dõi cúm truyền thống.
    2. Hãy xem xét một thời gian chưa giải quyết, chẳng hạn như dịch cúm heo. Mô tả các lỗi có thể trong mỗi hệ thống.
  3. [ cứng , đòi hỏi mã hóa , thu thập dữ liệu ] The Economist là một tạp chí tin tức hàng tuần. Tạo một dự án tính toán của con người để thấy nếu tỉ lệ phụ nữ người đàn ông trên trang bìa đã tăng lên theo thời gian.

    1. Các tạp chí có thể có nắp đậy khác nhau trong tám khu vực khác nhau (Châu Phi, Châu Á Thái Bình Dương, châu Âu, Liên minh châu Âu, Mỹ Latinh, Trung Đông, Bắc Mỹ, và Vương quốc Anh) và tất cả đều có thể được tải về từ trang web của The Economist . Chọn một trong những khu vực này và thực hiện các phân tích. Hãy chắc chắn để mô tả các thủ tục với đủ chi tiết mà họ có thể được nhân rộng bởi người khác.

    Câu hỏi này được lấy cảm hứng từ một dự án tương tự của Justin Tenuto, một nhà khoa học dữ liệu tại công ty crowdsourcing CrowdFlower , xem "của tạp chí Time Thật Likes Dudes" .

  4. [ rất cứng , đòi hỏi mã hóa , thu thập dữ liệu ] Dựa trên câu hỏi ở trên, bây giờ thực hiện các phân tích cho tất cả tám khu vực.

    1. anh tìm được gì khác biệt giữa các vùng miền?
    2. Thêm bao nhiêu thời gian và tiền bạc đã làm nó mất để tăng quy mô phân tích của bạn để tất cả tám của khu vực?
    3. Hãy tưởng tượng rằng kinh tế có 100 bìa khác nhau mỗi tuần. Ước tính thêm bao nhiêu thời gian và tiền bạc sẽ mất để tăng quy mô phân tích của bạn đến 100 bìa mỗi tuần.
  5. [ cứng , đòi hỏi mã hóa ] [Kaggle] (https://www.kaggle.com/) là một trang web tổ chức các dự án kêu gọi mở. Tham gia vào một trong những dự án.

  6. [ Trung bình ] Xem xét thông qua một số báo gần đây của một tạp chí trong lĩnh vực của bạn. Có bất kỳ giấy tờ mà có thể đã được dựng lại như các dự án kêu gọi mở? Tại sao hoặc tại sao không?

  7. [ dễ dàng ] Purdam (2014) mô tả một tập hợp dữ liệu phân tán về cầu xin ở London. Tóm tắt những điểm mạnh và điểm yếu của thiết kế nghiên cứu này.

  8. [ Trung bình ] Dự phòng là một cách quan trọng để đánh giá chất lượng của các bộ sưu tập dữ liệu phân tán. Windt and Humphreys (2016) phát triển và thử nghiệm một hệ thống để thu thập báo cáo của các sự kiện xung đột từ những người ở Đông Congo. Đọc tờ giấy.

    1. Làm thế nào để thiết kế của họ đảm bảo dự phòng?
    2. Họ cung cấp một số phương pháp tiếp cận để xác nhận các dữ liệu thu thập được từ các dự án của họ. Tóm tắt chúng. Đó là thuyết phục nhất đối với bạn?
    3. Đề xuất một phương pháp mới mà các dữ liệu có thể được xác nhận. Gợi ý nên cố gắng để tăng sự tự tin rằng bạn sẽ có trong các dữ liệu một cách hiệu quả chi phí và có đạo đức.
  9. [ Trung bình ] Karim Lakhani và các cộng sự (2013) đã tạo ra một cuộc gọi mở để thu hút các thuật toán mới để giải quyết một vấn đề trong sinh học tính toán. Họ đã nhận được hơn 600 bài nộp chứa 89 phương pháp điện toán mới. Trong số các bài dự thi, họ đã nhận được 30 mà vượt quá hiệu suất của Viện Quốc gia Hoa Kỳ MegaBLAST Y tế, và các trình tốt nhất đạt được cả độ chính xác và tốc độ cao (1000 lần nhanh hơn).

    1. Đọc bài báo của họ, và sau đó đề xuất các vấn đề nghiên cứu xã hội mà có thể sử dụng cùng một loại cuộc thi mở. Đặc biệt, loại của cuộc thi mở được tập trung vào việc đẩy nhanh tiến độ và nâng cao hiệu suất của một thuật toán đã có. Nếu bạn không thể nghĩ về vấn đề như thế này trong lĩnh vực của bạn, hãy cố gắng giải thích lý do tại sao không.
  10. [ Trung bình ] Nhiều dự án tính toán của con người dựa vào người tham gia từ Amazon Mechanical Turk. Đăng ký để trở thành một nhân viên trên Amazon Mechanical Turk. Hãy dành một giờ làm việc ở đó. Làm thế nào để tác động này suy nghĩ của bạn về thiết kế, chất lượng và đạo đức của các dự án compuation con người?