5.4.3 결론

분산 된 데이터 수집이 가능하며, 앞으로는 기술 및 수동적 참여가 필요할 것입니다.

eBird가 보여 주듯이 분산 데이터 수집은 과학적 연구에 사용될 수 있습니다. 또한 PhotoCity는 샘플링 및 데이터 품질과 관련된 문제가 해결 될 수 있음을 보여줍니다. 사회 조사를 위해 분산 데이터 수집이 어떻게 작동할까요? 한 가지 예는 말라위 저널 프로젝트 (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) 에서 수잔 왓킨스 (Susan Watkins)와 그녀의 동료들의 연구에서 나온 것이다. 이 프로젝트에서 "언론인"이라고 불리는 22 명의 지역 주민들은 보통 사람들의 일상 생활에서 에이즈에 관해 들었던 대화를 세부적으로 기록한 대화 형 저널을 사용하지 않습니다 (프로젝트 시작 당시 성인의 약 15 % 말라위에서는 HIV에 감염되었다 (Bello, Chipeta, and Aberle-Grasse 2006) ). 그들의 내부자 지위 때문에이 기자들은 왓킨스와 그녀의 서양 연구 공동 작업자가 접근 할 수 없었던 대화를 엿 들었을 것입니다 (나는 자신의 대량 공동 작업 프로젝트를 설계하는 것에 대한 조언을 할 때이 장의 후반부에서 윤리에 대해 토론 할 것입니다) . 말라위 저널 프로젝트의 데이터는 많은 중요한 발견을 이끌어 냈습니다. 예를 들어 프로젝트가 시작되기 전에 많은 외부인들은 아프리카 사하라 사막 이남 지역에서 에이즈에 대한 침묵이 있다고 믿었지만 대화 형 저널은 이것이 분명하지 않다는 것을 보여주었습니다. 언론인은 주제에 대한 수백 가지의 토론을 들으며 장례식장, 술집, 교회 및 교회. 또한, 이러한 대화의 본질은 연구자가 콘돔 사용에 대한 일부 저항을 더 잘 이해하는 데 도움이되었습니다. 콘돔의 사용이 공중 보건 메시지에서 틀을 (Tavory and Swidler 2009) 방식은 그것이 일상 생활에서 논의 된 방식과 일치하지 (Tavory and Swidler 2009) .

물론 eBird의 데이터와 마찬가지로 Malawi Journals Project의 데이터는 완벽하지 못합니다. Watkins와 동료들이 자세히 논의한 문제입니다. 예를 들어, 녹음 된 대화는 모든 가능한 대화의 무작위 샘플이 아닙니다. 오히려, 그들은 AIDS에 관한 대화의 불완전한 인구 조사입니다. 연구자들은 데이터 품질면에서 저널 및 일관된 저널을 통해 저널리스트가 우수한 기자라고 믿었습니다. 즉, 충분한 기자가 특정 주제에 초점을 맞춘 충분한 규모로 배포 되었기 때문에 중복성을 사용하여 데이터 품질을 평가하고 보장 할 수있었습니다. 예를 들어, "Stella"라는 성 노동자가 4 명의 언론인의 저널에 여러 번 나타났습니다 (Watkins and Swidler 2009) . 직관력을 높이기 위해 표 5.3은 사회 연구를위한 분산 데이터 수집의 다른 예를 보여줍니다.

도표 5.3 : 사회적인 연구에있는 분산 자료 수집 프로젝트의보기
수집 된 데이터 참고
말라위 HIV / 에이즈에 관한 토론 Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015)
런던에서 거리 구걸 Purdam (2014)
콩고 민주 공화국의 분쟁 사건 Windt and Humphreys (2016)
나이지리아와 라이베리아의 경제 활동 Blumenstock, Keleher, and Reisinger (2016)
인플루엔자 감시 Noort et al. (2015)

이 섹션에 설명 된 모든 예는 적극적인 참여를 포함합니다. 새들이 새들 체크리스트를 올렸습니다. 또는 선수들이 사진을 올렸습니다. 그러나 참여가 자동적이며 특정 기술이나 제출 시간이 필요하지 않은 경우에는 어떻게해야합니까? 예를 들어, MIT 과학자들의 프로젝트 인 Pothole Patrol은 보스턴 지역의 7 개 택시 (Eriksson et al. 2008) GPS 탑재 가속도계를 탑재했습니다. "참여 감지"또는 "사람 중심 센싱" (Eriksson et al. 2008) . 움푹 들어간 곳을 주행하면 별개의 가속도계 신호가 남기 때문에 이동하는 택시 안에이 장치를 배치하면 보스턴의 구덩이 맵을 만들 수 있습니다. 물론 택시는 도로를 무작위로 샘플링하지는 않지만 택시가 충분할 경우 도시의 많은 부분에 대한 정보를 제공 할 수있는 충분한 범위가있을 수 있습니다. 기술에 의존하는 패시브 시스템의 두 번째 이점은 데이터를 제공하는 프로세스의 숙련도를 낮추는 것입니다. eBird에 기술을 제공해야하지만 (조류 종을 안정적으로 식별 할 수 있어야하므로) 특별한 기술이 필요하지 않습니다. Pothole Patrol에 기여하십시오.

앞으로 많은 분산 데이터 수집 프로젝트가 전 세계 수십억 명의 사람들이 이미 휴대하고있는 휴대폰 기능을 사용하기 시작합니다. 이 전화기에는 이미 마이크, 카메라, GPS 장치 및 시계와 같이 측정에 중요한 센서가 많이 있습니다. 또한 연구원이 기본 데이터 수집 프로토콜을 일부 제어 할 수 있도록 타사 응용 프로그램을 지원합니다. 마지막으로 인터넷 연결 기능을 통해 수집 한 데이터의 부하를 줄일 수 있습니다. 부정확 한 센서에서 배터리 수명에 이르기까지 수많은 기술적 인 문제가 있지만 이러한 문제는 기술 발전에 따라 점차 줄어들 것입니다. 반면에 프라이버시와 윤리와 관련된 문제는 더욱 복잡해 질 수 있습니다. 나 자신의 대량 공동 작업을 설계하는 것에 대한 조언을 제공하면 윤리 문제로 돌아갈 것입니다.

분산 데이터 수집 프로젝트에서 자원 봉사자는 세계에 대한 데이터를 제공합니다. 이 접근 방식은 이미 성공적으로 사용되고 있으며, 향후 사용은 샘플링 및 데이터 품질 문제를 해결해야 할 것입니다. 다행히도 PhotoCity 및 Pothole Patrol과 같은 기존 프로젝트는 이러한 문제에 대한 해결책을 제시합니다. 숙련되고 수동적 인 참여를 가능하게하는 기술을 활용하는 프로젝트가 많아짐에 따라 분산 데이터 수집 프로젝트가 급격히 증가하여 연구원들은 과거에 한계를 벗어난 데이터를 수집 할 수있게되었습니다.