5.4.3 Conclusión

É posible a recollida de datos distribuídos e, no futuro, probablemente implicará tecnoloxía e participación pasiva.

Como eBird demostra, a recolección de datos distribuídos pode usarse para a investigación científica. Ademais, PhotoCity mostra que os problemas relacionados coa mostraxe e a calidade de datos son potencialmente resolutivos. Como podería distribuírse os traballos de recollida de datos para a investigación social? Un exemplo provén do traballo de Susan Watkins e os seus colegas no Malawi Journals Project (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . Neste proxecto, 22 veciños locais, chamados "xornalistas", escolleron "xornais de conversación" que rexistraron detalladamente as conversas que escoitaron sobre a SIDA nas vidas cotiás das persoas comúns (ao momento do inicio do proxecto, o 15% dos adultos en Malawi infectáronse co VIH (Bello, Chipeta, and Aberle-Grasse 2006) ). Debido ao seu estado de privilexio, estes xornalistas puideron escoitar conversas que poderían ser inaccesibles para Watkins e os seus colaboradores de investigación occidentais (vou discutir a ética deste máis tarde no capítulo cando ofrezo consellos sobre como deseñar o seu propio proxecto de colaboración en masa) . Os datos do Proxecto Revistas de Malawi levaron a unha serie de descubrimentos importantes. Por exemplo, antes de que se iniciase o proxecto, moitos foráneos crían que había silencio sobre a SIDA no África subsahariana, pero as revistas conversacionais demostraron que este non era claramente o caso: os xornalistas escoitaban centos de discusións sobre o tema, en lugares tan diversos como funerales, bares e igrexas. Ademais, a natureza destas conversas axudou aos investigadores a comprender mellor algunhas das resistencias ao uso do preservativo; a forma en que o uso do preservativo estaba enmarcado nas mensaxes de saúde pública era incompatible coa forma na que se discutiu na vida cotiá (Tavory and Swidler 2009) .

Por suposto, como os datos de eBird, os datos do Malawi Journals Project non son perfectos, un tema discutido en detalle por Watkins e compañeiros. Por exemplo, as conversas gravadas non son unha mostra aleatoria de todas as conversas posibles. Pola contra, son un censo incompleto de conversacións sobre a SIDA. En termos de calidade de datos, os investigadores cren que os seus xornalistas eran xornalistas de alta calidade, como evidencia a consistencia nas revistas e en revistas. É dicir, porque os suficientes xornalistas foron despregados nun ambiente suficientemente pequeno e centráronse nun tema específico, era posible usar redundancia para avaliar e garantir a calidade dos datos. Por exemplo, un traballador sexual chamado "Stella" apareceu varias veces nas revistas de catro xornalistas diferentes (Watkins and Swidler 2009) . Para seguir construíndo a súa intuición, a táboa 5.3 mostra outros exemplos de recolección de datos distribuídos para a investigación social.

Táboa 5.3: exemplos de proxectos de recollida de datos distribuídos en investigación social
Datos recollidos Referencia
Discusións sobre o VIH / SIDA en Malaui Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015)
Rúa pedindo en Londres Purdam (2014)
Acontecementos de conflito en Congo oriental Windt and Humphreys (2016)
Actividade económica en Nigeria e Liberia Blumenstock, Keleher, and Reisinger (2016)
Vigilancia da influenza Noort et al. (2015)

Todos os exemplos descritos nesta sección implicaron a participación activa: os xornalistas transcribiron conversas que escoitaron; Os birders subiron as súas listas de verificación de observación de aves; ou os xogadores cargaron as súas fotos. Pero e se a participación era automática e non requiría ningunha habilidade ou tempo específico para enviar? Esta é a promesa ofrecida por "sensación participativa" ou "sensación centrada nas persoas". Por exemplo, a Pothole Patrol, un proxecto de científicos do MIT, montou acelerómetros equipados con GPS dentro de sete taxis na zona de Boston (Eriksson et al. 2008) . Porque levar un bote deixa un sinal de acelerómetro distinto, estes dispositivos, cando se colocan no interior dos taxis en movemento, poden crear mapas de bots de Boston. Por suposto, os taxis non mostran camiños aleatorios, pero, dados taxis suficientes, pode existir unha cobertura suficiente para proporcionar información sobre grandes porcións da cidade. Un segundo beneficio dos sistemas pasivos que dependen da tecnoloxía é que desvían o proceso de aportar datos: mentres que require habilidade para contribuír a eBird (porque precisa identificar de forma fiable as especies de aves), non require habilidades especiais para contribuír á patrulla Pothole.

Avanzando, sospeito que moitos proxectos de recadación de datos distribuídos comezarán a facer uso das capacidades dos teléfonos móbiles que xa están a cargo de millóns de persoas en todo o mundo. Estes teléfonos xa teñen unha gran cantidade de sensores importantes para medir, como micrófonos, cámaras, dispositivos GPS e reloxos. Ademais, admiten aplicacións de terceiros que permiten aos investigadores controlar os protocolos de recolección de datos subxacentes. Finalmente, teñen conectividade a Internet, o que lles permite desactivar os datos que recolle. Hai numerosos retos técnicos, que van dende sensores inexactos ata a duración limitada da batería, pero estes problemas probablemente diminuirán ao longo do tempo a medida que se desenvolve a tecnoloxía. Os problemas relacionados coa privacidad e a ética, por outra banda, poden complicarse; Vou volver a preguntas de ética cando ofrezo consellos sobre o deseño da túa propia colaboración en masa.

Nos proxectos de recollida de datos distribuídos, os voluntarios aportan datos sobre o mundo. Este enfoque xa se utilizou con éxito, e os usos futuros probablemente terán que abordar as cuestións de mostraxe e calidade de datos. Afortunadamente, os proxectos existentes, como PhotoCity e Pothole Patrol, suxiren solucións a estes problemas. A medida que máis proxectos aproveitan a tecnoloxía que permite a participación deshabilitada e pasiva, os proxectos de recopilación de datos distribuídos deberían aumentar dramaticamente a escala, permitindo aos investigadores recompilar datos que foron simplemente fóra de límite no pasado.