1.1 Uma mancha de tinta

No verão de 2009, os telefones móveis foram tocando em toda Ruanda. Além dos milhões de chamadas entre familiares, amigos e colegas de trabalho, cerca de 1.000 ruandeses recebeu um telefonema de Joshua Blumenstock e seus colegas. Os pesquisadores estavam estudando a riqueza ea pobreza através da realização de uma pesquisa com pessoas que tinham sido amostradas aleatoriamente a partir de um banco de dados de 1,5 milhões de clientes de maior operadora de telefonia móvel da Ruanda. Blumenstock e seus colegas pediram aos participantes se eles queriam participar de uma pesquisa, explicou a natureza da pesquisa para eles, e, em seguida, fez uma série de perguntas sobre suas características demográficas, sociais e econômicas.

Tudo o que tenho dito até agora faz este som como um levantamento tradicional das ciências sociais. Mas, o que vem a seguir não é tradicional, pelo menos não ainda. Eles usaram os dados da pesquisa para treinar um modelo de aprendizado de máquina para prever a riqueza de alguém de seus dados de chamadas e, em seguida, eles usaram este modelo para estimar a riqueza de todos os 1,5 milhões de clientes. Em seguida, eles estimaram o local de residência de todos os 1,5 milhões de clientes usando a informação geográfica incorporado nos registros de chamadas. Colocar essas duas estimativas juntos, a riqueza estimada eo lugar estimado de residência-Blumenstock e seus colegas foram capazes de produzir estimativas de alta resolução da distribuição geográfica de riqueza em toda Ruanda. Em particular, eles poderiam produzir uma fortuna estimada para cada uma das células do Ruanda 2,148, a menor unidade administrativa no país.

Era impossível para validar essas estimativas porque ninguém nunca tinha produzido estimativas para essas pequenas áreas geográficas em Ruanda. Mas, quando Blumenstock e colegas agregadas as suas estimativas para 30 distritos de Ruanda, eles descobriram que as suas estimativas foram semelhantes às estimativas do Inquérito Demográfico e de Saúde, o padrão-ouro das pesquisas em países em desenvolvimento. Embora essas duas abordagens produziu estimativas semelhantes neste caso, a abordagem de Blumenstock e seus colegas era cerca de 10 vezes mais rápido e 50 vezes mais barato do que as Pesquisas de Demografia e Saúde tradicionais. Estas estimativas de custos dramaticamente mais rápidos e menores criar novas possibilidades de pesquisadores, governos e empresas (Blumenstock, Cadamuro, and On 2015) .

Além de desenvolver uma nova metodologia, este estudo é como uma espécie de teste de Rorschach da mancha de tinta; que as pessoas vêem depende do seu background. Muitos cientistas sociais ver um novo instrumento de medição que pode ser usado para testar teorias sobre o desenvolvimento económico. Muitos cientistas de dados, veja um novo problema legal aprendizagem de máquina. Muitas pessoas de negócios ver uma abordagem poderosa para desbloquear valor na dados de rastreio digital que eles já recolhidos. Muitos defensores da privacidade ver um lembrete assustador de que vivemos em uma época de vigilância em massa. Muitos formuladores de políticas ver uma maneira que a nova tecnologia pode ajudar a criar um mundo melhor. Na verdade, este estudo é todas essas coisas, e é por isso que é uma janela para o futuro da investigação social.