1.1 Een inktvlek

In de zomer van 2009 werden mobiele telefoons rinkelen heel Rwanda. In aanvulling op de miljoenen van de gesprekken tussen de familie, vrienden en zakenpartners, ontvangen ongeveer 1.000 Rwandezen een telefoontje van Joshua Blumenstock en zijn collega's. De onderzoekers bestudeerden de rijkdom en armoede door het uitvoeren van een onderzoek onder mensen die willekeurig waren bemonsterd uit een database van 1,5 miljoen klanten uit Rwanda's grootste mobiele telefoon provider. Blumenstock en collega's vroegen de deelnemers of ze wilden deelnemen aan een onderzoek, verklaarde de aard van het onderzoek voor hen, en vervolgens gevraagd een aantal vragen over hun demografische, sociale en economische kenmerken.

Alles wat ik heb gezegd tot nu toe maakt dit geluid als een traditionele sociaal-wetenschappelijk onderzoek. Maar wat daarna komt is niet traditioneel, althans nog niet. Zij gebruikten de enquêtegegevens een machine learning model te trainen om de rijkdom van iemand voorspellen van hun oproep data, en vervolgens gebruikt ze dit model om de rijkdom te schatten van alle 1,5 miljoen klanten. Next, schatten zij de woonplaats van alle 1,5 miljoen klanten met behulp van de geografische informatie ingebed in de call logs. Putting deze twee schattingen samen-de geschatte rijkdom en de geschatte woonplaats-Blumenstock en collega's waren in staat om hoge-resolutie schattingen van de geografische verdeling van de welvaart in heel Rwanda te produceren. In het bijzonder, kunnen ze een geschat vermogen te produceren voor elk van Rwanda 2148 cellen, de kleinste bestuurlijke eenheid in het land.

Het was onmogelijk om deze schattingen te valideren omdat niemand ooit ramingen voor dergelijke kleine geografische gebieden in Rwanda had geproduceerd. Maar toen Blumenstock en collega's hun schattingen geaggregeerd naar Rwanda's 30 districten, vonden ze dat hun schattingen waren vergelijkbaar met schattingen van het Demographic and Health Survey, de gouden standaard van onderzoeken in ontwikkelingslanden. Hoewel deze twee benaderingen vergelijkbare ramingen in dit geval geproduceerd, de nadering van Blumenstock en collega's was ongeveer 10 keer sneller en 50 keer goedkoper dan de traditionele Demographic and Health Surveys. Deze aanzienlijk sneller en lagere kostenramingen creëren nieuwe mogelijkheden voor onderzoekers, overheden en bedrijven (Blumenstock, Cadamuro, and On 2015) .

Naast de ontwikkeling van een nieuwe methodiek, deze studie is als een soort van Rorschach inktvlek test; wat mensen zien hangt af van hun achtergrond. Veel sociale wetenschappers zien een nieuwe meting instrument dat kan worden gebruikt om theorieën over de economische ontwikkeling te testen. Veel data wetenschappers zien een coole nieuwe machine learning probleem. Veel mensen uit het bedrijfsleven zien een krachtige aanpak voor het ontgrendelen van waarde in de digitale trace gegevens die ze al hebben verzameld. Veel privacy voorstanders zien een enge herinnering dat we leven in een tijd van massale surveillance. Veel beleidsmakers zien op een manier die nieuwe technologie kan bijdragen tot een betere wereld. In feite is deze studie is al die dingen, en dat is waarom het is een venster naar de toekomst van het sociaal-wetenschappelijk onderzoek.