1.1 Een inktvlek

In de zomer van 2009 rinkelden overal in Rwanda mobiele telefoons. Naast de miljoenen telefoontjes van familie, vrienden en zakenpartners kregen ongeveer 1.000 Rwandezen een telefoontje van Joshua Blumenstock en zijn collega's. Deze onderzoekers bestudeerden rijkdom en armoede door een onderzoek uit te voeren naar een willekeurige steekproef van mensen uit een database van 1,5 miljoen klanten van de grootste mobiele telefoonprovider van Rwanda. Blumenstock en collega's vroegen de willekeurig geselecteerde mensen of ze wilden deelnemen aan een enquête, legden de aard van het onderzoek aan hen uit en stelden vervolgens een reeks vragen over hun demografische, sociale en economische kenmerken.

Alles wat ik tot nu toe heb gezegd, klinkt als een traditioneel sociaalwetenschappelijk onderzoek. Maar wat hierna komt, is niet traditioneel - althans nog niet. Naast de enquêtegegevens hadden Blumenstock en collega's ook de complete oproeprecords voor alle 1,5 miljoen mensen. Door deze twee gegevensbronnen te combineren, gebruikten ze de onderzoeksgegevens om een machine-leermodel te trainen om iemands rijkdom te voorspellen op basis van hun oproeprecords. Vervolgens hebben ze dit model gebruikt om de rijkdom van alle 1,5 miljoen klanten in de database te schatten. Ze schatten ook de vestigingsplaatsen van alle 1,5 miljoen klanten met behulp van de geografische informatie die is opgenomen in de oproeprecords. Door dit alles samen te stellen - de geschatte rijkdom en de geschatte woonplaats - waren ze in staat om kaarten met een hoge resolutie te maken van de geografische verdeling van welvaart in Rwanda. Ze konden met name een geschatte rijkdom produceren voor elk van de 2.148 cellen van Rwanda, de kleinste administratieve eenheid in het land.

Helaas was het onmogelijk om de juistheid van deze schattingen te valideren omdat niemand ooit schattingen had gemaakt voor dergelijke kleine geografische gebieden in Rwanda. Maar toen Blumenstock en zijn collega's hun schattingen samenvatten in de 30 districten van Rwanda, ontdekten ze dat hun schattingen erg vergelijkbaar waren met schattingen uit de Demographic and Health Survey, die algemeen wordt beschouwd als de gouden standaard van enquêtes in ontwikkelingslanden. Hoewel deze twee benaderingen in dit geval vergelijkbare schattingen opleverden, was de aanpak van Blumenstock en zijn collega's ongeveer tien keer sneller en 50 keer goedkoper dan de traditionele demografische en gezondheidsonderzoeken. Deze dramatisch snellere en lagere kostenramingen scheppen nieuwe mogelijkheden voor onderzoekers, overheden en bedrijven (Blumenstock, Cadamuro, and On 2015) .

Deze studie lijkt op een inktblot-test van Rorschach: wat mensen zien, hangt af van hun achtergrond. Veel sociale wetenschappers zien een nieuwe meetmethode die kan worden gebruikt om theorieën over economische ontwikkeling te testen. Veel datawetenschappers zien een cool, nieuw machine-leerprobleem. Veel zakenmensen zien een krachtige aanpak om waarde te ontsluiten in de big data die ze al hebben verzameld. Veel privacyverdedigers zien een angstaanjagende herinnering dat we in een tijd van massale bewaking leven. En ten slotte zien veel beleidsmakers een manier waarop nieuwe technologie kan helpen een betere wereld te creëren. In feite is deze studie al die dingen, en omdat het deze mix van kenmerken heeft, zie ik het als een venster op de toekomst van sociaal onderzoek.