1.1 Một blot mực

Trong mùa hè năm 2009, điện thoại di động đã vang khắp Rwanda. Ngoài các triệu cuộc gọi giữa các gia đình, bạn bè và đối tác kinh doanh, khoảng 1.000 người Rwanda nhận được một cuộc gọi từ Joshua Blumenstock và các đồng nghiệp của mình. Các nhà nghiên cứu đã nghiên cứu sự giàu có và nghèo đói bằng cách tiến hành một cuộc khảo sát của những người đã được lấy mẫu ngẫu nhiên từ một cơ sở dữ liệu của 1,5 triệu khách hàng từ nhà cung cấp điện thoại di động lớn nhất của Rwanda. Blumenstock và các đồng nghiệp hỏi những người tham gia nếu họ muốn tham gia vào một cuộc khảo sát, giải thích bản chất của nghiên cứu cho họ, và sau đó hỏi một loạt các câu hỏi về đặc điểm nhân khẩu học, xã hội và kinh tế của họ.

Tất cả mọi thứ tôi đã nói cho đến bây giờ làm cho âm thanh này giống như một cuộc khảo sát khoa học xã hội truyền thống. Nhưng, những gì xảy ra tiếp theo không phải là truyền thống, ít nhất là chưa. Họ đã sử dụng các dữ liệu khảo sát để đào tạo một mô hình máy học để dự đoán sự giàu có của một ai đó từ dữ liệu cuộc gọi của họ, và sau đó họ đã sử dụng mô hình này để ước tính tài sản của tất cả 1,5 triệu khách hàng. Tiếp theo, họ xác định nơi cư trú của tất cả 1,5 triệu khách hàng bằng cách sử dụng các thông tin địa lý nhúng trong các bản ghi cuộc gọi. Đưa hai ước lượng này lại với nhau, các tài sản ước tính và nơi cư trú ước tính-Blumenstock và các đồng nghiệp đã có thể sản xuất ước tính có độ phân giải cao của sự phân bố địa lý của các tài sản trên Rwanda. Đặc biệt, họ có thể sản xuất một tài sản ước tính cho mỗi 2.148 tế bào của Rwanda, các đơn vị hành chính nhỏ nhất trong cả nước.

Đó là không thể xác nhận những ước tính bởi vì không có ai đã từng sản xuất ước tính cho khu vực địa lý nhỏ như ở Rwanda. Tuy nhiên, khi Blumenstock và các đồng nghiệp tổng hợp dự toán của họ cho 30 huyện của Rwanda, họ thấy rằng dự đoán của họ cũng tương tự như ước tính của dân số và Điều tra y tế, tiêu chuẩn vàng của các cuộc khảo sát ở các nước đang phát triển. Mặc dù hai phương pháp sản xuất ước tính tương tự như trong trường hợp này, cách tiếp cận của Blumenstock và các đồng nghiệp là khoảng 10 lần nhanh hơn và rẻ hơn so với các cuộc điều tra dân số và sức khỏe truyền thống 50 lần. Các ước tính chi phí đáng kể nhanh hơn và thấp hơn tạo ra những khả năng mới cho các nhà nghiên cứu, chính phủ và các công ty (Blumenstock, Cadamuro, and On 2015) .

Ngoài việc phát triển một phương pháp mới, nghiên cứu này là loại giống như một thử nghiệm inkblot Rorschach; những gì mọi người nhìn thấy phụ thuộc vào nền tảng của họ. Nhiều nhà khoa học xã hội nhìn thấy một công cụ đo lường mới có thể được sử dụng để kiểm tra lý thuyết về phát triển kinh tế. Nhiều nhà khoa học dữ liệu thấy một vấn đề học máy mới mát mẻ. Nhiều người kinh doanh một cách tiếp cận mạnh mẽ để mở khóa giá trị trong các dấu vết dữ liệu kỹ thuật số mà họ đã thu thập được. Nhiều người ủng hộ quyền riêng tư nhìn thấy một lời nhắc nhở đáng sợ mà chúng ta đang sống trong một thời gian giám sát hàng loạt. Nhiều nhà làm chính sách nhìn thấy một cách mà công nghệ mới có thể giúp tạo ra một thế giới tốt đẹp hơn. Trong thực tế, nghiên cứu này là tất cả những điều đó, và đó là lý do tại sao nó là một cửa sổ vào tương lai của nghiên cứu xã hội.