1.1 Một blot mực

Vào mùa hè năm 2009, điện thoại di động đổ chuông khắp Rwanda. Ngoài hàng triệu cuộc gọi từ gia đình, bạn bè và đối tác kinh doanh, khoảng 1.000 người Rwanda đã nhận được cuộc gọi từ Joshua Blumenstock và các đồng nghiệp của ông. Các nhà nghiên cứu đã nghiên cứu sự giàu có và nghèo đói bằng cách tiến hành một cuộc khảo sát một mẫu ngẫu nhiên của những người từ một cơ sở dữ liệu 1,5 triệu khách hàng của nhà cung cấp điện thoại di động lớn nhất của Rwanda. Blumenstock và các đồng nghiệp đã hỏi những người được chọn ngẫu nhiên nếu họ muốn tham gia vào một cuộc khảo sát, giải thích bản chất nghiên cứu cho họ, và sau đó hỏi một loạt câu hỏi về đặc điểm nhân khẩu học, xã hội và kinh tế của họ.

Tất cả mọi thứ tôi đã nói cho đến nay làm cho âm thanh này giống như một cuộc khảo sát khoa học xã hội truyền thống. Nhưng điều tiếp theo không phải là truyền thống - ít nhất là chưa. Ngoài các dữ liệu khảo sát, Blumenstock và các đồng nghiệp cũng có hồ sơ cuộc gọi hoàn chỉnh cho tất cả 1,5 triệu người. Kết hợp hai nguồn dữ liệu này, họ sử dụng dữ liệu khảo sát để đào tạo mô hình học máy để dự đoán sự giàu có của một người dựa trên hồ sơ cuộc gọi của họ. Tiếp theo, họ sử dụng mô hình này để ước tính sự giàu có của tất cả 1,5 triệu khách hàng trong cơ sở dữ liệu. Họ cũng ước tính nơi cư trú của tất cả 1,5 triệu khách hàng sử dụng thông tin địa lý được nhúng trong hồ sơ cuộc gọi. Đưa tất cả những điều này lại với nhau - sự giàu có ước tính và nơi cư trú ước tính - họ có thể tạo ra các bản đồ phân giải địa lý giàu có ở Rwanda có độ phân giải cao. Đặc biệt, họ có thể tạo ra một sự giàu có ước tính cho mỗi tế bào 2.148 của Rwanda, đơn vị hành chính nhỏ nhất trong cả nước.

Thật không may, nó đã không thể xác nhận tính chính xác những ước tính này bởi vì không ai từng đưa ra ước tính cho các khu vực địa lý nhỏ như vậy ở Rwanda. Nhưng khi Blumenstock và các đồng nghiệp tổng hợp ước tính của họ cho 30 huyện của Rwanda, họ thấy rằng ước tính của họ rất giống với ước tính từ Khảo sát Nhân khẩu học và Sức khỏe, được coi là tiêu chuẩn vàng của các cuộc điều tra ở các nước đang phát triển. Mặc dù hai phương pháp tiếp cận này đưa ra các ước tính tương tự trong trường hợp này, cách tiếp cận của Blumenstock và các đồng nghiệp nhanh hơn khoảng 10 lần và rẻ hơn 50 lần so với Khảo sát Nhân khẩu học và Y tế truyền thống. Những ước tính chi phí nhanh và thấp hơn đáng kể này tạo ra những khả năng mới cho các nhà nghiên cứu, chính phủ và các công ty (Blumenstock, Cadamuro, and On 2015) .

Nghiên cứu này giống như một bài kiểm tra Inkblot Rorschach: những gì mọi người nhìn thấy phụ thuộc vào nền tảng của họ. Nhiều nhà khoa học xã hội nhìn thấy một công cụ đo lường mới có thể được sử dụng để kiểm tra các lý thuyết về phát triển kinh tế. Nhiều nhà khoa học dữ liệu thấy vấn đề học máy mới mẻ. Nhiều doanh nhân nhìn thấy một cách tiếp cận mạnh mẽ để mở khóa giá trị trong dữ liệu lớn mà họ đã thu thập được. Nhiều người ủng hộ quyền riêng tư nhìn thấy một lời nhắc nhở đáng sợ rằng chúng ta đang sống trong một thời gian giám sát hàng loạt. Và cuối cùng, nhiều nhà hoạch định chính sách thấy cách mà công nghệ mới có thể giúp tạo ra một thế giới tốt đẹp hơn. Trong thực tế, nghiên cứu này là tất cả những điều đó, và bởi vì nó có sự pha trộn các đặc điểm, tôi thấy nó như là một cửa sổ vào tương lai của nghiên cứu xã hội.