3.6.1 Amplified hỏi

Liên kết khảo sát của bạn để dấu vết kỹ thuật số có thể giống như tất cả mọi người hỏi những câu hỏi của bạn ở tất cả các lần.

Yêu cầu nói chung có hai loại chính: các cuộc điều tra mẫu và cuộc tổng điều tra. cuộc điều tra mẫu, nơi bạn truy cập vào một số ít người, có thể linh hoạt, kịp thời và tương đối rẻ. Tuy nhiên, các cuộc điều tra mẫu, vì họ là dựa trên một mẫu, thường được giới hạn ở độ phân giải của họ; với một cuộc điều tra mẫu, nó thường rất khó để thực hiện ước về khu vực địa lý cụ thể hoặc cho các nhóm nhân khẩu học cụ thể. Tổng điều tra, mặt khác, cố gắng phỏng vấn tất cả mọi người trong dân số. Họ có độ phân giải lớn, nhưng họ nói chung là đắt, hẹp ở tập trung (họ chỉ bao gồm một số lượng nhỏ các câu hỏi), và không kịp thời (khi chúng xảy ra theo một lịch trình cố định, chẳng hạn như mỗi 10 năm) (Kish 1979) . Bây giờ hãy tưởng tượng nếu các nhà nghiên cứu có thể kết hợp những đặc điểm tốt nhất của các cuộc điều tra mẫu và cuộc tổng điều tra; hãy tưởng tượng nếu các nhà nghiên cứu có thể hỏi mỗi câu hỏi để mọi người mỗi ngày.

Rõ ràng, liên tục này, ở mọi nơi, luôn trên cuộc khảo sát là một loại xã hội tưởng tượng khoa học. Nhưng, dường như chúng ta có thể bắt đầu để xấp xỉ này bằng cách kết hợp các câu hỏi khảo sát từ một số ít những người có dấu vết kỹ thuật số từ rất nhiều người. Tôi gọi đây là loại kết hợp khuếch đại yêu cầu. Nếu làm tốt, nó có thể giúp chúng tôi cung cấp các ước tính là nhiều địa phương (đối với khu vực địa lý nhỏ hơn), chi tiết hơn (cho các nhóm nhân khẩu học cụ thể), và kịp thời hơn.

Một ví dụ về chào bán khuếch đại đến từ công việc của Joshua Blumenstock, người muốn thu thập dữ liệu mà có thể giúp phát triển hướng dẫn ở các nước nghèo. Cụ thể hơn, Blumenstock muốn tạo ra một hệ thống để đo sự giàu có và hạnh phúc mà kết hợp đầy đủ của một cuộc điều tra với sự linh hoạt và tần số của một cuộc khảo sát (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Trong thực tế, tôi đã mô tả công việc Blumenstock của một thời gian ngắn trong chương 1.

Để bắt đầu, Blumenstock hợp tác với các nhà cung cấp điện thoại di động lớn nhất ở Rwanda. Công ty cung cấp cho ông hồ sơ giao dịch ẩn danh từ khoảng 1,5 triệu khách hàng bao gồm hành vi từ năm 2005 và 2009. Các bản ghi chứa thông tin về mỗi cuộc gọi và tin nhắn văn bản như thời gian bắt đầu, thời gian, và vị trí địa lý gần đúng của người gọi và người nhận. Trước khi chúng tôi bắt đầu nói chuyện về các vấn đề thống kê, nó là giá trị chỉ ra rằng bước đầu tiên này có thể là một trong những khó khăn nhất. Như đã mô tả ở Chương 2, hầu hết các kỹ thuật số dấu vết dữ liệu là không thể tiếp cận với các nhà nghiên cứu. Và, nhiều công ty đang do dự chính đáng để chia sẻ dữ liệu của họ, vì nó là tư nhân; đó là khách hàng của họ có lẽ không ngờ rằng hồ sơ của họ sẽ được chia sẻ trong số lượng lớn các nhà nghiên cứu. Trong trường hợp này, các nhà nghiên cứu đã có những bước cẩn thận để anonymize dữ liệu và công việc của họ được giám sát bởi một bên thứ ba (ví dụ, IRB của họ). Nhưng, bất chấp những nỗ lực này, những dữ liệu này có lẽ vẫn còn nhận dạng và họ rất có thể chứa các thông tin nhạy cảm (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Tôi sẽ trở lại với những câu hỏi về đạo đức trong chương 6.

Nhớ lại rằng Blumenstock đã quan tâm đến đo sự giàu có và hạnh phúc. Nhưng, những đặc điểm này là không trực tiếp trong các bản ghi cuộc gọi. Nói cách khác, các bản ghi cuộc gọi không đầy đủ cho nghiên cứu này, một tính năng phổ biến của các dấu vết kỹ thuật số đã được thảo luận chi tiết trong Chương 2. Nhưng, có vẻ như khả năng rằng các bản ghi cuộc gọi có thể có một số thông tin về sự giàu có và hạnh phúc. Vì vậy, một cách đặt câu hỏi Blumenstock của có thể là: là nó có thể dự đoán thế nào ai đó sẽ trả lời một cuộc khảo sát dựa trên dữ liệu dấu vết kỹ thuật số của họ? Nếu vậy, sau đó bằng cách hỏi một vài người mà chúng ta có thể đoán được câu trả lời của những người khác.

Để đánh giá này dựa trên kinh nghiệm, Blumenstock và nghiên cứu trợ lý từ Kigali Viện Khoa học và Công nghệ được gọi là một mẫu khoảng một ngàn khách hàng điện thoại di động. Các nhà nghiên cứu giải thích các mục tiêu của dự án để những người tham gia, yêu cầu sự đồng ý của họ để liên kết các câu trả lời khảo sát với bản ghi cuộc gọi, và sau đó hỏi họ một loạt các câu hỏi để đo sự giàu có của họ và hạnh phúc, chẳng hạn như "Bạn có sở hữu một radio? "và" bạn có sở hữu một chiếc xe đạp? "(xem Hình 3.11 cho một phần danh sách). Tất cả những người tham gia vào cuộc khảo sát đã được bồi thường về tài chính.

Tiếp theo, Blumenstock sử dụng một quy trình hai bước thông thường trong khoa học dữ liệu: Tính năng kỹ thuật tiếp theo học có giám sát. Đầu tiên, trong bước tính năng kỹ thuật, cho tất cả mọi người đã được phỏng vấn, Blumenstock chuyển đổi các bản ghi cuộc gọi vào một tập hợp các đặc điểm về mỗi người; các nhà khoa học dữ liệu có thể gọi những đặc điểm "tính năng" và các nhà khoa học xã hội sẽ gọi họ là "biến". Ví dụ, đối với mỗi người, Blumenstock tính tổng số ngày có hoạt động, số lượng người riêng biệt một người đã được tiếp xúc với, số tiền tiền chi phí đường truyền, và như vậy. Phê bình, tốt tính năng kỹ thuật đòi hỏi kiến ​​thức của các thiết lập nghiên cứu. Ví dụ, nếu nó quan trọng để phân biệt giữa các cuộc gọi trong nước và quốc tế (chúng ta có thể mong đợi những người gọi quốc tế để được giàu có), sau đó điều này phải được thực hiện ở bước tính năng kỹ thuật. Một nhà nghiên cứu có ít hiểu biết về Rwanda có thể không bao gồm tính năng này, và sau đó thực hiện tiên đoán của mô hình sẽ bị ảnh hưởng.

Tiếp theo, trong các bước học có giám sát, Blumenstock xây dựng một mô hình thống kê để dự đoán phản ứng khảo sát cho mỗi người dựa trên tính năng của họ. Trong trường hợp này, Blumenstock sử dụng hồi quy logistic với 10 lần qua xác nhận, nhưng anh có thể đã sử dụng nhiều phương pháp thống kê hoặc máy học tập khác.

Vì vậy, tốt như thế nào đã làm nó làm việc? Là Blumenstock thể dự đoán câu trả lời khảo sát những câu hỏi như "Bạn có sở hữu một đài phát thanh?" Và "Do bạn sở hữu một chiếc xe đạp?" Sử dụng các tính năng có nguồn gốc từ bản ghi cuộc gọi? Phân loại của. Độ chính xác của các dự đoán đều ở mức cao đối với một số tính trạng (Hình 3.11). Tuy nhiên, nó luôn luôn là quan trọng để so sánh một phương pháp dự đoán phức tạp đối với một sự thay thế đơn giản. Trong trường hợp này, một sự thay thế đơn giản là để dự đoán rằng tất cả mọi người sẽ cho câu trả lời phổ biến nhất. Ví dụ, 97,3% cho biết đã sở hữu một đài phát thanh vì vậy nếu Blumenstock đã dự đoán rằng tất cả mọi người sẽ báo cáo việc sở hữu một đài phát thanh, ông đã có thể có độ chính xác 97,3%, trong đó bất ngờ tương tự như việc thực hiện các thủ tục phức tạp hơn của ông (97,6% độ chính xác). Nói cách khác, tất cả các dữ liệu ưa thích và mô hình tăng độ chính xác của các dự đoán từ 97,3% đến 97,6%. Tuy nhiên, đối với các câu hỏi khác, chẳng hạn như "Bạn có sở hữu một chiếc xe đạp?", Những dự đoán tăng từ 54,4% đến 67,6%. Tổng quát hơn, hình 3.12 cho thấy đối với một số đặc điểm Blumenstock không được cải thiện nhiều hơn là chỉ làm những dự đoán ban đầu đơn giản, nhưng đối với những đặc điểm khác đã có một số cải tiến.

Hình 3.11: độ chính xác đoán cho mô hình thống kê được đào tạo với các bản ghi cuộc gọi. Kết quả từ Bảng 2 của Blumenstock (2014).

Hình 3.11: độ chính xác đoán cho mô hình thống kê được đào tạo với các bản ghi cuộc gọi. Kết quả từ Bảng 2 của Blumenstock (2014) .

Hình 3.12: So sánh độ chính xác dự đoán cho mô hình thống kê được đào tạo với các bản ghi cuộc gọi để dự đoán ban đầu đơn giản. Điểm được hơi jittered để tránh chồng chéo; Bảng 2 Blumenstock (năm 2014) cho các giá trị chính xác.

Hình 3.12: So sánh độ chính xác dự đoán cho mô hình thống kê được đào tạo với các bản ghi cuộc gọi để dự đoán ban đầu đơn giản. Điểm được hơi jittered để tránh chồng chéo; Bảng 2 Blumenstock (2014) cho các giá trị chính xác.

Tại thời điểm này, bạn có thể nghĩ rằng những kết quả này là một chút thất vọng, nhưng chỉ một năm sau, Blumenstock và hai đồng nghiệp-Gabriel Cadamuro và Robert On-xuất bản một bài báo về khoa học với kết quả tốt hơn đáng kể (Blumenstock, Cadamuro, and On 2015) . Có hai lý do chính về kỹ thuật cải tiến: 1) họ đã sử dụng các phương pháp phức tạp hơn (tức là, một cách tiếp cận mới để tính năng kỹ thuật và một mô hình học máy tinh vi hơn) và 2) hơn là cố gắng để suy ra câu trả lời cho câu hỏi khảo sát cá nhân (ví dụ, "bạn có sở hữu một đài phát thanh?"), họ đã cố gắng để suy ra một chỉ số của cải composite.

Blumenstock và các đồng nghiệp đã chứng minh hiệu quả của cách tiếp cận của họ trong hai cách. Đầu tiên, họ phát hiện ra rằng đối với những người trong mẫu của họ, họ có thể làm một công việc khá tốt trong việc dự đoán sự giàu có của họ từ bản ghi cuộc gọi (Hình 3.14). Thứ hai, và quan trọng hơn bao giờ hết, Blumenstock và đồng nghiệp cho thấy rằng thủ tục của họ có thể sản xuất ước tính chất lượng cao của sự phân bố địa lý của sự giàu có ở Rwanda. Cụ thể hơn, họ sử dụng mô hình máy tính học tập của họ, được đào tạo về mẫu của họ khoảng 1.000 người, để dự đoán sự giàu có của tất cả 1,5 triệu người trong các bản ghi cuộc gọi. Hơn nữa, với các dữ liệu không gian địa lý nhúng trong các dữ liệu cuộc gọi (nhớ lại rằng các cuộc gọi dữ liệu bao gồm các vị trí của các tháp di động gần nhất để mỗi cuộc gọi), các nhà nghiên cứu đã có thể ước tính gần đúng nơi cư trú của từng người. Đưa hai ước tính này với nhau, nghiên cứu sản xuất một ước tính của các phân bố địa lý của sự giàu có thuê bao tại các chi tiết không gian cực kỳ tốt. Ví dụ, họ có thể đánh giá sự giàu có trung bình trong mỗi 2.148 tế bào của Rwanda (đơn vị hành chính nhỏ nhất trong cả nước). Những giá trị tài sản dự đoán là rất hạt họ gặp nhiều khó khăn để kiểm tra. Vì vậy, các nhà nghiên cứu tổng hợp kết quả của họ để sản xuất ước tính của các tài sản trung bình của 30 huyện của Rwanda. Các ước tính cấp huyện có liên quan chặt chẽ với các ước tính từ một cuộc khảo sát truyền thống tiêu chuẩn vàng, Điều tra Y tế và Dân Rwanda (Hình 3.14). Mặc dù các ước tính từ hai nguồn là tương tự, dự toán từ Blumenstock và các cộng sự là khoảng 50 lần rẻ hơn và nhanh hơn 10 lần (khi chi phí trong đo về chi phí biến đổi). giảm đáng kể trong chi phí có nghĩa là thay vì được chạy mỗi vài năm, như là tiêu chuẩn cho Y tế và Dân Khảo sát-lai của cuộc khảo sát nhỏ kết hợp với dữ liệu dấu vết kỹ thuật số lớn có thể được chạy mỗi tháng.

Hình 3.13: Sơ đồ Blumenstock, Cadamuro, và On (2015). dữ liệu cuộc gọi từ các công ty điện thoại đã được chuyển đổi thành một ma trận với một hàng cho mỗi người và một cột cho mỗi tính năng (ví dụ, biến). Tiếp theo, các nhà nghiên cứu đã xây dựng một mô hình học có giám sát để dự đoán các câu trả lời cuộc khảo sát từ người bằng ma trận tính năng. Sau đó, các mô hình học có giám sát được sử dụng để quy cho các câu trả lời khảo sát cho tất cả mọi người. Về bản chất, các nhà nghiên cứu sử dụng các phản ứng của khoảng một ngàn người để quy cho sự giàu có của khoảng một triệu người. Ngoài ra, các nhà nghiên cứu ước tính gần đúng nơi cư trú cho tất cả 1,5 triệu người dựa trên vị trí của các cuộc gọi của họ. Khi hai ước lượng này đã được kết hợp-các tài sản ước tính và nơi cư trú ước tính-kết quả cũng tương tự như ước tính của dân số và Điều tra y tế, một cuộc khảo sát truyền thống tiêu chuẩn vàng (Hình 3.14).

Hình 3.13: Sơ đồ Blumenstock, Cadamuro, and On (2015) . dữ liệu cuộc gọi từ các công ty điện thoại đã được chuyển đổi thành một ma trận với một hàng cho mỗi người và một cột cho mỗi tính năng (ví dụ, biến). Tiếp theo, các nhà nghiên cứu đã xây dựng một mô hình học có giám sát để dự đoán các câu trả lời cuộc khảo sát từ người bằng ma trận tính năng. Sau đó, các mô hình học có giám sát được sử dụng để quy cho các câu trả lời khảo sát cho tất cả mọi người. Về bản chất, các nhà nghiên cứu sử dụng các phản ứng của khoảng một ngàn người để quy cho sự giàu có của khoảng một triệu người. Ngoài ra, các nhà nghiên cứu ước tính gần đúng nơi cư trú cho tất cả 1,5 triệu người dựa trên vị trí của các cuộc gọi của họ. Khi hai ước lượng này đã được kết hợp-các tài sản ước tính và nơi cư trú ước tính-kết quả cũng tương tự như ước tính của dân số và Điều tra y tế, một cuộc khảo sát truyền thống tiêu chuẩn vàng (Hình 3.14).

Hình 3.14: Kết quả từ Blumenstock, Cadamuro, và On (2015). Tại cấp cá nhân, các nhà nghiên cứu đã có thể làm một công việc hợp lý tại dự đoán sự giàu có của một ai đó từ bản ghi cuộc gọi của họ. Các ước tính của cấp huyện giàu có-đó được dựa trên dự toán cấp độ cá nhân của sự giàu có và nơi cư trú, kết quả cũng tương tự như kết quả từ cuộc điều tra dân số và sức khỏe, một cuộc khảo sát truyền thống tiêu chuẩn vàng.

Hình 3.14: Kết quả từ Blumenstock, Cadamuro, and On (2015) . Tại cấp cá nhân, các nhà nghiên cứu đã có thể làm một công việc hợp lý tại dự đoán sự giàu có của một ai đó từ bản ghi cuộc gọi của họ. Các ước tính của cấp huyện giàu có-đó được dựa trên dự toán cấp độ cá nhân của sự giàu có và nơi cư trú, kết quả cũng tương tự như kết quả từ cuộc điều tra dân số và sức khỏe, một cuộc khảo sát truyền thống tiêu chuẩn vàng.

Trong kết luận, Blumenstock của Amplified hỏi liệu điều tra tiếp cận kết hợp với dữ liệu dấu vết kỹ thuật số để tạo ra ước tính so sánh với dự toán khảo sát tiêu chuẩn vàng. ví dụ cụ thể này cũng nêu rõ một số thương mại-off giữa chào bán khuếch đại và phương pháp nghiên cứu truyền thống. Đầu tiên, các ước tính hỏi khuếch đại đã kịp thời hơn, rẻ hơn đáng kể, và chi tiết hơn. Nhưng, mặt khác, vào thời điểm này, không có một cơ sở lý thuyết mạnh mẽ cho các loại hình chào bán khuếch đại. Đó là, một ví dụ này không hiển thị khi nó sẽ làm việc và khi nó sẽ không. Hơn nữa, cách tiếp cận chào bán khuếch đại vẫn chưa có cách tốt để định lượng sự không chắc chắn xung quanh dự toán. Tuy nhiên, chào bán khuếch đại có kết nối sâu sắc với ba khu vực lớn trong thống kê-dựa trên mô hình sau phân tầng (Little 1993) , khoản tính (Rubin 2004) , và ước lượng diện tích nhỏ (Rao and Molina 2015) -Và vì vậy tôi hy vọng rằng sự tiến bộ sẽ được nhanh chóng.

chào bán khuếch đại sau một công thức cơ bản có thể được thay đổi để tình hình cụ thể của bạn. Có hai thành phần và hai bước. Hai thành phần là 1) một dấu vết kỹ thuật số dữ liệu đó là rộng nhưng mỏng (có nghĩa là, nó có rất nhiều người nhưng không phải là thông tin mà bạn cần về mỗi người) và 2) một cuộc khảo sát đó là hẹp nhưng dày (có nghĩa là, nó có chỉ một vài người, nhưng nó có những thông tin mà bạn cần về những người). Sau đó, có hai bước. Đầu tiên, đối với những người trong cả hai nguồn dữ liệu, xây dựng một mô hình học máy có sử dụng dữ liệu dấu vết kỹ thuật số để dự đoán điều tra câu trả lời. Tiếp theo, sử dụng mô hình máy học để quy cho các cuộc điều tra câu trả lời của mọi người trong dữ liệu dấu vết kỹ thuật số. Vì vậy, nếu có một số câu hỏi mà bạn muốn hỏi với nhiều người, tìm kiếm dữ liệu dấu vết kỹ thuật số từ những người mà có thể được sử dụng để dự đoán câu trả lời của họ.

So sánh thử đầu tiên và thứ hai Blumenstock tại các vấn đề cũng minh họa một bài học quan trọng về quá trình chuyển đổi từ thời kỳ thứ hai để tiếp cận kỷ nguyên thứ ba để khảo sát nghiên cứu: đầu không phải là hết. Đó là, nhiều lần, các phương pháp tiếp cận đầu tiên sẽ không phải là tốt nhất, nhưng nếu các nhà nghiên cứu tiếp tục làm việc, mọi thứ có thể được tốt hơn. Tổng quát hơn, khi đánh giá các phương pháp mới để nghiên cứu xã hội trong thời đại kỹ thuật số, điều quan trọng là làm cho hai đánh giá riêng biệt: 1) như thế nào để làm việc này ngay bây giờ và 2) như thế nào bạn có nghĩ rằng điều này có thể làm việc trong tương lai như cảnh quan dữ liệu thay đổi và với các nhà nghiên cứu chú ý hơn đến các vấn đề. Mặc dù, các nhà nghiên cứu được đào tạo để làm cho các loại đầu tiên đánh giá (như thế nào tốt là đoạn cụ thể này của nghiên cứu), thứ hai thường là quan trọng hơn.