3.6.1 Amplified demandant

Lier votre enquête à des traces numériques peut être comme demander à tous vos questions en tout temps.

Demander vient généralement en deux catégories principales: les enquêtes par sondage et les recensements. Les enquêtes par sondage, où vous accédez un petit nombre de personnes, peuvent être flexibles, en temps opportun, et relativement pas cher. Cependant, les enquêtes par sondage, car ils sont basés sur un échantillon, sont souvent limitées dans leur résolution; avec une enquête par sondage, il est souvent difficile de faire des estimations sur les régions géographiques spécifiques ou pour des groupes démographiques spécifiques. Recensements, d'autre part, tenter d'interroger tous les membres de la population. Ils ont une grande résolution, mais ils sont généralement coûteux, étroite au point (ils comprennent seulement un petit nombre de questions), et non pas en temps opportun (ils se produisent sur ​​un calendrier fixe, comme tous les 10 ans) (Kish 1979) . Maintenant, imaginez si les chercheurs pourraient combiner les meilleures caractéristiques des enquêtes par sondage et des recensements; Imaginez si les chercheurs pouvaient poser toutes les questions à tout le monde tous les jours.

De toute évidence, cela continue, omniprésente, toujours sur l'enquête est une sorte de fantaisie en sciences sociales. Mais, il semble que nous pouvons commencer à se rapprocher en combinant les questions du sondage à partir d' un petit nombre de personnes avec des traces numériques de nombreuses personnes. J'appelle ce type de combinaison amplifié demandant. Si bien fait, il pourrait aider à nous fournit l'estimation qui sont plus local (pour les zones géographiques plus petites), plus granulaire (pour les groupes démographiques spécifiques), et plus rapide.

Un exemple de se demander amplifié vient du travail de Joshua Blumenstock, qui voulait recueillir des données qui aideraient à orienter le développement dans les pays pauvres. Plus précisément, Blumenstock voulait créer un système pour mesurer la richesse et le bien-être qui combine l'intégralité d'un recensement avec la flexibilité et la fréquence d'une enquête (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . En fait, je l'ai déjà décrit le travail de Blumenstock brièvement au chapitre 1.

Pour commencer, Blumenstock en partenariat avec le plus grand opérateur de téléphonie mobile au Rwanda. La société lui a fourni des documents de transaction anonymisées d'environ 1,5 millions de clients couvrant le comportement de 2005 et 2009. Les journaux contiennent des informations sur chaque message d'appel et de texte tel que l'heure de début, la durée et l'emplacement géographique approximatif de l'appelant et le récepteur. Avant de commencer à parler des questions statistiques, il est intéressant de souligner que cette première étape peut être un des plus difficiles. Comme décrit dans le chapitre 2, la plupart des données de trace numérique est inaccessible aux chercheurs. Et, de nombreuses entreprises sont à juste titre hésitent à partager leurs données, car il est privé; qui est de leurs clients ne probablement pas attendre à ce que leurs dossiers seront partagés en vrac avec des chercheurs. Dans ce cas, les chercheurs ont pris des mesures prudentes d'anonymiser les données et leur travail a été supervisé par un tiers (leur CISR). Mais, malgré ces efforts, ces données sont probablement encore identifiables et qu'ils contiennent probablement des informations sensibles (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Je reviendrai sur ces questions éthiques dans le chapitre 6.

Rappelons que Blumenstock était intéressé à mesurer la richesse et le bien-être. Mais, ces traits ne sont pas directement dans les enregistrements d'appels. En d' autres termes, ces enregistrements d'appels sont incomplètes pour cette recherche, une caractéristique commune des traces numériques qui a été discuté en détail au chapitre 2. Mais, il semble probable que les enregistrements d'appels ont probablement quelques informations sur la richesse et le bien-être. Donc, une façon de poser la question de Blumenstock pourrait être: est-il possible de prédire comment quelqu'un va répondre à un sondage sur la base de leurs données de trace numérique? Si oui, alors en posant quelques personnes que nous pouvons deviner les réponses de tout le monde.

Pour évaluer cette empiriquement, Blumenstock et assistants de recherche de Kigali Institute of Science and Technology appelé un échantillon d'environ un millier de clients de téléphonie mobile. Les chercheurs ont expliqué les objectifs du projet aux participants, invités à donner leur consentement à lier les réponses à l'enquête sur les enregistrements d'appels, puis leur a demandé une série de questions pour mesurer leur richesse et de bien-être, tels que «Possédez-vous un radio? »et« Est-ce que vous possédez un vélo? "(voir la figure 3.11 pour une liste partielle). Tous les participants à l'enquête ont été compensés financièrement.

Ensuite, Blumenstock utilisé une procédure commune dans la science des données en deux étapes: l'ingénierie de fonction suivie par l'apprentissage supervisé. Tout d' abord, dans l'étape caractéristique de l' ingénierie, pour tout le monde qui a été interviewé, Blumenstock converti les enregistrements d'appels en un ensemble de caractéristiques sur chaque personne; les scientifiques de données pourraient appeler ces caractéristiques "caractéristiques" et des sciences sociales seraient les appeler des «variables». Par exemple, pour chaque personne, Blumenstock calculé le nombre total de jours avec l'activité, le nombre de personnes distinctes une personne a été en contact avec, le montant d'argent dépensé sur le temps d'antenne, et ainsi de suite. Critique, une bonne ingénierie de fonctionnalité requiert la connaissance du contexte de recherche. Par exemple, s'il est important de faire la distinction entre les appels nationaux et internationaux (nous pourrions nous attendre des gens qui appellent à l'échelle internationale d'être plus riches), cela doit être fait à l'étape caractéristique de l'ingénierie. Un chercheur avec peu de compréhension du Rwanda pourrait ne pas inclure cette fonctionnalité, puis la performance prédictive du modèle en souffrira.

Ensuite, dans l'étape d'apprentissage supervisé, Blumenstock construit un modèle statistique pour prédire la réponse à l'enquête pour chaque personne en fonction de leurs caractéristiques. Dans ce cas, Blumenstock utilisé la régression logistique avec 10 fois la validation croisée, mais il aurait pu utiliser une variété d'autres méthodes d'apprentissage statistique ou machine.

Alors, comment bien at-il fonctionné? Blumenstock était capable de prédire les réponses aux questions du sondage comme «Êtes-vous propriétaire d'une radio?» Et «Possédez-vous un vélo?» À l'aide des fonctionnalités à partir de dossiers d'appel? Sorte de. La précision des prédictions étaient élevées pour certains traits (figure 3.11). Mais, il est toujours important de comparer une méthode de prédiction complexe contre une alternative simple. Dans ce cas, une alternative simple est de prévoir que tout le monde va donner la réponse la plus courante. Par exemple, 97,3% ont déclaré posséder une radio si Blumenstock avait prédit que tout le monde ferait rapport de posséder une radio, il aurait eu une précision de 97,3%, ce qui est étonnamment similaire à la performance de sa procédure plus complexe (97,6% de précision). En d'autres termes, toutes les données de fantaisie et de modélisation ont augmenté la précision de la prédiction de 97,3% à 97,6%. Cependant, pour d'autres questions, telles que «Possédez-vous un vélo?", Les prévisions améliorées de 54,4% à 67,6%. Plus généralement, la figure 3.12 montre quelques traits Blumenstock n'a pas amélioré beaucoup au-delà de faire la prédiction de base simple, mais que pour d'autres traits il y avait une certaine amélioration.

Figure 3.11: précision prédictive pour le modèle statistique formé avec des enregistrements d'appels. Les résultats du tableau 2 de Blumenstock (2014).

Figure 3.11: précision prédictive pour le modèle statistique formé avec des enregistrements d'appels. Les résultats du tableau 2 de Blumenstock (2014) .

Figure 3.12: Comparaison de la précision prédictive pour le modèle statistique formé avec les enregistrements d'appels à la prévision de base simple. Les points sont légèrement vacillant pour éviter les chevauchements; voir le tableau 2 de Blumenstock (2014) pour les valeurs exactes.

Figure 3.12: Comparaison de la précision prédictive pour le modèle statistique formé avec les enregistrements d'appels à la prévision de base simple. Les points sont légèrement vacillant pour éviter les chevauchements; voir le tableau 2 de Blumenstock (2014) pour les valeurs exactes.

À ce stade , vous pourriez penser que ces résultats sont un peu décevant, mais un an plus tard, Blumenstock et deux collègues-Gabriel Cadamuro et Robert On- a publié un article dans Science avec des résultats nettement meilleurs (Blumenstock, Cadamuro, and On 2015) . Il y avait deux raisons principales techniques pour l'amélioration: 1) ils ont utilisé des méthodes plus sophistiquées (par exemple, une nouvelle approche de fonctionnalité d'ingénierie et un modèle d'apprentissage de la machine plus sophistiquée) et 2) plutôt que de tenter d'en déduire des réponses aux questions de l'enquête individuelles (par exemple, "possédez-vous une radio?"), ils ont tenté d'en déduire un indice de richesse composite.

Blumenstock et ses collègues ont démontré la performance de leur approche de deux façons. Tout d'abord, ils ont constaté que pour les gens de leur échantillon, ils pourraient faire un très bon travail de prédire leur richesse à partir des dossiers d'appel (figure 3.14). Deuxièmement, et de plus en plus important, Blumenstock et ses collègues ont montré que leur procédure pourrait produire des estimations de haute qualité de la répartition géographique de la richesse au Rwanda. Plus précisément, ils ont utilisé leur modèle d'apprentissage de la machine, qui a été formé sur leur échantillon d'environ 1000 personnes, pour prédire la richesse de tous les 1,5 million de personnes dans les dossiers d'appel. En outre, avec les données géospatiales intégrées dans les données d'appel (rappelons que les données d'appel comprend l'emplacement de la tour cellulaire la plus proche pour chaque appel), les chercheurs ont pu estimer le lieu approximatif de résidence de chaque personne. Mettre ces deux estimations, la recherche a produit une estimation de la répartition géographique de l'abonné la richesse à très fine granularité spatiale. Par exemple, ils pourraient estimer la richesse moyenne dans chacune des 2148 cellules du Rwanda (la plus petite unité administrative dans le pays). Ces valeurs de richesse prédites étaient si granuleuse elles étaient difficiles à vérifier. Ainsi, les chercheurs agrégés leurs résultats pour produire des estimations de la richesse moyenne des 30 districts du Rwanda. Ces estimations au niveau du district ont été fortement liées aux estimations d'une enquête traditionnelle étalon-or, l'Enquête démographique et de santé du Rwanda (Figure 3.14). Bien que les estimations des deux sources étaient semblables, les estimations de Blumenstock et ses collègues étaient environ 50 fois moins cher et 10 fois plus rapide (lorsque le coût de mesurer en termes de coûts variables). Cette diminution spectaculaire des coûts signifie que, plutôt que d'être exécuté toutes les quelques années, comme est la norme pour enquêtes démographiques et sanitaires, l'hybride de la petite enquête combinée avec de grandes données de trace numérique pourrait être exécuté tous les mois.

Figure 3.13: Schéma de Blumenstock, Cadamuro, et Sur (2015). les données d'appel de la compagnie de téléphone a été converti en une matrice avec une ligne pour chaque personne et une colonne pour chaque fonction (à savoir, variable). Ensuite, les chercheurs ont construit un modèle d'apprentissage supervisé pour prédire les réponses à l'enquête de la personne par la matrice de fonction. Ensuite, le modèle d'apprentissage supervisé a été utilisé pour imputer les réponses au sondage pour tout le monde. En substance, les chercheurs ont utilisé les réponses d'environ un millier de personnes à imputer la richesse d'environ un million de personnes. En outre, les chercheurs ont estimé le lieu approximatif de résidence pour tous les 1,5 million de personnes en fonction de l'emplacement de leurs appels. Lorsque ces deux estimations ont été combinées-la richesse estimée et le lieu de résidence estimée-les résultats étaient similaires à des estimations de l'Enquête démographique et de santé, une enquête traditionnelle étalon-or (Figure 3.14).

Figure 3.13: Schéma de Blumenstock, Cadamuro, and On (2015) . les données d'appel de la compagnie de téléphone a été converti en une matrice avec une ligne pour chaque personne et une colonne pour chaque fonction (c.-à-variable). Ensuite, les chercheurs ont construit un modèle d'apprentissage supervisé pour prédire les réponses à l'enquête de la personne par la matrice de fonction. Ensuite, le modèle d'apprentissage supervisé a été utilisé pour imputer les réponses au sondage pour tout le monde. En substance, les chercheurs ont utilisé les réponses d'environ un millier de personnes à imputer la richesse d'environ un million de personnes. En outre, les chercheurs ont estimé le lieu approximatif de résidence pour tous les 1,5 million de personnes en fonction de l'emplacement de leurs appels. Lorsque ces deux estimations ont été combinées-la richesse estimée et le lieu de résidence estimée-les résultats étaient similaires à des estimations de l'Enquête démographique et de santé, une enquête traditionnelle étalon-or (Figure 3.14).

Figure 3.14: Résultats de Blumenstock, Cadamuro, et Sur (2015). Au niveau individuel, les chercheurs ont été en mesure de faire un travail raisonnable de prédire la richesse de quelqu'un de leurs enregistrements d'appels. Les estimations se fondaient sur des estimations au niveau individuel de la richesse et le lieu de résidence-les résultats au niveau des districts où les richesses étaient semblables aux résultats de l'Enquête démographique et de santé, une enquête traditionnelle étalon-or.

Figure 3.14: Résultats de Blumenstock, Cadamuro, and On (2015) . Au niveau individuel, les chercheurs ont été en mesure de faire un travail raisonnable de prédire la richesse de quelqu'un de leurs enregistrements d'appels. Les estimations se fondaient sur des estimations au niveau individuel de la richesse et le lieu de résidence-les résultats au niveau des districts où les richesses étaient semblables aux résultats de l'Enquête démographique et de santé, une enquête traditionnelle étalon-or.

En conclusion, ce Blumenstock amplifié demandant approche combinée des données d'enquête avec les données de trace numérique pour produire des estimations comparables avec les estimations de l'enquête étalon-or. Cet exemple particulier clarifie également certains des compromis entre demander amplifié et les méthodes d'enquête traditionnelles. Premièrement, les estimations demandant amplifiés étaient plus rapides, sensiblement moins cher, et plus granulaire. Mais, d'autre part, à ce moment, il n'y a pas une forte base théorique pour ce genre de se demander amplifié. Autrement dit, ce seul exemple ne montre pas quand il va travailler et quand il ne sera pas. En outre, l'approche de vente amplifié ne dispose pas encore de bonnes façons de quantifier l'incertitude autour de ses estimations. Cependant, demandant amplifié a des liens profonds à trois grandes zones en post-stratification à base de statistiques-modèle (Little 1993) , imputation (Rubin 2004) , et une petite zone d' estimation (Rao and Molina 2015) -et donc j'attendre à ce que des progrès seront être rapide.

demandé Amplified suit une recette de base qui peut être adapté à votre situation particulière. Il y a deux ingrédients et les deux étapes. Les deux ingrédients sont 1) un ensemble de données de trace numérique qui est large mais mince (qui est, il a beaucoup de gens, mais pas les informations dont vous avez besoin au sujet de chaque personne) et 2) une enquête qui est étroite mais épais (qui est, il a seules quelques personnes, mais il dispose de l'information dont vous avez besoin au sujet de ces personnes). Ensuite, il y a deux étapes. Premièrement, pour les personnes dans les deux sources de données, construire un modèle d'apprentissage automatique qui utilise des données de traces numériques pour prédire réponses au sondage. Ensuite, utiliser ce modèle d'apprentissage de la machine à imputer les réponses au sondage de tout le monde dans les données de trace numérique. Ainsi, s'il y a une question que vous voulez poser à beaucoup de gens, chercher des données de trace numérique de ces personnes qui pourraient être utilisées pour prédire leur réponse.

En comparant la première et la deuxième tentative de Blumenstock le problème illustre aussi une leçon importante sur la transition de la deuxième ère aux approches du troisième ère pour étudier la recherche: le début est pas la fin. Cela est, à plusieurs reprises, la première approche ne sera pas le meilleur, mais si les chercheurs continuer à travailler, les choses peuvent aller mieux. Plus généralement, lors de l'évaluation de nouvelles approches de la recherche sociale à l'ère numérique, il est important de faire deux évaluations distinctes: 1) comment ça marche maintenant et 2) comment pensez-vous que cela pourrait fonctionner à l'avenir que le paysage de données changements et que les chercheurs consacrent plus d'attention au problème. Bien que, les chercheurs sont formés pour faire le premier type d'évaluation (quelle est la qualité de ce projet de recherche), la seconde est souvent plus important.