4.6.2 Remplacer, Affiner et Réduire

Faites votre expérience plus humaine en remplaçant des expériences avec des études non expérimentales, affiner les traitements, et en réduisant le nombre de participants.

Le deuxième conseil que je tiens à offrir sur la conception d'expériences numériques concerne l'éthique. Comme l'expérience Restivo et van de Rijt sur EtoileDeGrange dans des spectacles de Wikipedia, une diminution des coûts signifie que l'éthique deviendra une partie de plus en plus important de la conception de la recherche. Outre les cadres éthiques directeurs de recherche sur des sujets humains que je vais décrire dans le chapitre 6, les chercheurs conçoivent des expériences numériques peuvent également tirer parti des idées éthiques provenant d'une source différente: les principes éthiques développés pour guider les expériences impliquant des animaux. En particulier, dans leurs principes de livre historique de Technique Expérimentale Humane, Russell and Burch (1959) ont proposé trois principes qui devraient guider la recherche animale: Remplacer, Affiner et Réduire. Je voudrais proposer que ces trois R peut également être utilisé dans une forme légèrement modifiée pour guider la conception des expériences humaines. En particulier,

  • Remplacer: Remplacer les expériences avec des méthodes moins invasives, si possible
  • Affiner: Affiner le traitement pour le rendre aussi inoffensif que possible
  • Réduire: Réduire le nombre de participants à votre expérience, autant que possible

Afin de rendre le béton de ces trois R et montrent comment ils peuvent potentiellement conduire à une meilleure et plus humaine conception expérimentale, je vais vous décrire une expérience en ligne sur le terrain qui a généré un débat éthique. Ensuite, je vais vous décrire comment suggérer les trois R changements concrets et pratiques pour la conception de l'expérience.

L' une des expériences sur le terrain numérique le plus éthique débattues est "Emotional Contagion" , qui a été menée par Adam Kramer, Jamie Gillroy, et Jeffrey Hancock (2014) . L'expérience a eu lieu sur Facebook et a été motivée par un mélange de questions scientifiques et pratiques. À l'époque, la façon dominante que les utilisateurs ont interagi avec Facebook était le Feed Nouvelles, un ensemble algorithmiquement commissaire de Facebook mises à jour d'état de les amis Facebook d'un utilisateur. Certains détracteurs de Facebook avaient suggéré que parce que le flux Nouvelles a essentiellement positive messages Amis exhibant leur dernier parti qu'il pourrait causer aux utilisateurs de se sentir triste parce que leur vie semblent moins excitant en comparaison. D'autre part, peut-être l'effet est exactement le contraire; peut-être voir votre ami ayant un bon moment vous ferait sentir heureux? Pour faire face à ces concurrents hypothèses et de faire progresser notre compréhension de la façon dont les émotions d'une personne sont touchées par de ses amis les émotions-Kramer et ses collègues ont couru une expérience. Les chercheurs ont placé environ 700.000 utilisateurs en quatre groupes pour une semaine: un groupe «négativité réduite», pour lesquels les messages avec les mots négatifs (par exemple, triste) ont été bloqués au hasard d'apparaître le flux Nouvelles; un groupe «positivité réduit» pour lesquels les messages avec des mots positifs (par exemple, heureux) ont été bloquées au hasard; et deux groupes témoins. Dans le groupe de contrôle pour le groupe "de la négativité réduite", les messages ont été bloqués au hasard au même rythme que le groupe «négativité réduite», mais sans tenir compte du contenu émotionnel. Le groupe de contrôle pour le groupe "de positivité réduite" a été construit de façon parallèle. La conception de cette expérience montre que le groupe de contrôle approprié est pas toujours une sans changement. Au contraire, parfois le groupe témoin reçoit un traitement afin de créer la comparaison précise qu'une question de recherche exige. Dans tous les cas, les messages qui ont été bloqués dans le flux Nouvelles étaient encore disponibles pour les utilisateurs par le biais d'autres parties du site Facebook.

Kramer et ses collègues ont constaté que pour les participants à la positivité réduit condition, le pourcentage de mots positifs dans leurs mises à jour d'état a diminué et le pourcentage de mots négatifs augmenté. D'autre part, pour les participants à la condition de négativité réduite, le pourcentage de mots positifs a augmenté et le pourcentage de diminution de mots négatifs (figure 4.23). Cependant, ces effets étaient assez petites: la différence de mots positifs et négatifs entre les traitements et les contrôles était d'environ 1 à 1000 mots.

Figure 4.23: Preuve de contagion émotionnelle (Kramer, Guillory, et Hancock 2014). Pourcentage des mots positifs et des mots négatifs par condition expérimentale. Les barres représentent des estimations des erreurs standard.

Figure 4.23: Preuve de contagion émotionnelle (Kramer, Guillory, and Hancock 2014) . Pourcentage des mots positifs et des mots négatifs par condition expérimentale. Les barres représentent des estimations des erreurs standard.

J'ai mis une discussion sur les aspects scientifiques de cette expérience dans la section de lecture plus loin à la fin du chapitre, mais malheureusement, cette expérience est la plus connue pour générer un débat éthique. Quelques jours seulement après ce document a été publié dans les Actes de l'Académie nationale des sciences, il y avait un énorme tollé de la part des chercheurs et de la presse. Outrage autour du papier mis l'accent sur deux points principaux: 1) les participants ne fournissent aucun consentement au-delà des termes de service Facebook standard pour un traitement que certains pensaient pourrait causer des dommages aux participants et tiers 2) l'étude n'a pas fait l'objet d'éthique examen (Grimmelmann 2015) . Les questions éthiques soulevées dans ce débat ont causé la revue de publier rapidement un "expression éditoriale de préoccupation" rare sur l'éthique et le processus d'examen éthique pour la recherche (Verma 2014) . Dans les années suivantes, l'expérience a continué d'être une source de débat intense et de désaccord, et ce désaccord peut avoir eu l'effet involontaire de la conduite dans l'ombre de nombreuses autres expériences qui sont effectuées par des entreprises (Meyer 2014) .

Compte tenu de ce contexte à propos de contagion émotionnelle, je voudrais maintenant montrer que ce 3 R peut suggérer des améliorations concrètes et pratiques pour les études réelles (tout ce que vous pourriez personnellement penser à l'éthique de cette expérience particulière). Le premier R est Remplacer: les chercheurs devraient chercher à remplacer les expériences avec des techniques moins invasives et risquées, si possible. Par exemple, plutôt que de l' exécution d' une expérience, les chercheurs ont pu exploiter une expérience naturelle. Comme décrit dans le chapitre 2, les expériences naturelles sont des situations où quelque chose se passe dans le monde qui se rapproche de la répartition aléatoire des traitements (par exemple, une loterie pour décider qui sera enrôlé dans l'armée). L'avantage d'une expérience naturelle est que le chercheur n'a pas à fournir des traitements; l'environnement fait pour vous. En d'autres termes, avec une expérience naturelle, les chercheurs auraient pas eu besoin de manipuler expérimentalement Nouvelles Feeds des gens.

En fait, presque en même temps que l'expérience Contagion émotionnelle, Coviello et al. (2014) , exploite ce qu'on pourrait appeler une expérience naturelle émotionnelle Contagion. Leur approche, qui utilise une technique appelée variables instrumentales, est un peu compliqué si vous ne l'avez jamais vu auparavant. Ainsi, afin d'expliquer pourquoi il était nécessaire, nous allons construire à la hauteur. La première idée que certains chercheurs pourraient avoir à étudier la contagion émotionnelle serait de comparer vos messages les jours où votre Nouvelles RSS a été très positive à vos messages les jours où votre Nouvelles RSS a été très négative. Cette approche serait bien si l'objectif était de prédire le contenu émotionnel de vos messages, mais cette approche est problématique si l'objectif est d'étudier l'effet causal de votre Nouvelles RSS sur vos messages. Pour voir le problème avec cette conception, pensez à Thanksgiving. Aux Etats-Unis, les messages positifs pic et les messages négatifs chutent sur Thanksgiving. Ainsi, le jour de Thanksgiving, les chercheurs pourraient voir que votre Nouvelles RSS a été très positive et que vous ont affiché des choses positives aussi bien. Mais, vos messages positifs auraient pu être causés par Thanksgiving non pas par le contenu de votre Nouvelles RSS. Au lieu de cela, dans le but d'estimer la causalité des chercheurs en effet besoin de quelque chose qui change le contenu de votre Nouvelles RSS sans modifier directement vos émotions. Heureusement, il y a quelque chose comme ça arrive tout le temps: le temps.

Coviello et ses collègues ont constaté qu'un jour de pluie dans la ville de quelqu'un, en moyenne, de diminuer la proportion de postes qui sont positifs d'environ 1 point de pourcentage et d'augmenter la proportion de postes qui sont négatifs d'environ 1 point de pourcentage. Puis, Coviello et ses collègues ont exploité ce fait d'étudier la contagion émotionnelle, sans la nécessité de manipuler expérimentalement Nouvelles Flux de personne. Essentiellement ce qu'ils ont fait est la mesure la façon dont vos messages ont été affectés par les conditions météorologiques dans les villes où vivent vos amis. Pour voir pourquoi cela a un sens, imaginez que vous vivez à New York et vous avez un ami qui vit à Seattle. Maintenant, imaginez qu'un jour il commence à pleuvoir à Seattle. Cette pluie à Seattle ne sera pas directement affecter votre humeur, mais il fera de votre Nouvelles RSS pour être moins positive et plus négative en raison des messages de vos amis. Ainsi, la pluie à Seattle manipule de façon aléatoire votre Nouvelles RSS. L'activation de cette intuition dans une procédure statistique fiable est compliquée (et l'approche exacte utilisée par Coviello et ses collègues est un non-standard de bits), donc je l'ai mis une discussion plus détaillée dans la section de lecture plus loin. La chose la plus importante à retenir à propos de Coviello et l'approche de collègue est qu'il leur a permis d'étudier la contagion émotionnelle, sans la nécessité d'exécuter une expérience qui pourrait potentiellement nuire aux participants, et ce peut être le cas que dans de nombreux autres paramètres, vous pouvez remplacer les expériences avec d'autres Techniques.

Deuxième dans les 3 R est Affiner: les chercheurs devraient chercher à affiner leurs traitements afin de causer le moindre préjudice possible. Par exemple, plutôt que de bloquer le contenu qui était soit positif ou négatif, les chercheurs auraient stimulé le contenu qui était positif ou négatif. Cette conception stimulant aurait changé le contenu émotionnel des participants Fils d'actualités, mais il aurait adressé une des préoccupations que les critiques exprimées: que les expériences auraient pu causer aux participants de manquer des informations importantes dans leur Nouvelles RSS. Avec la conception utilisée par Kramer et ses collègues, un message qui est important est aussi susceptible d'être bloqué comme celui qui est pas. Cependant, avec un design stimulant, les messages qui seraient déplacés seraient ceux qui sont moins importants.

Enfin, le troisième R est plus: les chercheurs devraient chercher à réduire le nombre de participants dans leur expérience, si possible. Dans le passé, cette réduction est arrivé naturellement parce que le coût variable des expériences analogiques était élevé, ce qui a encouragé la recherche afin d'optimiser leur conception et leur analyse. Cependant, quand il y a zéro des données de coûts variables, les chercheurs ne sont pas face à une contrainte de coût sur la taille de leur expérience, et cela a le potentiel de conduire à inutilement grandes expériences.

Par exemple, Kramer et ses collègues auraient pu utiliser l'information pré-traitement de leurs participants, tels que l'affichage de pré-traitement des comportements à rendre leur analyse plus efficace. Plus précisément, plutôt que de comparer la proportion de mots positifs dans les conditions de traitement et de contrôle, Kramer et ses collègues ont pu comparé l'évolution de la proportion des mots positifs entre les conditions; une approche souvent appelée différence dans les différences et qui est étroitement liée à la conception mixte que je décrit plus tôt dans le chapitre (Figure 4.5). Autrement dit, pour chaque participant, les chercheurs auraient créé un score de changement (comportement post-traitement - le comportement pré-traitement), puis comparé les scores de changement de participants dans les conditions de traitement et de contrôle. Cette approche de la différence des différences est plus efficace statistiquement, ce qui signifie que les chercheurs peuvent obtenir la même confiance statistique en utilisant des échantillons beaucoup plus petits. En d'autres termes, en ne traitant pas les participants comme "widgets", les chercheurs peuvent souvent obtenir des estimations plus précises.

Sans avoir les données brutes, il est difficile de savoir exactement combien plus efficace une approche de la différence des différences aurait été dans ce cas. Mais, Deng et al. (2013) ont rapporté que dans trois expériences en ligne sur le moteur de recherche Bing , ils ont réussi à réduire l'écart de leurs estimations d'environ 50%, et des résultats similaires ont été rapportés pour certaines expériences en ligne à Netflix (Xie and Aurisset 2016) . Grâce à cette réduction de la variance de 50% que les chercheurs de contagion émotionnelle auraient pu être en mesure de réduire leur échantillon en deux si elles avaient utilisé un peu différentes méthodes d'analyse. En d'autres termes, avec un petit changement dans l'analyse, 350.000 personnes auraient été épargnés participation à l'expérience.

À ce stade, vous demandez peut-être pourquoi les chercheurs devraient se soucient si 350.000 personnes étaient Contagion émotionnelle inutilement. Il y a deux caractéristiques particulières de contagion émotionnelle qui concernent la taille excessive appropriée, et ces caractéristiques sont partagées par de nombreuses expériences numériques de terrain: 1) il existe une incertitude quant à savoir si l'expérience va causer des dommages à au moins certains participants et 2) la participation n'a pas été volontaire. Dans les expériences avec ces deux caractéristiques, il semble conseillé de garder les expériences aussi petite que possible.

En conclusion, les trois R's-Remplacer, Raffiner, et réduire fournissent des principes qui peuvent aider les chercheurs à construire l'éthique dans leurs modèles expérimentaux. Bien sûr, chacun de ces changements possibles à la contagion émotionnelle introduit des compromis. Par exemple, les données à partir d'expériences naturelles ne sont pas toujours aussi propre que des preuves d'expériences randomisées et stimule aurait pu être plus logistiquement difficile à mettre en œuvre que bloc. Donc, le but de proposer ces changements n'a pas de deviner les décisions d'autres chercheurs. Au contraire, il était d'illustrer la façon dont les trois R pourrait être appliqué dans une situation réaliste.