4.6.2 Intégrez l'éthique dans votre conception: remplacez, affinez et réduisez

Cette traduction a été créé par un ordinateur. ×

4.6.2 Intégrez l'éthique dans votre conception: remplacez, affinez et réduisez

Faites votre expérience plus humaine en remplaçant des expériences avec des études non expérimentales, affiner les traitements, et en réduisant le nombre de participants.

Le deuxième conseil que je voudrais donner à propos de la conception d'expériences numériques concerne l'éthique. Comme l'ont montré les expériences de Restivo et van de Rijt sur les barnstars de Wikipédia, la réduction des coûts signifie que l'éthique deviendra une partie de plus en plus importante de la conception de la recherche. En plus des cadres éthiques guidant la recherche sur les sujets humains que je décrirai au chapitre 6, les chercheurs qui conçoivent des expériences numériques peuvent aussi tirer des idées éthiques d'une source différente: les principes éthiques développés pour guider les expériences impliquant des animaux. Russell and Burch (1959) , dans leur ouvrage phare Principles of Humane Experimental Technique , ont notamment proposé trois principes qui devraient guider la recherche sur les animaux: remplacer, raffiner et réduire. Je voudrais proposer que ces trois R puissent également être utilisés - sous une forme légèrement modifiée - pour guider la conception d'expériences humaines. En particulier,

Remplacer: Remplacer les expériences par des méthodes moins invasives si possible.
Affiner: Affiner le traitement pour le rendre aussi inoffensif que possible.
Réduire: Réduisez autant que possible le nombre de participants à votre expérience.

Afin de concrétiser ces trois R et montrer comment ils peuvent potentiellement conduire à un design expérimental meilleur et plus humain, je décrirai une expérience de terrain en ligne qui a généré un débat éthique. Ensuite, je vais décrire comment les trois R suggèrent des changements concrets et pratiques à la conception de l'expérience.

Adam Kramer, Jamie Guillroy et Jeffrey Hancock (2014) ont mené l'une des expériences numériques sur le terrain les plus éthiques. Elle a été baptisée «Contagion émotionnelle». L'expérience s'est déroulée sur Facebook et était motivée par un mélange de questions pratiques. À l'époque, la façon dominante avec laquelle les utilisateurs interagissaient avec Facebook était le fil d'actualité, un ensemble de mises à jour d'état de Facebook organisées par algorithme, à partir des amis Facebook d'un utilisateur. Certains critiques de Facebook ont suggéré que parce que le fil de nouvelles a surtout des posts positifs - des amis exhibant leur dernière fête - cela pourrait amener les utilisateurs à se sentir triste parce que leur vie semblait moins excitante en comparaison. D'un autre côté, peut-être que l'effet est exactement le contraire: peut-être que voir votre ami passer un bon moment vous rendrait heureux. Afin de répondre à ces hypothèses concurrentes - et de faire progresser notre compréhension de la façon dont les émotions d'une personne sont influencées par les émotions de ses amis - Kramer et ses collègues ont mené une expérience. Ils ont placé environ 700 000 utilisateurs en quatre groupes pendant une semaine: un groupe «négativement réduit», pour lequel les messages contenant des mots négatifs (par exemple, «triste») ont été bloqués au hasard dans le fil d'actualité; un groupe «positivité réduite» pour lequel les messages contenant des mots positifs (p. ex. «heureux») ont été bloqués au hasard; et deux groupes de contrôle. Dans le groupe témoin du groupe «négativité réduite», les messages étaient bloqués au hasard au même rythme que le groupe «négativité réduite», mais sans tenir compte du contenu émotionnel. Le groupe témoin pour le groupe "positivité-réduite" a été construit de manière parallèle. La conception de cette expérience montre que le groupe de contrôle approprié n'est pas toujours un groupe sans changement. Au contraire, parfois, le groupe témoin reçoit un traitement afin de créer la comparaison précise qu'une question de recherche nécessite. Dans tous les cas, les messages bloqués dans le fil d'actualité étaient toujours accessibles aux utilisateurs via d'autres parties du site Web Facebook.

Kramer et ses collègues ont constaté que pour les participants à la condition de positivité réduite, le pourcentage de mots positifs dans leurs mises à jour de statut a diminué et le pourcentage de mots négatifs a augmenté. D'autre part, pour les participants dans la condition de négativité réduite, le pourcentage de mots positifs a augmenté et celui des mots négatifs a diminué (figure 4.24). Cependant, ces effets étaient assez faibles: la différence entre les mots positifs et négatifs entre les traitements et les témoins était d'environ 1 sur 1 000 mots.

Figure 4.24: Preuve d'une contagion émotionnelle (Kramer, Guillory et Hancock 2014). Les participants dans la condition de négativité réduite utilisaient moins de mots négatifs et plus de mots positifs, et les participants dans la condition de positivité réduite utilisaient plus de mots négatifs et moins de mots positifs. Les barres représentent des erreurs types estimées. Adapté de Kramer, Guillory et Hancock (2014), figure 1.

Figure 4.24: Preuve d'une contagion émotionnelle (Kramer, Guillory, and Hancock 2014) . Les participants dans la condition de négativité réduite utilisaient moins de mots négatifs et plus de mots positifs, et les participants dans la condition de positivité réduite utilisaient plus de mots négatifs et moins de mots positifs. Les barres représentent des erreurs types estimées. Adapté de Kramer, Guillory, and Hancock (2014) , figure 1.

Avant de discuter des questions éthiques soulevées par cette expérience, je voudrais décrire trois questions scientifiques en utilisant certaines des idées du début du chapitre. Premièrement, il n'est pas clair comment les détails réels de l'expérience se rattachent aux revendications théoriques; en d'autres termes, il y a des questions sur la validité de construction. Il n'est pas clair que le nombre de mots positifs et négatifs est en fait un bon indicateur de l'état émotionnel des participants parce que (1) il n'est pas clair que les mots que les gens affichent sont un bon indicateur de leurs émotions et (2) Il est clair que la technique particulière d'analyse des sentiments que les chercheurs ont utilisée est capable de déduire de manière fiable les émotions (Beasley and Mason 2015; Panger 2016) . En d'autres termes, il pourrait y avoir une mauvaise mesure d'un signal biaisé. Deuxièmement, la conception et l'analyse de l'expérience ne nous disent rien sur les personnes les plus touchées (c.-à-d. Qu'il n'y a pas d'analyse de l'hétérogénéité des effets du traitement) et sur le mécanisme. Dans ce cas, les chercheurs avaient beaucoup d'informations sur les participants, mais ils étaient essentiellement traités comme des widgets dans l'analyse. Troisièmement, la taille de l'effet dans cette expérience était très faible; la différence entre les conditions de traitement et de contrôle est d'environ 1 sur 1 000 mots. Dans leur article, Kramer et ses collègues font valoir qu'un effet de cette taille est important parce que des centaines de millions de personnes accèdent à leur fil d'actualité chaque jour. En d'autres termes, ils soutiennent que même si les effets sont faibles pour chaque personne, ils sont gros dans l'ensemble. Même si vous acceptiez cet argument, il n'est toujours pas clair si un effet de cette taille est important en ce qui concerne la question scientifique plus générale sur la propagation de l'émotion (Prentice and Miller 1992) .

En plus de ces questions scientifiques, quelques jours après la publication de ce document dans les Actes de l'Académie nationale des sciences , les chercheurs et la presse ont exprimé un énorme tollé (je décrirai plus en détail les arguments de ce débat au chapitre 6). ). Les questions soulevées dans ce débat ont amené la revue à publier une rare «expression éditoriale d'inquiétude» au sujet de l'éthique et du processus d'examen éthique de la recherche (Verma 2014) .

Étant donné ce contexte de la contagion émotionnelle, je voudrais maintenant montrer que les trois R peuvent suggérer des améliorations concrètes et pratiques pour de vraies études (quoi que vous pensiez personnellement de l'éthique de cette expérience particulière). Le premier R est remplacer : les chercheurs devraient chercher à remplacer les expériences par des techniques moins invasives et risquées, si possible. Par exemple, plutôt que d'exécuter une expérience contrôlée randomisée, les chercheurs auraient pu exploiter une expérience naturelle . Comme décrit au chapitre 2, les expériences naturelles sont des situations où quelque chose se produit dans le monde qui se rapproche de l'attribution aléatoire de traitements (par exemple, une loterie pour décider qui sera enrôlé dans l'armée). L'avantage éthique d'une expérience naturelle est que le chercheur n'a pas à délivrer de traitements: l'environnement le fait pour vous. Par exemple, presque en même temps que l'expérience Emotional Contagion, Lorenzo Coviello et al. (2014) exploitaient ce que l'on pourrait appeler une expérience naturelle de contagion émotionnelle. Coviello et ses collègues ont découvert que les gens affichent plus de mots négatifs et moins de mots positifs les jours où il pleut. Par conséquent, en utilisant des variations aléatoires de la météo, ils ont pu étudier l'effet des changements dans le fil d'actualité sans avoir à intervenir du tout. C'était comme si le temps faisait courir leur expérience pour eux. Les détails de leur procédure sont un peu compliqués, mais le point le plus important pour notre propos ici est que, en utilisant une expérience naturelle, Coviello et ses collègues ont pu apprendre la propagation des émotions sans avoir à faire leur propre expérience.

Le deuxième des trois R est raffiné : les chercheurs devraient chercher à affiner leurs traitements pour les rendre aussi inoffensifs que possible. Par exemple, plutôt que de bloquer un contenu positif ou négatif, les chercheurs auraient pu augmenter le contenu, qu'il soit positif ou négatif. Cette conception stimulante aurait modifié le contenu émotionnel des fils d'actualité des participants, mais elle aurait répondu à l'une des préoccupations exprimées par les critiques: les expériences auraient pu faire manquer aux participants des informations importantes dans leur fil d'actualité. Avec la conception utilisée par Kramer et ses collègues, un message important est aussi susceptible d'être bloqué que celui qui ne l'est pas. Cependant, avec un design stimulant, les messages qui seraient déplacés seraient ceux qui sont moins importants.

Enfin, le troisième R est réduit : les chercheurs devraient chercher à réduire le nombre de participants à leur expérience au minimum nécessaire pour atteindre leur objectif scientifique. Dans les expériences analogiques, cela s'est produit naturellement en raison des coûts variables élevés des participants. Mais dans les expériences numériques, en particulier celles avec un coût variable nul, les chercheurs ne font pas face à une contrainte de coût sur la taille de leur expérience, ce qui peut conduire à des expériences inutilement grandes.

Par exemple, Kramer et ses collègues auraient pu utiliser des informations de prétraitement sur leurs participants - comme le comportement de publication avant le traitement - pour rendre leur analyse plus efficace. Plus spécifiquement, plutôt que de comparer la proportion de mots positifs dans les conditions de traitement et de contrôle, Kramer et ses collègues auraient pu comparer la variation de la proportion de mots positifs entre les conditions; une approche que l'on appelle parfois un plan mixte (figure 4.5) et qu'on appelle parfois un estimateur de différence des différences. C'est-à-dire que pour chaque participant, les chercheurs auraient pu créer un score de changement (comportement de post-traitement $-$ avant de comparer les scores de changement des participants dans les conditions de traitement et de contrôle. Cette approche de différences de différences est plus efficace sur le plan statistique, ce qui signifie que les chercheurs peuvent obtenir la même confiance statistique en utilisant des échantillons beaucoup plus petits.

Sans les données brutes, il est difficile de savoir exactement à quel point un estimateur par différence de différence aurait été plus efficace dans ce cas. Mais nous pouvons regarder d'autres expériences connexes pour une idée approximative. Deng et al. (2013) rapporté qu'en utilisant une forme de l'estimateur de la différence des différences, ils étaient capables de réduire la variance de leurs estimations d'environ 50% dans trois expériences en ligne différentes; Des résultats similaires ont été rapportés par Xie and Aurisset (2016) . Cette réduction de la variance de 50% signifie que les chercheurs de Emotional Contagion auraient pu réduire de moitié leur échantillon s'ils avaient utilisé une méthode d'analyse légèrement différente. En d'autres termes, avec un minuscule changement dans l'analyse, 350 000 personnes auraient pu être épargnées par la participation à l'expérience.

À ce stade, vous vous demandez peut-être pourquoi les chercheurs devraient se préoccuper si 350 000 personnes étaient inutilement contagion émotionnelle. Il existe deux caractéristiques particulières de la contagion émotionnelle qui préoccupent la taille excessive, et ces caractéristiques sont partagées par de nombreuses expériences sur le terrain: (1) il existe une incertitude quant à savoir si l'expérience va nuire à au moins certains participants et (2) n'était pas volontaire. Il semble raisonnable d'essayer de garder les expériences qui ont ces caractéristiques aussi petites que possible.

Pour être clair, le désir de réduire la taille de votre expérience ne signifie pas que vous ne devriez pas exécuter de grandes expériences de coûts variables. Cela signifie simplement que vos expériences ne devraient pas être plus grandes que ce dont vous avez besoin pour atteindre votre objectif scientifique. Une manière importante de s'assurer qu'une expérience est correctement dimensionnée est de mener une analyse de puissance (Cohen 1988) . Dans l'ère analogique, les chercheurs ont généralement fait une analyse de puissance pour s'assurer que leur étude n'était pas trop petite (c'est-à-dire, sous-alimenté). Maintenant, cependant, les chercheurs devraient faire une analyse de puissance pour s'assurer que leur étude n'est pas trop grande (c'est-à-dire trop puissante).

En conclusion, les trois R - remplacer, raffiner et réduire - fournissent des principes qui peuvent aider les chercheurs à intégrer l'éthique dans leurs conceptions expérimentales. Bien sûr, chacun de ces changements possibles à la contagion émotionnelle introduit des compromis. Par exemple, les preuves provenant d'expériences naturelles ne sont pas toujours aussi nettes que celles provenant d'expériences randomisées, et le renforcement du contenu pourrait être logistiquement plus difficile à mettre en œuvre que le blocage du contenu. Donc, le but de suggérer ces changements n'était pas de deviner les décisions d'autres chercheurs. Il s'agissait plutôt d'illustrer comment les trois R pouvaient être appliqués dans une situation réaliste. En fait, la question des compromis se pose tout le temps dans la conception de la recherche, et à l'ère numérique, ces compromis impliqueront de plus en plus des considérations éthiques. Plus loin, au chapitre 6, j'offrirai des principes et des cadres éthiques qui aideront les chercheurs à comprendre et à discuter de ces compromis.