4.6.2 Desarrolle ética en su diseño: reemplace, refine y reduzca

Hacer su experimento más humano mediante la sustitución de los experimentos con los estudios no experimentales, el perfeccionamiento de los tratamientos, y la reducción del número de participantes.

El segundo consejo que me gustaría ofrecer sobre el diseño de experimentos digitales se refiere a la ética. Como lo demuestran los experimentos de Restivo y van de Rijt sobre barnstars en Wikipedia, la disminución del costo significa que la ética se convertirá en una parte cada vez más importante del diseño de investigación. Además de los marcos éticos que guían la investigación de sujetos humanos que describiré en el capítulo 6, los investigadores que diseñan experimentos digitales también pueden recurrir a ideas éticas de una fuente diferente: los principios éticos desarrollados para guiar los experimentos con animales. En particular, en su libro de referencia Principios de técnica experimental humana , Russell and Burch (1959) propusieron tres principios que deberían guiar la investigación con animales: reemplazar, refinar y reducir. Me gustaría proponer que estas tres R también se puedan usar, en una forma ligeramente modificada, para guiar el diseño de los experimentos humanos. En particular,

  • Reemplazar: Reemplace los experimentos con métodos menos invasivos si es posible.
  • Refina: refina el tratamiento para hacerlo lo más inofensivo posible.
  • Reducir: reduzca la cantidad de participantes en su experimento tanto como sea posible.

Para hacer que estas tres R sean concretas y mostrar cómo pueden conducir potencialmente a un diseño experimental mejor y más humano, describiré un experimento de campo en línea que generó un debate ético. Luego, describiré cómo las tres R sugieren cambios concretos y prácticos para el diseño del experimento.

Uno de los experimentos digitales de campo más debatidos éticamente fue realizado por Adam Kramer, Jamie Guillroy y Jeffrey Hancock (2014) y se lo conoce como "Contagio emocional". El experimento tuvo lugar en Facebook y fue motivado por una combinación de científicos y preguntas practicas En ese momento, la forma dominante en que los usuarios interactuaban con Facebook era News Feed, un conjunto de actualizaciones de estado de Facebook, comisariadas algorítmicamente, de los amigos de Facebook de un usuario. Algunos críticos de Facebook sugirieron que, debido a que News Feed tiene mensajes positivos en su mayoría (amigos mostrando su última fiesta), los usuarios podrían sentirse tristes porque sus vidas parecían menos emocionantes en comparación. Por otro lado, tal vez el efecto sea exactamente el opuesto: quizás ver a un amigo pasándolo bien te haga sentir feliz. Para abordar estas hipótesis competitivas y avanzar en nuestra comprensión de cómo las emociones de las personas se ven afectadas por las emociones de sus amigos, Kramer y sus colegas realizaron un experimento. Colocaron a alrededor de 700,000 usuarios en cuatro grupos durante una semana: un grupo con "reducción de la negatividad", para el cual las publicaciones con palabras negativas (p. Ej., "Triste") se bloquearon aleatoriamente para que no aparecieran en el News Feed; un grupo de "reducción de la positividad" para quienes las publicaciones con palabras positivas (p. ej., "feliz") se bloquearon aleatoriamente; y dos grupos de control. En el grupo de control para el grupo "reducción de la negatividad", las publicaciones se bloquearon aleatoriamente a la misma velocidad que el grupo "negatividad reducida", pero sin tener en cuenta el contenido emocional. El grupo de control para el grupo "positivismo reducido" se construyó de forma paralela. El diseño de este experimento ilustra que el grupo de control apropiado no siempre es uno sin cambios. Más bien, a veces, el grupo de control recibe un tratamiento para crear la comparación precisa que requiere una pregunta de investigación. En todos los casos, las publicaciones bloqueadas de News Feed todavía estaban disponibles para los usuarios a través de otras partes del sitio web de Facebook.

Kramer y sus colegas encontraron que para los participantes en la condición de positividad reducida, el porcentaje de palabras positivas en sus actualizaciones de estado disminuía y el porcentaje de palabras negativas aumentaba. Por otro lado, para los participantes en la condición de negatividad reducida, el porcentaje de palabras positivas aumentó y el de las palabras negativas disminuyó (figura 4.24). Sin embargo, estos efectos fueron bastante pequeños: la diferencia en palabras positivas y negativas entre tratamientos y controles fue de aproximadamente 1 en 1,000 palabras.

Figura 4.24: Evidencia de contagio emocional (Kramer, Guillory y Hancock 2014). Los participantes en la condición de negatividad reducida usaron menos palabras negativas y más palabras positivas, y los participantes en la condición de positividad reducida usaron más palabras negativas y menos palabras positivas. Las barras representan errores estándar estimados. Adaptado de Kramer, Guillory y Hancock (2014), figura 1.

Figura 4.24: Evidencia de contagio emocional (Kramer, Guillory, and Hancock 2014) . Los participantes en la condición de negatividad reducida usaron menos palabras negativas y más palabras positivas, y los participantes en la condición de positividad reducida usaron más palabras negativas y menos palabras positivas. Las barras representan errores estándar estimados. Adaptado de Kramer, Guillory, and Hancock (2014) , figura 1.

Antes de discutir los problemas éticos planteados por este experimento, me gustaría describir tres cuestiones científicas utilizando algunas de las ideas de más temprano en el capítulo. Primero, no está claro cómo los detalles reales del experimento se conectan con las afirmaciones teóricas; en otras palabras, hay preguntas sobre la validez de constructo. No está claro que los recuentos de palabras positivos y negativos sean en realidad un buen indicador del estado emocional de los participantes porque (1) no está claro que las palabras que publican las personas sean un buen indicador de sus emociones y (2) no lo es Está claro que la técnica de análisis de sentimiento particular que utilizaron los investigadores es capaz de inferir emociones de manera confiable (Beasley and Mason 2015; Panger 2016) . En otras palabras, puede haber una mala medida de una señal sesgada. En segundo lugar, el diseño y el análisis del experimento no nos dice nada acerca de quién fue el más afectado (es decir, no hay análisis de la heterogeneidad de los efectos del tratamiento) y cuál podría ser el mecanismo. En este caso, los investigadores tenían mucha información sobre los participantes, pero fueron tratados esencialmente como widgets en el análisis. En tercer lugar, el tamaño del efecto en este experimento fue muy pequeño; la diferencia entre las condiciones de tratamiento y control es de aproximadamente 1 en 1,000 palabras. En su artículo, Kramer y sus colegas argumentan que un efecto de este tamaño es importante porque cientos de millones de personas acceden a su News Feed cada día. En otras palabras, argumentan que incluso si los efectos son pequeños para cada persona, son grandes en conjunto. Incluso si aceptara este argumento, aún no está claro si un efecto de este tamaño es importante con respecto a la pregunta científica más general sobre la propagación de la emoción (Prentice and Miller 1992) .

Además de estas preguntas científicas, pocos días después de que se publicara este artículo en las Actas de la Academia Nacional de Ciencias , hubo una enorme protesta tanto de los investigadores como de la prensa (describiré los argumentos en este debate con más detalle en el capítulo 6 ) Las cuestiones planteadas en este debate causaron que la revista publicara una rara "expresión editorial de preocupación" sobre la ética y el proceso de revisión ética para la investigación (Verma 2014) .

Teniendo en cuenta estos antecedentes sobre el contagio emocional, ahora me gustaría mostrar que las tres R pueden sugerir mejoras concretas y prácticas para estudios reales (lo que sea que uno piense personalmente acerca de la ética de este experimento en particular). La primera R es reemplazar : los investigadores deberían intentar reemplazar los experimentos con técnicas menos invasivas y riesgosas, si es posible. Por ejemplo, en lugar de ejecutar un experimento controlado aleatorizado, los investigadores podrían haber explotado un experimento natural . Como se describe en el capítulo 2, los experimentos naturales son situaciones en las que ocurre algo en el mundo que se aproxima a la asignación aleatoria de los tratamientos (por ejemplo, una lotería para decidir quién será reclutado en el ejército). La ventaja ética de un experimento natural es que el investigador no tiene que entregar tratamientos: el entorno lo hace por usted. Por ejemplo, casi al mismo tiempo que el experimento de contagio emocional, Lorenzo Coviello et al. (2014) estaban explotando lo que podría llamarse un experimento natural de contagio emocional. Coviello y sus colegas descubrieron que las personas publican más palabras negativas y menos palabras positivas en los días en que llueve. Por lo tanto, al usar variaciones aleatorias en el clima, pudieron estudiar el efecto de los cambios en el News Feed sin la necesidad de intervenir en absoluto. Era como si el clima estuviera ejecutando su experimento para ellos. Los detalles de su procedimiento son un poco complicados, pero el punto más importante para nuestros propósitos aquí es que al usar un experimento natural, Coviello y sus colegas pudieron aprender sobre la propagación de las emociones sin la necesidad de ejecutar su propio experimento.

La segunda de las tres R es refinar : los investigadores deberían tratar de refinar sus tratamientos para que sean lo más inocuos posible. Por ejemplo, en lugar de bloquear contenido que sea positivo o negativo, los investigadores podrían haber potenciado el contenido que era positivo o negativo. Este diseño de impulso habría cambiado el contenido emocional de las fuentes de noticias de los participantes, pero habría abordado una de las preocupaciones expresadas por los críticos: que los experimentos podrían haber causado que los participantes pierdan información importante en sus News Feed. Con el diseño utilizado por Kramer y sus colegas, un mensaje importante es tan probable que se bloquee como uno que no lo es. Sin embargo, con un diseño de impulso, los mensajes que se desplazarían serían aquellos que son menos importantes.

Finalmente, el tercer R es reducir : los investigadores deben tratar de reducir el número de participantes en su experimento al mínimo necesario para lograr su objetivo científico. En experimentos análogos, esto sucedió naturalmente debido a los altos costos variables de los participantes. Pero en experimentos digitales, particularmente aquellos con costo variable cero, los investigadores no enfrentan una restricción de costos en el tamaño de su experimento, y esto tiene el potencial de llevar a experimentos innecesariamente grandes.

Por ejemplo, Kramer y sus colegas podrían haber utilizado información previa al tratamiento sobre sus participantes, como el comportamiento de publicación previa al tratamiento, para hacer que su análisis sea más eficiente. Más específicamente, en lugar de comparar la proporción de palabras positivas en las condiciones de tratamiento y control, Kramer y sus colegas podrían haber comparado el cambio en la proporción de palabras positivas entre las condiciones; un enfoque que a veces se denomina diseño mixto (figura 4.5) y que a veces se denomina estimador de diferencia en diferencias. Es decir, para cada participante, los investigadores podrían haber creado un puntaje de cambio (comportamiento de pretratamiento de tratamiento \(-\) ) y luego comparar los puntajes de cambio de los participantes en las condiciones de tratamiento y control. Este enfoque de diferencia en diferencias es estadísticamente más eficiente, lo que significa que los investigadores pueden lograr la misma confianza estadística utilizando muestras mucho más pequeñas.

Sin tener los datos brutos, es difícil saber exactamente cuánto más eficiente hubiera sido un estimador de diferencias en las diferencias en este caso. Pero podemos ver otros experimentos relacionados para una idea aproximada. Deng et al. (2013) informaron que al usar una forma del estimador de diferencia en diferencias, pudieron reducir la varianza de sus estimaciones en aproximadamente 50% en tres experimentos en línea diferentes; resultados similares han sido reportados por Xie and Aurisset (2016) . Esta reducción de la varianza del 50% significa que los investigadores de Contagio Emocional podrían haber podido reducir su muestra a la mitad si hubieran utilizado un método de análisis ligeramente diferente. En otras palabras, con un pequeño cambio en el análisis, 350,000 personas podrían haber evitado la participación en el experimento.

En este punto, es posible que se pregunte por qué los investigadores deberían preocuparse si 350,000 personas estuvieran en un contagio emocional innecesariamente. Hay dos características particulares del contagio emocional que hacen que la preocupación por el tamaño excesivo sea apropiada, y estas características son compartidas por muchos experimentos de campo digitales: (1) existe incertidumbre sobre si el experimento causará daño a al menos algunos participantes y (2) participación no fue voluntario Parece razonable intentar mantener experimentos que tengan estas características lo más pequeñas posible.

Para que quede claro, el deseo de reducir el tamaño de su experimento no significa que no deba ejecutar experimentos de costo variable grandes y cero. Simplemente significa que tus experimentos no deberían ser más grandes de lo que necesitas para alcanzar tu objetivo científico. Una forma importante de asegurarse de que un experimento tenga el tamaño adecuado es llevar a cabo un análisis de poder (Cohen 1988) . En la era analógica, los investigadores generalmente hicieron análisis de poder para asegurarse de que su estudio no fuera demasiado pequeño (es decir, con poca potencia). Ahora, sin embargo, los investigadores deberían hacer un análisis de poder para asegurarse de que su estudio no sea demasiado grande (es decir, con exceso de potencia).

En conclusión, los tres R's reemplazan, refinan y reducen proporcionan principios que pueden ayudar a los investigadores a desarrollar la ética en sus diseños experimentales. Por supuesto, cada uno de estos posibles cambios en Contagio Emocional introduce compensaciones. Por ejemplo, la evidencia de los experimentos naturales no siempre es tan clara como la de los experimentos aleatorios, y aumentar el contenido podría haber sido logísticamente más difícil de implementar que el bloqueo de contenido. Entonces, el propósito de sugerir estos cambios no fue cuestionar las decisiones de otros investigadores. Más bien, fue para ilustrar cómo las tres R podrían aplicarse en una situación realista. De hecho, el tema de las concesiones surge todo el tiempo en el diseño de la investigación, y en la era digital, estas compensaciones involucrarán cada vez más consideraciones éticas. Más adelante, en el capítulo 6, ofreceré algunos principios y marcos éticos que pueden ayudar a los investigadores a comprender y discutir estos intercambios.